6 séances les lundis de 9h à 12h sur le discord plurital salon #outils-corpus-m1.
Les lundis 15 mars, 29 mars et 3 mai nous aurons également l’amphi 7 de l’INALCO, PLC, 65 rue des grands moulins, 75013 Paris.
Un devoir à rendre après chaque séance, sauf la dernière.
6 séances, 5 devoirs, 5 notes. La note finale sera la moyenne des notes.
Tous vos devoirs devront m’être parvenus avant le 17 mai 2021.
Vous pouvez vérifier que j’ai bien reçu vos devoirs sur cette page
intro, définitions, formats d’annotations, outils de requêtes
Devoir : trouver et renseigner, à l’aide des 6 critères vus en cours, 4 corpus dont 1 gros corpus.
devoir : calculer le ratio type/token pour les discours sur l’état de l’Union de 2016 et 2017
Pour la tokenization, utilisez le tokenizer de Stanford, NLTK ou Spacy Vous devez envoyer le résultat ainsi que la description de vos traitements (scripts, outils, …)
Avec l’aide du module Spacy, extrayez les triplets (sujet, verbe, objet) des phrases suivantes et commentez les éventuelles erreurs ou manques.
« Les enfants n’aiment pas trop les asperges. »
« Les Français réclament moins d’impôts. »
« Les acacias donnent un miel ambré, limpide et fluide. »
« L’équipe fait porter le chapeau à l’arbitrage. »
« Des nuées de milliards d’insectes, venus de la péninsule Arabique, s’abattent sur la Corne de l’Afrique et dévorent les cultures, mettant en péril la sécurité alimentaire de la région. »
Vous me rendez le notebook completé ou un script Python commenté
Devoirs : Étiquetez manuellement puis avec l’étiqueteur de votre choix les trois textes suivants. Calculez la précision globale pour chacun des textes et commentez. sequoia.txt, bashung.txt, orfeo.txt
Vous pourrez utiliser le script d’évaluation de CoNLL 2018 (attention aux formats d’entrée), ce script ou vos propres calculs.
Pas de devoirs pour cette séance 🥳