M1 Plurital
clement.plancq@ens.psl.eu
Extraction du contenu d’une page web (web scraping) à l’aide du module Python Beautiful Soup ou de readab
Etiquetage morpho-syntaxique
Calculez la fréquence des mots du texte à partir de la version étiquetée
Créez une représentation en nuage de mots du texte à l’aide de wordle
wordle utilise une liste de stop words pour les mots vides. Servez-vous des étiquettes morpho-syntaxiques pour supprimer les mots vides de votre compte de fréquence
Comparez la détection des entités nommées avec la démo de spacy.io
Collocations of a given word are statements of the habitual or customary places of that word. (Firth 1957)
A collocation is an expression consisting of two or more words that correspond to some conventionnal way of saying things (Manning & Schütze 1999)
Notion essentielle pour la linguistique contextualiste et la linguistique de corpus
L’identification des collocations est un enjeu important en traduction automatique, en génération de texte et en extraction d’information
Les linguistes ne s’entendent pas sur une seule définition de la collocation
La notion de collocation est difficilement formalisable
cooccurrence > collocation > locution figée / expression idiomatique
nouveaux dispositifs > projet de loi, surveillance massive > casser sa pipe, hôtel de ville
Utilisation des mesures dans nltk.metrics package ou scikit-learn
Antconc implémente les deux premières dans son outil de détection de mots-clés
Pour le français :
Comment extraire les informations d’un document ?
Des démos de produits commerciaux permettent de se faire une idée de ce que propose l’industrie :
Essayez Watson en lui soumettant cette URL issue du NYTimes : https://www.nytimes.com/2021/03/21/obituaries/nawal-el-saadawi-dead.html