Outils de corpus – 3

M1 Plurital

clement.plancq@ens.psl.eu

Comment extraire les informations d’un document ?

Des démos de produits commerciaux permettent de se faire une idée de ce que propose l’industrie :

Essayez Watson en lui soumettant cette URL issue du NYTimes : https://www.nytimes.com/2021/03/21/obituaries/nawal-el-saadawi-dead.html

Comment extraire les mots-clés d’un document ?

  • Approche naïve (fréquence de mots)
  • Entités nommées
  • Identification des collocations

Fréquence de mots

  1. Extraction du contenu d’une page web (web scraping) à l’aide du module Python Beautiful Soup ou de readab

  2. Etiquetage morpho-syntaxique

  3. Calculez la fréquence des mots du texte à partir de la version étiquetée

  4. Créez une représentation en nuage de mots du texte à l’aide de wordle

  5. wordle utilise une liste de stop words pour les mots vides. Servez-vous des étiquettes morpho-syntaxiques pour supprimer les mots vides de votre compte de fréquence

Reconnaissance d’entités nommées (NER)

Démo de Stanza (Stanford)

Comparez la détection des entités nommées avec la démo de spacy.io

Collocations

Collocations of a given word are statements of the habitual or customary places of that word. (Firth 1957)

A collocation is an expression consisting of two or more words that correspond to some conventionnal way of saying things (Manning & Schütze 1999)

Collocations

  • Notion essentielle pour la linguistique contextualiste et la linguistique de corpus

  • L’identification des collocations est un enjeu important en traduction automatique, en génération de texte et en extraction d’information

  • Les linguistes ne s’entendent pas sur une seule définition de la collocation

  • La notion de collocation est difficilement formalisable

Collocations

  • cooccurrence > collocation > locution figée / expression idiomatique
    nouveaux dispositifs > projet de loi, surveillance massive > casser sa pipe, hôtel de ville

  • Les collocations :
    • ont une compositionnalité limitée,
    • ses membres ne sont pas substituables (?observation massive)
    • et enfin elles ne sont pas modifiables (?surveillance très massive)

Comment identifier les collocations ?

Patrons syntaxiques

  1. Calculer les fréquences des mots adjacents (bigrammes) du fichier taggué
  2. Raffiner cette liste en excluant les bigrammes ne comportant que des mots vides
  3. Utiliser une liste de patrons syntaxiques pour filtrer les bigrammes. ex: N N, N A, A N, …

Comment identifier les collocations ?

Statistiques

  • Test statistique (test d’hypothèse) pour déterminer si l’association de deux mots est dûe au hasard ou non.
  • Utilisation des mesures dans nltk.metrics package ou scikit-learn

    • Log likelihood, Chi2 , t-score
    • Information mutuelle
  • Antconc implémente les deux premières dans son outil de détection de mots-clés

Utiliser des outils d’extraction de termes

Pour le français :