Outils de corpus – 4

M1 Plurital

clement.plancq@ens.psl.eu

Extraction d’information

Cyclone Idai, the storm that has killed hundreds of people, submerged homes and battered cities in southeastern Africa, may prove to be one of the worst weather-related disasters ever in the Southern Hemisphere, a United Nations official said on Tuesday.

NYTimes 19/03/2019

Extraction d’information

  • Analyse de watson:
    • subject: Cyclon Idai, the storm
    • action: that has killed
    • object: hundred of people

Extraction d’information

Comment faire pour extraire ce type d’information ?

  • Identification des groupes et des fonctions syntaxiques -> parseurs syntaxiques
  • Extraction des infos (sujet, prédicat, objet)
    • langage de requête
    • script adhoc

Exploiter les annotations en dépendance

linguiste fichier repr. informatique implémentation
schéma .conll ? ?

Exploiter les annotations en dépendance

voir sur grew-match
voir sur grew-match

Exploiter les annotations en dépendance

CoNLL-U Format

# sent_id = annodis.er_00461
# text = Le conseil municipal donne son accord pour cette procédure.
1   Le  le  DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   2   det _   _
2   conseil conseil NOUN    _   Gender=Masc|Number=Sing 4   nsubj   _   _
3   municipal   municipal   ADJ _   Gender=Masc|Number=Sing 2   amod    _   _
4   donne   donner  VERB    _   Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   0   root    _   _
5   son son DET _   Number=Sing|Poss=Yes    6   det _   _
6   accord  accord  NOUN    _   Gender=Masc|Number=Sing 4   obj _   _
7   pour    pour    ADP _   _   9   case    _   _
8   cette   ce  DET _   Gender=Fem|Number=Sing|PronType=Dem 9   det _   _
9   procédure   procédure   NOUN    _   Gender=Fem|Number=Sing  4   obl:mod _   SpaceAfter=No
10  .   .   PUNCT   _   _   4   punct   _   _

Exploiter les annotations en dépendance

linguiste fichier repr. informatique implémentation
schéma .conll graphe ?

Graphe

  • Les arbres de dépendance sont le plus souvent représentés par des graphes
  • Les graphes sont des modèles abstraits de réseaux : ensemble de sommets (ou nœuds) et de relations entre les sommets appelées arêtes
  • La théorie des graphes trouve son origine dans le problème des sept ponts de Königsberg
  • À la frontière entre les mathématiques et l’informatique, les graphes sont très utilisés (plans de métros, maillage d’utilisateurs sur un réseau social, réseau électrique, …)

Graphe

  • des sommets (ou nœuds)
  • des arêtes

Graphe dirigé

Graphe pondéré

Plus court chemin

  • Le « problème du plus court chemin » est un grand classique de l’algorithmique (voir algorithme de Dijkstra)
  • Il est à l’œuvre dans beaucoup d’applications avec géolocalisation ou pour le routage par exemple

Plus court chemin

Graphe dirigé Graphe pondéré

Exploiter les annotations en dépendance

linguiste fichier repr. informatique implémentation
schéma .conll graphe dict

Graphe : implémentation en Python

Travail sur le notebook : outils_corpus-4.ipynb