# Outils-corpus 5
## [Spacy](https://spacy.io)

- Biblioth√®que logicielle de TAL √©crite en Python (et Cython)
- √âtiquetage POS, lemmatisation, analyse syntaxique, entit√©s nomm√©es, word embedding, transformers
- Usage de mod√®les neuronaux
- Int√©gration ais√©e de biblioth√®ques de deep learning
- v3.0.3 ([github](https://github.com/explosion/spaCy))
- Licence MIT (Open Source) pour le code
    - Licences ouvertes diverses pour les mod√®les
- Produit de la soci√©t√© [explosion.ai](https://explosion.ai/). Fond√© par :¬†Matthew Honnibal ([@honnibal](https://twitter.com/honnibal)) et Ines Montani ([@_inesmontani](https://twitter.com/_inesmontani))

## Pourquoi Spacy ?

- C'est du Python üôå üéâ
- Plut√¥t simple √† prendre en main
- Tr√®s bien document√©, √† notre avis. D'ailleurs plut√¥t que ce notebook, suivez l'excellent tutorial d'Ines Montani : [https://course.spacy.io/](https://course.spacy.io/)
- Couvre les traitements d'une cha√Æne de TAL typique
- Pas mal utilis√© dans l'industrie
- MAIS ce n'est pas forc√©ment l'outil qui donne les meilleurs r√©sultats pour le fran√ßais dans toutes les t√¢ches de TAL

## Spacy et les autres

Spacy est *un* des frameworks de TAL disponibles

- [NLTK](http://www.nltk.org/) :¬†python, orient√© p√©dagogie, pas de mod√®les neuronaux inclus mais se combine bien avec TensorFlow, PyTorch ou AlleNLP
- [Stanford Core¬†NLP](https://stanfordnlp.github.io/stanfordnlp/) :¬†java, mod√®les pour 53 langues (UD), r√©solution de la cor√©ference.
- [Stanza](https://stanfordnlp.github.io/stanza/) :¬†python, nouveau framework de Stanford, mod√®les neuronaux entra√Æn√©s sur donn√©es UD <small>[https://github.com/explosion/spacy-stanza](https://github.com/explosion/spacy-stanza) permet d'utiliser les mod√®les de Stanford avec Spacy</small>
- [TextBlob](https://textblob.readthedocs.io/en/dev/)
- [DKPro](https://dkpro.github.io/)
- [flair](https://github.com/zalandoresearch/flair) : le framework de Zalando, tr√®s bonnes performances en reconnaissance d'entit√©s nomm√©es

## installation

dans un terminal
```bash
python3 -m pip install -U --user spacy 
#ou pip install -U --user spacy
```
- installation du mod√®le fran√ßais
```bash
python3 -m spacy download fr_core_news_md
#ou python3 -m spacy download fr_core_news_sm 
```
- v√©rification
```bash
python3 -m spacy validate
```


## mod√®les

- Spacy utilise des mod√®les statistiques qui permettent de pr√©dire des annotations linguistiques
- 16 langues :¬†allemand, anglais, chinois, danois, espagnol, fran√ßais, italien, japonais, lituanien, n√©erlandais, grec, norv√©gien, polonais, portugais, roumain, russe + mod√®le multi langues
- 4 mod√®les pour le fran√ßais
    - fr_core_news_sm (tagger, morphologizer, lemmatizer, parser, ner) 16 Mo
    - fr_core_news_md (tagger, morphologizer, lemmatizer, parser, ner, vectors) 45 Mo
    - fr_core_news_lg (tagger, morphologizer, lemmatizer, parser, ner, vectors) 546 Mo
    - fr_dep_news_trf (tagger, morphologizer, lemmatizer, parser) 381 Mo
- mod√®les `fr` appris sur les corpus [Sequoia](https://deep-sequoia.inria.fr/fr/) et [WikiNer](https://figshare.com/articles/Learning_multilingual_named_entity_recognition_from_Wikipedia/5462500) sauf le mod√®le `trf` qui est issu de camembert-base distribu√© par [Hugging Face](https://huggingface.co/camembert-base).
- Tous ces mod√®les, quelque soient leur type ou leur langue, s'utilisent de la m√™me fa√ßon, avec la m√™me API.

## usage

- *si vous voulez utiliser Spacy prenez le temps de lire la [documentation](https://spacy.io/usage), ici ce ne sera qu'un coup d'≈ìil incomplet*
- un mod√®le est une instance de la classe `Language`, il est adapt√© √† une langue en particulier
- un mod√®le incorpore un vocabulaire, des poids, des vecteurs de mots, une configuration

In [21]:
import spacy
nlp = spacy.load('fr_core_news_md')

In [22]:
type(nlp)

spacy.lang.fr.French

- le traitement fonctionne avec un [*pipeline*](https://spacy.io/usage/spacy-101#pipelines) pour convertir un texte en objet `Doc` (texte annot√©)
- par d√©faut `tokenizer` > `tagger` > `parser` > `ner` > `‚Ä¶`
- depuis la v3 le pipeline devient `tok2vec` > `morphologizer` > `parser` > `ner` > `attribute_ruler` > `lemmatizer`  
  ou `transformer` > `morphologizer` > `parser` > `ner` > `attribute_ruler` > `lemmatizer`
- l'utilisateur peut ajouter des √©tapes ou en retrancher

In [3]:
nlp = spacy.load('fr_core_news_md', disable=["parser", "ner"])
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7f4854fb5a10>),
 ('morphologizer',
  <spacy.pipeline.morphologizer.Morphologizer at 0x7f4854f4ffb0>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7f4854f1d7d0>),
 ('lemmatizer', <spacy.lang.fr.lemmatizer.FrenchLemmatizer at 0x7f4854f18fa0>)]

Retour au pipeline par d√©faut

In [4]:
nlp = spacy.load('fr_core_news_md')
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7f4854f933b0>),
 ('morphologizer',
  <spacy.pipeline.morphologizer.Morphologizer at 0x7f4860c4e710>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x7f486273d600>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x7f486273d520>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7f4854f254b0>),
 ('lemmatizer', <spacy.lang.fr.lemmatizer.FrenchLemmatizer at 0x7f4847288a50>)]

 - Un objet `Doc` est une s√©quence d'objets `Token` (voir l'[API](https://spacy.io/api/token))
 - Le texte d'origine est d√©coup√© en phrases, tokeniz√©, annot√© en POS, lemme, syntaxe (d√©pendance) et en entit√©s nomm√©es (NER)

In [23]:
doc = nlp("L‚ÄôOrganisation des Nations unies (ONU) a lanc√© mardi un appel d‚Äôurgence pour lever des dizaines de millions de dollars afin de prot√©ger les r√©fugi√©s vuln√©rables face √† la propagation du nouveau coronavirus.")
type(doc)

spacy.tokens.doc.Doc

## usage ‚Äì tokenization

La tokenization de Spacy est non-destructive. Vous pouvez d√©couper un texte en tokens et le restituer dans sa forme originale.

In [24]:
doc = nlp("L'Organisation des Nations unies (ONU) a lanc√© mardi un appel d'urgence pour lever des dizaines de millions de dollars afin de prot√©ger les r√©fugi√©s vuln√©rables face √† la propagation du nouveau coronavirus.")
for token in doc:
    print(token)

L'
Organisation
des
Nations
unies
(
ONU
)
a
lanc√©
mardi
un
appel
d'
urgence
pour
lever
des
dizaines
de
millions
de
dollars
afin
de
prot√©ger
les
r√©fugi√©s
vuln√©rables
face
√†
la
propagation
du
nouveau
coronavirus
.


In [7]:
for token in doc:
    print(token.text_with_ws, end="")

L'Organisation des Nations unies (ONU) a lanc√© mardi un appel d'urgence pour lever des dizaines de millions de dollars afin de prot√©ger les r√©fugi√©s vuln√©rables face √† la propagation du nouveau coronavirus.

## usage ‚Äì √©tiquetage

Les annotations portant sur les tokens sont accessibles via les attributs des objets de type `token`‚ÄØ: [https://spacy.io/api/token#attributes](https://spacy.io/api/token#attributes)  
  - `pos_` contient l'√©tiquette de partie du discours de [universal dependancies](https://universaldependencies.org/docs/u/pos/)
  - `tag_` contient l'√©tiquette du corpus original, parfois plus d√©taill√©e
  - `lemma_` pour le lemme
  - `morph` pour l'analyse morphologique

In [27]:
for token in doc:
    print(token.text, token.pos_, token.morph, token.lemma_)

L' DET Definite=Def|Number=Sing|PronType=Art le
Organisation NOUN Gender=Fem|Number=Sing organisation
des ADP Definite=Def|Number=Plur|PronType=Art de
Nations PROPN  Nations
unies ADJ Gender=Fem|Number=Plur uni
( PUNCT  (
ONU PROPN Gender=Fem|Number=Sing ONU
) PUNCT  )
a AUX Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin avoir
lanc√© VERB Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part lancer
mardi NOUN Gender=Masc|Number=Sing mardi
un DET Definite=Ind|Gender=Masc|Number=Sing|PronType=Art un
appel NOUN Gender=Masc|Number=Sing appel
d' ADP  de
urgence NOUN Gender=Fem|Number=Sing urgence
pour ADP  pour
lever VERB VerbForm=Inf lever
des DET Definite=Ind|Number=Plur|PronType=Art un
dizaines NOUN Gender=Fem|Number=Plur dizaine
de ADP  de
millions NOUN Gender=Masc|NumType=Card|Number=Plur million
de ADP  de
dollars NOUN Gender=Masc|Number=Plur dollar
afin ADV  afin
de ADP  de
prot√©ger VERB VerbForm=Inf prot√©ger
les DET Definite=Def|Number=Plur|PronType=Art le
r√©fugi√©s NOUN Gender

Pour traiter plusieurs textes en s√©rie, il est recommand√© d'utiliser [nlp.pipe](https://spacy.io/api/language#pipe)

In [40]:
texts = [
    "Cadine avait un tr√®s-mauvais caract√®re. Elle ne s‚Äôaccommodait pas du r√¥le de servante.",
    "Aussi finit-elle par s‚Äô√©tablir pour son compte.",
    "Comme elle √©tait alors √¢g√©e de treize ans, et qu‚Äôelle ne pouvait r√™ver le grand commerce, un banc de vente de l‚Äôall√©e aux fleurs, elle vendit des bouquets de violettes d‚Äôun sou, piqu√©s dans un lit de mousse, sur un √©ventaire d‚Äôosier pendu √† son cou.",
    "Elle r√¥dait toute la journ√©e dans les Halles, autour des Halles, promenant son bout de pelouse.",
    "C‚Äô√©tait l√† sa joie, cette fl√¢nerie continuelle, qui lui d√©gourdissait les jambes, qui la tirait des longues heures pass√©es √† faire des bouquets, les genoux pli√©s, sur une chaise basse.",
    "Maintenant, elle tournait ses violettes en marchant, elle les tournait comme des fuseaux, avec une merveilleuse l√©g√®ret√© de doigts ; elle comptait six √† huit fleurs, selon la saison, pliait en deux un brin de jonc, ajoutait une feuille, roulait un fil mouill√© ; et, entre ses dents de jeune loup, elle cassait le fil."
]

In [41]:
docs = nlp.pipe(texts)

‚úçÔ∏è √Ä¬†vous  
1. Extrayez de la s√©rie de phrases ci-dessus la liste des noms communs
2. Comptez le nombre de tokens au masculin et au f√©minin

In [34]:
# Extrayez de la s√©rie de phrases ci-dessus la liste des noms communs

ncs = []
docs = nlp.pipe(texts)
for doc in docs:
    for token in doc:
        if token.pos_ == "NOUN":
            ncs.append(token)

ncs_set = set(ncs)
#for item in ncs:
#    print(item.text)
print(", ".join([item.text for item in ncs_set]))

chaise, commerce, fil, banc, bouquets, violettes, fil, fuseaux, mousse, r√¥le, compte, bout, heures, osier, saison, brin, ans, feuille, vente, all√©e, violettes, -, sou, l√©g√®ret√©, servante, Halles, pelouse, jambes, bouquets, fleurs, genoux, dents, fleurs, loup, Cadine, caract√®re, joie, journ√©e, fl√¢nerie, lit, √©ventaire, Halles, doigts, cou


In [39]:
# Comptez le nombre de tokens au masculin et au f√©minin

nb_masc = 0
nb_fem = 0

docs = nlp.pipe(texts)
for doc in docs:
    for token in doc:
        if token.morph.get("Gender") == ["Masc"]:
            nb_masc += 1
        elif token.morph.get("Gender") == ["Fem"]:
            nb_fem += 1
            
print(f"tokens au masculin : {nb_masc}, tokens au f√©minin : {nb_fem}")

tokens au masculin : 39, tokens au f√©minin : 47


## usage ‚Äì NER

Si NER (*Named Entity Recognition*) fait partie de votre mod√®le, vos donn√©es seront annot√©es √©galement en entit√©s nomm√©es.  
Vous pouvez y acc√©der avec l'attribut `ent_type_` des tokens

In [44]:
doc = nlp("L'Organisation des Nations unies (ONU) a lanc√© mardi un appel d‚Äôurgence pour lever des dizaines de millions de dollars afin de prot√©ger les r√©fugi√©s vuln√©rables face √† la propagation du nouveau coronavirus.")
for token in doc:
    print(token, token.ent_type_)

L' 
Organisation ORG
des ORG
Nations ORG
unies ORG
( 
ONU ORG
) 
a 
lanc√© 
mardi 
un 
appel 
d‚Äô 
urgence 
pour 
lever 
des 
dizaines 
de 
millions 
de 
dollars 
afin 
de 
prot√©ger 
les 
r√©fugi√©s 
vuln√©rables 
face 
√† 
la 
propagation 
du 
nouveau 
coronavirus 
. 


Ou acc√©der directement aux entit√©s de l'objet `Doc`

In [55]:
nlp = spacy.load("fr_core_news_md")
doc = nlp("L‚ÄôOrganisation des Nations unies (ONU) a lanc√© mardi un appel d‚Äôurgence pour lever des dizaines de millions de dollars afin de prot√©ger les r√©fugi√©s vuln√©rables face √† la propagation du nouveau coronavirus.")
for ent in doc.ents:
    print(ent.text, ent.label_)

Organisation des Nations unies ORG
ONU ORG


Spacy int√®gre un outil de visualisation pour l'annotation en entit√©s nomm√©es :

In [46]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

In [47]:
doc = nlp('Le pr√©sident Xi Jinping a affirm√© que la propagation du coronavirus √©tait ¬´‚ÄØpratiquement jugul√©e‚ÄØ¬ª. Il s‚Äôest d‚Äôailleurs rendu pour la premi√®re fois √† Wuhan, la capitale de la province du Hubei, le berceau du Covid-19.')
displacy.render(doc, style="ent", jupyter=True)

In [61]:
doc = nlp("Derri√®re lui, sur le carreau de la rue Rambuteau, on vendait des fruits.")
displacy.render(doc, style="ent", jupyter=True)

‚úçÔ∏è √Ä¬†vous  

Dans `files/Le_Ventre_de_Paris-short.txt` (ou un texte de votre choix), comptez la fr√©quence de chaque entit√© de type PER.

In [63]:
from collections import Counter

personnes = Counter()
with open('files/Le_Ventre_de_Paris-short.txt') as input_data:
    docs = nlp.pipe(input_data)
    for doc in docs:
        for ent in doc.ents:
            if ent.label_ == "PER":
                personnes[ent.text] += 1

print(personnes.most_common())

[('Florent', 218), ('Lisa', 76), ('Claude', 33), ('Pauline', 22), ('Saget', 18), ('Lec≈ìur', 18), ('Auguste', 18), ('Augustine', 16), ('Fran√ßois', 15), ('Charvet', 15), ('Lebigre', 13), ('L√©on', 13), ('Robine', 11), ('M√©hudin', 10), ('madame Quenu', 9), ('Gradelle', 8), ('Cl√©mence', 8), ('Balthazar', 6), ('Alexandre', 6), ('Madame Fran√ßois', 5), ('Chantemesse', 5), ('Jules', 5), ('Marjolin', 5), ('Claude Lantier', 5), ('Quenu', 5), ('Collard', 5), ('Louise', 5), ('Claire', 5), ('Murillo', 4), ('Macquart', 4), ('Mademoiselle Saget', 4), ('Verlaque', 4), ('Hein', 3), ('Voyons', 3), ('Cadine', 3), ('Madame Lec≈ìur', 3), ('Gavard', 3), ('Rose', 3), ('Augustine Landois', 2), ('Charles X', 2), ('Louis-Philippe', 2), ('Madame Taboureau', 2), ('Mouton', 2), ('Doucement', 2), ('√âchapp√© de Cayenne', 1), ('Marcel', 1), ('Dis Marcel', 1), ('Lacaille', 1), ('Lundi', 1), ('Adieu', 1), ('Cendrillon', 1), ('Rubens', 1), ('Guillout', 1), ('Aveugl√©', 1), ('de Florent', 1), ('Cuvier', 1), ('Gavar

## usage ‚Äì analyse syntaxique

L'analyse syntaxique ou *parsing* de Spacy est une analyse en d√©pendance. La plupart sinon la totalit√© des mod√®les utilis√©s viennent de https://universaldependencies.org

Dans l'analyse en d√©pendance produite par Spacy, chaque mot d'une phrase a un gouverneur unique (*head*), la relation de d√©pendance entre le mot et son gouverneur est typ√©e (*nsubj*, *obj*, ‚Ä¶).  
Pour la t√™te de la phrase on utilise la relation *ROOT*.

La structure produite par l'analyse syntaxique est un arbre, un graphe acyclique et connexe. Les tokens sont les n≈ìuds, les arcs sont les d√©pendances, le type de la relation est l'√©tiquette de l'arc.

`displacy` fournit un outil de visualisation bien pratique :

In [23]:
doc = nlp("Derri√®re lui, sur le carreau de la rue Rambuteau, on vendait des fruits.")
displacy.render(doc, style="dep", jupyter=True, options={'distance':90})

Il existe √©galement un outil issu d'un d√©veloppement ind√©pendant :¬†[explacy](https://spacy.io/universe/project/explacy)

In [24]:
import explacy
explacy.print_parse_info(nlp, 'Derri√®re lui, sur le carreau de la rue Rambuteau, on vendait des fruits.')

Dep tree     Token     Dep type Lemma     Part of Sp
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
         ‚îå‚îÄ‚ñ∫ Derri√®re  case     derri√®re  ADP       
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∫‚îî‚îÄ‚îÄ lui       obl:mod  lui       PRON      
‚îÇ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∫ ,         punct    ,         PUNCT     
‚îÇ‚îÇ      ‚îå‚îÄ‚îÄ‚ñ∫ sur       case     sur       ADP       
‚îÇ‚îÇ      ‚îÇ‚îå‚îÄ‚ñ∫ le        det      le        DET       
‚îÇ‚îÇ‚îå‚îÄ‚ñ∫‚îå‚îÄ‚îÄ‚î¥‚î¥‚îÄ‚îÄ carreau   obl:mod  carreau   NOUN      
‚îÇ‚îÇ‚îÇ  ‚îÇ  ‚îå‚îÄ‚îÄ‚ñ∫ de        case     de        ADP       
‚îÇ‚îÇ‚îÇ  ‚îÇ  ‚îÇ‚îå‚îÄ‚ñ∫ la        det      le        DET       
‚îÇ‚îÇ‚îÇ  ‚îî‚îÄ‚ñ∫‚îî‚îº‚îÄ‚îÄ rue       nmod     rue       NOUN      
‚îÇ‚îÇ‚îÇ      ‚îî‚îÄ‚ñ∫ Rambuteau nmod     Rambuteau PROPN     
‚îÇ‚îÇ‚îÇ     ‚îå‚îÄ‚îÄ‚ñ∫ ,         punct    ,         PUNCT     
‚îÇ‚îÇ‚îÇ     ‚îÇ‚îå‚îÄ‚ñ∫ on    

On peut aussi r√©cup√©rer parcourir les tokens et afficher 

In [16]:
for token in doc:
    print(token, token.dep_.upper(), token.head)

Maintenant ADVMOD tournait
, PUNCT tournait
elle NSUBJ tournait
tournait ROOT tournait
ses DET violettes
violettes OBJ tournait
en CASE marchant
marchant ADVCL tournait
, PUNCT tournait
elle NSUBJ tournait
les OBJ tournait
tournait CONJ tournait
comme CASE fuseaux
des DET fuseaux
fuseaux OBL:MOD tournait
, PUNCT tournait
avec CASE l√©g√®ret√©
une DET l√©g√®ret√©
merveilleuse AMOD l√©g√®ret√©
l√©g√®ret√© OBL:MOD tournait
de CASE doigts
doigts NMOD l√©g√®ret√©
; PUNCT tournait
elle NSUBJ comptait
comptait ROOT comptait
six NUMMOD fleurs
√† CASE huit
huit NMOD six
fleurs OBJ comptait
, PUNCT comptait
selon CASE saison
la DET saison
saison OBL:MOD comptait
, PUNCT pliait
pliait CONJ comptait
en CASE deux
deux OBL:MOD pliait
un DET brin
brin OBJ pliait
de CASE jonc
jonc NMOD brin
, PUNCT ajoutait
ajoutait CONJ comptait
une DET feuille
feuille OBJ ajoutait
, PUNCT roulait
roulait CONJ comptait
un DET fil
fil OBJ roulait
mouill√© AMOD fil
; PUNCT comptait
et CC cassait
, PUNCT cassait
entre C

Les attributs de token suivant peuvent √™tre utilis√©s pour parcourir l'arbre de d√©pendance :¬†
- `children` les tokens d√©pendants du token
- `subtree` tous les descendants du token
- `ancestors` tous les parents du token
- `rights` les enfants √† droite du token
- `lefts` les enfants √† gauche du token

On peut extraire de la phrase pr√©c√©dente le triplet sujet-verbe-objet comme ceci :

In [25]:
root = [token for token in doc if token.head == token][0]
subjects = [tok for tok in root.lefts if tok.dep_ == "nsubj"]
subject = subjects[0]
objs = [tok for tok in root.rights if tok.dep_ == "obj"]
obj = objs[0]
subject, root, obj

(on, vendait, fruits)

In [26]:
for obj in objs:
    for descendant in obj.subtree:
        print(descendant.text)

des
fruits


‚úçÔ∏è √Ä¬†vous

1. Trouver et afficher l'objet de la phrase :¬†¬´ Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle. ¬ª

2. Dans la liste `texts` vue plus haut, retrouvez les verbes dont Cadine ou le pronom 'elle' est sujet.

In [130]:
import explacy
explacy.print_parse_info(nlp, "Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")

Dep tree                         Token      Dep type   Lemma      Part of Sp
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
                          ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∫ Depuis     mark       depuis     ADP       
                          ‚îÇ‚îå‚îÄ‚îÄ‚îÄ‚ñ∫ que        mark       que        SCONJ     
                          ‚îÇ‚îÇ‚îå‚îÄ‚îÄ‚ñ∫ Google     nsubj      Google     PROPN     
                          ‚îÇ‚îÇ‚îÇ‚îå‚îÄ‚ñ∫ a          aux:tense  avoir      AUX       
‚îå‚îÄ‚ñ∫‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚î¥‚î¥‚î¥‚îÄ‚îÄ annonc√©    advcl      annoncer   VERB      
‚îÇ  ‚îÇ                         ‚îå‚îÄ‚ñ∫ son        det        son        DET       
‚îÇ  ‚îî‚îÄ‚ñ∫‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ intention  obj        in

In [30]:
doc = nlp("Depuis que Google a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
root = [token for token in doc if token.head == token][0]
objs = [tok for tok in root.rights if tok.dep_ in ("obl:arg", "obj", "iobj")]
for obj in objs:
    for descendant in obj.subtree:
        print(descendant.text_with_ws, end="")

√† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle

## Matching

## 1. Matching par r√®gle

Spacy a une classe `Matcher` qui permet de rep√©rer des tokens ou des suites de tokens √† l'aide de patrons (*pattern*). Ces patrons peuvent porter sur la forme des tokens ou leurs attributs (pos, ent).  
On peut aussi utiliser des cat√©gories comme `IS_ALPHA` ou `IS_NUM`, voir la [doc](https://spacy.io/usage/rule-based-matching#adding-patterns-attributes)

In [77]:
from spacy.matcher import Matcher

matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "en"}, {"LOWER": "taille"}, {"IS_ALPHA": True, "IS_UPPER": True}]
# en taille + lettres en maj
matcher.add("tailles", [pattern])

doc = nlp("Ce mod√®le est aussi disponible en taille XL ; je vous le conseille.")
matches = matcher(doc)
for _, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(start, end, span.text)

5 8 en taille XL


√áa fonctionne pour les s√©quences comme ¬´ en taille M ¬ª ou ¬´ en taille XL ¬ª mais pas pour ¬´ vous l'avez en XL ? ¬ª

In [72]:
doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

On peut essayer d'am√©liorer les r√®gles :

In [73]:
matcher = Matcher(nlp.vocab)
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"IS_ALPHA": True, "IS_UPPER": True}]
pattern_2 = [{"LOWER": "en"}, {"IS_ALPHA": True, "IS_UPPER": True}]
matcher.add("tailles", [pattern_1, pattern_2])
# r√®gle avec deux patterns

doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for _, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(span.text)

en XL


Ou encore :

In [74]:
matcher = Matcher(nlp.vocab)
sizes = ['XS', 'S', 'M', 'L', 'XL']
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"TEXT": {"IN": sizes}}]
pattern_2 = [{"LOWER": "en"}, {"TEXT": {"IN": sizes}}]
matcher.add("tailles", [pattern_1, pattern_2])
# r√®gle avec deux patterns

doc = nlp("vous l'avez en XL ?")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

9364735015326875510 tailles 3 5 en XL


‚úçÔ∏è √Ä vous

Dans `files/Le_Ventre_de_Paris-short.txt`, trouver les s√©quences pronom - le lemme 'vendre'

In [78]:
matcher = Matcher(nlp.vocab)
pattern = [{"POS": "PRON"}, {"LEMMA": "vendre"}]
matcher.add("pro_vendre", [pattern])

doc = ""
with open('files/Le_Ventre_de_Paris-short.txt') as input_data:
    doc = nlp(input_data.read())
matches = matcher(doc)

In [79]:
for _, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(span.text)

elle vend
on vendait
qui vendait
qui vendaient
elle vendait
Il vendrait


## 4. Dependency Matcher :¬†extraction de patrons

Depuis la v3, Spacy a ajout√© un *Dependancy Matcher* qui permet de faire de l'extraction de patrons syntaxiques. Il est maintenant possible de faire porter des requ√™tes sur l'arbre syntaxique et non plus seulement sur la s√©quence des tokens.  
Ce dispositif utilise [Semgrex](https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/semgraph/semgrex/SemgrexPattern.html), la syntaxe utilis√©e dans Tgrep et Tregex, les outils de requ√™te sur Treebank de Stanford.

Voir la [documentation](https://spacy.io/usage/rule-based-matching#dependencymatcher)

In [80]:
ventre_short = ""
with open('files/Le_Ventre_de_Paris-short.txt') as input_f:
    ventre_short = input_f.read()
doc = nlp(ventre_short)

In [81]:
from spacy.matcher import DependencyMatcher

matcher = DependencyMatcher(nlp.vocab)
pattern = [
  {
    "RIGHT_ID": "vendre",    
    "RIGHT_ATTRS": {"LEMMA": "vendre"}
  }
]
matcher.add("VENDRE", [pattern])
matches = matcher(doc)
for m_id, t_ids in matches:
    for t_id in t_ids:
        print(doc[t_id])

vend
vendant
vendait
vendait
vendaient
vendaient
vend
vendu
vendu
vendre
vendait
vendu
vendais
vendu
vendrait


In [83]:
from spacy.matcher import DependencyMatcher

matcher = DependencyMatcher(nlp.vocab)
pattern = [
    {
        "RIGHT_ID": "vendre",    
        "RIGHT_ATTRS": {"LEMMA": {"IN": ["vendre", "acheter"]}}
    },
    {
        "LEFT_ID": "vendre",
        "REL_OP": ">",
        "RIGHT_ID": "sujet",
        "RIGHT_ATTRS": {"DEP": "nsubj"},  
    },
    {
        "LEFT_ID": "vendre",
        "REL_OP": ">",
        "RIGHT_ID": "objet",
        "RIGHT_ATTRS": {"DEP": {"IN": ["obj", "iobj", "obl"]}},  
    }
]
matcher.add("VENDRE", [pattern])
matches = matcher(doc)
for m_id, t_ids in matches:
    print("verbe, sujet, objet :¬†", " -> ".join([doc[t_id].text for t_id in t_ids]))
    print("objet complet :¬†", " ".join([t.text for t in doc[t_ids[2]].subtree]))
    print("Phrase compl√©te :¬†", doc[t_ids[0]].sent)
    print()

verbe, sujet, objet :¬† acheta -> il -> derniers
objet complet :¬† ses deux derniers sous de pain
Phrase compl√©te :¬† Mais, √† Vernon, il acheta ses deux derniers sous de pain.

verbe, sujet, objet :¬† achetait -> elle -> qu‚Äô
objet complet :¬† qu‚Äô
Phrase compl√©te :¬† J‚Äô√©tais gamine, qu‚Äôelle achetait d√©j√† ses navets √† mon p√®re.

verbe, sujet, objet :¬† achetait -> elle -> navets
objet complet :¬† ses navets √† mon p√®re
Phrase compl√©te :¬† J‚Äô√©tais gamine, qu‚Äôelle achetait d√©j√† ses navets √† mon p√®re.

verbe, sujet, objet :¬† vendait -> on -> fruits
objet complet :¬† des fruits
Phrase compl√©te :¬† 

Derri√®re lui, sur le carreau de la rue Rambuteau, on vendait des fruits.

verbe, sujet, objet :¬† vendaient -> qui -> bottes
objet complet :¬† des bottes de foug√®re et des paquets de feuilles de vigne , bien r√©guliers , attach√©s par quarterons
Phrase compl√©te :¬† Ils s‚Äôarr√™t√®rent curieusement devant des femmes qui vendaient des bottes de foug√®re et des paque

‚úçÔ∏è √Ä vous

Ajouter une r√®gle au motif pour trouver aussi l'objet

## Adapter les traitements de Spacy

## 1. re-tokenisation

- voir [https://spacy.io/usage/linguistic-features#retokenization](https://spacy.io/usage/linguistic-features#retokenization)

Dans l'exemple qui suit ¬´ quer-cra ¬ª sera tokeniz√© √† tort.

In [3]:
doc = nlp("Pour les bons bails √ßa va grave quer-cra")
print([(tok.text, tok.pos_, tok.lemma_)for tok in doc])

[('Pour', 'ADP', 'pour'), ('les', 'DET', 'le'), ('bons', 'ADJ', 'bon'), ('bails', 'NOUN', 'bail'), ('√ßa', 'PRON', 'cela'), ('va', 'VERB', 'aller'), ('grave', 'ADJ', 'grave'), ('quer', 'VERB', 'quer'), ('-', 'PUNCT', '-'), ('cra', 'PROPN', 'cra')]


In [4]:
with doc.retokenize() as retokenizer:
    retokenizer.merge(doc[7:], attrs={"LEMMA": "quer-cra", "POS": "NOUN"})
print([(tok.text, tok.pos_) for tok in doc])

[('Pour', 'ADP'), ('les', 'DET'), ('bons', 'ADJ'), ('bails', 'NOUN'), ('√ßa', 'PRON'), ('va', 'VERB'), ('grave', 'ADJ'), ('quer-cra', 'NOUN')]


Attention ici c‚Äôest l‚Äôobjet doc qui est modifi√©, le r√©sultat mais pas le traitement. Nous allons voir comment faire pour modifier le traitement.

## 2. Modification de la tokenisation

In [5]:
from spacy.symbols import ORTH, LEMMA, POS, TAG

special_case = [{ORTH: "quer-cra"}]
nlp.tokenizer.add_special_case("quer-cra", special_case)
doc = nlp("Pour les bons bails √ßa va grave quer-cra")
print([(tok.text, tok.pos_, tok.lemma_) for tok in doc])

[('Pour', 'ADP', 'pour'), ('les', 'DET', 'le'), ('bons', 'ADJ', 'bon'), ('bails', 'NOUN', 'bail'), ('√ßa', 'PRON', 'cela'), ('va', 'VERB', 'aller'), ('grave', 'ADJ', 'grave'), ('quer-cra', 'PROPN', 'quer-cra')]


On a bien modifi√© la tokenisation dans le mod√®le `nlp`. Cela n'affecte pas par contre l'√©tiquetage en POS.

## 3. Entit√©s nomm√©es :¬†traitement par r√®gles
 - Voir [https://spacy.io/usage/rule-based-matching#entityruler](https://spacy.io/usage/rule-based-matching#entityruler)
 
Spacy offre aussi un m√©canisme de traitement par r√®gle pour les entit√©s nomm√©es

In [6]:
from spacy.pipeline import EntityRuler

#nlp = spacy.load('fr_core_news_md')
doc = nlp("Depuis que machin a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
print("Avant : ", [(ent.text, ent.label_) for ent in doc.ents])


ruler = nlp.add_pipe("entity_ruler", config={'overwrite_ents':True})
patterns = [{"label": "ORG", "pattern": "Chrome"},
            {"label":"ORG", "pattern":"machin"},
    {"label":"ORG", "pattern":"Criteo"},
    {"label":"ORG","pattern":"LiveRamp"}]
ruler.add_patterns(patterns)

doc = nlp("Depuis que machin a annonc√© son intention de stopper d'ici deux ans les cookies tiers sur Chrome , son moteur de recherche qui est utilis√© par plus de 60 % de la population mondiale connect√©e, les Criteo, LiveRamp et autres Index Exchange se pr√©parent √† ce qui peut √™tre consid√©r√© comme un s√©isme, √† leur √©chelle.")
print("Apr√®s : ", [(ent.text, ent.label_) for ent in doc.ents])

Avant :  [('Chrome', 'MISC'), ('Criteo', 'MISC'), ('LiveRamp', 'ORG'), ('Index Exchange', 'MISC')]
Apr√®s :  [('machin', 'ORG'), ('Chrome', 'ORG'), ('Criteo', 'ORG'), ('LiveRamp', 'ORG'), ('Index Exchange', 'MISC')]


## 4. Entit√©s nomm√©es : entra√Ænement

Ici nous avons un exemple sur les entit√©s nomm√©es mais la proc√®dure d'entra√Ænement fonctionne pour d'autres niveaux d'annotations (pos, d√©pendance). Voir la doc :¬†https://spacy.io/usage/training

  - pr√©paration des donn√©es
  
√âvidemment nous aurons besoin de donn√©es annot√©es pour les phases d'entra√Ænement et de test.  
Nous conserverons le tagset utilis√©s dans le fran√ßais (LOC, MISC, ORG, PER) pour annoter manuellement des extraits de la page Wikipedia https://fr.wikipedia.org/wiki/Personnages_de_Mario  
Nous travaillerons sur 5 petits fichiers :

In [2]:
!ls train/txt

luigi.txt  mario.txt  peach.txt  toad.txt  yoshi.txt


In [1]:
!more train/txt/mario.txt

Mario est le h√©ros du Royaume Champignon. Malgr√© son apparence banale de plombie
r, Mario poss√®de une tr√®s grande force et des capacit√©s de sauts incroyables. Sa
 rapidit√© lui conf√®re une grande habilet√© au combat. Mario est le personnage pri
ncipal de la quasi-totalit√© des jeux de la s√©rie Super Mario et des jeux "Guerri
c Stats" Il est aussi l'ennemi jur√© de Bowser. Il peut se transformer de plusieu
rs fa√ßons apr√®s avoir re√ßu des objets tels que le Super Champignon, la Fleur de 
feu et la Super √©toile, il est courageux et peut venir √† bout de n'importe quell
e situation! Il est apparu pour la premi√®re fois dans Donkey Kong en 1981, au d√©
part il √©tait appel√© sous le nom de Jumpman (homme qui saute); il est rebaptis√© 
Mario dans Donkey Kong Jr. sorti en arcade en 1982. 


Ces fichiers doivent √™tre tokeniz√©s puis annot√©s au format IOB. Voir l'exemple https://github.com/explosion/spaCy/blob/master/extra/example_data/ner_example_data/ner-token-per-line.iob

Puis les fichiers seront convertis √† l'aide de la commande `convert` (https://spacy.io/api/cli#convert).  
Vous devrez avoir 4 fichiers dans un dossier `train_dir` et un fichier dans `dev_dir`.   
Exemple avec un output dans le dossier `dev_dir`‚ÄØ:  
`python -m spacy convert toad.iob dev_dir --converter ner`

 - configuration
 
 Dans la version 3.0, Spacy utilise un fichier de configuration dont le format est d√©fini dans Thinc (https://thinc.ai/docs/usage-config). Le plus simple est d'utiliser le widget de la doc pour d√©finir vos param√®tres principaux : https://spacy.io/usage/training#quickstart
 
 Puis vous utilisez la commande ci-dessous pour g√©n√©rer votre fichier de configuration : 
 `python -m spacy init fill-config base_config.cfg config.cfg`
 
Il y a quantit√© de param√®tres √† d√©finir dans ce fichier de config √©videmment. `init` utilise des valeurs par d√©faut que vous pourrez modifier comme vous voulez.  
Retenez toutefois que vous pouvez choisir soit d'entra√Æner un mod√®le ou un des composants du mod√®le *from scratch*, soit de modifier les poids d'un mod√®le existant.

From scratch : 
```
[components.ner]
factory = "ner"
```

Depuis un mod√®le :¬†
```
[components.ner]
source = "fr_core_news_md"    
```

  - entra√Ænement
  
  Une fois que vous avez les donn√©es annot√©es au bon format et le fichier de config, vous pouvez lancer l'entra√Ænement.
  
 `python -m spacy train config.cfg -o model --paths.train ./train_dir --paths.dev ./dev_dir`

  - √©valuation
  
  Spacy propose √©galement un outil d'√©valuation qui vous permettra de comparer les performances des mod√®les que vous avez g√©n√©r√©. Les m√©triques sont choisies en fonction du/des types d'annotations du mod√®le. Pour les entit√©s nomm√©es on a : Pr√©cision, Rappel, F-Mesure.
  
`python -m spacy evaluate model/model-best/ dev_dir/toad.spacy`

`python -m spacy evaluate fr_core_news_md dev_dir/toad.spacy`

In [5]:
!python -m spacy evaluate train/model_2/model-best/ train/dev_dir/toad.spacy

[38;5;4m‚Ñπ Using CPU[0m
[1m

TOK     -    
NER P   71.43
NER R   83.33
NER F   76.92
SPEED   9261 

[1m

            P        R        F
PER    100.00   100.00   100.00
LOC    100.00   100.00   100.00
MISC    33.33    50.00    40.00

