# Word embeddings

Dans ce notebook nous allons utiliser un bon nombre de packages Python différents qui font partie de la boîte à outils NLP : sklearn, pandas, gensim et spacy.

Si vous ne souhaitez pas les installer, vous pouvez aussi suivre le notebook sans exécuter les cellules.

## 0. Données de travail

Nous allons travailler sur les neuf romans de Victor Hugo :
  * Bug-Jargal
  * Claude Gueux
  * Le Dernier Jour d'un condamné
  * Han d'Islande
  * L'Homme qui rit
  * Les Misérables
  * Les Travailleurs de la mer
  * Notre-Dame de Paris
  * Quatrevingt-treize
  
Ils sont disponibles dans le répertoire `data` ([https://clement-plancq.github.io/outils-corpus/files/data.tar.gz](https://clement-plancq.github.io/outils-corpus/files/data.tar.gz)). Les fichiers présentés sont les sorties de l'analyseur Talisman, ils sont au format conll. Un mot par ligne, les phrases sont séparées par une ligne vide.

Si vous utilisez Linux ou MacOS vous pouvez récupérer les données en exécutant les commandes de la cellule suivante :

In [None]:
!wget https://clement-plancq.github.io/outils-corpus/files/data.tar.gz
!tar -xzvf data.tar.gz

## 1. Vectorisation de documents

Avant d'aborder les *word embeddings* nous allons voir quelques exemples de vectorisations de documents.  
La vectorisation a d'abord été utilisée en recherche d'information pour représenter des documents. Voir Salton, G. (1971). The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice Hall.



In [63]:
from collections import Counter
from os import path
import glob
import pandas as pd

### Représentation des documents sous forme de vecteurs.

Dans un premier temps nous allons compter les occurrences de chaque mot des textes de notre corpus de travail.

In [64]:
def count_words(filepath):
    """
    Compte la fréquence de chaque mot du texte donné en argument
    texte au format conll
    """
    words_freq = Counter()
    with open(filepath) as doc:
        for line in doc:
            cols = line.split("\t")
            if len(cols) > 4:
                form = cols[1]
                lemma = cols[2]
                pos = cols[3]
                if pos != "PONCT":
                    words_freq[form] += 1
    return words_freq

In [65]:
counts = dict() # dictionnaire doc: counter mots
vocab = set() # vocabulaire du corpus
for doc in glob.glob('./data/*.conll'):
    doc_name = path.splitext(path.basename(doc))[0]
    counts[doc_name] = count_words(doc)
    vocab = vocab.union(set(counts[doc_name]))
print("Nombre de types de chaque roman du corpus :")
total_words = 0
for doc in counts:
    print(f"{doc} : {len(counts[doc])}")
    total_words += sum(counts[doc].values())
print(f"\nTaille du vocabulaire du corpus : {len(vocab)}")
print(f"Nombre de mots du corpus : {total_words}")

Nombre de types de chaque roman du corpus :
lhomme_qui_rit : 21460
claude_gueux : 2265
notre-dame_de_paris : 17752
les_miserables : 31959
le_dernier_jour_dun_condamne : 6247
quatrevingt-treize : 13854
han_dislande : 11928
les_travailleurs_de_la_mer : 16623
bug_jargal : 8395

Taille du vocabulaire du corpus : 54596
Nombre de mots du corpus : 1447427


  * Vecteurs de booléens
  
Construction d'une matrice booléenne document-terme (les documents en ligne et les mots en colonnes). On parle aussi de *one hot encoding*.  
Nous aurons une matrice de dimension nb de documents * taille du vocabulaire.

(L'objet DataFrame est uniquement utilisé pour l'affichage commode en tableau, un peu overkill je veux bien l'entendre.)

In [66]:
counts_bool = dict()
for doc in counts:
    counts_bool[doc] = [int(w in counts[doc]) for w in vocab]

df = pd.DataFrame(counts_bool, index=vocab)
df.T

Unnamed: 0,impérieux,quittances,émanées,toux,Riche,chauffe-doux,achevé,Robine,endommagée,surbaissée,...,insultés,éteignaient,camisole,espagnoles,undam,Tibulle,marlou,jardinière,Calas,effacer
lhomme_qui_rit,1,0,1,1,1,0,1,0,0,1,...,0,1,0,1,0,0,0,0,0,1
claude_gueux,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
notre-dame_de_paris,1,0,0,1,0,1,1,1,0,1,...,0,1,0,1,0,0,0,0,0,1
les_miserables,1,0,0,1,0,0,1,0,1,0,...,1,0,1,0,0,1,0,0,1,1
le_dernier_jour_dun_condamne,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,1,0,0,0
quatrevingt-treize,1,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
han_dislande,1,0,0,0,0,0,1,0,0,0,...,0,1,0,1,1,0,0,0,0,0
les_travailleurs_de_la_mer,0,0,0,0,0,0,1,0,1,0,...,0,1,0,1,0,0,0,1,0,1
bug_jargal,1,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0


  * Vecteurs avec occurrences

La même matrice mais avec le nombre d'occurrences des lemmes. Comme vous le constatez ces matrices contiennent beaucoup de valeurs nulles, un bon nombre des termes du vocabulaire peut être absent d'un document. On parle alors de matrice creuse ou *sparse matrix*.

Les matrices creuses en informatique peuvent être implémentées plus efficacement dans des structures de données dédiées. On trouve des classes de type Sparse Matrix dans le package SciPy.

In [67]:
counts_occ = dict()
for doc in counts:
    counts_occ[doc] = [counts[doc][w] if w in counts[doc] else 0 for w in vocab]

df = pd.DataFrame(counts_occ, index=vocab)
df.T

Unnamed: 0,impérieux,quittances,émanées,toux,Riche,chauffe-doux,achevé,Robine,endommagée,surbaissée,...,insultés,éteignaient,camisole,espagnoles,undam,Tibulle,marlou,jardinière,Calas,effacer
lhomme_qui_rit,4,0,1,1,1,0,3,0,0,1,...,0,3,0,1,0,0,0,0,0,2
claude_gueux,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
notre-dame_de_paris,2,0,0,1,0,1,3,1,0,2,...,0,1,0,1,0,0,0,0,0,1
les_miserables,9,0,0,6,0,0,12,0,2,0,...,1,0,2,0,0,1,0,0,2,11
le_dernier_jour_dun_condamne,0,0,0,0,0,0,0,0,0,0,...,0,0,2,0,0,0,1,0,0,0
quatrevingt-treize,1,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
han_dislande,2,0,0,0,0,0,2,0,0,0,...,0,1,0,5,1,0,0,0,0,0
les_travailleurs_de_la_mer,0,0,0,0,0,0,2,0,1,0,...,0,2,0,1,0,0,0,1,0,1
bug_jargal,2,0,0,0,0,0,0,0,0,0,...,0,0,0,4,0,0,0,0,0,0


  * Vecteurs tf-idf
  
Vous avez vu cette notion en cours. tf-idf associe à chaque terme d'un document un poids qui dépend de la fréquence du terme et du nombre de documents dans lequel le terme apparaît.
  
Pour se faciliter la vie nous allons utiliser la classe ```sklearn.feature_extraction.text.TfidfVectorizer```
Cette classe utilise des *sparse matrix* SciPy différentes des matrices calculées préalablement.

Nous allons repartir des contenus des fichiers.

In [68]:
def get_words(filepath):
    """
    Retourne les mots d'un fichier conll sous forme de liste
    """
    words = []
    with open(filepath) as doc:
        for line in doc:
            cols = line.split("\t")
            if len(cols) > 4:
                form = cols[1]
                lemma = cols[2]
                pos = cols[3]
                if pos != "PONCT":
                    words.append(cols[1])
    return words

In [69]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(analyzer=lambda x: x) #on neutralise l'analyseur parce que les textes sont déjà tokenizés
corpus = [get_words(doc) for doc in glob.glob('./data/*.conll')]
tfidf_vectors= tfidf.fit_transform(corpus)

On a donc une matrice de 9 x 54596 (la taille de notre vocabulaire)

In [70]:
tfidf_vectors.get_shape()

(9, 54596)

In [71]:
pd.DataFrame(tfidf_vectors.todense(), columns=tfidf.vocabulary_)

Unnamed: 0,Préface,De,l',Angleterre,tout,est,grand,même,ce,qui,...,courusse,franchîmes,Poursuis,pardonnerai,annonçai,tiendraient,Grand-Diable,compatriotes,accouriez,guérîtes
0,0.0,0.012991,0.002224,0.003218,0.000501,0.000117,0.010299,0.001294,0.001638,0.00041,...,0.000129,0.0,0.0,8.8e-05,0.0,0.000198,0.000215,0.0,0.0,0.0
1,0.0,0.012245,0.002721,0.001361,0.001664,0.001361,0.006803,0.0,0.002721,0.012245,...,0.0,0.0,0.0,0.0,0.0,0.0,0.001664,0.0,0.0,0.0
2,0.0,0.011575,0.001596,0.00745,0.000325,0.000599,0.013836,0.001324,0.002727,0.000599,...,0.0,0.0,0.0,0.0,0.0,0.000113,0.000244,0.0,0.0,0.000174
3,0.000117,0.014009,0.001953,0.003862,0.000494,0.000741,0.014189,0.001142,0.0011,0.000584,...,4.9e-05,0.000117,0.0,3.4e-05,0.0,3.8e-05,0.000275,0.000117,4.9e-05,0.0
4,0.0,0.01707,0.000356,0.001778,0.000435,0.000356,0.010313,0.004717,0.019559,0.001422,...,0.0,0.0,0.0,0.000537,0.0,0.0,0.002175,0.0,0.000784,0.0
5,0.0,0.013734,0.002121,0.002828,0.000371,0.005049,0.011109,0.00134,0.00202,0.000404,...,0.0,0.0,0.000264,0.000153,0.000264,0.000171,0.000371,0.0,0.0,0.0
6,0.0,0.011076,0.005034,0.004632,0.000246,0.000604,0.02487,0.002226,0.004632,0.000201,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,0.0,0.004828,0.002253,0.001448,0.0,0.000161,0.005713,0.001601,0.000161,0.000322,...,0.0,0.0,0.0,0.000122,0.0,0.0,0.000394,0.0,0.0,0.0
8,0.0,0.009321,0.001591,0.002501,0.0,0.000455,0.025461,0.001005,0.020687,0.000455,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Les vecteurs tf-idf sont en général utilisés dans des tâches de classification de documents. Plus largement en recherche d'information.  

Mais en soit ils ne sont pas forcément évidents à utiliser. On peut tout de même essayer de donner un exemple en cherchant les valeurs tf-idf se rapportant au terme "mer" dans chacun des 9 romans de notre corpus.

In [72]:
# il faut d'abord trouver l'index du terme recherché dans le vocabulaire
index = tfidf.vocabulary_['mer']
# puis on va afficher les valeurs pour cet index
# ici on manipule des 'sparse matrix', il faut donc les convertir en matrices denses. Ce sont alors des matrices numpy
tfidf_vectors.todense()[:, index]

matrix([[0.01474763],
        [0.        ],
        [0.00117646],
        [0.00119118],
        [0.00039309],
        [0.01149764],
        [0.00178072],
        [0.0369975 ],
        [0.00150772]])

In [73]:
# pour s'y retrouver il faut retrouver l'ordre des romans
[doc for doc in glob.glob('./data/*.conll')]

['./data/lhomme_qui_rit.conll',
 './data/claude_gueux.conll',
 './data/notre-dame_de_paris.conll',
 './data/les_miserables.conll',
 './data/le_dernier_jour_dun_condamne.conll',
 './data/quatrevingt-treize.conll',
 './data/han_dislande.conll',
 './data/les_travailleurs_de_la_mer.conll',
 './data/bug_jargal.conll']

Sans surprise le meilleur score pour le terme 'mer' est attaché au roman Les travailleurs de la mer

Ce type de vectorisation de documents permet d'obtenir des résultats intéressants en recherche d'information mais présente deux défauts :
  * le traitement de type "sac de mots" ne conserve pas l'ordre des mots et leur contexte d'apparition
  * les vecteurs en question sont de grande taille, celle du vocabulaire du corpus. Quitte à être remplis de valeurs nulles.

## 2. Vecteurs de co-occurrences

Si on veut conserver l'information liée au contexte d'apparition des mots d'un corpus il est possible de calculer des vecteurs de co-occurrences en comptant le nombre d'occurrences d'un mot pour chacun de ses n voisins.  
Établir une matrice de co-occurrence pour un corpus d'un vocabulaire de 54596 mots comme le nôtre est difficilement réalisable, ça donnerait une matrice de dimension 54596 x 54596.  

## 3. Words embeddings avec Word2vec

En 2013, Mikolov et ses co-auteurs ont proposé avec Word2Vec une méthode pour vectoriser les mots en prenant en compte leur contexte d'apparition dans des vecteurs de dimensions réduites.

La grande nouveauté de Word2Vec est d'utiliser des prédictions plutôt que des comptages.  
Pour la méthode Skip-gram, plutôt que compter combien de fois un mot w apparaît à côté de *abricot*, on va entraîner un classifieur pour la question « est-ce que w a des chances d'apparaître dans le contexte de *abricot* ? ». Les poids du classifieur seront utilisés dans le vecteur du mot *abricot*.  
L'idée est d'utiliser les contextes d'un mot comme un gold pour la question du dessus.

## 3.1 Utiliser un modèle existant

Vous trouverez différents modèles word2vec pré-entraînés sur la page de Jean-Philippe Fauconnier : [https://fauconnier.github.io/#data](https://fauconnier.github.io/#data)  

Nous travaillerons avec un modèle entraîné sur les lemmes du corpus [frWac](http://wacky.sslmit.unibo.it/doku.php?id=corpora) (1.6 milliards de mots) que vous pouvez télécharger en suivant [ce lien](https://s3.us-east-2.amazonaws.com/embeddings.net/embeddings/frWac_non_lem_no_postag_no_phrase_500_skip_cut100.bin) (229 Mb).

In [74]:
from gensim.models import KeyedVectors

model_frwac = KeyedVectors.load_word2vec_format('frWac_no_postag_no_phrase_500_skip_cut100.bin', binary=True)

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


La fonction phare de la classe ``Word2Vec`` est ``most_similar``. La fonction prend en argument une liste de mots et renvoie les mots les plus similaires accompagnés du score de similarité.

In [75]:
model_frwac.most_similar(['peintre'])

[('sculpteur', 0.719471275806427),
 ('peinture', 0.6941012740135193),
 ('peindre', 0.6926761865615845),
 ('artiste', 0.649896502494812),
 ('pictural', 0.6371113061904907),
 ('aquarelliste', 0.6304012537002563),
 ('impressionniste', 0.623700737953186),
 ('chassériau', 0.6118711829185486),
 ('portraitiste', 0.6064485311508179),
 ('miniaturiste', 0.6034853458404541)]

L'exemple de calcul algébrique de Mikolov pour le français donnera :

In [76]:
model_frwac.most_similar(positive = ['roi', 'femme'], negative = ['homme'])

[('reine', 0.5184199810028076),
 ('trôner', 0.4784804582595825),
 ('fille', 0.4731692373752594),
 ('épouse', 0.46881601214408875),
 ('isabeau', 0.4556961953639984),
 ('mari', 0.45401278138160706),
 ('rois', 0.44624990224838257),
 ('reine-mère', 0.44137877225875854),
 ('frédégonde', 0.43637052178382874),
 ('épouser', 0.43594837188720703)]

In [77]:
model_frwac.most_similar(positive = ['paris', 'angleterre'], negative = ['france'])

[('londres', 0.49466949701309204),
 ('londonien', 0.45465171337127686),
 ('westminster', 0.42779219150543213),
 ('brighton', 0.4242292046546936),
 ('northumberland', 0.4205637574195862),
 ('exeter', 0.4204547703266144),
 ('lancastre', 0.4109780192375183),
 ('london', 0.4057309329509735),
 ('piccadilly', 0.40500664710998535),
 ('leeds', 0.39873653650283813)]

## 3.2 Entraîner un modèle

Nous allons utiliser le module gensim pour entraîner un modèle word2vec sur notre corpus de romans de Victor Hugo.   

Notre unité de traitement pour les données d'entrée ce sera la phrase. Nous allons convertir notre corpus en une liste de phrases. 
Le gros intérêt de word2vec et des words embeddings en général est de pouvoir partir de données brutes, non étiquetées. Néanmoins le travail de préparation du corpus a une grande importance dans le résultat final : tokenisation, normalisation de la casse et éventuellement traitement des mot composés.

Si vous devez traiter du texte brut, je vous conseille de jeter un œil à ce module [https://sally14.github.io/embeddings/index.html](https://sally14.github.io/embeddings/index.html) qui combine preprocessing et génération des embeddings avec gensim. Et plus particulièrement cette page [https://sally14.github.io/embeddings/preprocessing/index.html](https://sally14.github.io/embeddings/preprocessing/index.html) qui détaille les étapes du preprocessing.

In [78]:
sentences = []
sentence = []
for doc in glob.glob('./data/*.conll'):
     with(open(doc, 'r')) as f:
        for line in f:
            line = line.rstrip()
            if line == "":
                if len(sentence) > 0:
                    sentences.append(sentence)
                    sentence = []
            else:
                cols = line.split("\t")
                if len(cols) > 4:
                    form = cols[1]
                    lemma = cols[2]
                    pos = cols[3]
                    if pos != "PONCT":
                        sentence.append(form.lower())

Dans la cellule qui suit nous allons entraîner un modèle word2vec avec notre corpus organisé en phrases.

Le constructeur de la classe Word2Vec peut être appelé avec beaucoup de paramètres : voir la doc [ici](https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec)  
Nous allons utiliser les hyper-paramètres suivants :
  * `size` : la dimension des vecteurs (défaut: 100)
  * `window` : la taille en mots de la fenêtre du contexte
  * `sg` : l'algo utilisé (1 pour skip-gram, 0 pour cbow)
  * `iter` : nombre d'itérations sur le corpus

`workers` est le nombre de cœurs logiques que vous allouez au calcul. Attention à ne pas utiliser un nombre de cœurs trop grand.

In [79]:
from gensim.models import Word2Vec

model_hugo = Word2Vec(sentences, size=200, window=5, iter=10, sg=1, workers=4)

In [None]:
# un modèle peut être sauvegardé dans un fichier
model_hugo.save('model_hugo_200_window5_sg.model')

# et inversement chargé depuis un fichier
#model_hugo = Word2Vec.load('model_hugo_200_window5_sg.model'')

La fonction phare de la classe ``Word2Vec`` est ``most_similar``. La fonction prend en argument une liste de mots et renvoie les mots les plus similaires accompagnés du score de similarité.

In [80]:
model_hugo.wv.most_similar(['valjean'])

[('jean', 0.9156767725944519),
 ('javert', 0.6428674459457397),
 ('rené', 0.581188440322876),
 ('toussaint', 0.5410501956939697),
 ('forçat', 0.5286114811897278),
 ('madeleine', 0.5231348276138306),
 ('libéré', 0.5214378833770752),
 ('cosette', 0.5172617435455322),
 ('gilliatt', 0.5119848251342773),
 ('georgette', 0.5114357471466064)]

In [81]:
model_hugo.wv.most_similar(['palais', 'paris'])

[('louvre', 0.6692938804626465),
 ('épiscopal', 0.651100754737854),
 ('belgique', 0.6308608651161194),
 ('notre-dame', 0.6220811009407043),
 ('rivoli', 0.609447181224823),
 ('libraire', 0.6059466004371643),
 ('musée', 0.6056321263313293),
 ('moyen-âge', 0.603347659111023),
 ('lodge', 0.6026352643966675),
 ('saint-pierre', 0.6021989583969116)]

Un peu de visualisation. On va réduire les vecteurs de dimension n à 2 dimensions pour pouvoir les afficher sur un graphique. La réduction des dimensions est effectuée à l'aide d'une transformation PCA (Principal Component Analysis).

In [82]:
%matplotlib notebook
import matplotlib.pyplot as plt
plt.style.use('ggplot')
import numpy as np
from sklearn.decomposition import PCA

def display_words_vectors_pca(model, words):
    word_vectors = np.array([model[w] for w in words])
    pca = PCA(n_components=2)
    twodim = pca.fit_transform(word_vectors)
    
    plt.figure(figsize=(7,7))
    plt.scatter(twodim[:,0], twodim[:,1], edgecolors='k', c='r')
    for word, (x,y) in zip(words, twodim):
        plt.text(x+0.05, y+0.05, word)

In [83]:
words = ['palais', 'église', 'cathédrale', 'monastère', 'route', 'train', 'bateau', 'calèche', 'voiture', 'armée', 'soldat', 'bataille']
display_words_vectors_pca(model_hugo, words)

  


<IPython.core.display.Javascript object>

Sans surprise un modèle appris sur des données plus volumineuses donne de meilleurs résultats.

In [84]:
words = ['palais', 'église', 'cathédrale', 'monastère', 'route', 'train', 'bateau', 'calèche', 'voiture', 'armée', 'soldat', 'bataille']
display_words_vectors_pca(model_frwac, words)

<IPython.core.display.Javascript object>

## 3.3 Word embedding et Spacy

Il faut commencer par charger un modèle qui ne soit pas *small* (*sm*) soit pour le français `fr_core_news_md`

Ces modèles embarquent des vecteurs de mots de type Word2Vec. Vous pouvez accèder au vecteur directement (attribut `vector`) mais aussi comparer deux tokens entre eux avec la fonction `similarity`.  

Comme d'habitude, lisez la documentation [https://spacy.io/usage/vectors-similarity](https://spacy.io/usage/vectors-similarity).

In [85]:
import spacy
nlp = spacy.load('fr_core_news_md')

In [86]:
doc = nlp("Les cookies au chocolat c'est bon. Mais ceux au beurre de cacahuète aussi.")
choco = doc[3]
cookies = doc[1]
cacahuete = doc[-3]
choco.vector

array([ 0.573179,  0.647716, -0.046762, -1.184312, -0.275935, -0.176104,
        0.107441,  0.195474, -1.009099,  0.323523,  2.0313  ,  1.091068,
       -0.26109 ,  0.30977 , -0.014187, -1.821757, -0.818317, -0.993812,
        0.020769,  0.170949, -0.93623 ,  1.173354, -2.106181, -0.198801,
        0.905465, -0.823889,  0.550776,  0.380957,  0.378649,  1.316325,
       -0.072364, -1.338734, -0.079798, -1.222139, -0.102947,  1.121087,
        0.125242, -0.258461, -1.260003,  0.494918, -0.35226 ,  0.279017,
        1.435108,  0.443908, -1.804915,  0.607097, -0.536566, -0.696201,
       -0.347966,  0.491173,  0.661563,  0.68289 , -0.404384, -0.610629,
       -0.599257,  0.226851, -0.403323, -0.512162,  0.533851,  0.576841,
       -1.00548 , -0.353813, -0.577851,  0.016954, -0.557716, -0.462139,
        1.110167, -1.157539, -0.843293, -0.347472,  1.007726, -1.086576,
       -0.638684, -0.350564,  1.352251,  0.460959, -0.480024, -0.42883 ,
        0.224555, -0.191313,  0.410448,  1.161961, 

In [87]:
print(choco.similarity(cookies))
print(choco.similarity(cacahuete))

0.34765655
0.77195853


`similarity` est aussi disponible pour les `span` et les `doc`. Dans ce cas spacy calcule la moyenne des vecteurs des tokens contenus dans ces objets. Ça fonctionne à peu près pour des phrases courtes mais il ne faut pas s'attendre à des bons résultats pour des phrases longues. Il existe d'autres techniques pour ça.

In [88]:
doc1 = nlp("J'aime la musique classique.")
doc2 = nlp("J'apprécie le piano et la musique de chambre.")
print(doc1.similarity(doc2))

0.8519725008408219


In [89]:
doc3 = nlp("Je ne nage pas le papillon.")
print(doc1.similarity(doc3))

0.5245379762363908


Spacy permet aussi d'importer des modèles existants au format gensim, fastext ou Word2Vec : https://spacy.io/api/cli#init-vectors

Pour aller plus loin.

Spacy a récemment ajouté un package `spacy-transformers` qui permet d'intégrer dans Spacy les modèles dernière génération de type transformer, bert-like (voir [https://spacy.io/universe/project/spacy-transformers](https://spacy.io/universe/project/spacy-transformers) et [https://explosion.ai/blog/spacy-transformers](https://explosion.ai/blog/spacy-transformers)). 

Plus concrètement cela permet de charger dans Spacy les modèles mis à disposition par la société Hugging Face avec [https://github.com/huggingface/transformers](https://github.com/huggingface/transformers). Parmi ces modèles vous trouverez CamemBERT et FlauBERT, les deux Bert du français.

Je ne mets pas d'exemple ici pour ne pas plomber vos machines. Les modèles type Bert réclament des ressources importantes. Utilisez plutôt les démos disponibles pour vous faire une idée. 