Corpus — 7
clement.plancq@ens.psl.eu
« Lavez et séchez la margose. Coupez-la en deux et retirez les graines et la chair cotonneuse dans laquelle elles se trouvent à l’aide d’une cuillère à café. »
« Couper les margoses en 2 dans le sens de la longueur. Enlever les graines et les parties blanches. Couper les margoses en julienne et les laisser temper dans de l’eau vinaigrée et salée. »
« Le fruit, la margose, est préparée cuite en carry, crue en rougail et dans des salades pimentées. »
« La margose, melon amer ou momordique, est une plante potagère grimpante de la famille des Cucurbitaceae, cultivée dans les climats chauds ou tempérés en plante annuelle. Le terme margose désigne la plante et le fruit. » wikipedia
« You shall know a word by the company it keeps »
Firth, J. R. 1957
Sur les têtes des statues, alternaient des couronnes de chêne et de laurier.
Sur la table du président il y avait une grosse sonnette, presque une cloche, un large encrier de cuivre, […]
Des têtes coupées, portées au bout d’une pique, se sont égouttées sur cette table.
alternaient | avait | bout | coupées | couronnes | égouttées | sont | table | … | |
---|---|---|---|---|---|---|---|---|---|
statues | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | |
têtes | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | |
président | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
Avec CBOW le modèle prédit le mot courant à partir des mots du contexte, l’ordre des mots n’influence pas la prédiction
source : https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/
### word2vec
Avec Skip-gram le modèle utilise le mot courant pour prédire les mots du contexte. Ici l’ordre des mots a un impact.
source : https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/
Les paramètres utilisés pour l’entraînement sont déterminants .
subsampling Seuil de fréquence maximale au-dessus duquel les mots sont sous-échantillonés
dimension des vecteurs
taille de la fenêtre du contexte (5 à 10 mots en général)