Linguistic concepts: Linguistics = study of language Word = term Word forms = all the form a word can take (singulier, pluriel, masculin, congugué…) Lemmatization = Identification et groupement des différentes formes d’un mot. Ambiguity => meaning of a word is not clear Synonymes: mots différentes mais même sens Homonymes: mot identique mais sens différent Homographes: Mots avec la même écriture mais des sens différents: Difficile à trouver par un moteur de recherche. Homophone: même prononciation mais sens différent (pas de problème pour l’écrit) Homonyme: même prononciation et même écriture mais sens différent N-gram : Sequence of word with joint meaning Bigram => requin tigre Trigram => départment of physics Nested term => chacun des mots qui compose un Ngram - requin tigre forme un Bigram: les deux mots ont chacun un sens séparé (ce sont des nested terms) mais requin tigre a un sens propre Co-occurence: fréquence à laquelle deux termes apparaissent côte à côt
- Obtenir le lien
- X
- Autres applications