Linguistic concepts:
Linguistics = study of language
Word = term
Word forms = all the form a word can take (singulier, pluriel, masculin, congugué…)
Lemmatization = Identification et groupement des différentes formes d’un mot.
Ambiguity => meaning of a word is not clear
Synonymes: mots différentes mais même sens
Homonymes: mot identique mais sens différent
Homographes:
Mots avec la même écriture mais des sens différents:
Difficile à trouver par un moteur de recherche.
Homophone: même prononciation mais sens différent (pas de problème pour l’écrit)
Homonyme: même prononciation et même écriture mais sens différent
N-gram : Sequence of word with joint meaning
Bigram => requin tigre
Trigram => départment of physics
Nested term => chacun des mots qui compose un Ngram
- requin tigre forme un Bigram: les deux mots ont chacun un sens séparé (ce sont des nested terms) mais requin tigre a un sens propre
Co-occurence: fréquence à laquelle deux termes apparaissent côte à côte dans un texte, par rapport à la fréquence à laquelle ils apparaissent seul.
L’analyse des co-occurrence est une technique NLP qui peut être utilisée pour identifier des N-Grams, par exemple des noms de lieux.
Text Corpus: collection de textes sur un thème particulier
Corpus analysis: analyse d’un corpus pour identifier des N-grams à partir des co-occurrences qui apparaissent dans un grand nombre de textes. Ou pour identifier les termes importants.
Stop words:
Don’t carry meaning on their own
Are frequent
Appear between words
> Can be useful to detect Ngram in between stop words or punctuation with NLP
2. Technique de désambiguïsation:
Local context: contexte de la phrase, ou du texte dans lequel se trouve le mot
Global context: Shared knowledge about a word, taxonomie ou se trouve le mot en question
Knowledge model, taxonomy
Domain specific concepts
Relationship btw concepts
We can use NLP to compare the word between information on its local context and our knowledge model or global context.
3) Semantic web architecture
Semantic layers can help bring value to separated data
Ontologies:
Describe specific relations between things:
RDF: resource description framework
Triple data structure: Subject -predicate -object
URI
Standard ontologies: RDFS, SKOS, OWL…
RDF serialization formats (turtle, jsonld… way to list connections between things to be able to manage it in a standard way)
SPARQLstandard query language for RDF triple stores.
Commentaires
Enregistrer un commentaire
Tell me what you think