Semantic web, linguistics and NLP (Learning Notes)


  1. Linguistic concepts: 


Linguistics = study of language

Word = term

Word forms = all the form a word can take (singulier, pluriel, masculin, congugué…)

Lemmatization = Identification et groupement des différentes formes d’un mot.


Ambiguity => meaning of a word is not clear


Synonymes: mots différentes mais même sens

Homonymes: mot identique mais sens différent

Homographes: 

    Mots avec la même écriture mais des sens différents:

    Difficile à trouver par un moteur de recherche.


Homophone: même prononciation mais sens différent (pas de problème pour l’écrit)

Homonyme: même prononciation et même écriture mais sens différent

N-gram : Sequence of word with joint meaning


Bigram => requin tigre

Trigram => départment of physics

Nested term => chacun des mots qui compose un Ngram


 - requin tigre forme un Bigram: les deux mots ont chacun un sens séparé (ce sont des nested terms) mais requin tigre a un sens propre



Co-occurence: fréquence à laquelle deux termes apparaissent côte à côte dans un texte, par rapport à la fréquence à laquelle ils apparaissent seul.


L’analyse des co-occurrence est une technique NLP qui peut être utilisée pour identifier des N-Grams, par exemple des noms de lieux.


Text Corpus: collection de textes sur un thème particulier


Corpus analysis: analyse d’un corpus pour identifier des N-grams à partir des co-occurrences qui apparaissent dans un grand nombre de textes. Ou pour identifier les termes importants.



Stop words:

  • Don’t carry meaning on their own

  • Are frequent

  • Appear between words

     

> Can be useful to detect Ngram in between stop words or punctuation with NLP

   

 2. Technique de désambiguïsation:

Local context: contexte de la phrase, ou du texte dans lequel se trouve le mot


Global context: Shared knowledge about a word, taxonomie ou se trouve le mot en question


Knowledge model, taxonomy 

Domain specific concepts

Relationship btw concepts


We can use NLP to compare the word between information on its local context and our knowledge model or global context.

 

       3) Semantic web architecture

Semantic layers can help bring value to separated data



 

Ontologies:


Describe specific relations between things:


RDF: resource description framework

Triple data structure: Subject -predicate -object

URI

Standard ontologies: RDFS, SKOS, OWL…

RDF serialization formats (turtle, jsonld… way to list connections between things to be able to manage it in a standard way)

SPARQLstandard query language for RDF triple stores.

 

Commentaires