LE COIN DU NLP
« Natural Language Processing » en Anglais ou « Analyse sémantique en langage naturel » en Français

Le traitement du langage naturel est une discipline de l’intelligence artificielle. Elle recouvre la compréhension et la génération de parole, ‘telles que le ferait un humain’ dans la perspective d’un usage particulier: la traduction automatique, la reconnaissance de la parole, la génération de chatbots, l’identification des sentiments, ou le classement de textes qui est le sujet d’application de talk4.

Chacune de ces applications fait appel à des techniques algorithmiques différentes, néanmoins voilà quelques notions de base pertinentes pour toutes:

Tokenisation et normalisation:

Ce sont 2 étapes préalables au traitement d’un texte ou d’une phrase. La ‘Tokenization’ consiste à découper un texte en composants plus petits: un texte est découpé en phrase , une phrase est découpée en mots pour pouvoir mieux les traiter ensuite.

La normalisation consiste à expurger d’une phrase les erreurs, la ponctuation, les abréviations, les chiffres, etc.. pour pouvoir ensuite lui appliquer une modélisation numérique.

Lors de ces étapes de prétraitement des textes, on exclut également les ‘stop-words’ par exemple les articles qui n’apporte rien à la logique de la phrase.

Stemming ou Lemmatization:

Ces 2 techniques consistent à trouver la racine d’un mot. Le stemming se contente d’éliminer les préfixes, suffixes, formes conjuguées etc, là où la lemmatization va s’attacher à retrouver la racine du mot à partir d’une forme dérivée (mieux vs bien).

Corpus:

Un ensemble de textes qui va être utilisé pour les apprentissages ou les tests. Un corpus peut être thématique ou significatif d’un sous ensemble linguistique sur lequel on va faire un apprentissage.

Modélisation du langage : formelle ou numérique

Il s’agit de représenter un mot ou une phrase par une ‘valeur’ numérique, de façon à ensuite pouvoir effectuer ensuite des traitements mathématiques ou statistiques qui vont générer les résultats attendus. Plusieurs types de modélisation ont été explorés par les chercheurs en NLP selon les types applications. Pour simplifier, il existe 2 grandes écoles:

  • la modélisation des relations entre les mots et leur représentation de façon formelle sous forme de graphes.
  • la modélisation de caractères, mots ou textes sous forme de vecteurs et de matrices à plusieurs dimensions

Machine learning:

C’est un programme d’intelligence artificielle basé sur des techniques d’optimisation numérique, qui ayant identifié un ‘pattern’ à partir de l’analyse de données faite lors d’un apprentissage, va pouvoir l’appliquer à de nouvelles données de même nature, mais jamais rencontrées.

Apprentissage supervisé, non supervisé :

Méthodes d’apprentissage automatique utilisées pour la mise au point de programmes de Machine learning. L’apprentissage est dit supervisé quand il s’applique sur un ensemble de données sélectionnées parce qu’elles sont caractéristiques de ce que l’on cherche à reproduire. Il est non supervisé lorsque l’apprentissage se fait sur des données que l’on ne connait pas a priori.

Contactez-nous

2018-08-24T15:47:35+00:00