Interview d’Albert Georgel CEO et CTO de talk4, concepteur du COBOT talk4

 

Albert, vous êtes un spécialiste des réseaux neuronaux, vous avez fait votre thèse sur le sujet du classement non supervisé de publications scientifiques, quelles sont les particularités techniques du problème auquel le Cobot de talk4 apporte une solution?

Classer en quelques minutes, les réponses faites en langage naturel à des questions ouvertes dans le cadre d’une discussion, est une application qui pose 2 problèmes techniques majeurs:

  • L’entraînement que l’on peut anticiper pour le moteur de Machine Learning, ne concerne que la connaissance du langage (langue et vocabulaire spécifique lié à un métier par exemple), ce qui est déjà un sujet complexe.
    Pour autant cet entraînement ne suffit pas pour apporter le niveau de performance attendue pour le classement de verbatims qui se conçoivent dans un contexte spécifique. Il faut donc ajouter à cet entraînement préalable, un apprentissage supplémentaire: celui de la grille de lecture du pilote dans le contexte précis du talk traité. Cet apprentissage ne peut se faire qu’au fil de l’intégration des données, c’est du Machine learning ‘dynamique’.
    Une complexité supplémentaire vient du fait que la suite des verbatims collectés n’est pas un processus aléatoire, les premieres réponses révélant la pensée commune, les suivants étant plus personnels et spécifiques.
  • Le fait de vouloir restituer le classement en quelques minutes quand on est en ‘live’ ajoute une exigence forte de rapidité de traitement.

Ces 2 contraintes conjuguées se traduisent en un enjeu spécifique d’optimisation du modèle de représentation des verbatims, ainsi que dans une exigence de performance sur la chaine de traitement qui va calculer les distances mathématiques entre ces données et donc l’indice de confiance permettant de les classer ou pas dans le même groupe.

Le sujet de l’analyse sémantique en langage naturel semble connaitre un regain d’intérêt récemment et une accélération dans la qualité des résultats obtenus, pourquoi?

L’analyse sémantique de langage naturel est effectivement un domaine ancien de la recherche algorithmique. C’est un sujet qui bénéficie aujourd’hui d’abord de l’accélération des recherches et des développements sur l’Intelligence artificielle, mais des travaux publiés ces dernières années, sur de nouvelles avancées dans la modélisation vectorielle des mots ont ouvert de nouvelles perspectives. Le dynamisme de l’open innovation et la structuration qu’apporte des repository comme Github permettent en outre de partager plus vite les avancées des uns et des autres et de disposer d’outils déjà développés.

Les travaux de recherche et de développement de talk4 utilisent largement des publications et développements disponibles en open innovation. Du coup qu’est ce qui est difficile et comment talk4 peut il faire la différence?

D’abord, il faut pouvoir repérer dans le foisonnement actuel de publications disponibles, celles qui peuvent contribuer à votre problématique propre.
Ensuite, passer d’une théorie démontrée ou d’un prototype testé, à une vraie chaine de production capable d’être stable dans ses résultats et ses performances, dans un environnement réel, est un énorme challenge. Cela suppose d’optimiser à la fois chacune des étapes de la chaine algorithmique et leur assemblage, d’un point de vue mathématique, mais aussi informatique.
C’est çà le rôle aujourd’hui d’une équipe de R&D comme celle de talk4.

L’analyse sémantique du langage naturel est un domaine technique qui nécessite des expertises en linguistique, en mathématiques et en développement informatique. Comment crée t on des équipes compétentes dans ce domaine de l’intelligence artificielle?

Effectivement, dans une équipe de recherche et développement en NLP, il faut des compétences linguistiques qui seront critiques pour les phases de prétraitement des données où l’on va s’attacher à créer une représentation simplifiée des mots et des phrases.

Il faut ensuite des compétences mathématiques pour les phases de calcul vectoriel et statistique.
Il faut enfin, être capable de traduire tout ceci dans un code performant, ce qui est d’autant plus critique chez talk4 puisque le COBOT doit restituer un classement en quelques minutes.

La seule solution est donc de créer une équipe pluridisciplinaire, curieuse d’apprendre hors de son champ strict d’expertise, et de se contraindre à beaucoup de rigueur dans le processus de développement et d’évaluation des résultats obtenus.

Aujourd’hui tout le monde parle d’intelligence artificielle, beaucoup disent en faire, quel est votre point de vue sur cette situation?

On l’a dit précédemment, il y a aujourd’hui de nombreuses recherches et algorithmes déjà développés qui sont disponibles sur internet et les outils qui les accompagnent. Certains peuvent croire qu’il suffit de les utiliser pour produire une application avec de l’intelligence artificielle.

Or pour passer à un code stable en conditions d’exploitation intensive, et ‘scalable’ en terme de volumes et performances, il faut maitriser la logique de ces prototypes pour pouvoir en optimiser l’application. Très peu possèdent les connaissances et l’expérience pour le faire.

Il y a aussi tous ceux qui disent qu’ils font de l’intelligence artificielle alors qu’ils se contentent d’une algorithmique à base de règles.

Or, les non spécialistes ont bien du mal à faire la différence entre tout ceci.
Du coup, les généralisations et les mises en production sont bien souvent déceptives.
Le risque est que l’on génère ainsi beaucoup de méfiance et que des équipes sérieuses comme celle de talk4 aient du mal à se faire entendre.

Contactez-nous

2018-09-19T16:39:00+00:00