Atelier NPL&Graph

Le 8 Décembre 2020

LumenAI, a organisé un atelier en visio-conférence sur la journée du 8 décembre autour de la thématique NPL&Graph.

Concrètement, plusieurs chercheurs ont été invités à présenter leurs travaux dans ce domaine. Pour l’occasion, nous avons pu leur montrer notre DataLab, envisager des collaborations et présenter la R&D de LumenAI avec notre nouveau directeur scientifique Baptiste Gregorutti.

Synopsis

L’analyse de réseaux et de graphes permet une modélisation des relations entre les différentes variables d’un phénomène. La compréhension du texte permet d’extraire une réponse aux questions “Qui?”, “Quand?”, “Où?”, “Comment?” et “Pourquoi?” qui permettent de caractériser un événement. La complémentarité de ces deux domaines est la voie royale pour des applications comme l’e-reputation, la recommandation d’articles issues de collections multimédias, l’analyse de réseaux sociaux et la cybersécurité, et est un des centres d’intérêt principaux de LumenAI.

Au programme du workshop:

Intervenants
Paul Gay
Rémi Bois
Pierre Latouche
Edouard Oyallon
Nicolas Dugué

Sujets
Graphes et NLP (Natural Language Processing)
Construction de liens entre informations pour l’exploration d’actualités
Algorithmes statistiques pour analyser des graphes de communication
Fondement théorique en deep learning: nouvel outil mathématique, l’IGT
Graphes et NLP(Natural Language Processing)

Minibio des intervenants et résumé de leur intervention:

Paul Gay

Minibio:
Paul est ingénieur en machine learning à LumenAI depuis deux ans. Auparavant, il a passé une thèse dans le domaine de l’indexation multimédia à l’université du Maine et ensuite travaillé à l’Istituto Italiano di Tecnologia sur des sujets de vision par ordinateur et de reconstruction 3D. Le fil rouge de ces différents travaux est l’utilisation de modèles graphiques, probabilistes ou basés sur les techniques d’apprentissage.

Résumé de la présentation ( 9-10h):
Dans cette présentation, je parlerai des algorithmes que les équipes de LumenAI ont développé pour l’analyse de communautés dans des graphes dynamiques. Ces algorithmes sont parallélisables, et gérent nativement l’ajout et la suppression de noeuds à haute fréquence. La construction de statistiques à partir de ces analyses nous permet de détecter des anomalies, et d’analyser des tendances dans les domaines de la cybersécurité et de l’analyse des réseaux sociaux. Je détaillerai ensuite les développements actuels ayant pour but l’inclusion de modèles de réseaux neuronaux graphiques afin de développer les capacités prédictives de notre librairie.

Pierre Latouche

Minibio:
Pierre Latouche est professeur de statistiques et de machine learning a l’université de Paris descartes et à l’école polytechnique. Ses recherches portent sur les données structurées en réseau et sur des problèmes d’inférence en grandes dimensions.

Résumé de la présentation (10-11h):
L’intérêt grandissant pour l’analyse de données vient non seulement de leur omniprésence dans ce monde moderne digitalisé mais aussi des développement récents en traitement et modélisation de données. en particulier, le clustering peut être utilisé pour découvrir des groupes dans les réseaux. Parmi ces approches, on peut nommer les algorithmes statistiques permettent de segmenter ces données sur la base de modèles sous-jacents qui facilitent leur interprétation. Même si ce domaine de recherche a reçu une attention conséquente dans le milieu académique, l’intérêt pour l’analyse conjointe des contenus textuels et des réseaux a été assez limitée alors que les réseaux sociaux entrent justement dans ce cadre. La méthode implémentée dans le logiciel « Linkage » tente de combler ce manque en rendant possible l’analyse simultanée de textes au sein d’un réseau.

Edouard Oyallon

Minibio:
Edouard Oyallon est actuellement chercheur au CNRS dans l’équipe MLIA au sein du laboratoire LIP6. Avant cela, il a été ATER à CenraleSupélec de 2018 à 2019. Il a soutenu sa thèse de l’école Normale Supérieure en automne 2017. Son domaine d’expertise est le deep learning appliqué au traitement statistique du signal. Il s’intéresse plus particulièrement à l’approche théorique pour la construction de descripteurs destinés aux modèles d’apprentissage.

Résumé de la présentation (11h15-12h15):
Dans cette présentation, nous aborderons plusieurs résultats théoriques récents à propos des graphes. En particulier, nous parlerons de la transformée interférométrique d’un graphe (IGT) qui est une nouvelle catégorie de réseau de neurone profond pour l’apprentissage non supervisé à partir de graphes. L’IGT généralise la transformée de Fourier euclidienne et la représentation qu’elle fournit du graphe met en avant des descripteurs à la fois discriminants et invariants. L’IGT repose sur l’optimisation d’une nouvelle fonction objectif. Nos simulations nous permettent de dire que cette procédure d’apprentissage exploite l’information topologique du domaine spectral contrairement aux autres méthodes spectrales usuelles. En particulier, notre méthode peut reconstituer un opérateur de tâche de vision par ordinateur. Enfin, nous évoquerons aussi différentes applications comme la classification d’image, la détection de communautés et la reconnaissance d’action, révélant du même coup un nouvel état de l’art.

Rémi Bois

Minibio:
Après une thèse portant sur la construction d’interfaces innovantes pour parcourir l’actualité, j’ai rejoint en 2017 le groupe Ouest France comme Data Scientist B2B. J’ai décidé de rejoindre en 2019 la R&D du groupe Jouve en tant qu’Ingénieur en Recherche et Développement Senior pour y travailler sur des thématiques NLP et Data. J’y suis aujourd’hui responsable du Pôle Data.

Résumé de la présentation (14-15h):
La consultation efficace d’actualités est un enjeu majeur rendu complexe par la variété et le volume d’informations produites chaque jour. La construction de graphes permettant l’exploration éclairée de collections d’actualités est une réponse possible à cette problématique. Nous présentons ici une méthode efficace pour construire de tels graphes, ainsi qu’une analyse comparative de ses performances et avantages comparés aux moteurs de recherche classiques.

Nicolas Dugué

Minibio:
J’ai débuté mes travaux de recherche avec une thèse au Lifo sur l’analyse de données issues de Twitter, avec des problématiques autour de la popularité des utilisateurs, leur position dans le réseau et la découverte des communautés. J’ai ensuite rejoint le Loria en post-doc où je me suis intéressé au clustering de documents textuels dans un contexte diachronique, afin de discuter de l’évolution des domaines scientifiques dans le temps. Maintenant maître de conférences au LIUM, je travaille sur la fouille de corpus textuels ou issus de la parole transcrite. Récemment, je m’intéresse notamment à la problématique de construire des plongements (embeddings) interprétables en prenant la détection de communautés comme outil de réduction de dimensions.

Résumé de la présentation ’15-16h):
Après avoir décrit l’intuition des modèles de plongements lexicaux et leur formalisme, nous nous emploierons à discuter des questions de recherche qui émergent pour leur exploitation. Ainsi nous évoquerons le cadre de l’évolution de la langue et de la détection de néologismes via les modèles temporels. Nous aborderons également les biais des représentations apprises en utilisant ces modèles : les corpus exploités pour l’apprentissage sont des productions humaines, les plongements en sont le reflet et ils encapsulent donc les stéréotypes existants dans ces corpus. En particulier, nous considérerons le biais de genre, bien étudié dans la littérature. Enfin, nous concluerons cet exposé en discutant des approches existantes pour favoriser l’interprétabilité de ces représentations denses, approches basées paradoxalement sur la sparsification de ces représentations.