INFORSID 2025 – Résolution d’entités pour les flux de données à l’aide de la technique d’embeddings

3-6 Juin 2025, Pau, France

Présentation de la conférence

Depuis 1982, le congrès annuel INFORSID (INFormatique des ORganisations et Systèmes d’Information et de Décision) constitue le lieu d’échange privilégié entre chercheurs et praticiens pour identifier et explorer les problématiques, les opportunités et les solutions que les SI apportent ou absorbent.

Résumé de la présentation

Cette présentation est centrée sur la Résolution d’Entités (ER) pour les flux de données, une technique essentielle visant à trouver différentes descriptions se rapportant à la même entité dans le monde réel lorsqu’il n’existe pas d’identifiant unique. La résolution d’entités dans les flux est nécessaire en raison de la continuité et de la multi-source des données générées en temps réel (comme l’IoT ou les plateformes en ligne). Contrairement aux approches traditionnelles qui supposent l’accès à deux jeux de données complets, la résolution d’entités incrémentale s’adapte aux données arrivant progressivement. La proposition principale utilise la technique des embeddings (représentations vectorielles) pour projeter les données textuelles dans un espace vectoriel, ce qui est compatible avec l’entraînement incrémental. Le processus vise à s’adapter aux environnements de flux et à maintenir dynamiquement les résultats de matching au fil du temps. Le pipeline proposé se compose d’un pré-entraînement et d’un entraînement incrémental. Ses étapes comprennent l’indexation, la construction d’un graphe, la construction des embeddings (en utilisant des marches aléatoires pour capturer les relations) et le calcul de similarité. Une étape cruciale est la maintenance de la liste de similarité, qui conserve dynamiquement les identifiants des k matches les plus similaires et leurs scores. L’expérimentation mesure l’efficacité (Précision, Rappel, F1 score) et l’efficience (temps d’exécution, consommation énergétique). Les analyses montrent un compromis à réaliser entre l’efficacité et l’efficience, notant par exemple que mettre à jour trop fréquemment le modèle ou entraîner de petites quantités de données à plusieurs reprises augmente la consommation.