Résolution d’Entités pour les Flux de Données (IA)
Contexte
Dans le contexte du Big Data, la Résolution d’Entités (ER), également appelée couplage d’enregistrements ou alignement de données, est un processus essentiel. Son objectif est de déterminer si deux descriptions différentes renvoient à la même entité du monde réel lorsqu’il n’existe pas d’identifiant unique commun entre les sources.
Ce travail s’inscrit dans la nécessité d’intégrer efficacement les flux de données (ou streaming data), qui sont continus et en temps réel, avec les données historiques stockées (comme un dataset local ou des enregistrements antérieurs). Cette intégration est cruciale pour l’analyse décisionnelle afin d’obtenir une vue globale et d’améliorer l’efficacité des systèmes de traitement des flux.
Cet axe constitue le Verrou 3 du projet scientifique de la Chaire, axé sur l’Analyse éco-responsable de données temps réel.
Le Défi du Streaming et de l’Intelligence Artificielle
Le principal défi posé par les flux de données est leur nature illimitée (unbounded), qui exige un cadre dynamique capable d’exécuter l’ER de manière incrémentale. Les approches traditionnelles, souvent basées sur le traitement par lots (batch), ou sur des règles complexes, ne sont pas adaptées à cette dynamique, surtout lorsqu’il s’agit de gérer des données textuelles non structurées et de grande dimension.
De plus, l’augmentation massive des volumes de données et de leurs traitements soulève un second défi majeur : la consommation énergétique significative des ressources informatiques.
Notre Approche : L’Embedding Dynamique de Graphes
Pour répondre à ces problématiques, nous adaptons les techniques d’Embedding (ou plongement), une méthode d’Intelligence Artificielle qui projette les données de haute dimension (comme le texte) dans un espace vectoriel de faible dimension, capturant ainsi efficacement les relations sémantiques et syntaxiques.
La contribution centrale de cette recherche est un modèle d’embedding dynamique de graphes.
Ce modèle est adapté au traitement des données en temps réel et permet d’effectuer la résolution d’entités au sein de tables relationnelles en suivant un processus incrémental :
1. Construction et Mise à Jour Incrémentale : Lorsque de nouvelles données arrivent, le modèle met à jour de manière incrémentale le graphe et ses embeddings.
2. Éviter le Réentraînement : L’approche évite l’entraînement répétitif du modèle à partir de zéro, ce qui réduit considérablement les coûts de calcul.
3. Analyse de Similarité : Le processus implique l’ajout de nœuds pour les nouveaux enregistrements et la génération de « parcours aléatoires évolutifs » pour quantifier la similarité avec les entités existantes.
Performance et Frugalité Énergétique
L’objectif de ce travail est également d’évaluer la méthode proposée en termes de performance et d’efficacité énergétique.
• Mesure de la Consommation : Des travaux sont menés pour mesurer la consommation énergétique (en watts et en joules) générée par ce processus d’ER. L’outil EcoFloc est utilisé pour quantifier la consommation d’énergie des processus en fonction de la charge générée sur les principaux composants (CPU, RAM, etc.).
• Résultats : Les expérimentations montrent que la taille des incréments de données ajoutées influence à la fois les performances de l’ER (le taux de rappel peut atteindre 81.8% dans certains tests) et la consommation d’énergie.
• Objectif Durable : L’analyse des résultats permet de déterminer un équilibre optimal entre l’efficacité du modèle et la consommation d’énergie, afin de développer une approche plus durable et éco-responsable.
