GREENDAYS 2024 – FLOC : Un Système de Mesure Énergétique pour les infrastructures d’analyse de Big Data
27 Mars 2024, Toulouse, France
Présentation de la conférence
En 2024, la problématique d’un numérique plus sobre recouvre différentes facettes et de nombreux scientifiques adressent ces sujets dans leurs communautés respectives. Il est temps de se rencontrer et de mettre en commun nos forces de recherche pour amplifier les impacts des travaux et réduire les impacts énergétiques et environnementaux du numérique.
C’est la question que les académiques et industriels réunis lors des Greendays@Toulouse2024 ont abordé par l’intermédiaire d’exposés invités et de propositions soumises.
Résumé de la présentation
La présentation introduit FLOC, un système de mesure énergétique, développé dans le cadre d’une chaire industrielle focalisée sur l’analyse de données pour le bien vivre et bien vieillir. Ce domaine nécessite la collecte de masses de données (plusieurs téraoctets) issues de sources très hétérogènes (PDF, Excel, photos, JSON), stockées dans des Data Lakes pour conserver leur format naturel.
Le défi est que la gestion de ces données massives va à l’encontre de l’écoresponsabilité, car les solutions de Data Lake existantes ne se sont intéressées qu’à l’efficacité (vitesse), délaissant le coût énergétique. L’hypothèse était que la consommation énergétique des Data Lakes ne se concentre pas uniquement sur le CPU, mais aussi massivement sur le disque, le réseau et la RAM.
Face à l’absence d’outils de mesure adéquats, l’outil Flox a été créé pour quantifier la consommation du CPU, de la RAM, du disque et des cartes réseau lors de l’ingestion, du stockage et de l’analyse des données. Les tests ont été effectués en appliquant le benchmark DL Bench plus (utilisant le Data Lake Audal, référence mondiale) sur huit opérations.
Les résultats ont été surprenants : l’analyse et l’extraction des métadonnées consomment plus d’énergie que l’ingestion de données brutes. De plus, lors du traitement, la consommation du CPU est souvent minoritaire (à peine 50% pour les métadonnées) par rapport aux autres périphériques (disque dur, RAM, réseau), un aspect souvent ignoré. Enfin, l’utilisation de plusieurs cœurs n’est pas toujours bénéfique en termes de temps de traitement, car la distribution des données sur des caches non partagés peut augmenter la consommation. Flox, désormais open source, permet d’analyser ces consommations pour focaliser les efforts d’optimisation sur les processus les plus énergivores.

