Big Data & AI Paris 2024 : IA générative, DataOps & Data Lakehouse
Avec plus de 20 000 participants et 350 conférences et ateliers, le salon Big Data & AI Paris 2024 s’est affirmé comme un événement clé. L’objectif ? Explorer les tendances émergentes et les défis auxquels les entreprises sont confrontées dans la gestion de leurs données et l’adoption de l’IA. Quelles leçons en tirer ? Nicolas Surdel, ingénieur financier chez MARGO, et Mathis Chalumeau, Data Scientist chez MARGO, partagent leurs insights sur les enseignements clés de cet événement.
Les tendances clés en Data et IA en 2024
1. L’essor des IA génératives
Importance de la qualité des données
L’IA générative, qui repose sur des modèles capables de produire du contenu (texte, image, vidéo), fait partie des technologies les plus disruptives de ces dernières années.
L’enjeu majeur, souligné lors du salon Big Data & AI Paris 2024, concerne la préparation des données. La qualité des données reste un facteur clé dans la réussite de ces initiatives. Sans données propres, structurées et pertinentes, les performances des modèles d’IA peuvent être grandement compromises.
Beaucoup d’entreprises, prêtes à intégrer ces technologies dans leurs processus, négligent parfois les risques liés à des données mal préparées.
Emma McGrattan, SVP of Engineering and Product, Actian, et Jennifer Jackson, CMO, Actian, ont partagé leurs recherches et perspectives clients lors de leur conférences “comment préparer ses données aux IA génératives ?” Elles expliquent comment “bien” préparer ses données et comment optimiser le parcours vers l’IA Générative.
Pour les entreprises qui souhaitent se lancer dans cette aventure, il est crucial d’établir des stratégies de gestion de la qualité des données et d’optimisation du parcours vers l’IA Générative. Des données biaisées ou de mauvaise qualité peuvent avoir un impact direct sur les résultats des modèles d’IA, entraînant des biais algorithmiques ou des prédictions erronées. La mise en place de processus de Data Governance, associée à des outils de DataOps (Automatisation des flux de données) permet d’assurer une meilleure qualité et disponibilité des données.
“Ce que j’ai beaucoup apprécié, c’était la mise en avant du décalage entre la vision de la capacité d’action du top management et la réalité des équipes techniques. » soulève Nicolas Surdel.
Une mauvaise compréhension des contraintes techniques peut en effet ralentir ou même compromettre la mise en œuvre des projets IA. Il devient de plus en plus important de former les équipes techniques et de sensibiliser les dirigeants aux exigences techniques et éthiques des IA génératives. Les entreprises doivent non seulement maîtriser les aspects techniques (comme le pré-processing des données et l’optimisation des hyperparamètres), mais aussi comprendre les enjeux liés à la réglementation et à la sécurité des données.
Optimisation des Modèles avec RAG
Pour créer des modèles plus précis sur des cas d’utilisation spécifiques, la technique de RAG (Retrieval-Augmented Generation) se révèle particulièrement efficace. En fournissant des documents spécifiques, comme des données internes, on peut affiner les résultats générés par les modèles de langage.
Prenons l’exemple des Galeries Lafayette, qui ont implémenté un chatbot en interne. Au lieu de se contenter d’utiliser un LLM entraîné sur un vaste ensemble de données, l’entreprise a choisi de fournir, en plus de cet apprentissage, une documentation ciblée sur la FAQ et les retours clients. Cette approche permet de mieux préparer les données en intégrant des informations internes pertinentes, ce qui contribue à l’amélioration des performances du chatbot. Grâce à un accès privilégié à des ressources spécifiques, les modèles de langage peuvent offrir des réponses plus pertinentes et adaptées aux besoins des utilisateurs, garantissant ainsi de meilleurs résultats pour des use cases précis.
Des modèles d’IA peu performants, entraînés avec des données inexactes, incomplètes et de mauvaise qualité, ont causé des pertes équivalentes à 8 % du chiffre d’affaires annuel global des entreprises françaises ? C’est ce que révèle une étude récente de Vanson Bourne et Fivetran. En moyenne, cela représente 722 millions de dollars, basé sur les réponses d’entreprises ayant un chiffre d’affaires annuel moyen de 5,6 milliards de dollars.
2. L’Intelligence Artificielle responsable et éthique
Une IA responsable au cœur des préoccupations réglementaires
L’importance d’une IA responsable et éthique a été un sujet central lors des discussions, en particulier avec l’introduction de l‘AI Act et le cadre réglementaire du RGPD. Les entreprises font face à une pression accrue pour s’assurer que leurs initiatives d’IA respectent les lois en matière de protection des données et d’éthique.
Aldrick Zappellini, Directeur Data Groupe & Chief Data Officer chez Crédit Agricole, Chadi Hantouche, Partner chez Wavestone, et Laurence Hadj, Group Data Protection Director chez Doctolib, ont exploré la question suivante lors du salon Big Data & AI Paris : comment mettre en œuvre les mesures réglementaires européennes, y compris le RGPD et l’AI Act, au sein des organisations ?
La conformité comme levier de compétitivité
« Ces échanges ont montré que les réglementations peuvent être vues comme un terrain de jeu à exploiter » résume Nicolas Surdel, consultant MARGO. Les réglementations ne doivent pas être perçues comme une contrainte, mais comme une opportunité stratégique.
“Bien adapter la stratégie et les technologies utilisées pour répondre aux problématiques Data permet très souvent de réduire les coûts (et par la même occasion de réduire l’empreinte carbonne)- Mathis CHALUMEAU
En effet, se conformer à ces normes permet non seulement de respecter les lois, mais aussi de gagner la confiance des consommateurs et des parties prenantes.
Pour cela, les entreprises doivent instaurer des mécanismes robustes de transparence et de gouvernance afin de garantir que leurs algorithmes soient exempts de biais et que les décisions automatisées restent équitables et non discriminatoires. Elles doivent également anticiper les implications légales et éthiques, notamment dans les secteurs fortement régulés tels que la finance, la santé, et la distribution. Respecter ces régulations devient alors un levier de compétitivité pour les entreprises qui veulent s’inscrire dans une dynamique de croissance responsable et durable.
3. Les pratiques de DataOps : Accélérer la collaboration entre IT et Data
Focus sur le DataOps
Lors de ce salon, les pratiques de DataOps (Data Operations) ont suscité de nombreuses discussions. Elles visent à rapprocher les équipes IT et Data, favorisant une meilleure collaboration et une accélération du déploiement des projets liés aux données. Les entreprises montrent un intérêt croissant pour ces approches, qui permettent d’automatiser la gestion des données tout en garantissant une gouvernance efficace.
Le DataOps a pour objectif de maximiser la valeur des données en réduisant les silos organisationnels, en accélérant les cycles de développement, et en renforçant la fiabilité des analyses. Pour les entreprises désireuses de renforcer leurs capacités en matière de prise de décision basée sur les données, investir dans une infrastructure DataOps pourrait s’avérer essentiel pour accroître leur compétitivité sur le marché.
Exemple de Stellantis : Création d’une Plateforme AIOps à Grande Échelle
L’importance de trouver un équilibre entre l’autonomie des métiers, une gouvernance robuste et une réelle ambition technique pour créer et maintenir une plateforme AIOps à l’échelle est un point crucial. Il a été souligné par Hugo Sechier, Lead AI Engineer chez Stellantis, et Sébastien Clouet, Lead Technical Data Strategy, ainsi que Joan André, Head of Data Science. Avec la multitude de marques au sein du groupe Stellantis, il est impératif de faire converger l’ensemble des équipes sur des outils communs.
Pour tirer parti de cette approche, il est essentiel de dériver des pratiques de DevOps en construisant une infrastructure dédiée au développement et à la mise en œuvre de modèles de machine learning. Cela implique non seulement de codifier les modèles, mais aussi d’assurer leur maintenance.
Approche Axée sur les Métiers
Il est crucial que ces efforts répondent aux besoins métier. Cela nécessite une consultation approfondie des utilisateurs finaux afin de garantir que les outils adoptés soient réellement utilisés et efficaces. L’importance de la documentation des données ne peut être sous-estimée. Des solutions comme CastorDoc ou Collibra sont conçues pour documenter les sources de données, assurer la traçabilité (data lineage) et garantir la fiabilité des architectures et des technologies.
4. Optimisation des Data Lakes Décentralisés
Data Lakehouse, nouvelle approche hybride
Dans le paysage actuel de la gestion des données, les entreprises passent de l’architecture traditionnelle des Data Warehouses à celle des Data Lakes, puis à une approche hybride connue sous le nom de Data Lakehouse, qui combine le meilleur des deux mondes. Cette évolution vise à offrir une plus grande flexibilité et une capacité d’analyse améliorée des données.
Databricks, dont MARGO est partenaire, se positionne comme un acteur clé dans ce domaine, proposant une démo qui illustre comment l’intégration des données et de l’intelligence artificielle peut être unifiée pour maximiser l’efficacité. Dans un marché où la concurrence est intense et où de nombreuses entreprises rivalisent pour proposer des solutions de gestion des données, il est essentiel de savoir identifier les outils qui se démarquent. Par exemple, Databricks se concentre sur les aspects techniques avec sa boîte à outils complète, tandis que Snowflake met l’accent sur l’expérience utilisateur et la simplicité d’utilisation.
Lorsque l’on travaille avec des clients, il est crucial de prendre en compte leurs besoins spécifiques, en se concentrant surtout sur les utilisateurs finaux. Cela implique d’assurer une synergie entre les différents outils et de veiller à leur interopérabilité, tout en étant conscient des risques et des cas d’utilisation qui pourraient survenir.
Organisation et Structuration des Données
Pour libérer le potentiel des données dans un Data Lake, la création d’un Knowledge Graph peut s’avérer bénéfique. Des experts comme Pierre Halftermeyer, Senior Solutions Engineer chez Neo4j, et Nicolas Rouyer, Senior Presales Consultant chez Neo4j, soulignent l’importance de créer des connexions entre les données pour en extraire des informations significatives.
Parmi les technologies émergentes, Apache Iceberg se distingue par son format de table permettant des requêtes plus rapides et le maintien de versions historiques des données. L’utilisation d’Apache Iceberg favorise le requêtage efficace grâce à des techniques de partitionnement, tout en offrant des capacités de time-travel pour le versionning des données. Patrick Cousin, Presales Engineer chez Cloudera, partage également des meilleures pratiques liées à l’Open Data Lakehouse, où le format Iceberg est mis en avant pour optimiser le processus de requêtage en réduisant la quantité de données scannées.
Conclusion
Le salon Big Data & AI Paris 2024 a apporté de nombreux enseignements sur les tendances émergentes et les défis réglementaires en matière de Big Data et d’IA.
Les entreprises devront naviguer dans un environnement en constante évolution tout en s’assurant de la qualité et de l’éthique de leurs données pour rester leader sur ce marché.
Chez MARGO, nous sommes prêts à vous accompagner dans la valorisation de vos données et à en faire un atout stratégique. Découvrez notre offre IA et DATA & Architecture dès aujourd’hui !