
Les Margos étaient présents sur le salon Big Data organisé les 12 et 13 mars derniers à Paris. Découvrez notre compte-rendu de la conférence BNP Paribas Retail Banking où Laurent Lim et Kamel Gadouche ont présenté un retour d’expérience, en toute transparence, sur la mise en place d’un datalab CASD et la réalisation d’algorithmes de machine learning sur des données bancaires. Contrainte forte : assurer la sécurité, l’anonymisation et la conformité au GDPR dans le traitement de milliards de transactions ultra sensibles.
Le premier point abordé par Laurent Lim, Responsable adjoint du service « Études et Management de la Connaissance Client » de la Banque de Détail en France BNP PARIBAS, s’articule autour de la problématique d’optimisation de la gestion des clients débiteurs. C’est en toute transparence, qu’il a expliqué que, pour résoudre ce problème, le premier modèle mis en place a été la régression logistique qui est un modèle de base utilisé pour résoudre des problèmes de classification. Le modèle est bien adapté sur l’historique de base qui est un historique considéré comme “court” (1 mois de données) mais le modèle est aussi appliqué sur des données classiques.
Il a également mentionné que l’équipe de Data scientists a procédé aux tests d’autres modèles tels que Random Forest où une amélioration a pu être observée. C’est probablement dû à la faculté de ces modèles d’intégrer un historique “long” (3 mois) mais également d’intégrer d’autres sources de données (sujet non abordé dans le cadre de la conférence).
Des modèles de Deep Learning ont été testés, cependant les résultats obtenus n’étaient pas meilleurs que les performances des modèles précédents et ceci malgré leur coût de construction important.
Une chose très importante sur laquelle Laurent Lim a insisté est le fait qu’habituellement en Banque, le modèle le plus efficace en termes de performance ou de précision n’est pas toujours celui qui est retenu. En effet la qualité la plus recherchée est l’explication et la compréhension des résultats obtenus par ces modèles ou plus généralement des solutions développées.
Les modèles tels que le Deep Learning ont encore un long chemin à parcourir avant d’être intégrés en Banque, et ce malgré la qualité des performances obtenues sur certains problèmes. La raison à cela est tout simplement que des modèles tels que la régression logistique, qui sont des modèles simples d’implémentation et d’exploitation, donnent des résultats nettement acceptables mais surtout avec un niveau de compréhension que les modèles de Deep Learning n’ont pas encore atteint aujourd’hui.
La seconde intervention durant cette conférence est celle de Kamel Gadouche, directeur du CASD-Centre d’accès sécurisé aux données. En effet, BNP a collaboré avec le CASD durant ce projet. Le rôle du CASD a été de mettre en place un écosystème Big Data permettant aux Data Scientists de travailler de façon sécurisée sur des données sensibles. Le CASD propose une solution de sécurisation des données entre des entreprises et des entités proposant des services Data Science ou Big Data. Cela facilite donc la confiance entre les différentes parties participantes au projet notamment sur la confidentialité des données. Le CASD a actuellement plus de 1500 data scientist travaillant sur leur plateforme.