CONIX aime les défis !

Challenge AXA

Lorsque AXA a initié, en décembre dernier, son premier défi aux « data scientists » du monde entier sur la plate-forme Kaggle, il n’a pas bien fallu longtemps pour que CONIX constitue une équipe et se lance dans l’aventure. Non pour remporter un prix (que nous aurions néanmoins certainement apprécié !) mais, surtout, pour mieux appréhender ce qu’est un problème d’analyse de données réel et concret, comment l’aborder et le traiter et ce qui différencie, dans ce domaine, les amateurs des professionnels.

Relevons le défi

Deux passionnés, Delphine (notre première « experte » en « data science ») et Patrice (notre aventurier de l’innovation), un peu de temps disponible en soirée et les week-ends, un outil de prédilection (RStudio) et nous voilà partis. Première étape, comprendre le problème qui nous est posé. En l’occurrence, il est très simple. AXA met à notre disposition des relevés de parcours automobiles de plusieurs centaines de conducteurs – sous la forme de coordonnées géographiques enregistrées chaque seconde. Dès lors, notre tâche est de « profiler » chacun d’eux, ou, du moins, leur comportement au volant, de manière à identifier les quelques parcours étrangers qui ont été introduits dans les jeux de données.

Pour démarrer, nous profitons des excellents conseils prodigués dans les forums par quelques participants ayant déjà pris de l’avance sur nous. S’ensuivront 2 mois à formuler des hypothèses, écrire moult lignes de code (en langage R, découvert pour l’occasion), tester nos modèles… Le jour de l’échéance, nous attendons avec impatience les résultats finaux : nous obtenons un score proche de notre objectif initial et notre classement, à la 211ème place (sur un total impressionnant de plus de 1 500 équipes participantes) nous semble honorable, d’autant que le temps nous a manqué pour aller au bout de nos idées.

Qu’avons-nous appris ?

Les enseignements à tirer de cette expérience sont immenses. En premier lieu, le postulat de départ que nous souhaitions vérifier se confirme sans ambiguïté : la « data science », c’est d’abord une combinaison de talents multiples. D’un côté, il faut disposer d’une connaissance approfondie des statistiques, qui permet d’analyser les données et d’en extraire des « lois » mathématiques. Mais, de l’autre, il faut aussi comprendre les objets qui sont manipulés et en extraire un sens « métier ».

Dans le cas du défi AXA, il s’agissait d’extraire de l’information utile à partir des données élémentaires des parcours. Distribution des vitesses, des accélérations, en ligne droite et en courbe, comportement lors des arrêts et dans les virages… sont quelques-uns des paramètres que nous avons exploités. Et, s’il faut en croire un des concurrents du top 10 (qui a gentiment partagé son code avec nous, à l’issue de la compétition), c’est en grande partie grâce à une multiplication de ces informations dérivées que la différence se fait dans la qualité des résultats. Les techniques de visualisation graphique constituent une aide précieuse dans cette phase de recherche des paramètres les plus pertinents.

Autre facteur indispensable à la « data science », l’outillage. Mais, finalement, il s’agit de la composante la plus aisée à acquérir. Une plate-forme telle que RStudio (libre et gratuite), avec ses innombrables paquets complémentaires est extraordinairement riche et puissante, tout en restant à la portée du (presque) premier venu. Et lorsque, assez rapidement, la puissance de nos micro-ordinateurs personnels s’est révélée insuffisante pour réaliser nos tests à une vitesse raisonnable, il nous a suffi d’adopter – pour un budget de quelques dizaines d’euros – une machine virtuelle dans le cloud et le problème était réglé.

Le palmarès du concours donne également matière à réflexion. Le vainqueur (un participant individuel) est parvenu à un score époustouflant en seulement 7 tentatives (en simplifiant un peu, il est capable de fournir un résultat juste à 98%, alors que nous avons peiné à atteindre 90% et que les autres concurrents ont dû multiplier les essais pour approcher le sommet). Les stars de la « data science » existent donc, mais elles ne sont peut-être pas nombreuses. A défaut, la mise en commun des compétences et des expertises de plusieurs personnes, telle que nous l’avons pratiquée, est susceptible d’être tout aussi performante.

Enfin la dernière et principale leçon à retenir de cette compétition est la démonstration pratique du potentiel que recèlent des données plus ou moins anodines. Dans notre exemple, un échantillon de 200 parcours d’un automobiliste permet d’identifier ce dernier de manière quasi certaine. Selon une expérience du MIT assez proche, c’est avec les reçus de 3 achats qu’il est possible de reconnaître un individu parmi des millions d’autres. Naturellement, ces résultats soulèvent parfois de graves questions juridiques et éthiques, mais les usages « sans risques » sont infinis et méritent d’être explorés sans retenue.

CONIX et les données

C’est la raison pour laquelle CONIX investit aujourd’hui fortement dans ce domaine. Nous misons sur notre connaissance intime des métiers de nos clients, notre maîtrise de la gestion des données (dans toute ses dimensions), notre culture des nouvelles technologies et le renfort en cours de nos compétences en matière de « data science » pour offrir une proposition de valeur complète, de la recherche de cas d’usage jusqu’à la mise en œuvre, en passant par la sensibilisation et les indispensables expérimentations.

N’hésitez pas à nous défier à votre tour !

Auteurs : Delphine Barrau et Patrice Bernard

défi AXA Data Science - Infographie AXA Challenge

4 réflexions au sujet de « CONIX aime les défis ! »

  1. Merci pour ce retour d’expérience, à la fois pour les résultats (plutôt honorables) mais surtout pour la méthodologie et le témoignage du tâtonnement qui est vraiment ce que nous vivons au quotidien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *