Site sncf.com
Le site de la transformation digitale du groupe SNCF

Analyser le Big Data grâce au Data Lake

Pour porter ses ambitions de « Data Company », SNCF met en œuvre plusieurs outils et projets pour garantir la qualité et la valorisation de la donnée. Malgré leurs modèles “data” parfois divergents, ces projets demandent une solide gouvernance pour soutenir les objectifs d’efficience des process. Illustration avec deux plateformes visant à organiser la donnée pour la rendre qualifiée et accessible. Aujourd’hui, découvrez comment fonctionne le Data Lake et les enjeux que porte cet outil.

Publié le 31/01/2019 par La Rédaction
cover_datalake

Pour asseoir une stratégie data, les données doivent être exploitées afin de pouvoir en tirer toute la valeur attendue. Dans ce contexte, la problématique de leur qualité se pose de manière cruciale : c’est ce que vise la data gouvernance. Les outils et processus de gouvernance de données répondent également à un enjeu de mise en conformité réglementaire pour le RGPD, mais aussi dans le cadre de la réforme ferroviaire et l’ouverture à la concurrence.

Avec le Data Lake, SNCF regroupe toutes ses données brutes afin de permettre aux data scientists ou responsables métier de venir y puiser des informations pour leurs projets. La gouvernance permet de structurer les flux pour garantir la qualité des données dans le lake.

Le Data Lake, un gisement de données au service du Big Data

Le Data Lake est un espace de stockage global d’informations regroupant des données brutes historisées, provenant de sources applicatives et  des données transformées et enrichies pour chaque projet métier / SI à partir des puits de données (intra et inter-EPICs). L’absence de schéma strict imposé aux flux de données entrants permet d’intégrer toutes les données, quelle que soit leur nature et leur origine.

Hébergé et opéré par la Fab Big Data, le Data Lake de SNCF se trouve sur une plateforme créée sur Azure. Sur ce gisement, on retrouve différentes données venant des SI SNCF, de partenaires extérieurs et de capteurs voies ou trains. “Il a fallu dans un premier temps urbaniser le stockage pour que chaque EPIC ou direction puisse avoir son endroit où stocker ses données. Ensuite, sur ce Lake, on peut travailler selon des cas d’usages où la data science se fait en croisant les différentes données”, explique Sébastien Grenier-Fontaine, chef de projet Gouvernance Data pour la Fab Big Data.

Au-delà du stockage, l’un des enjeux du Data Lake est de traiter et transformer l’information, afin d’accélérer les cycles d’innovation, de gagner en agilité et ainsi, être un support aux initiatives data. Mettre en place une cartographie et des outils pour comprendre ce qui est déversé s’avère alors primordial, et c’est tout l’enjeu de la gouvernance.

 

Sébastien Grenier-Fontaine, collaborateur externe de Rhapsodies Conseil, a contribué à l’organisation de cette gouvernance et à l’identification des besoins prioritaires pour créer un outil permettant de cataloguer les différentes données disponibles. “Il fallait mettre en place des processus pour que les responsables métier souhaitant créer des cas d’usage puissent demander des accès aux responsables de données, pour faire leurs études”, détaille le chef de projet.

Qualifier et sécuriser la data

L’offre de service du Lake se compose de deux outils : un Data catalogue sur Collibra et un outil de data protection, en lien avec les dispositions du RGPD, porté par la solution Dataguise.

Sur le volet protection des données, Dataguise détecte et alerte sur d’éventuelles anomalies sur les

informations personnelles. Par exemple, un cas d’usage étudié visait l'application Caprera, une base de données qui sert à la sécurité ferroviaire. “Des informations personnelles étaient liées à ces données, soit 30 000 fichiers reçus en un an. Nous avions donc besoin d’outils pour savoir où étaient ces données exactement et les masquer”.

Via Collibra, il s’agit de disposer d’un catalogue des usages et des sources de données, et d’industrialiser un workflow de data gouvernance. Là, on va alors associer à la donnée les différentes politiques de gouvernance à respecter : confidentialité, partage conditionné, règles de qualité particulières, par exemple. C’est une démarche de qualification au sens large, le catalogue offrant une vision 360° de la donnée. “On récupère tout de manière non structurée, et c’est après qu’on vient donner du sens via les cas d’usage, et donc apporter la valeur”, explique Sébastien Grenier-Fontaine.

Sans Data catalogue, le métier ne sait pas ce qui est disponible sur la plateforme. “Organiser la gouvernance sur le Data Lake sert d’impulsion pour mettre en place les organisations qui vont supporter ou collaborer sur ces processus et outils, qui n’existaient pas il y a encore deux ans”, précise-t-il.

Pour appuyer ces enjeux de la gouvernance, les nouveaux rôles émergents sont essentiels : data officer, CDO, data owner, data stewart. En lien avec les process de data gouvernance, les métiers assurent notamment la documentation, afin de qualifier la data dans le catalogue du Lake.

De l’organisation des flux entre ces acteurs et leurs nouvelles responsabilités dépend donc les bons usages et la qualification idoine de la data. L’acculturation autour de ces nouveaux rôles, et dans une plus large mesure de tous les agents, est un enjeu primordial pour réussir à atteindre tous les objectifs orientés Data.

  • On vous donne rendez-vous la semaine prochaine  pour la seconde partie de ce sujet avec la plateforme DataLab Réseau.
Tags associés à cet article :

Commentaires

S’enregistrer et se connecter
Recommandé pour vous
cover_minilabs
Changement climatique : utiliser la data pour anticiper les impacts sur le réseau
Lire la suite
cover_data_lab
Modéliser la data avec le DataLab
Lire la suite
prédiction consommation électrique des trains
Prédire la consommation électrique des trains avec Energy Need Forecast
Lire la suite