Description
Mettre en place un dispositif de veille technologique en français et en anglais sur les outils, méthodes et solutions big data afin d’anticiper les technologies émergentes concernant les données (data driven, intelligence artificielle, quantique…) dans l’objectif de restituer les résultats aux décideurs Collecter les besoins Data des directions métiers de l’entreprise afin de bâtir ou faire évoluer la/les plateformes de données dans le respect des besoins et attentes des directions métiers et de vérifier l’alignement stratégique Analyser la stratégie de l’entreprise en étudiant son environnement et son fonctionnement afin de pouvoir établir un diagnostic de son système de gouvernance de données Cartographier le système de gouvernance de données en traçant l’ensemble des sources et composantes de chaque flux de données afin d’analyser le patrimoine de données de l’entreprise et d’avoir une bonne connaissance dans son ensemble des systèmes de collecte, stockage et traitement de données Identifier les informations sensibles, les risques, les zones critiques et les chemins d’attaque possibles du système de gouvernance de données existant à l’aide de la cartographie afin de contribuer à définir une politique de sécurité S.I. avec le/la RSSI Elaborer la stratégie Big Data en collaboration avec la DSI en analysant les objectifs et la stratégie générale afin de proposer un projet de création ou des projets d’évolution, d’adaptation ou de migration du système de gouvernance de données en accord avec le développement de l’entreprise Contribuer à définir une politique de sécurisation des données efficace en termes de protection contre le piratage et la perte de données en adéquation avec la sécurité S.I. mise en place par le/la RSSI et en collaboration avec la DSI de l’entreprise Proposer des projets d’évolution du système de gouvernance des données au DSI et aux décideurs en les priorisant afin d’accompagner le développement de l’entreprise en cohérence avec la stratégie définie Définir des indicateurs clés de performance selon une méthode spécifique(SLA, TRS…) afin de concevoir des tableaux de bord d’analyse de performance d’un système de gouvernance de données et déceler des pistes éventuelles d’amélioration Définir des indicateurs clés de performance opérationnelle selon une approche Lean afin d’élaborer des propositions d’amélioration continue du système de gouvernance de données en termes de coûts informatiques et de satisfaction utilisateurs Définir des indicateurs clés Green IT et liés à l’Informatique responsable afin d’évaluer les impacts RSE des ressources informatiques du système de gouvernance de données et d’élaborer des propositions d’amélioration continue du système Identifier l’ensemble des étapes de réalisation du développement d’une plateforme Big Data pour organiser le projet en tâches et livrables en répartissant les activités en fonction des ressources humaines, techniques et financières à mobiliser Concevoir les cahiers des charges technique et fonctionnel d’un projet de développement d’une plateforme Big Data à l’aide des besoins utilisateurs collectés afin de cadrer le développement Gérer un projet agile en utilisant les méthodes et outils adaptés à ce mode de fonctionnement pour tester, modifier et procéder par itération afin de réduire les délais de remise du projet de développement d’une plateforme Big Data Etablir des tableaux de bord de suivi de performance (qualitative et quantitative) de l’ensemble des ressources allouées à chaque étape-projet pour anticiper, visualiser et corriger les écarts en temps réel afin de limiter les contraintes de ressources et les retards dans la réalisation du projet Piloter les prestataires extérieurs éventuels gérant les ressources informatiques d’une plateforme de données existante listées dans la cartographie établie afin de sécuriser la mise en œuvre technique Conduire une équipe projet en diffusant les fondamentaux de l’agilité: adaptation, flexibilité et amélioration continue au sein de l’équipe afin d’être en mesure d’absorber les changements de priorité qui peuvent intervenir dans un contexte de forte contrainte de temps et d’incertitudes Adopter une stratégie d’accueil aux handicaps afin de favoriser l’inclusion des profils en situation de handicap au sein de l’équipe et permettre leur pleine intégration, en collaboration avec le référent handicap de l’entreprise Concevoir un processus de communication inclusif régulier au sein de l’équipe afin de synchroniser les activités quotidiennes et mettre en place un fil de discussion à l’aide d’outils numériques Animer des réunions à distance afin de maintenir une dynamique de groupe et renforcer l’esprit d’équipe des membres en télétravail et/ou à distance Concevoir un processus de partage d’information afin de faciliter l’inclusion et la collaboration entre les membres en télétravail et/ou à distance en utilisant des outils numériques Concevoir une architecture de collecte et de restitution de données robuste, évolutive, sécurisée et utilisant l’intelligence artificielle (machine learning) afin d’améliorer en continu sa capacité à prédire les besoins Data des experts métiers utilisateurs Concevoir une architecture de stockage de données (data warehouse, data lake…) permettant de répondre aux besoins Data des experts métiers et respectant la politique de sécurité des données définie par le/la RSSI Définir les processus de collecte et d’intégration de données par lot ou en streaming afin de favoriser la vitesse d’intégration et la volumétrie de données dans le respect de l’architecture définie Mettre en place un système d'ingestion de données structurées et non structurées afin de permettre la manipulation et l’accès aux données ainsi que l’authentification des utilisateurs Développer une solution de migration inter-systèmes et multi-environnements à l’aide d’un outil de son choix afin de permettre l’intégration de données diverses et l'interopérabilité des différentes sources de données Développer un pipeline de données et/ou un pipeline ETL prenant en compte l'environnement technologique déployé (infrastructure, services, applications...) dans le respect du cahier des charges de la solution proposée Créer un lac de données (data lake) afin de collecter des données brutes dans le respect de l’architecture de collecte des données définie dans la solution proposée Créer un entrepôt unique à partir du référentiel de données établi pour centraliser les informations stratégiques de l’entreprise et répondre rapidement aux besoins métiers Déployer un processus de collecte, stockage et traitement de données selon une approche ETL (Extract-Transform-Load) ou une approche ELT afin de permettre l’extraction, le stockage et le traitement des données de manière optimale et adaptée aux besoins utilisateurs métiers Déployer une plateforme de stockage de données, dans un environnement distribué à travers des clusters de nœuds (serveurs machine) afin d’y stocker les données de façon distribuée et de les traiter selon le principe du calcul parallèle Configurer des clusters de nœuds avec une solution de stockage distribuée afin d'assurer une tolérance de zéro panne Automatiser des opérations de déploiement, de tests et de maintenance curative et préventive afin de s'assurer de la fiabilité de la solution tout au long de son cycle de vie Concevoir un ensemble de tests de surveillance des pipelines afin d’anticiper et d’organiser l'évaluation et le dépannage des représentations de données Administrer la plateforme de stockage de données déployée dans un environnement technologique optimal afin de répondre aux trois critères sine qua non tels que la performance, la capacité et la bande passante de la plateforme Dimensionner en temps réel les besoins en consommation de ressources en mettant en place l'autoscaling des ressources afin d'anticiper les montées en charge et assurer la fiabilité de la solution Contrôler la bonne application de la politique des données en analysant, traitant et reportant les coûts et les performances de stockage selon les différents critères (licences, supports, évolutivité, performance...) afin de s'assurer de la pérennité de la solution Rédiger un protocole de maintenance de la documentation technique afin de consigner et assurer la préservation de la solution choisie Définir les données de référence de l’entreprise à partir des données utilisées pour créer un référentiel de données afin d’assurer la mise à disposition de données cohérentes aux directions métiers Développer la phase de préparation des données afin de permettre leur chargement en prenant en compte les étapes de découverte, structuration, nettoyage, validation et intégration décrite dans le cahier des charges afin de les rendre consommables par les utilisateurs métiers Assurer la qualité des données en utilisant les outils de gestion de la qualité de données pour garantir l’exactitude, la cohérence, la synchronisation et la traçabilité des données afin de satisfaire les besoins d’accessibilité des utilisateurs métiers Appliquer les procédures de sécurité établies par le / la RSSI de l’entreprise afin d’assurer la confidentialité et la sécurité des données et garantir une mise en conformité avec les obligations légales du RGPD Manipuler les différents services et fonctionnalités des architectures de type Data Lake afin de gérer le cycle de vie des données DLM (Data Life cycle Management) Proposer des modèles statistiques et de data science (machine learning) à mettre en pratique aux directions métiers afin de détecter des nouveaux services, anticiper des besoins et résoudre des problématiques métiers de l’entreprise Organiser les sources de données sous forme de résultats exploitables (data visualisation) pour alimenter les outils décisionnels et visualiser les résultats de façon compréhensible permettant d’aider les directions métiers à la prise de décision Développer divers services de stockage, de gestion de systèmes de bases de données, de production d’ensemble de données nettoyées et améliorées pour l’analyse grâce aux langages adaptés et répondant aux besoins afin de mettre en place l’exploitation de données par les différents métiers
Objectif
Aujourd'hui, le volume croissant des données disponibles, leur variété sans cesse élargie et la rapidité avec laquelle elles sont créés et sont susceptibles de générer elles-mêmes de la donnée, ont fait basculer nombre d’entreprises dans l’ère du big data. Certaines entreprises s’orientent alors de plus en plus vers des organisations dites « data centric », avec la constitution d’équipe et de compétences techniques dédiées. La clé du succès avec le big data ne réside pas dans la quantité de données collectées par une entreprise, mais dans la capacité de traitement et la manière dont elle utilise réellement ces données collectées pour créer de la valeur. Ceci a pour conséquence de faire apparaître de nouveaux besoins métiers autour de cette data, comme celui de Data Engineer, également dénommé expert en ingénierie des données, avec des difficultés de recrutement liées notamment au volume insuffisant de candidats.
Avec cette certification, l'EPSI souhaite répondre au besoin croissant en compétences liées à l'ingénierie des données, et proposer aux entreprises des profils de certifiés d'un niveau technique informatique élevé et dotés d'une expertise pointue en data.
Niveau
Sans équivalence de niveau
Date de validité
29/09/2025
Domains
- informatique décisionnelle
NSF
- Informatique, traitement de l'information, réseaux de transmission
- Informatique, traitement de l'information, réseaux de transmission des données