Passer au contenu principal
RS5341

Mise en place d’architectures et de traitements Big Data

Page France Compétence
Description Depuis les cinq dernières années, les projets Data Science et d'intelligence artificielle connaissent une forte croissance dans des domaines très variés, tels que l'industrie pétrolière, la téléphonie, la distribution, la banque, la finance et les services. Les récentes évolutions technologiques permettent de faire évoluer ces projets vers la mise en place de véritables solutions d'intelligence artificielle. La réalisation de ces projets nécessite de former des équipes de « Data-Engineers » et de « Data Scientists » pour lesquelles il est nécessaire de conjuguer l'acquisition des compétences techniques et méthodologiques, l'expérience des cas concrets et surtout, un parcours d'apprentissage jalonné. Les principales compétences visées par cette certification sont celles nécessaires à la mise en oeuvre des activités suivantes : Tester et corriger le fonctionnement des infrastructures big data : datalake et datahubSpécifier et programmer les traitements des données dans le datalake/datahubOptimiser les traitements des données dans le datalake/datahub
Objectif
  • Savoir identifier la bonne infrastructure les différents types d'infrastructure Big Data et DataScience
  • Maîtriser le fonctionnement de l'écosystème Hadoop
  • Maîtriser le fonctionnement de l'écosystème Spark
  • Maîtriser le fonctionnement des bases de données NoSql
  • Maitriser le fonctionnement d'une infrastructure cloud majeure
  • Savoir programmer en Scala
  • Savoir programmer avec Hive
  • Savoir utiliser le logiciel Kafka
  • Connaitre les bases de programmation d'un ETL
  • Savoir utiliser le logiciel Nifi
  • Mettre en oeuvre la mesure de la performance des traitements sur l'infrastructure cible
  • Savoir paralléliser les traitements sur infrastructure Spark
  • Pouvoir identifier les goulots d'étranglement et les traitements critiques
  • Savoir programmer en Scala avec Spark ML
  • Savoir programmer en PySpark avec Spark ML
     
Niveau Sans équivalence de niveau
Date de validité 20/01/2026
Domains
  • analyse données
  • architecture système information
  • Langage Python
  • Data Warehouse
  • langage SQL
NSF
  • Informatique, traitement de l'information, réseaux de transmission
  • Informatique, traitement de l'information, réseaux de transmission des données
  • Programmation, mise en place de logiciels
GFE
Rome
Nom légal Rôle