Présentiel ou classe virtuelle

3 jours ( 21 heures )

Prix :

2050

€ HT

Demander un devis

Présentiel ou classe virtuelle

3 jours ( 21 heures )

Prix :

5690

€ HT

Prix pour un groupe de 10 personnes maximum

Votre besoin est unique, notre réponse aussi. Nous créons avec vous une formation sur mesure, parfaitement alignée avec vos objectifs, vos équipes et vos projets.

Référence : IIA21

/ Stage

Spark en Python : analyse de données et machine learning

Satisfaction globale avis clients
Indicateur bientôt disponible

Inter

Présentiel ou classe virtuelle

Prix :

2050

€ HT

Intra

Présentiel ou classe virtuelle

Prix :

5690

€ HT

Prix pour un groupe de 10 personnes maximum

Sur-mesure

Cette thématique vous intéresse ?
Nos équipes d’experts, de concepteurs pédagogiques et de chefs de projet mettent en place pour vous et avec vous des dispositifs innovants, en présentiel et en digital.

Cette formation en Big Data présente le framework Spark de calcul distribué. Vous écrirez les tâches avec le langage Python en utilisant la bibliothèque PySpark. Vous utiliserez la bibliothèque Machine Learning MLlib ainsi que les technologies Spark SQL, Spark Streaming.

Objectifs de la formation

Identifier le principe de fonctionnement d’Apache Spark
Utiliser PySpark pour manipuler des données avec Python
Traiter les flux de données en temps réel avec Spark Streaming

Atteinte des objectifs de formation des 2 dernières années : bientôt disponible

Public concerné

Cette formation s’adresse à toute personne intéressée par la technologie Spark et sa mise en oeuvre avec le langage Python.

Pré-requis

Cette formation ne nécessite aucun pré-requis.

Programme

Introduction au big data
Environnements big data : Hadoop, Mapreduce, Spark, etc.
Découvrir l’environnement Spark
Utilisation Spark : Quels avantages ?
Comment installer Apache Spark
Quelle infrastructure pour utiliser Spark en entreprise ?
Les principes et fonctionnement de l’environnement Spark : RDD, DataFrame, DataSet…

Manipuler des données avec Python, Pyspark
Rappels sur Python et la manipulation des données
Utilisation de SparkSQL et des DataFrames pour manipuler des données
Bonnes pratiques de Spark pour la manipulation de volume important de données

Architecture et composants de la plateforme Hadoop
Chargement des données depuis Hadoop, depuis des fihiers csv…
Transformer des données (création de DataFrames, ajout de colonnes, filtres…)
Cas pratiques de chargement et de modifications de données avec PySpark

Comprendre MLlib avec les principaux algorithmes d’apprentissage et méthodes statistiques (régression, discrimination, foret aléatoires, etc.)
Utiliser spark.ml pour la machine learning
Traitement de données textuelles

Automatiser vos analyses avec des pipelines
Analyser en temps réel avec Spark streaming
Principe de fonctionnement
Présentation des Discretized Streams
Les différents types de sources
Manipulation de l’API
Comparaison avec Apache Storm

Points forts

Présentation de la technologie Big Data Apache Spark et de sa mise en oeuvre avec Python, le langage de programmation le plus populaire actuellement.

Les entreprises Google, Facebook, Netflix, Airbnb, Amazon, la NASA et bien d’autres encore utilisent la technologie Spark pour le traitement de très gros volumes de données.

La capacité d’analyser d’énormes quantités de données est une compétence incontournable à l’heure de l’Intelligence Artificielle et de la Data Science.

Le cours présente Spark DataFrames en s’appuyant sur le langage Python avec la bibliothèque PySpark, la bibliothèque Machine Learning MLlib ainsi que les technologies Spark SQL, Spark Streaming.

Modalités d'évaluation et de suivi

Pour assurer un suivi individuel, Demos a mis en place 2 types d’évaluation :

Une évaluation de compétences en ligne en début et en fin de formation qui peut prendre différentes formes selon le contenu de la formation suivie : Tests d’évaluation des acquis, cas pratiques, mises en situation, soutenance devant un jury pour les formations à finalité certifiante.
Une évaluation de la satisfaction de chaque stagiaire est réalisée en ligne. Cette évaluation est complétée par l’appréciation du formateur à l’issue de chaque session.

Profil animateur

Cette formation est animée par un consultant-formateur en Intelligence Artificielle, enseignant-chercheur en IA.

Dates et lieux

Pour plus de renseignements sur les informations de connexion ou les prochaines sessions, contactez-nous.

Cette formation a été mise à jour le 02 janvier 2026

Hard skills - Compétences métiers

Expertises sectorielles

Accédez directement aux offres

Hard skills - Compétences métiers

Expertises sectorielles

Accédez directement aux offres

Hard skills - Compétences métiers

Expertises sectorielles

Accédez directement aux offres

Présentiel ou classe virtuelle

Prix :

2050

€ HT

div.demos_formation_certification_message { display:none; }

Prix :

5690

€ HT

div.demos_formation_certification_message { display:none; }

Référence : IIA21

/ Stage

Spark en Python : analyse de données et machine learning

Présentiel ou classe virtuelle

Prix :

2050

€ HT

Prix :

5690

€ HT

Objectifs de la formation

Public concerné

Pré-requis

Programme

Points forts

Modalités d'évaluation et de suivi

Profil animateur

Dates et lieux

Vous pourriez également être intéressé par ces formations