Analyse de données et Machine Learning avec Spark en Python

Objectifs

  • comprendre le principe de fonctionnement d’Apache Spark
  • utiliser PySpark pour manipuler des données avec Python
  • traiter les flux de données en temps réel avec Spark Streaming
  • Formation nouvellement créée ou entièrement remaniée
  • Stage / Presentiel
  • 2 280 € (HT)
  • 3 Jours (21 Heures)
  • Repas Offert
  • Code: IIA21

Programme Détaillé

Cette formation s'adresse à toute personne intéressée par la technologie Spark et sa mise en oeuvre avec le langage Python.
Introduction au big data
Environnements big data : Hadoop, Mapreduce, Spark, etc.
Découvrir l’environnement Spark
Utilisation Spark : Quels avantages ?
Comment installer Apache Spark
Quelle infrastructure pour utiliser Spark en entreprise ?
Les principes et fonctionnement de l'environnement Spark : RDD, DataFrame, DataSet...
Manipuler des données avec Python, Pyspark
Rappels sur Python et la manipulation des données
Utilisation de SparkSQL et des DataFrames pour manipuler des données
Bonnes pratiques de Spark pour la manipulation de volume important de données
Architecture et composants de la plateforme Hadoop
Chargement des données depuis Hadoop, depuis des fihiers csv...
Transformer des données (création de DataFrames, ajout de colonnes, filtres...)
Cas pratiques de chargement et de modifications de données avec PySpark
Comprendre MLlib avec les principaux algorithmes d’apprentissage et méthodes statistiques (régression, discrimination, foret aléatoires, etc.)
Utiliser spark.ml pour la machine learning
Traitement de données textuelles
Automatiser vos analyses avec des pipelines
Analyser en temps réel avec Spark streaming
Principe de fonctionnement
Présentation des Discretized Streams
Les différents types de sources
Manipulation de l’API
Comparaison avec Apache Storm
Cette formation ne nécessite aucun pré-requis même si une connaissance de base du langage Python est recommandée.
Cette formation est animée par un consultant-formateur en Intelligence Artificielle, enseignant-chercheur en IA.
Présentation de la technologie Big Data Apache Spark et de sa mise en oeuvre avec Python, le langage de programmation le plus populaire actuellement.

Les entreprises Google, Facebook, Netflix, Airbnb, Amazon, la NASA et bien d’autres encore utilisent la technologie Spark pour le traitement de très gros volumes de données.

La capacité d’analyser d’énormes quantités de données est une compétence incontournable à l’heure de l’Intelligence Artificielle et de la Data Science.

Le cours présente Spark DataFrames en s’appuyant sur le langage Python avec la bibliothèque PySpark, la bibliothèque Machine Learning MLlib ainsi que les technologies Spark SQL, Spark Streaming.