Accueil > Digital, Innovation, Créativité > IA, Big Data et Cloud > Analyse de Données et Machine Learning avec Spark

Analyse de Données et Machine Learning avec Spark

Objectifs

  • Utiliser Spark SQL et Spark ML pour réaliser des analyses traditionnelles des données, de l’analyse statistique et appliquer des algorithmes de Machine Learning au Big Data
  • Formation disponible en classe virtuelle
  • Stage / Presentiel
  • 2 280 € (HT)
  • 3 Jours (21 Heures)
  • Repas Offert
  • Code: IIA20

Programme Détaillé

analyste de données, Data Scientist et développeur ayant une appétence pour le Machine Learning
Analyse de données structurées avec Spark DataFrames
Introduction à Spark sur Hadoop
RDD (Resilient Distributed Datasets)
Interagir avec HDFS
Soumettre une requête Python
Hands-On : DataFrame
L’API de base
Chargement de données structurées
Manipulations basiques
Types de données
Opérations et statistiques
Hands-On : Manipulations avancées des DataFrames
Aggregations
Jointures
Window aggregations
Chargement et sauvegarde pour différents formats
SQL sur Spark
Hands-On : Bonnes pratiques et performances
Format des données et compression
Fonctionnement de Catalyst
Partition discovery
Python, R ou Scala pour Spark, que choisir ?
Machine Learning avec Spark ML
Rappels sur le Machine Learning Spark ML – MLib
Structure de l’API & Concepts clés
Données d’entrée
Exemples supervisé et non supervisé
Limites de l’API
Hands-On : Spark ML
Structure de l’API & Concepts clés
Transformer / Estimator
Paramètres
Évaluation de modèles (classification, régression)
Hands-On : Feature Engineering
Indexing
Encoding
Text Processing
Scaling
Hands-On : Tuning de paramètres
Train-Validation Split
Grid-Search
Cross Validation
Hands-On : Pipeline
Construction de Pipeline de Machine Learning
Hands-On : Autres applications
Réduction de Dimension
Clustering
Systèmes de Recommandation
La connaissance de Python, R, Scala ou SQL est préférable
La connaissance de java et spark n'est pas requise
Cette formation se focalise sur l’utilisation de Spark dans le cadre de l’Analyse de Données et du Machine Learning et n’est pas une formation dédiée au fonctionnement interne de Spark d’un point de vue développeur (pour une formation 100% dédiée au développement sur Spark et donc moins de focus sur ses APIs d’analyse de données voir la formation certifiante CCA IBD72)
Consultant-formateur spécialiste Data Science, IA et Big Data
Au travers de discussions et d’exercices interactifs, les participants travailleront sur les différentes fonctionnalités de Spark
⅓ de pratique et ⅔ de théorie
La partie pratique s’articulera autour d’un projet fil rouge tout au long de la formation. Dans un premier temps, l’accent sera mis sur la manipulation avancée de données sur les tables à disposition. Sur la partie Machine Learning, les participants travailleront sur l’élaboration d’un premier modèle supervisé simple et son évaluation, pour ensuite l’améliorer en le complexifiant avec les différentes notions vues pendant la formation
Pour les formations "A distance", elles sont réalisées avec un outil de visioconférence de type Teams ou Zoom selon les cas, permettant au formateur d'adapter sa pédagogie.
Retrouvez sur notre site internet toutes les précisions sur les sessions à distance ou les classes virtuelles.