Data Engineering sur Google Cloud

Cette formation de quatre jours vous permettra de pratiquer la conception et la construction de systèmes de traitement de données sur Google Cloud Platform.

google badge
Réserver ce cours
Appelez notre service commercial dès aujourd'hui
Formation de 4 jours
Support didactique
Virtuelle, Privée
Classe virtuelle
Une expérience d’apprentissage pratique et interactive vous permettant d'assister à nos formations depuis chez vous, ou où que vous soyez. Les classes virtuelles sont proposées pour certaines de nos formations en salle de classe dispensées en direct. Le cas échéant, l'option apparaîtra dans le menu déroulant de sélection de site. Pour plus de confidentialité, vous pouvez également réserver une classe virtuelle privée.
Privée
Une séance de formation privée pour votre équipe. Les groupes peuvent être de toute taille, dans un site de votre choix, y compris dans nos centres de formation.

En qualité de partenaire Google Cloud, nous partagerons nos années d’expérience dans le secteur pour vous aider à renforcer votre utilisation de Google Cloud Platform et à obtenir la certification « Professional Data Engineer ».

Jellyfish a été sélectionné par Google pour construire et délivrer cette formation de quatre jours.

Grâce à une combinaison de présentations, de démonstrations et de travaux pratiques, vous apprendrez à concevoir des systèmes de traitement de données, à construire des pipelines de données de bout en bout, à analyser des données et à effectuer un apprentissage automatique.

La formation traite des données structurées, non structurées et en flux continu.

Cette formation de quatre jours consécutifs est proposée en classe virtuelle. Elle peut être dispensée dans un site de votre choix.

Aperçu du cours

À qui s’adresse cette formation ?

Cette formation est destinée aux développeurs expérimentés responsables de la gestion des transformations de Big Data, notamment :

  • Extraction, chargement, transformation, nettoyage et validation des données
  • Conception de pipelines et d’architectures pour le traitement des données
  • Création et maintenance de modèles statistiques et d’apprentissage automatique
  • Interrogation d’ensembles de données, visualisation des résultats des requêtes et création de rapports

Vous repartirez avec les compétences nécessaires pour :

  • Concevoir et construire des systèmes de traitement des données sur Google Cloud Platform
  • Exploiter des données non structurées à l’aide des API Spark et ML sur le Cloud Dataproc
  • Traiter des données par lots et en continu grâce à la mise en œuvre de pipelines de données à échelle automatique sur Cloud Dataflow
  • Tirer des informations commerciales de très grands ensembles de données en utilisant Google BigQuery
  • Former, évaluer et prédire à l’aide de modèles d’apprentissage automatique avec TensorFlow et Cloud ML
  • Obtenir des informations instantanées à partir de données en continu

Prérequis

Pour optimiser cette formation, vous devez posséder les connaissances suivantes :

  • Avoir suivi la formation Fondamentaux de Google Cloud : Big Data et Machine Learning, ou posséder une expérience équivalente
  • Maîtriser les bases d’un langage de requêtes courant tel que SQL
  • Avoir de l'expérience en matière de modélisation de données, d’extraction, de transformation et de chargement des activités
  • Développer des applications utilisant un langage de programmation courant tel que Python
  • Connaître le domaine du Machine Learning et/ou des statistiques

Programme de la formation

Module 1 : Introduction au Data Engineering
  • Découvrer le rôle d’un ingénieur de données
  • Analyser les défis de l’ingénierie des données
  • Introduction a BigQuery
  • Data Lakes et Data Warehouses
  • Démonstration : Requêtes fédérées avec BigQuery
  • Bases de données transactionnelles ou entrepôts de données
  • Démonstration du site web : Trouver des PII dans votre ensemble de données avec l’API DLP
  • Établir un partenariat efficace avec d’autres équipes de données
  • Gérer l’accès aux données et la gouvernance
  • Construire des pipelines prêts pour la production
  • Examiner l’étude de cas sur les clients de GCP
  • Atelier : Analyser des données avec BigQuery
Module 2 : Créer un Data Lake
  • Introduction aux Data Lakes
  • Options de stockage des données et ETL sur GCP
  • Construction d’un Data Lake avec Cloud Storage
  • Démonstration facultative : Optimiser les coûts avec les classes de Google Cloud Storage et les fonctions Cloud
  • Sécuriser Cloud Storage
  • Stockage de tous les types de données
  • Démonstration vidéo : Exécution de requêtes fédérées sur les fichiers Parquet et ORC dans BigQuery
  • Cloud SQL en tant que Data Lake relationnel
  • Atelier : Chargement des Taxi Data dans SQL Cloud
Module 3 : Création d’un Data Warehouse
  • L’entrepôt de données moderne
  • Introduction à BigQuery
  • Démonstration : Interrogation de plusieurs térabits de données en quelques secondes
  • Premiers pas
  • Chargement des données
  • Démonstration vidéo : Effectuer une requête sur le SQL Cloud de BigQuery
  • Atelier : Chargement des données dans BigQuery
  • Explorer les schémas
  • Démonstration : Explorer les ensembles de données publiques BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
  • Conception du schéma
  • Champs imbriqués et répétés
  • Démonstration : Champs imbriqués et répétés dans BigQuery
  • Atelier : Travailler avec JSON et les données Array dans BigQuery
  • Optimiser avec le classement et le regroupement
  • Démonstration : Tableaux classés et regroupés dans BigQuery
  • Aperçu : Transformation des données par lots et en continu
Module 4 : Introduction à la création de pipelines de données par lots
  • EL, ELT, ETL
  • Considérations relatives à la qualité
  • Comment procéder à des opérations dans BigQuery
  • Démonstration : ELT pour améliorer la qualité des données dans BigQuery
  • Lacunes
  • ETL pour résoudre les problèmes de qualité des données
Module 5 : Exécution de Spark sur Cloud Dataproc
  • L’écosystème Hadoop
  • Exécuter Hadoop sur Cloud Dataproc
  • GCS plutôt que HDFS
  • Optimisation de Dataproc
  • Atelier : Exécution des jobs Apache Spark sur Cloud Dataproc
Module 6 : Traitement de données sans serveur à l’aide du Cloud Dataflow
  • Cloud Dataflow
  • Pourquoi les clients apprécient Dataflow
  • Pipelines Dataflow
  • Atelier : Un simple pipeline Dataflow (Python/Java)
  • Atelier : MapReduce sur Dataflow (Python/Java)
  • Atelier : Saisies latérales (Python/Java)
  • Modèles Dataflow
  • Dataflow SQL
Module 7 : Gérer les pipelines de données avec Cloud Data Fusion et Cloud Composer
  • Construire visuellement des pipelines de données par lots avec Cloud Data Fusion
  • Composants
  • Vue d'ensemble de l’interface utilisateur
  • Créer un pipeline
  • Explorer les données avec Wrangler
  • Atelier : Création et exécution d’un graphique de pipeline dans Cloud Data Fusion
  • Structurer le travail entre les services GCP avec Cloud Composer
  • Environnement Apache Airflow
  • DAG et opérateurs
  • Planification des flux de travail
  • Démonstration longue facultative : Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
  • Surveillance et enregistrement
  • Atelier : Introduction à Cloud Composer
Module 8 : Introduction à Processing Streaming Data
  • Processing Streaming Data
Module 9 : Messagerie sans serveur avec Cloud Pub/Sub
  • Cloud Pub/Sub
  • Atelier : Publier des données en continu dans Pub/Sub
Module 10 : Fonctionnalités de streaming de Cloud Dataflow
  • Fonctionnalités de streaming de Cloud Dataflow
  • Atelier : Pipelines de données en streaming
Module 11 : Fonctionnalités de streaming BigQuery et Bigtable à haut débit
  • Fonctionnalités de streaming BigQuery
  • Atelier : Analyses et tableaux de bord de streaming
  • Cloud Bigtable
  • Atelier : Pipelines de données en streaming dans Bigtable
Module 12 : Fonctionnalités et performances avancées de BigQuery
  • Fonctions de fenêtre analytique
  • Utilisation avec des clauses
  • Fonctions GIS
  • Démonstration : Cartographier les codes postaux de plus en plus nombreux avec BigQuery GeoViz
  • Considérations en matière de performance
  • Atelier : Optimiser les performances de vos requêtes BigQuery
  • Atelier facultatif : Création de tableaux classés par date dans BigQuery
Module 13 : Introduction à l’analyse et à l’IA
  • Qu’est-ce que l’IA ?
  • De l’analyse ad hoc des données à la prise de décision data-driven
  • Options pour les modèles ML sur GCP
Module 14 : Modèles d’API ML prédéfinis pour les données non structurées
  • Les données non structurées sont complexes
  • API ML pour améliorer les données
  • Atelier : Utilisation de Natural Language API pour classer les textes non structurés
Module 15 : L’analyse des Big Data avec AI Platform Notebooks sur le Cloud
  • Qu’est-ce qu’un notebook ?
  • BigQuery Magic et Ties to Pandas
  • Atelier : BigQuery dans Jupyter Labs sur AI Platform
Module 16 : Production de pipelines ML avec Kubeflow
  • Manières d’effectuer du Machine Learning sur GCP
  • Kubeflow
  • AI Hub
  • Atelier : Exécution de modèles d’IA sur Kubeflow
Module 17 : Création de modèles personnalisés avec SQL sur BigQuery ML
  • BigQuery ML pour la création rapide de modèles
  • Démonstration : Former un modèle avec BigQuery ML pour prévoir les tarifs de taxi à New York
  • Modèles recommandés
  • Atelier Option 1 : Prévoir la durée d’un trajet à vélo avec un modèle de régression sur BQML
  • Atelier Option 2 : Recommandations de films avec BigQuery ML
Module 18 : Création de modèles personnalisés avec Cloud AutoML
  • Pourquoi Auto ML ?
  • Vision Auto ML
  • Auto ML NLP
  • Tableaux Auto ML
close
Restez informés
Recevez les dernières actualités, études et offres de Jellyfish Training.
Vos données seront traitées conformément à notre Politique de confidentialité