Ingénierie des données sans code dans GCP : débutant à avancé
Google Cloud Storage sera utilisé dans ce cours pour créer un lac de données. Nous utiliserons également Google BigQuery pour apporter des capacités d’entrepôt de données au lac de données afin de créer l’architecture Lakehouse. En utilisant des services tels que DataStream, Dataflow, DataPrep, Pub/Sub et Cloud Storage ainsi que BigQuery, nous allons créer quatre pipelines de données sans code qui enverront et recevront des données.
Les étudiants apprendront à configurer un lac de données, à créer des pipelines de données pour l’ingestion de données et à transformer les données à des fins d’analyse et de création de rapports d’une manière qui leur semble logique.
Ceci est le premier chapitre du cours.
- Nous allons démarrer un projet dans Google Cloud.
- Il est temps d’en savoir plus sur Google Cloud Storage.
- Dans cette vidéo, nous allons vous montrer comment utiliser Google BigQuery
Pipeline de données 1
- Avant d’effectuer des tâches ETL compliquées, nous allons configurer une base de données cloud SQL et y ajouter des données.
- Il est important pour nous d’utiliser DataStream Change Data Capture pour diffuser les données de notre base de données Cloud SQL dans notre lac de données créé avec Cloud Storage.
- Voici ce que nous devons faire : ajoutez une notification à notre compartiment pour que les gens puissent la voir.
- Créez un pipeline de flux de données afin que les tâches puissent être diffusées dans BigQuery.
Pipeline de données 2
- Présentez l’outil de fusion de données de Google.
- Une tâche ETL est un moyen de modifier des données et de les déplacer vers un nouvel emplacement dans notre lac de données. Vous écrivez et regardez le travail pour vous assurer qu’il fonctionne.
- Les données doivent être nettoyées et normalisées avant de pouvoir être utilisées dans une étude.
- À l’aide des métadonnées dans Data Fusion, vous pouvez rechercher et suivre vos données.
Pipeline de données 3
- Dans cette vidéo, nous allons vous montrer comment utiliser Google Pub/Sub.
- Ensuite, je créerai une application .Net qui enverra des données à un sujet Pub/Sub.
- Créer un pipeline de données en temps réel pour envoyer des messages à BigQuery au fur et à mesure qu’ils arrivent
Pipeline de données 4
- Premiers pas avec la préparation des données cloud
- Profilez, écrivez et gardez un œil sur les travaux ETL qui utilisent DataPrep pour modifier nos données.
A qui s’adresse ce cours :
- Un ingénieur de données est une personne qui travaille avec des données.
- Les architectes de données qui souhaitent concevoir des solutions d’intégration de données dans Google Cloud.
- Les scientifiques de données, les analystes de données et les administrateurs de bases de données travaillent ensemble.
- Les scientifiques de données, les analystes de données et les administrateurs de base de données travaillent ensemble.
- Toute personne souhaitant travailler pour Google en tant qu’ingénieur de données cloud.
Ingénierie des données sans code dans GCP : débutant à avancé FreeCourseSites.com
Ansible Automation pour le débutant absolu avec AWS
Télécharger maintenant