Acquérir une expérience du monde réel sur Databricks en tant qu’ingénieur de données
On dirait que vous voulez voir ce que c’est que de travailler en tant qu’ingénieur de données sur Databricks.
Non, je ne veux pas devenir un meilleur Data Engineer. Je souhaite en savoir plus sur Python et me préparer à l’examen Développeur certifié Databricks pour Apache Spark 3.0.
Alors ne cherchez pas plus loin.
Par exemple, ce cours vous montrera à quoi ressemble un travail d’ingénierie des données afin que vous puissiez déterminer si c’est le bon travail pour vous.
En moins d’une heure, grâce à de nombreux exemples pratiques, vous apprendrez à travailler avec différents types de données lorsque vous travaillez avec Databricks (fichiers texte séparés par des virgules, fichiers XML, fichiers texte séparés par des tabulations, fichiers à largeur fixe ).
Au cours de ce cours, vous apprendrez à utiliser les API Dataframe, Delta, Stream et autres comme un véritable ingénieur de données.
L’objectif de ce projet est d’obtenir des données à partir d’un large éventail de types de fichiers et de les mettre dans des tables Delta pour une analyse plus approfondie.
Si vous voulez faire ce projet par vous-même, il est livré avec tout le code dont vous avez besoin pour le faire. Il vous suffit d’exécuter chaque cellule des blocs-notes.
Au tout début de ce projet, on vous montrera comment un Data Engineer travaille au quotidien.
Les données concernent des indicateurs mondiaux de l’éducation et proviennent de données que la Banque mondiale rend publiques. Veuillez noter que l’auteur a modifié certaines données afin de faciliter le projet. Ainsi, les données ne sont pas de vraies données de la source, mais elles montrent comment travailler avec PySpark sur Databricks (prenez-les à des fins de démonstration uniquement).
Il est temps de terminer le projet. Pour ce faire, vous répondrez à quelques questions commerciales simples basées sur les données que vous avez déjà ajoutées.