Apache Spark 2 et 3 utilisant Python 3 (anciennement CCA 175)
Au cours de ce cours, vous apprendrez à utiliser les API Spark SQL et Spark Data Frame pour créer des pipelines de données. Vous apprendrez également à utiliser Python pour écrire du code. Un cours CCA 175 Spark and Hadoop Developer s’appelait auparavant celui-ci, mais maintenant il s’appelle CCA 175 Spark and Hadoop Developer. À compter du 31 octobre 2021, l’examen ne sera plus disponible. Nous avons changé le nom de l’examen en Apache Spark 2 et 3 en utilisant Python 3 car il couvre des sujets importants qui ne sont pas couverts dans la certification.
À propos de l’ingénierie des données
L’ingénierie des données consiste simplement à faire en sorte que les données fonctionnent pour nous à l’avenir. Une partie de l’ingénierie des données consiste à créer différents pipelines, tels que Batch Pipelines et Streaming pipes. Nous devons le faire pour nous assurer que nos données sont propres. Tous les emplois qui traitent du traitement des données sont regroupés en un seul emploi appelé Data Engineering. Ils s’appelaient Développement ETL, Développement d’entrepôt de données, et ainsi de suite dans le passé. Apache Spark est devenu le meilleur moyen de faire du Data Engineering à grande échelle avec beaucoup de données.
J’ai créé ce cours pour tous ceux qui souhaitent devenir ingénieur de données avec Pyspark (Python + Spark). Je suis moi-même un architecte de solutions d’ingénierie de données éprouvé qui a déjà travaillé avec Apache Spark.
Dans ce cours, nous verrons ce que vous apprendrez et pourquoi. Gardez à l’esprit que le cours comporte de nombreuses tâches pratiques qui vous aideront à apprendre à utiliser les bons outils. Ce n’est pas la seule façon de vérifier vos propres progrès. Il y a aussi beaucoup de tâches et d’exercices pour cela.
Configurer un cluster Big Data à nœud unique
Beaucoup d’entre vous préféreraient passer des technologies traditionnelles telles que les mainframes et Oracle PL/SQL au Big Data. Vous ne pourrez peut-être pas utiliser les clusters Big Data parce que vous n’avez pas l’argent pour eux. Je pense qu’il est très important pour vous de mettre les choses en place de la bonne manière. Ne vous inquiétez pas si vous n’avez pas le cluster avec vous. Nous vous aiderons à travers Udemy Q&A pour vous montrer comment le faire.
- Configurez une instance AWS Cloud9 basée sur Ubuntu avec les bons paramètres, puis démarrez-la.
- Si vous souhaitez utiliser Docker, assurez-vous qu’il est d’abord configuré.
- Configurez Jupyter Lab et d’autres parties importantes.
- Configurez et assurez-vous que cela fonctionne. Hadoop, Hive, YARN et Spark sont quelques-unes des choses.
Un examen rapide de Python.
Ce cours est destiné aux personnes qui connaissent bien Python. Afin de vous assurer que vous comprenez Spark du point de vue de l’ingénierie des données, nous avons ajouté un module qui vous aide à vous habituer rapidement à Python. Vous voudrez peut-être consulter notre cours Data Engineering Essentials – Python, SQL et Spark si vous ne savez pas déjà comment travailler avec Python.
Les personnes qui font de l’ingénierie de données à l’aide de Spark SQL
Spark SQL est un excellent outil pour créer des pipelines d’ingénierie de données. Voyons comment il peut être utilisé. Spark avec SQL nous permettra d’utiliser la puissance de calcul distribuée de Spark avec une syntaxe de style SQL facile à utiliser et conviviale pour les développeurs.
- Faire vos premières requêtes Spark SQL
- À l’aide de Spark SQL, vous pouvez apporter des modifications simples.
- Dans cette leçon, nous allons apprendre à gérer les tables Spark Metastore.
- Personnes qui travaillent avec Spark Metastore Tables : DML et partitionnement.
- Dans cette vidéo, nous vous montrons comment utiliser les fonctions Spark SQL.
- Utilisez Spark SQL pour effectuer des fonctions de fenêtrage.
Les ingénieurs peuvent effectuer un travail de données avec des API de Spark appelées Data Frames.
Les API Spark Data Frame sont un autre moyen de créer des applications d’ingénierie de données à grande échelle à l’aide de l’informatique distribuée de Spark. Les ingénieurs de données qui ont une formation en développement d’applications peuvent choisir les API Data Frame plutôt que Spark SQL pour créer des applications d’ingénierie de données.
- Traitement des données avec les API Spark Data Frame.
- À l’aide des API Spark Data Frame, nous pouvons traiter les données de colonne.
- Le filtrage, l’agrégation et le tri sont quelques-unes des transformations de base que vous pouvez effectuer avec les API Spark Data Frame.
- À l’aide des API Spark Data Frame, vous pouvez joindre des ensembles de données.
- Agrégations, classement et fonctions analytiques qui utilisent les API Spark Data Frame.
- Bases de données et tables dans le Spark Metastore.
Le développement et le déploiement des applications Apache Spark Les gens traversent différentes étapes de leur vie.
En tant qu’ingénieurs de données basés sur Apache Spark, nous devrions connaître le cycle de vie du développement et du déploiement d’applications, ce que nous faisons. Dans le cadre de cette section, vous découvrirez l’ensemble du cycle de développement et de déploiement, du début à la fin. Cela inclut, mais sans s’y limiter, faire fonctionner le code dans le monde réel, placer des propriétés en dehors du code, etc.
- Le cycle de développement d’une application Apache Spark
- C’est ce qui se passe lorsque vous exécutez une application et utilisez l’interface utilisateur de Spark.
- Configurez un proxy SSH pour accéder aux journaux de l’application Spark.
- Modes de déploiement pour les applications Spark
- Les fichiers de propriétés d’application et les dépendances externes sont lus.