De quoi s'agit-il avec Apache Spark ?

Question

Apache Spark est ce moteur d&#39;analyse open-source pour le big data. Cela a un peu changé la donne pour les organisations traitant d&#39;énormes charges de données. Spark est rapide. Vraiment rapide. Il utilise le traitement en mémoire qui le fait passer devant les cadres traditionnels—environ 100 fois plus rapide que MapReduce pour les opérations en mémoire. Les choses basées sur disque ? Toujours 10 fois plus rapide.## Caractéristiques remarquables de SparkSpark vous offre tout cet écosystème :- **Vitesse** : Moteur en mémoire qui traite les données à une vitesse fulgurante- **Polyvalence** : Fait toutes sortes de choses—SQL, apprentissage automatique, temps réel, graphiques- **Plateforme Unifiée** : Fonctionne bien avec différentes sources de données- **Traitement Distribué** : Répartit le travail sur des clusters pour d&#39;énormes ensembles de données- **Rich Libraries** : MLlib pour l&#39;apprentissage automatique. Spark Streaming aussi. Et GraphX pour l&#39;analyse de graphes.## À l&#39;intérieur de l&#39;architecture de SparkLes éléments clés d&#39;Apache Spark incluent :1. **Spark Driver** : A tous ces planificateurs et gestionnaires qui transforment votre code en tâches2. **Exécuteurs** : Ceux-ci effectuent les calculs réels3. **Gestionnaires de cluster** : Cela peut être autonome, YARN, peu importe. Ils récupèrent les nœuds de travail.4. **Nœuds de travail** : Les serveurs qui effectuent le travail lourd## UDF PySpark : Personnalisez SparkSpark vous permet de l&#39;étendre avec des fonctions définies par l&#39;utilisateur. Des choses plutôt intéressantes. Ces UDF dans PySpark vous permettent de créer une logique personnalisée lorsque les fonctions intégrées ne suffisent pas.Faites un UDF comme ceci :pythonfrom pyspark.sql.functions import udffrom pyspark.sql.types import StringType# Définir une fonction Pythondef convert_case(text):    return text.upper() si text else None# S&#39;inscrire en tant que UDFupper_case_udf = udf(convert_case, StringType())# Appliquer au DataFramedf = df.withColumn("upper_text", upper_case_udf(df.text_column))Les UDF ne sont pas parfaits. Ils sont plus lents que les intégrés à cause des problèmes de sérialisation. Peut-être essayez des UDF vectorisés si la vitesse est importante. Utilisez-les avec précaution.## Ajuster Spark avec spark-defaults.confVous pouvez contrôler Spark via ce fichier spark-defaults.conf. Ce sont simplement des paires clé-valeur :spark.master=yarnspark.executor.memory=4gspark.driver.memory=2gspark.executor.cores=2spark.sql.shuffle.partitions=200Un bon réglage semble impliquer des choses de mémoire. Les paramètres de partition aussi. La collecte des ordures peut avoir beaucoup d&#39;importance. Les options de sérialisation pourraient aider à la performance.Spark continue d&#39;évoluer. C&#39;est important dans le monde des données. Pas parfait, mais assez important.

De quoi s'agit-il avec Apache Spark ?

Caractéristiques remarquables de Spark

À l'intérieur de l'architecture de Spark

UDF PySpark : Personnalisez Spark

Définir une fonction Python

S'inscrire en tant que UDF

Appliquer au DataFrame

Ajuster Spark avec spark-defaults.conf