Apache Sparkはビッグデータ向けのオープンソース分析エンジンです。これは、大量のデータワークロードを扱う組織にとって、ゲームを変えるような存在です。Sparkは速い。非常に速いです。メモリ内処理を使用しているため、従来のフレームワークを超えて、メモリ操作に関してはMapReduceよりも100倍速いです。ディスクベースの処理でも?それでも10倍速いです。
Sparkはあなたにこの全体のエコシステムを提供します:
Apache Sparkのコア要素には次のものが含まれます:
Sparkはユーザー定義関数で拡張できます。非常に便利です。これらのUDFはPySparkで、組み込み関数が不十分な場合にカスタムロジックを作成することができます。
このようなUDFを作成してください:
ニシキヘビ pyspark.sql.functionsからUDFをインポートします pyspark.sql.typesからStringTypeをインポートします
デフconvert_case(text): text.upper()を返す if text else None
upper_case_udf = udf(convert_case、StringType())
df = df.withColumn("upper_text", upper_case_udf(df.text_column))
UDFは完璧ではありません。シリアル化の関係で組み込み関数よりも遅くなります。速度が重要な場合はベクトル化されたUDFを試してみてください。慎重に使用してください。
このspark-defaults.confファイルを通じてSparkを制御できます。これは単なるプロパティ-値ペアです:
spark.master=yarn です。 spark.executor.memory=4g spark.driver.memory=2g spark.executor.cores=2 spark.sql.shuffle.partitions=200
良いチューニングはメモリに関することが関わっているようです。パーティション設定も重要です。ガベージコレクションは非常に重要になることがあります。シリアライゼーションオプションはパフォーマンスに役立つかもしれません。
Sparkは進化し続けています。データの世界では大きな存在です。完璧ではありませんが、かなり重要です。
810 人気度
60.1K 人気度
193.6K 人気度
163.3K 人気度
15K 人気度
Apache Spark とは?
Apache Sparkはビッグデータ向けのオープンソース分析エンジンです。これは、大量のデータワークロードを扱う組織にとって、ゲームを変えるような存在です。Sparkは速い。非常に速いです。メモリ内処理を使用しているため、従来のフレームワークを超えて、メモリ操作に関してはMapReduceよりも100倍速いです。ディスクベースの処理でも?それでも10倍速いです。
スパークの際立った特徴
Sparkはあなたにこの全体のエコシステムを提供します:
スパークのアーキテクチャの内部
Apache Sparkのコア要素には次のものが含まれます:
PySpark UDFs: Spark を自分だけのものにする
Sparkはユーザー定義関数で拡張できます。非常に便利です。これらのUDFはPySparkで、組み込み関数が不十分な場合にカスタムロジックを作成することができます。
このようなUDFを作成してください:
ニシキヘビ pyspark.sql.functionsからUDFをインポートします pyspark.sql.typesからStringTypeをインポートします
Python関数を定義する
デフconvert_case(text): text.upper()を返す if text else None
UDFとして登録
upper_case_udf = udf(convert_case、StringType())
データフレームに適用する
df = df.withColumn("upper_text", upper_case_udf(df.text_column))
UDFは完璧ではありません。シリアル化の関係で組み込み関数よりも遅くなります。速度が重要な場合はベクトル化されたUDFを試してみてください。慎重に使用してください。
spark-defaults.conf で Spark を調整する
このspark-defaults.confファイルを通じてSparkを制御できます。これは単なるプロパティ-値ペアです:
spark.master=yarn です。 spark.executor.memory=4g spark.driver.memory=2g spark.executor.cores=2 spark.sql.shuffle.partitions=200
良いチューニングはメモリに関することが関わっているようです。パーティション設定も重要です。ガベージコレクションは非常に重要になることがあります。シリアライゼーションオプションはパフォーマンスに役立つかもしれません。
Sparkは進化し続けています。データの世界では大きな存在です。完璧ではありませんが、かなり重要です。