上新卓也氏:それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQLの内部の詳細とそれらを応用したパフォーマンスチューニングについてお話します。 Databricksでソフトウェアエンジニアとして働いています。
前回の続きの続きです。 前編はこちら 中編はこちら 後編では、以下の内容を紹介します。 Python UDTFの改善 spark 3.5から導入された機能として、python UDTF (User Defined Table Functions) があります。入力として、0個の以上の引数を受け取ります。 出力結果として ...
🛠️ はじめに:なぜPySparkを使うのか? 前回の記事で「家計はKPIで管理せよ」と提唱しました。今回はその基礎となるデータ分析を、Databricksが最も得意とする PySpark で行います。 処理能力: データ量が増加しても、PySparkの分散処理能力により高速に処理が ...