Databricksの開発現場では、Notebook単位の実験的なコードが多くなりがちです。 その中で欠かせないのがpytest。これはPythonのテストフレームワークで、複雑なデータ変換ロジックを小さく検証し、誤差や副作用を早期に検出するための強力なツールです。
Databricksでは、Spark DataFrame上でPythonのPandas関数を並列実行できる Pandas UDF(User Defined Function) が強力なツールとして利用されます。 通常のUDFが1行ずつ処理するのに対し、Pandas UDFは 列(Series)単位で高速処理 する点が特徴です。Sparkの分散処理性能を保ち ...