外部からデータを収集しHadoopクラスタのHDFSへインポートするETLツールとしてAirflowを選択した。今回はAirflowの最小構成であるスタンドアロンでのセットアップとKerberos認証のかかったHDFSへの接続のための認証設定を行った。(認証自体の動作確認はまだして ...
HDFS、Sparkを中心としたデータ保存・分析のための基盤を作っており、その基盤にデータを取り込むシステムを導入しようと考えている。そこで今回は、データの取り込みを行うETL(Extract, Transform, Load)ツールを調査し選定する。 はじめに HDFSという分散 ...