以下の論文が気になったので簡単にまとめてみました。 大規模言語モデル(LLM)の開発において、高品質なデータの準備はモデルの性能を左右する重要な要素です。しかし、従来のデータ処理はアドホックなスクリプトに依存しており、再現性や拡張性に ...