最近、Googleから音声合成モデル「T5Gemma」というボイスエンコーダー、デコーダが発表されました。 T5Gemma-TTS試してみました 自分の声、約10秒ほどのゼロショット学習です。