前回の記事で、WebRTC VAD、Silero VAD、pyannote.audio、auditokという主要なVADライブラリを比較した。どれも優秀だが、どこか「単機能」感が否めない。VADだけやって終わり、という感じ。 でも音声AIの世界って、VADだけで完結するわけじゃない。 音声認識(ASR)し ...
この記事を書いたのは山岡さん. NeMoは、会話型AIアプリケーションを作成するためのオープンソースのPythonツールキット。 NeMoツールキットは、再利用可能なコンポーネントであるNeural Modulesを用いて、会話型AIのための複雑なニューラルネットワーク ...