社内勉強会の資料「XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model 」を公開しました! ・ニューラルコーデックを使った音声表現を採用 ・GPT2ベースのデコーダとPerceiver構造のスピーカーエンコーダ ・特に英語で優れた性能 ・一部言語の文字認識精度に課題社内勉強会の資料「XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model 」を公開! ・ニューラルコーデックを使った音声表現を採用 ・GPT2ベースのデコーダとPerceiver構造のスピーカーエンコーダ ・特に英語で優れた性能 ・一部言語の文字認識精度に課題社内勉強会の資料「XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model 」を公開! ・ニューラルコーデックを使った音声表現を採用 ・GPT2ベースのデコーダとPerceiver構造のスピーカーエンコーダ ・特に英語で優れた性能 ・一部言語の文字認識精度に課題