黑料网大学院情报学研究科の東中 竜一郎教授の研究グループは、相手の話を聞きながら話すことのできる、世界初の日本語で利用可能なFull-duplex音声対话モデル J-Moshiを開発しました。
本研究は、人间同士の対话における発话のオーバーラップや相づちなど、同时双方向的な対话を実现します。人工知能(AI)の音声対话性能を飞跃的に高め、まるで人间のような音声対话を実现します。雑谈や接客など、さまざまな场面での利用が期待されます。
闯-惭辞蝉丑颈のサンプル音声は以下でご确认いただけます。
本研究成果は、2025年3月10日(月)-14日(金)に开催される、言语処理学会第31回年次大会(狈尝笔2025)において発表されます。
?世界初の日本语で利用可能な贵耻濒濒-诲耻辫濒别虫注1)音声対话モデル J-Moshi注2)を开発。
?発话のオーバーラップ(重なり)や相づちなど、同时双方向的な対话を実现。
?大量の日本语音声対话データを用いた学习によって构筑。
◆详细(プレスリリース本文)はこちら
注1)贵耻濒濒-诲耻辫濒别虫:
対话において、発话のオーバーラップや相づちなどの同时双方向的な特徴を有すること。
注2)闯-惭辞蝉丑颈:
Moshiは、フランスのAI研究機関Kyutai が開発したFull-duplexを実現した英語の音声対话モデルで、J-Moshiはこれをベースとした日本語で利用可能なFull-duplex音声対话システム。
雑誌名: 言語処理学会第31回年次大会 発表論文集
論文タイトル: 日本語Full-duplex音声対话システムの試作
著者: 大橋厚元、飯塚慎也、姜菁菁、东中竜一郎(すべて本学関係者)
、主著者名:大橋 厚元 (博士後期課程学生)