今度の合成音声はナレーション！〜富士通研、人間の声に迫る自然な音声合成の技術を開発

エンタープライズその他

2009年7月27日（月） 17時04分

注目記事

　富士通研究所は27日、人間の声に迫る、きわめて自然な音声を合成できる音声合成技術を開発したと発表した。本技術による合成音声は、音声品質の評価方法であるCMOS（Comparison Mean Opinion Score）評価において、プロのナレーション品質の80％に迫る、業界最高クラスの高いスコアを達成したという。

　従来の合成音声は、プロのナレータの音声に対して不自然さが感じられ、放送やアナウンスなどプロのナレーターの代替として十分に利用されていなかった。人が文章を読み上げる際、いくつかの音が自然にまとまり、無意識のうちに日本語独特のリズム（発話リズム）で発声されている。音声合成で人間らしい流暢な語り口を実現するためには、このような発話リズムを適切に制御することが必要だった。また、どんな文章の入力に対しても最適な音声波形を用意できる音声波形データベースを開発することが課題とされていた。

　今回富士通研では、独自の発話リズム制御モデルと音声波形データベースを開発し、きわめて自然で人間の声に迫る高品質な音声合成技術を実現した。人間らしい流暢な音声を実現させるために、人間の発話リズムを解析するためのあらたな統計手法を開発し、独自の発話リズム制御モデルを構築したという。これにより、各音の長さについて、肉声との差を従来の3分の2（富士通研究所比）に抑え、1つ1つの音の長さのバランスがとれた、流暢な読み上げ音声を実現した。さらに、さまざまなイントネーションを網羅し、かつ使用頻度の高い単語や文例を中心とした、従来の約10倍（富士通研究所比）となる数万個ものフレーズからなる大規模音声波形データベースを構築。本データベースを用いることで、合成文章に適した音声波形を選択でき、各単語間のつながりなど、機械的な歪みのない合成音声が生成できるようになったとのこと。

　この音声合成技術により、放送コンテンツや各種アナウンス、e-Learning教材用音声など、従来ナレーターが担ってきた分野において、低コストな合成音声での代替が可能になる見込みだ。富士通研究所は、各種利用シーンに対して迅速な適用を可能にするための機能強化を図り、2009年度上期中の実用化を目指すとのこと。

《池本淳》