ターミネーターの声まね機能もこれで実現? OKI、音声合成ソフトウェア「Polluxstar」 | RBB TODAY

ターミネーターの声まね機能もこれで実現? OKI、音声合成ソフトウェア「Polluxstar」

 咽頭癌などで声帯を摘出する予定の人には朗報だ。OKIは24日、自分の声で音声合成ができるソフトウェア「Polluxstar(ポルックスター)」を本日から提供開始する。

ブロードバンド その他
ユビキタスサービスプラットフォームカンパニー プレジデント 平沼雄一郎氏
  • ユビキタスサービスプラットフォームカンパニー プレジデント 平沼雄一郎氏
  • 研究開発本部 技術マーケティング部 課長 渡辺聡氏
  • 再生は完全性よりも「本人らしさ」を重視
  • 大阪芸術大学の牧教授が自らの体験でデータを提供
  • チャットソフトのように簡単に発声できる
  • 手術前の生活を自分の声で取り戻せる
  • サンプリング文章は各音ごとにあらゆる場面を想定。同じ文字でも言葉によって異なる音を使用する
  • インターフェースはシンプル
 咽頭癌などで声帯を摘出する予定の人には朗報だ。OKIは24日、自分の声で音声合成ができるソフトウェア「Polluxstar(ポルックスター)」を本日から提供開始する。あらかじめ自分の声を録音して発音のデータベースを作成しておき、チャット感覚で文字をタイプすると、まるで本人が発音しているかのように発音できる。価格は個人用が100万円。ディストリビューター経由で販売し、ユーザー個別に調整する。価格には音声収録と音声データベースの制作費用が含まれる。

 「Polluxstar」を契約すると、まずは現在の自分の声を収録する作業を行う。OKIが用意した例文を声を出して読み、録音する。録音は概ね3時間程度かかる。また、録音は静かな場所で、リラックスした状態が望ましい。自宅が静かな場所であればスタッフが録音機材を持って訪問するが、自宅周辺の雑音をマイクが拾ってしまう場合はスタジオ収録となる。この場合、スタジオ利用にかかる料金が別途必要だ。

 収録された音声データはOKI側で分析と加工が行われる。母音、と子音を分解し、同じ文字の発音でも前後のつながりやアクセントごとに複数の発音データが用意される。これらをデータベース化した上でチャット用クライアントソフトウェアをベースにした会話用ソフトに組み込み、ユーザーのPCにインストールする。ここまでの過程はOKIが長年にわたって培った高度な技術を投入しているが、操作はとても簡単で、テキストによるチャットとまったく変わらない。よく使う言葉を登録できるほか、テキストファイルとして用意した長文も朗読できる。

 音声合成ソフトはこれまでにもいくつか存在し、電話応答やアナウンスなどでも使われている。しかし「Polluxstar」の特長は、あくまでも録音したユーザーの会話を再現しようとするところ。正しい発音よりも、本人の発音を再現する仕組みになっている。また、口癖など本人特有のフレーズを事前に録音しておくことで、さらに本人の発音に近づける機能が用意されている。記者発表会では60代男性、50代女性、40代男性、30代女性のサンプルが披露され、実際の会話と合成音声を聞き比べられた。どれもまるで本人が話しているようだったが、女性よりは男性、若い声よりは年寄りの声の方が再現性が高いようだった。

 OKIとしては、咽頭癌や筋肉の病気など、将来的に自分の声で話せなくなる人に向けてシステムを提供する予定だ。咽頭癌の場合、発見から手術までは時間があるため、その間に音声の収録を行える。本技術の実証実験には、実際に声帯手術を受けた大阪芸術大学教授の牧 泉 氏が協力した。牧氏は声帯切除後、さっそく自分の合成音声で医師や家族と会話し、日常生活で活用した。さらに2008年4月からは教壇に復帰。7月までの前期課程の講義を「Polluxstar」で完遂させたという。記者発表会では奥様との食事をしながらの会話の模様がビデオで紹介された。牧氏のテーブルにキーボードがある以外は、ほとんど他の一般的な夫婦の会話が続けられていた。「夫婦げんかも今まで通り」という奥様の言葉が印象的で、語る側だけではなく、聴く側も自然に会話できるようだ。

 個々の音声をサンプリングし、本人の発音を忠実に再現するというシステムは、上記のような医療補助以外にも、イベントや館内アナウンス、メールの読み上げなど幅広い用途に活用できる。ただし朗読によるサンプリングとなるため、喜び、笑い、怒り、悲しみなどの感情を込めた発言は難しい。これらについては肉声に近いエフェクト技術を開発する必要があるという。表現力が豊かになれば、エンターテイメント分野においても用途が広がりそうだ。例えばアニメ「ルパン三世」の台詞をすべてサンプリングすれば、最新作でもルパン役が山田康雄氏の声になる、という利用法もできそうである。将来が楽しみな技術だ。

 これに似たようなソリューションに、ソニーが開発した「モーションポートレート」がある。こちらは本人の顔写真から様々な表情や会話の口元を合成するソフトだ。これと「Polluxstar」を組み合わせると、本人の顔と声を使ってあらゆる言葉を合成し、表情込みで会話できる。このコラボレーションは実現したらとてもおもしろそうだ。

 その一方で、本人そっくりの声で別人が喋らせるという部分にはセキュリティ上の危惧も感じた。悪用されると本人の声を使って振り込め詐欺ができてしまう。モーションポートレートではテレビ電話の会話も本人に擬装できる。考えすぎかも知れないが、どちらも夢のある技術だけに、セキュリティの部分にも気を配り、安心して使えるように発展して頂きたい。
《杉山淳一》

関連ニュース

特集

page top