ターミネーターの声まね機能もこれで実現? OKI、音声合成ソフトウェア「Polluxstar」

2008年7月24日(木) 21時13分
ユビキタスサービスプラットフォームカンパニー プレジデント 平沼雄一郎氏の画像
ユビキタスサービスプラットフォームカンパニー プレジデント 平沼雄一郎氏
研究開発本部 技術マーケティング部 課長 渡辺聡氏の画像
研究開発本部 技術マーケティング部 課長 渡辺聡氏
再生は完全性よりも「本人らしさ」を重視の画像
再生は完全性よりも「本人らしさ」を重視
大阪芸術大学の牧教授が自らの体験でデータを提供の画像
大阪芸術大学の牧教授が自らの体験でデータを提供
チャットソフトのように簡単に発声できるの画像
チャットソフトのように簡単に発声できる
手術前の生活を自分の声で取り戻せるの画像
手術前の生活を自分の声で取り戻せる
サンプリング文章は各音ごとにあらゆる場面を想定。同じ文字でも言葉によって異なる音を使用するの画像
サンプリング文章は各音ごとにあらゆる場面を想定。同じ文字でも言葉によって異なる音を使用する
インターフェースはシンプルの画像
インターフェースはシンプル
 咽頭癌などで声帯を摘出する予定の人には朗報だ。OKIは24日、自分の声で音声合成ができるソフトウェア「Polluxstar(ポルックスター)」を本日から提供開始する。あらかじめ自分の声を録音して発音のデータベースを作成しておき、チャット感覚で文字をタイプすると、まるで本人が発音しているかのように発音できる。価格は個人用が100万円。ディストリビューター経由で販売し、ユーザー個別に調整する。価格には音声収録と音声データベースの制作費用が含まれる。

 「Polluxstar」を契約すると、まずは現在の自分の声を収録する作業を行う。OKIが用意した例文を声を出して読み、録音する。録音は概ね3時間程度かかる。また、録音は静かな場所で、リラックスした状態が望ましい。自宅が静かな場所であればスタッフが録音機材を持って訪問するが、自宅周辺の雑音をマイクが拾ってしまう場合はスタジオ収録となる。この場合、スタジオ利用にかかる料金が別途必要だ。

 収録された音声データはOKI側で分析と加工が行われる。母音、と子音を分解し、同じ文字の発音でも前後のつながりやアクセントごとに複数の発音データが用意される。これらをデータベース化した上でチャット用クライアントソフトウェアをベースにした会話用ソフトに組み込み、ユーザーのPCにインストールする。ここまでの過程はOKIが長年にわたって培った高度な技術を投入しているが、操作はとても簡単で、テキストによるチャットとまったく変わらない。よく使う言葉を登録できるほか、テキストファイルとして用意した長文も朗読できる。

 音声合成ソフトはこれまでにもいくつか存在し、電話応答やアナウンスなどでも使われている。しかし「Polluxstar」の特長は、あくまでも録音したユーザーの会話を再現しようとするところ。正しい発音よりも、本人の発音を再現する仕組みになっている。また、口癖など本人特有のフレーズを事前に録音しておくことで、さらに本人の発音に近づける機能が用意されている。記者発表会では60代男性、50代女性、40代男性、30代女性のサンプルが披露され、実際の会話と合成音声を聞き比べられた。どれもまるで本人が話しているようだったが、女性よりは男性、若い声よりは年寄りの声の方が再現性が高いようだった。

 OKIとしては、咽頭癌や筋肉の病気など、将来的に自分の声で話せなくなる人に向けてシステムを提供する予定だ。咽頭癌の場合、発見から手術までは時間があるため、その間に音声の収録を行える。本技術の実証実験には、実際に声帯手術を受けた大阪芸術大学教授の牧 泉 氏が協力した。牧氏は声帯切除後、さっそく自分の合成音声で医師や家族と会話し、日常生活で活用した。さらに2008年4月からは教壇に復帰。7月までの前期課程の講義を「Polluxstar」で完遂させたという。記者発表会では奥様との食事をしながらの会話の模様がビデオで紹介された。牧氏のテーブルにキーボードがある以外は、ほとんど他の一般的な夫婦の会話が続けられていた。「夫婦げんかも今まで通り」という奥様の言葉が印象的で、語る側だけではなく、聴く側も自然に会話できるようだ。

 個々の音声をサンプリングし、本人の発音を忠実に再現するというシステムは、上記のような医療補助以外にも、イベントや館内アナウンス、メールの読み上げなど幅広い用途に活用できる。ただし朗読によるサンプリングとなるため、喜び、笑い、怒り、悲しみなどの感情を込めた発言は難しい。これらについては肉声に近いエフェクト技術を開発する必要があるという。表現力が豊かになれば、エンターテイメント分野においても用途が広がりそうだ。例えばアニメ「ルパン三世」の台詞をすべてサンプリングすれば、最新作でもルパン役が山田康雄氏の声になる、という利用法もできそうである。将来が楽しみな技術だ。

 これに似たようなソリューションに、ソニーが開発した「モーションポートレート」がある。こちらは本人の顔写真から様々な表情や会話の口元を合成するソフトだ。これと「Polluxstar」を組み合わせると、本人の顔と声を使ってあらゆる言葉を合成し、表情込みで会話できる。このコラボレーションは実現したらとてもおもしろそうだ。

 その一方で、本人そっくりの声で別人が喋らせるという部分にはセキュリティ上の危惧も感じた。悪用されると本人の声を使って振り込め詐欺ができてしまう。モーションポートレートではテレビ電話の会話も本人に擬装できる。考えすぎかも知れないが、どちらも夢のある技術だけに、セキュリティの部分にも気を配り、安心して使えるように発展して頂きたい。
《杉山淳一》
注目の情報[PR]

注目ニュース

東芝、車載向け高性能Bluetoothチップセットを製品化〜EDR規格と高度音声機能に対応

 東芝は25日、カーオーディオやカーナビなどの車載向けに、Bluetooth通信と音声合成や音声認識などの高度な音声処理を同時に行える高性能Bluetoothチップセットを製品化し、4月からサンプル出...

動画投稿サイト「zoome」、初音ミクなどを使った動画作品投稿番組〜声優によるコメントも

 アッカ・ネットワークスは6日、同社が運営する動画投稿サイト「zoome」において、クリプトン・フューチャー・メディアの音声合成ソフト「VOCALOID 2:初音ミク」などを利用した動画投稿を募集する...

富士通、PCサイトの9割が閲覧可能な携帯電話用ブラウザ「Inspirium HTMLブラウザ V3.7」発売

 富士通は14日より、Webページの閲覧機能を大幅に向上させた携帯用ブラウザ「Inspirium HTMLブラウザ V3.7」の販売を開始する。組込みソフトウェア「Inspirium(インスピリアム)...

あなたのブログもみっくみく!ブログパーツ「踊る初音ミク」〜ロケットスタート

 Web制作集団であるロケットスタートは25日に、自分のブログ上で初音ミクを踊らせるブログパーツ「踊る初音ミク」を公開した。

NEC、さまざまな機器へ搭載可能な小型音声対話モジュールを開発

 日本電気(NEC)は7日、車載端末、情報家電、ロボットなどさまざまな機器への、音声対話機能の搭載を容易かつ安価に実現できる、名刺サイズの小型音声対話モジュールを開発したと発表した。

 シャープは、電子辞書シリーズ「Papyrus」にネイティブ音声と音声合成による読み上げ機能「TTS」に対応した「PW-GT550」とネイティブ音声と32コンテンツを収録した「PW-G500」の2モデ...

 gooを運営するNTTレゾナントは、携帯電話を使って音声で情報入力ができる検索システム「スピーチ・アシステッド・サーチ」の実証実験・第2弾を始めた。

 KDDIと沖縄セルラーは、au携帯電話にて受信したメールを自動的に読み上げるサービス「EZメール読み上げ」を3月上旬から開始する。利用料金は無料。

 BIGLOBEは、ブログやホームページ向けのコミュニケーションサービスとして提供している「ウェブリシール」に、電話から自分の声を録音してブログやHP上で公開できる「生声シール」を新規に追加した。

日立、音声読み上げ機能搭載のノートPC「Prius M」シリーズ5モデル

 日立製作所は20日、コンシューマー向けノートPC「Prius M」シリーズ5モデルを4月29日から順次発売すると発表した。

RSS

特集・連載

ブロードバンド/無線LANスポット検索

ブロードバンド検索
-

ピックアップフォト