イレブンラボから今までにない表現力を持つTTSモデル「Eleven v3 (alpha)」を発表

史上もっとも表現豊かなText to Speechモデル

　音声AI技術のリーディングカンパニーであるイレブンラボ（本社：米国ニューヨーク州、CEO：Mati Staniszewski）は、この度、最新のテキスト読み上げ（TTS）の新モデル「Eleven v3 (alpha)」のリリースを発表いたします。

　このEleven v3では、これまで切望されてきた日本語の正確な読み上げとともに、これまでのモデルには無い、「感情」と「対話」が可能になっています。単にテキストを読み上げるだけでなく、「演じる」ことを目指して設計されております。新しいアーキテクチャで構築されたEleven v3は、音声生成において、これまでにないリアルさを思いのままに実現します。登場人物を切り替えたり、セリフの途中でトーンを変更したりすることも可能になりました。また、ささやき、笑い声、息をのむ音、拍手などの指示に、実際の音声と聞き分けができないレベルの自然さを実現します。今や音声AIは、音声合成というよりも、まるでパフォーマンスを演出しているかのような領域まで達することができました。
　今回のEleven v3は、アルファ版のリリースのため、従来モデルよりもより細かく指示を出すことが必要となりますが、それにより素晴らしい能力を最大限に引き出すことができます。その結果生まれる音声は、まるで本物の人間が話しているかのような感情とリアリティにあふれ、聞く人に感動を与えてくれます。今回のモデルで、対応言語は33言語から70言語以上に増加。今後、さらなる微調整により、さらなる向上を目指します。

現在の最新モデルでの対応言語はこれまでの33言語から70以上の言語に増加。今後さらなるアップデートにより、操作性を向上させていきます。

具体的にイメージしていただきやすいよう、サンプル音声をご用意しました：
v3 サンプルビデオ集
日本語朗読サンプル

v3の主な進化点

　日本語の読み上げ機能が劇的に進化：これまで言語的な特性から「難しい」とされてきた日本語を、正確に読み上げることができます。

- 70以上の言語に対応: 33言語から70以上の言語へと拡張し、世界の人口カバー率は60%から90%に拡大。日本語や英語はもちろん、グローバルなコンテンツ制作に対応可能です。
- 対話モード: 会話の中で自然な話者切り替えができます。
- 音声タグのサポート: テキストに「ささやき声」「笑い声」「皮肉な声調」等のトーンの指示や、「群衆の歓声」「ドアのきしむ音」といった効果音の指示を盛り込むことで、読み上げの臨場感をさらに上げてまいります。
- 幅広い感情表現: 一つの文章の中で気分の変化やペースの変化が可能です。
- すべてのユーザーが利用可能: 幅広いクリエイターや企業にこちらからご利用いただけます。
- ストリーミングサポート（近日提供予定）: コールセンターやリアルタイムの会話型エージェント向けに近日中に提供開始予定です。
- Eleven v3（Alpha）の公開API：近日公開予定です。早期アクセスについては、営業までお問い合わせください。

「Eleven v3」は、このような方々に選ばれています

　感情豊かな物語やキャラクターの会話、オーディオブックなど、声の表現力が重要なコンテンツ作りに最適です。今後ますますコンテンツを作るクリエイターの方々、開発者の方々、そして企業での活用を考えている方々に特に選ばれる存在となってまいります。これまで以上に細かく声の表現を調整できますが、そのためには、内容に合わせた適切な指示を試すことが、質の高い声を生み出すコツとなります。

　なお、イレブンラボのこれまでのモデルであるv2.5 TurboやFlashは、会話の応答速度が非常に重要な場面、例えばAIとリアルタイムで話すAI対話のような用途で、引き続き利用を推奨しています。現在、v3のリアルタイム版も開発中です。

v3がもたらすインパクト

　ElevenLabs v3の登場が画期的である背景には、「音声生成に真の表現力をもたらした」ことがあります。v3の登場により、文中でトーンを自在に変え、感情を細やかに表現し、さらにはたった一回のテイクで話者を切り替えることができるようになりました。これにより、単なる読み上げではなく、「パフォーマンス」の創作が可能になり、まるで一連の演技のように自然に行うことができます。これにより、AI音声は「読み上げ」という枠を超え、「パフォーマンス」の創作という新たな領域に足を踏み入れました。

　70以上の言語に対応しながら、まるで人間が話すような自然な会話のリズムや感情に、AI音声モデルがここまで近づくことができたのは、まさに歴史的な一歩です。
このたび、v3のリリースを記念して、6月中はUIでの利用が80%オフになります。
この機会にぜひ体験してみてください！
elevenlabs.io/v3

イレブンラボ共同創設者兼CEO、Mati Staniszewskiより

　「Eleven v3は、感情や表現、非言語的な指示までも理解し自在にコントロールできる、これまでで最も表現豊かなText to Speech（TTS）モデルとなりました。オーディオタグを使えば、ささやき、笑い、アクセントの変更、さらには歌うことを指示することまでできます。70以上の言語で、あらゆる台本に合わせてペース、感情、スタイルを思いのままに調整することが可能です。今回、私たちのグローバルミッションとして、このモデルを70以上の言語に対応させられたことを嬉しく思います。

　このリリースは、共同創設者であるPiotr Dabkowskiと、彼が築き上げてきた素晴らしいチームのビジョン、リーダーシップの賜物です。良い商品を生み出す難しさはもちろんのこと、今までに無いパラダイムシフトを起こしていくという、ほとんど不可能にすら思えるようなことをやり遂げました。このような瞬間に立ち会えることをイレブンラボのメンバー全員が大変嬉しく思っています。そして、今後も私たちが更なる高みを目指すことができることに心からの感謝申し上げます。」

待望の日本語読み上げ（TTS）機能が大幅強化

　多くのクリエイターや企業から切望されていたイレブンラボの日本語読み上げの強化。今回のv3によってその機能は大きな進化を遂げました。

　正確に日本語を読み上げるのはもちろん、テキストから感情を繊細に読み取り、喜怒哀楽を豊かに表現するだけでなく、例えば「関西弁」と指定すれば自然な関西イントネーションへと自動変換。さらに、「サッカー中継風」といった入力で、背景の声援とともに声を張り上げるような臨場感あふれる読み上げまで可能になりました。今回の進化により、中央省庁や地方自治体の情報伝達、そして個人のクリエイターに至るまで、あらゆるユーザーの表現の可能性を劇的に広げてまいります。

イレブンラボジャパン合同会社 Japan＆Korea ゼネラルマネージャー　田村元より

　「2カ月前となる2025年4月、私たちは初の海外拠点として日本法人『イレブンラボ合同会社』を東京に設立し、日本およびアジアパシフィック地域での事業活動を本格化させました。以来、すでに多くの企業・業界から熱い期待と、具体的な利用・提携のご依頼をいただいております。

　中でも、日本語の精緻な読み上げ機能への期待は特に大きく、私たちが最優先で取り組んできた課題でした。今回のv3（α版）の登場により、この待望の機能が実現し、日本のユーザーの皆様へ真に満足度の高いサービスを提供できることを確信しております。

　人手不足に直面するコールセンターでのAI音声対応、社内外への効果的な情報発信、各行政機関における多言語化や障がい者対応の促進、そして日本が世界に誇るアニメやゲームといったコンテンツ産業等。私たちは、これらの多様な領域におけるニーズに応え、より豊かなコミュニケーションの未来を創造してまいります。」

リンク:
メイン v3 ホームページ: elevenlabs.io/v3
サインアップ: https://elevenlabs.io/app/sign-up
プロンプトガイド: https://elevenlabs.io/docs/best-practices/prompting/eleven-v3

イレブンラボとは

　イレブンラボは、2022年に設立されたAI音声研究およびテクノロジーをグローバルでリードする企業で、企業・開発者・クリエイター等に向けて最先端のAI音声ツールを開発しています。イレブンラボのプラットフォームは、数百万人の個人ユーザーをはじめ、フォーチュン500社のうち実に72%以上企業に対してサービスを提供。高品質な音声を大規模に、そして手頃な価格でスピーディーに作成しています。現在、70以上の言語でインタラクティブなAI音声を提供しています。
日本語サイト：https://elevenlabs.io/ja

企業プレスリリース詳細へ
PRTIMESトップへ