dotData、大規模なテキストデータを低コストで構造化する「dotData TextSense 1.3」を発表

～大規模なテキストデータのラベリング運用コストが最大1/100に～

世界最先端のAI技術「特徴量自動設計」で、企業のデータ分析・利活用を革新する業界リーダーのdotData, Inc.（本社：米国カリフォルニア州、CEO：藤巻遼平、以下 dotData）は、本日、業務で蓄積されたテキストデータから“意味”を抽出して構造化する「dotData TextSense」の最新バージョン「dotData TextSense 1.3」を発表しました。本バージョンでは、LLMと機械学習を組み合わせることで、高精度かつローカル環境でラベリングを実行し、大規模なテキストデータのラベリング運用コストを最大1/100（注）に削減するとともに、テキストデータを外部に送信しないセキュアな運用を実現します。

開発の背景：大規模テキスト分析におけるAIコストの増加とセキュリティ懸念
営業日報、お客様の声（VOC）、サポートチケット、従業員評価レポートなど、企業データの多くはテキストで蓄積され、経営・業務を変革し得る重要情報を含みます。近年は、大規模言語モデル（LLM）の発展によって、テキストデータ分析の敷居が大きく下がり、LLMによるテキストデータ活用で多くの企業が成果をあげています。
dotData TextSenseは、最新の大規模言語モデル（LLM）を活用することで、形態素解析などの前処理や同義語・不要語の準備なく、テキストに「意味ラベル」を付与することができます。また、AIがテキストデータからラベルの候補を生成する「ラベル推薦」や、フィードバックに基づいてプロンプト（AIへの指示文）を自律的に調整する「自動プロンプト調整」によって、分析の専門家でなくてもテキストデータを簡単に扱える仕組みを提供します。
一方、テキストデータの規模（件数）が大きくなると、LLMに基づくアプローチでは、LLMのAPI呼び出しコストが増大するという課題があります。例えば、100万件のテキストデータをLLMで処理すると、1回の実行で約1,000～2,000ドルのコストが発生（注）します。開発・トライアルフェーズでは、投資対効果の観点からLLMに送信するデータ量を絞ることで対応できますが、ラベル定義が固まった後の本番運用で大規模なテキストデータを全件処理しようとすると、このAPIコストが大きな障壁となっていました。
さらに、LLMによるアプローチでは、分析対象のテキストを外部のLLMサービスへ送信する必要があります。営業日報やお客様の声、サポートチケットには、顧客情報や機微な業務情報が含まれることも多く、これらを外部へ送信することは、情報セキュリティやデータガバナンスの観点から懸念となります。特に、規制の厳しい業界や機密性の高いデータを扱う業務では、外部送信を前提とするアプローチの適用が難しいケースもありました。
dotData TextSense 1.3：大規模なテキストデータを低コスト・セキュアにラベリング
LLMとローカルモデルを組み合わせたハイブリッドラベリング
dotData TextSense 1.2では、ラベルを設計する際に、LLMと自動プロンプト調整により精度の高いラベリングを実現しました。dotData TextSense 1.3では、新たに「ハイブリッドラベリング」が可能となりました。この機能では、LLMと機械学習モデル（ローカルモデル）を組み合わせることで、データ全体をLLMで処理することなく、ラベリングを実行します。これにより、100万件を超える大規模なテキストデータに対しても、高いラベル品質を維持しながら、低コストかつ効率的なラベリングを実現します。
ローカルモデルによるセキュアな大規模テキストラベリングの運用
ローカルモデルは、ローカル環境へエクスポートしてPythonライブラリとして実行することができます。ローカルモデルはLLMを利用しないため、ラベル定義が確定した運用フェーズにおいて、大量のテキストデータを高速かつ低コストにラベリングすることができます。また、外部へテキストデータを送信する必要がないため、運用段階において、オンプレミス環境や閉域網で、安全にテキストのラベリングを実行することができます。
なお、当社の実証実験では、財務報告書データ約100万件に対して、LLMによるラベリング結果を基準（100%）とした場合に、約98%の精度を維持しながら、約1/100のコストでラベリングできるとの結果を得ました。
dotData TextSense 1.3の各種機能は、大規模テキストデータの運用を想定し、データパイプラインの自動化や定期的なバッチ処理に組み込みやすい「Python版」として提供されます。
dotData TextSenseについて、まずはお気軽にお問い合わせください。
dotData TextSenseの詳細ページ
https://jp.dotdata.com/dotdata-textsense/
注：本コストは、100万件規模のテキストデータを商用LLMのAPIで処理した場合の概算であり、2026年6月時点の一般的な料金体系および1件あたりの平均トークン数などの前提に基づく試算です。LLMのAPI料金・トークン単価は、提供事業者・モデル・時期によって異なります。最新の料金および算定条件については、各事業者の公式情報をご確認ください。なお「最大1/100」は、運用フェーズにおいてLLMでラベリングを継続した場合と、本機能で構築したローカルモデルで運用した場合とを比較した試算値です。
製品・サービスに関するお問い合わせ先
E-mail: [email protected]
本件に関する報道関係からのお問い合わせ先
E-mail: [email protected]
dotData, Inc. について
dotDataは特徴量自動発見・抽出プラットフォームのリーダーとして、企業のデータ利活用において最も難しいと言われる特徴量の発見・抽出の課題を解決します。dotDataの特徴量自動設計技術は、わずか数時間で、大規模で複雑な関連性を持つデータの関係性を分析し、人間のバイアスにとらわれることなく、自動的に透明性の高い説明可能な特徴量を抽出し、お客様のビジネスにとって重要なインサイトを導き出します。このAI技術は、dotDataの全てのAIプラットフォームの基盤であり、データから自動でインサイトを引き出すだけでなく、機械学習や生成AIと組み合わせることで、予測分析からビジネスアナリティクスまで、企業の幅広い課題に応えるAIソリューションを提供します。変化の激しい現代において、どの業界や業務においても、AIが生み出すインサイトは、ビジネスの成長やイノベーションのためのゲームチェンジャーとなります。ここにこそ、多くのフォーチュン500の企業がdotDataを選ぶ理由があります。

企業プレスリリース詳細へ
PRTIMESトップへ