【テクニカルレポート】ビッグデータに対するテキストマイニング技術とその適用例……ユニシス技報 3ページ目 | RBB TODAY
※本サイトはアフィリエイト広告を利用しています

【テクニカルレポート】ビッグデータに対するテキストマイニング技術とその適用例……ユニシス技報

エンタープライズ ソフトウェア・サービス
表1
  • 表1
  • 表2
  • 図1
  • PMI(Pointwise Mutual Information)
  • 図2
  • 図3
  • 図4
  • 図5

5. 適用事例

 4章で記述した手法は日本ユニシスのテキスト分析ソリューションTopicExplorerおよびTopicStationに採用されている.本章では両ソリューションでの活用例について紹介する.

5. 1 製品やサービスの改善点を見つける
 製品やサービスに対するクチコミ中で急騰する話題は,消費者がその製品やサービスに求めているポイントに関係することが多い.図8は「ネットバンキング」に対して語られたツイート(Twitter上のつぶやき)の件数と本手法で検出した急増キーワードである.

 図中(1)~(6)のキーワードが現れるツイートの例文は表3のとおりである.(1)(4)(6)の期間ではセキュリティ面での不安が語られている.また(2)(3)ではスマートフォンからも利用したいという要望が,(4)では不正アクセスに対する補償をして欲しいという要望が挙がっている.これによりネットバンキングサービスを提供する銀行は,インターネット犯罪に対してのセキュリティ強化や補償を充実させつつ,スマートフォンでも利用できるようにしてほしいという消費者の期待に早く気付くことができ,自社サービスの改善に活用することができる.

5. 2 消費者のトレンドを理解して商品開発に活かす
 クチコミサイトに投稿された評価コメントのキーワードの変化を探ることで,消費者のトレンドを捉えることができる.表4はクチコミサイトのフレグランス(香水)ジャンルにおいて,2011年時点で増加傾向または減少傾向にあるキーワードの抜粋である.

 「セクシー」「スパイシー」などといった個性の強い香りより,「上品」「清潔」といった清楚な香りを持つ香水に注目が集まっていることが分かる.また,香りの「持続」に対しての関心が高まっていることが類推できる.このクチコミサイトでは評価コメントに加えて,投稿者の年齢や商品に対する評点(1~10点)が掲載される.TopicExplorerではこれらの属性と出現件数の推移を図 9 のようなグラフで確認できる.

 グラフでは「清潔」について着目している.横軸に年齢,縦軸に評点をとり,各年の平均値を円としてプロットし,矢印で結んでいる.プロットした円のサイズは出現件数に比例して大きくなる.このマップから「清潔」の出現件数が年ごとに多くなっていることを確認できる.また,投稿者の年齢が次第に右側に移ってきており,「清潔」な香りに興味を持つ消費者層が高い年齢にも拡大していることが類推できる.こういった洞察はトレンドを反映した商品開発に有効と考える.

5. 3 株価や売上不振の原因をクチコミから分析する
 企業の株価や特定の商品の売上が浮き沈みするとき,その予兆として,企業や商品に対するポジティブな意見,ネガティブな意見がソーシャルメディア上で増え始めることがある.これを利用して,その好不調の原因を分析する.

 図10はN社の株価と日経平均株価の推移である.企業の株価は一般に,その企業にとってプラスまたはマイナスな要因がなければ,日経平均株価に連動するといわれているが,図中の(1)(2)の期間は異なる動きをしている.

 本手法によって各期間の前後で N 社に関するツイートで増え始めたキーワードを調べると,(1)では「AIJ」,(2)では「提携」というキーワードが増えていた.これらについて話題の可視化を行った結果を図11に示す.

(1)では「年金運用委託先 AIJ の問題」についての話題がTwitter上で急騰していることがわかり,企業の株価に影響をおよぼしたという仮説を立てられる.一方で,(2)では「D社と異業種提携で新事業を創出」していくという明るいニュースがあり,株価の上昇に貢献したという仮説が立てられる.

6.テキストマイニング技術の今後の展望

 商品やプロモーションを新たに打ち出す際にはターゲットとする客層を定める.2. 1節で挙げた各媒体において発言者のプロフィールが分かれば,投稿内容と合わせて分析することで,商品やプロモーションが実際にターゲットとしていた客層に受け入れられたのか,どのような点で不満を抱かせたかを把握することができる.また,想定と異なる客層に人気がある場合には,企業が商品やプロモーションの思いもよらなかった長所を知ることができる.

 SNSでは年齢や性別,趣味など,発言者側で公開しているプロフィール情報を取得することができる.一方,Twitterやクチコミサイトなどではこれらの情報はほとんど得られない.しかし発言に含まれる言葉やGPSの情報によってある程度の推測は可能である.例えば「娘にプレゼントを買った」という投稿があれば,既婚者かつ子持ちであることを推測できる.併せてその他の投稿に付随するGPS情報で,深夜の所在地が新宿近辺に偏っていることがわかれば,その付近に在住と推測できる.性別や年齢には発言における言葉遣いを判断材料にできる.今後はこうしたプロフィール推定の技術が企業内でのデータ活用で求められると考える.

7.おわりに

 総務省と経済産業省は国や地方自治体などの行政機関が持つデータを情報システムから利用しやすい形で公開する準備を進めている[7].公開対象には気象情報や交通情報など,企業内の情報と組み合わせることで新たな価値を生みだすことが期待できるデータも含まれている.行政機関が持つ豊富な統計データが加わることにより,分析の幅はさらに広がる.その一方で,分析の難易度も上がることになり,分析者に求められるスキルは一層高くなる.

 4. 2節で紹介した“話題の変化を把握する技術”はテキストデータだけでなく,定量データの変化も捉えることができる.例えば,生産ラインにおける不良品率を監視し,その異変を通知するといったことにも応用できる.同様に5章で取り上げた企業の株価や商品の売上も監視できる.将来的には,これらの異変を検知してその原因をソーシャルメディア上のクチコミから探るといったことが半自動的にできる可能性がある.これに関してはさらなる研究を進め,実用化したいと考えている.今後もさまざまなデータの相互の関係を自動で検出する技術や分析ツールを提供することで,分析者の負荷を軽減していきたい.


■参考文献
[1]大塚裕子,乾孝司,奥村学,意見分析エンジン─計算言語学と社会学の接点─,コロナ社,2007年10月
[2]奥村学,高村大也,言語処理のための機械学習入門,コロナ社,2010年8月
[3] Peter D. Turney, “Thumbs up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classifi cation of Reviews”, In Proceedings of ACL,pp.417-424, 2002
[4]工藤拓,松本裕治,チャンキングの段階適用による日本語係り受け解析,情報処理学会研究報告,Vol.43 No.6,pp.1834-1842,2002年
[5]下平英寿,伊藤秀一,久保川達也,竹内啓,統計科学のフロンティア3モデル選択,岩波書店,2004年
[6]徳永健伸,言語と計算5 情報検索と言語処理,東京大学出版会,1999年
[7]総務省,平成24年度版 情報通信白書,ぎょうせい,2012年7月,P119~121
[8]北研二,言語と計算4 確率的言語モデル,東京大学出版会,1999年
[9]林田英雄,脇森浩志,テキストマイニング技術とその応用,ユニシス技報,日本ユニシス,Vol.24 No.4 通巻84号,2005年2月
[10]林田英雄,WebマーケティングのためのCGM分析,ユニシス技報,日本ユニシス,Vol.31 No.3 通巻110号,2011年11月

■執筆者紹介 
脇森浩志(Hiroshi Wakimori)
 2003年日本ユニシス(株)入社.テキストマイニングを始めとする情報分析・検索技術の実業務への適用に携わる.現在,TopicExplorer,TopicStation,MiningPro21 文書マイニング・システムなどテキスト分析システムの開発,適用を担当.経済産業大臣登録 中小企業診断士.

※同記事は、日本ユニシスの発行する「ユニシス技報」2013年3月発刊 Vol.32 No.4 通巻115号からの転載記事である。
《RBB TODAY》
【注目の記事】[PR]

関連ニュース

特集

page top