【テクニカルレポート】検索技術による企業内外データの仮想統合（後編）……ユニシス技報

エンタープライズソフトウェア・サービス

2012年9月8日（土） 15時00分

注目記事

4.仮想データ統合を実現するデータ設計

　本章では、SBAの構築事例である品質管理に対する課題解決ソリューションをもとに、効果的なSBAを構築するためのポイントとなる情報アクセス基盤のデータ設計について記述する。

4.1　品質管理に対するSBA 構築事例の概要
　製品の事故・トラブル、ひいては製品回収といった事態が発生し、その対応に多大な人的・経済的コストを費やすことがある。そういった事態への予防策として、Web上に公開されているエンドユーザーの口コミ情報と社内の製品情報を検索技術によって掛け合わせ、視覚的に見せるSBAを構築した。このSBAにて、ある製品に関するクレームが増えていることを検知することにより、リコールにつながる不具合の予兆や、問題のある製品と同じ部品を使用している他の製品を調査し、更なる事故を未然に防ぐことを目標とした。

4.2　企業内外のデータを繋ぐ情報アクセス基盤のデータ設計
　企業内外のデータを繋ぎ、効果的なSBAを構築するためには、複数のデータソースから必要な情報を選定し、用途を踏まえて適切に関連付けることがポイントとなる。

　データ設計では、まずWeb上の口コミ情報と社内の製品データから、必要とされるデータを入力として選定する。また、データ同士の関連付けが意味のある情報連鎖となる場合、どのようにデータを関連付けるかを定義する。データの出力としては、どの項目をどのように表示したいか、画面構成を検討する。最後にデータの入力と出力を合わせ、検索システムのインデックス構成を設計する。

4.2.1　入力データの選定
　社内外のデータから入力とするデータを選定し、データの関連付けを整理する。検索システムによって情報を統合する場合、複数のデータソースを関連付け、一つのビッグテーブルを作成するように設計する。データソース同士が共通の項目を持たず、データの関連付けに必要な情報が存在しない場合は、何らかの規則をもとにデータを変換するプログラムを作成したり、マッピングテーブルを作成したりすることで、関連付けを実現する。

　図5に、Web上の口コミ情報と、社内のデータベース内の製品情報および部品情報を選定し、関連付ける例を示す。この例では、インデクシングに以下のカスタマイズ処理を追加してデータを関連付けている。

　・口コミ情報に含まれる製品の通称を、正式名称にマッピングし、社内で管理されている製品情報に関連付ける
　・部品ID が拠点間で異なるため、マスターテーブルを参照して統一したIDに置き換える

4.2.2　画面構成の検討
　検索結果を表示する画面の設計では、何のために、どのように検索（データを取得）し、どのような結果が得られることで、何が利点となるかを検討する。

　本章の事例では、リコールにつながる不具合の予兆を検知するため、製品ごとに、クレームおよび不具合件数の時系列推移を視覚的に見たいという要望があった。そのため、通常の検索画面の他に、選択した製品のクレーム件数を縦軸、年月を横軸とする折れ線グラフの画面等を取り入れた。図6に、リコールの予兆を検知する例を示す。クレーム件数の製品別の時系列推移から、クレーム件数が増えている製品を選択すると、その製品で使われている部品別の時系列推移に画面遷移し、特定の部品を使用している製品全体のクレーム件数の傾向が見られる。グラフ等の画面は簡易的なビジネス・インテリジェンス（BI）（※5）として利用可能であり、またBIと異なり数値は検索結果数であるため、因子となる検索結果を動的に表示できる。

5.　OSS検索エンジンを活用した情報アクセス基盤構築における考察

5.1　要求状況
　日本ユニシスでは、製造業や公共・医療分野等の案件にSolrを適用した実績がある。その中で、顧客の現行システムや業務における情報共有等の顕在的、潜在的な課題を引き出すため、顧客へのヒアリングを継続している。表3に、OSSの検索技術およびSBAに対する要求状況をまとめる。表中の「仮想データ統合・分析に関するニーズ」がSBAによる解決範囲である。

5.2　OSS検索エンジン適用における留意点

　プロジェクトでのSolrの適用を経て洗い出したOSS検索エンジン適用の要件定義における検討事項を表4に記述する。OSSに限らず、一般的な検索システムにおいても共通する検討事項がほとんどであるが、Solrは複数のOSSを組み合わせて使用するため、一部その点における検討事項を含んでいる。

　Solrと組み合わせるOSSには、Web・ファイルクローラ、形態素解析器などがあり、要件によって選定する。対応するデータソースの種別や、アクセス権限情報取得の要否により、採用するクローラが異なり、インデクシングに必要な時間も異なる。また、検索においても、全体および1ファイルあたりのファイルサイズや使用する検索機能によって検索応答時間が大きく変動する。そのため、実際のデータを使用して事前にインデクシングおよび検索性能を検証することが望ましい。

6.　おわりに

　従来のデータベース統合と比較し、検索技術による情報アクセス基盤の利点として、データベース内のデータだけではなく、インターネット上の口コミ情報や、社内のファイルサーバーのファイル等の非構造化データも横断的に扱うことができる点と、スケーラビリティが高い点があげられる。2012年現在、爆発的に利用が拡大したソーシャルメディア内の情報や、e-コマースでのユーザ行動を示すクリック履歴や購買履歴のログ等を分析したいというニーズが高まっている。しかし、それらの大規模な非構造化データを、どのように扱うかが企業においての課題となっており、検索技術による情報アクセス基盤はそのような課題に対する解決策の一つとなり得る。ログ分析のような大規模データ処理において、インデクシングの前にデータの加工が必要となる場合は、近年多数実例が報告されているHadoop（※7）等の分散処理技術との組み合わせが有効である。

　今後も企業内外に存在する分析・活用対象となるデータは更に大量化・多様化すると考えられる。そのようなデータの取り扱いにおける課題の解決策の一つとして、本論文が参考になれば幸いである。

■注釈
＊5：ビジネスインテリジェンス（BI）とは企業に蓄積されたデータを集約・整理・分析し、経営上の意思決定に役立てる手法である。企業内に散在する情報をデータウェアハウスに蓄積し、レポーティングや，データマイニングを通じて、高度に活用することを目的とする。
＊6：SFA（営業支援システム、sales force automation）は営業を支援するシステムである。データベースに顧客情報、コンタクト履歴や商談のプロセス、営業スケジュールを蓄積し、営業案件の進捗状況や案件成立の見込みをチーム内で共有する。
＊7：Apache Hadoopはオープンソースの大規模データの分散処理を支えるJavaソフトウェアフレームワークである。

■参考文献
［1］Gregory Grefenstette and Laura Wilber, “Search-Based Applications - At the Confluence of Search and Database Technologies”, Morgan & Claypool Publishers, 2011
［2］Leslie Owens, “Tapping The Power Of Search-Based Applications”, Morgan & Claypool Publishers, March 2011
［3］清兼義弘．関口宏司．田澤孝之．松野良蔵，「エンタープライズサーチ技術と導入」，アスキー・メディアワークス，2008年9月
［4］吉川日出行，「サーチアーキテクチャ「さがす」の情報科学」，みずほ情報総研株式会社，ソフトバンククリエイティブ，2007年10月
［5］Laurie F. Wurster, Bob Igou, Zeynep Babat, “Survey Analysis: Overview of Preferencesand Practices in the Adoption and Usage of Open-Source Software”, Gartner,Inc., January 2011
［6］「国内ソフトウェア市場予測を発表」，IDC Japan 株式会社，2011年5月24日，http://www.idcjapan.co.jp/Press/Current/20110524Apr.html
［7］「2010年度オープンソースソフトウェア活用動向調査」，The Linux Foundation Japan，2011年7月，http://www.linuxfoundation.jp/jp_uploads/SI_Forum_OSS_Survey_2010.pdf
［8］Aaron Wall, “History of Search Engines: From 1945 to Google Today”,http://www.searchenginehistory.com/

※参考文献［6］～［8］に含まれるURL は，2012年2月時点での存在を確認

■執筆者紹介（敬称略）
石井愛（Ai Ishii）：2003年日本ユニシス（株）入社、オープンミドルウェア製品主管部にて保守・開発に従事。2009年より総合技術研究所に移籍し、検索技術領域の評価と研究を主体とした活動をする。

※同記事は、日本ユニシスの発行する「ユニシス技報」2012年3月発刊 Vol.31 No.4 通巻111号からの転載記事である。

《RBB TODAY》