【テクニカルレポート】日本でのコモンセンス知識獲得を目的としたWebゲームの開発と評価(前編)……ユニシス技報 | RBB TODAY

【テクニカルレポート】日本でのコモンセンス知識獲得を目的としたWebゲームの開発と評価(前編)……ユニシス技報

ブロードバンド その他

図1 ConceptNet におけるコモンセンス知識表現
  • 図1 ConceptNet におけるコモンセンス知識表現
要約 

 コンピュータが日常の様々な出来事について理解し臨機応変に動作する仕組みを実現することは、長年に渡り取り組まれてきている研究課題である。その実現には、私たち人間が暗黙に共有していてコンピュータが持っていない広く膨大な知識(コモンセンス知識)を獲得する仕組みが必要である。本稿では、インターネットを利用する多くの人々から短期間で効率的に日本のコモンセンス知識を獲得する目的で開発した連想ゲーム「ナージャとなぞなぞ」について報告する。本ゲームにより、幅広い日本のコモンセンス知識を短期間で大量に獲得できたことを示す。また、本ゲームが多様な目的の知識獲得に対応可能な、柔軟性の高い手法であることを示す。

1. はじめに

 コンピュータは、私たち人間にとって高度で難しいタスクをうまく遂行する。たとえば、高次の定義域を持つ関数の定積分値を求めたり、天候・視界不良の状況下でジャンボジェット機を安全に着陸させたりすることを支援する。しかし、その一方で、「今夜友人とふたりで食事をするレストランを決めること」のような私たちが日常の生活の中で出くわす簡単な問題を、コンピュータは上手に扱うことができない。レストランを予約した時にその場所と電話番号をスケジュール帳へ予約時間と共に追加してくれるスマートフォンや、夜ベッドで本を読む時にそれを察知して手元を明るく照らしてくれる部屋のような、判断能力を備え私たちの生活を豊かにしてくれるコンピュータは、未だ実用の域に至っていない。私たちの言葉の意味を解釈し、私たち自身のことや生活について幅広く理解し、日常の様々な事柄について考え、臨機応変に応答し、結果を学習する能力を持つ新しい種類のソフトウェアを作ることはできるだろうか。

 これを実現するにあたっての大きな課題のひとつは、私たち自身や日常の出来事について幅広く理解するためにコンピュータが用いる膨大な知識を獲得することである。私たちが日常的な判断をするときの基底をなす一般的で広く適用できる知識は、「コモンセンス知識」と呼ばれている。「約束した時間に遅れると相手の信頼を失う」「予定を忘れないようにスケジュール帳へ記入する」「本を読むときには十分な明るさが必要」「電灯のスイッチをON にすると部屋を明るくすることができる」「蝋燭に火を灯すと手元を明るく照らすことができる」などのコモンセンス知識を私たちはたくさん知っている。これらは、私たち一人一人が生まれてから大人に成長する過程で学び体得したものであり、私たちの間で暗黙的に共有されているが、現在のコンピュータはそれらを持っていない。Minsky[1]は、私たちのような判断能力を持つコンピュータを実現するためには数億程度の数のコモンセンス知識が必要だと推定している。

 本稿は、そのような膨大な数におよぶコモンセンス知識を獲得しコンピュータに与える取り組みについて述べる。2 章にてコモンセンス知識を獲得する関連研究と本稿との関係について述べ、3章にてインターネットを利用する多くの人々からコモンセンス知識を直接獲得する方法を提案し、4章にて実際に獲得された知識の評価結果に基づいたこの方法の有効性について考察する。5章にて結論を述べ、最後に、残された課題とそれらに対する今後の取り組みの方向性について述べる。

2. 先行研究

 人間が持つ膨大なコモンセンス知識を獲得しコンピュータに与える先行研究は、主要なものとして二つある。一つはCycと呼ばれるコモンセンス知識獲得とデータベース化を合わせたプロジェクトである。もう一つは、Open Mind Common Sense(OMCS)と呼ばれるコモンセンス知識獲得プロジェクトとデータベースConceptNetを合わせたものである。本章ではそれぞれのプロジェクトについて説明する。

2.1. Cyc

 Cycは、1984年にLenatによって開始されたコモンセンス知識をデータベース化するプロジェクトである。Cycでは、CycLと呼ばれる独自の知識記述言語を習得した専門家によってコモンセンス知識が手作業で登録されている。登録されているコモンセンス知識は正確だが、専門家による限られた人数での登録作業なので、コモンセンス知識獲得スピードに限界がある。言語は英語のみに対応している。2010年12月現在のCycのWebページによると、約500万件のコモンセンス知識を保有していると報告されている。2001 年にCyc のオープンソース版OpenCycが公開されている。

2.2. Open Mind Common Sense(OMCS)

 Open Mind Common Sense(OMCS)は、1999年にMITメディアラボによって開始されたコモンセンス知識獲得プロジェクトである。OMCS は、Cyc と異なり一般のボランティアの人々からインターネットを利用してコモンセンス知識を獲得するアプローチを取っている。獲得した知識にはノイズが含まれるが、専門家による手作業に比べて知識を速く獲得することができる。またOMCS では、複数の国と言語でコモンセンス知識を獲得している。2010年12月現在で英語のコモンセンス知識が約100万件、中国語が約35万件、ポルトガル語が約23万件、日本語が約1万件登録されている。

 OMCSのWebサイトでは、「_は_の一種である」といった、あらかじめ数パターン用意された自然言語文の穴埋め形式のWeb フォームをユーザに提示することで、コモンセンス知識をユーザに入力してもらう単純な方式を取っており、特に専門的な技能を必要とすることなく、インターネットにアクセスできる人なら誰でも知識登録が可能である。一方で現在のOMCS のWeb サイトは、娯楽性が低いため継続的な参加者の確保が難しいという問題がある。また日本での知名度が低く参加者がほとんどいないため、日本のコモンセンス知識がなかなか集まらないという大きな問題を抱えている。

 近年では穴埋め形式の娯楽性の低い入力に替わって、ゲームを利用した娯楽性の高いコモンセンス知識獲得が試みられている。英語についてはCommon Consensus、中国語についてはRapport GameおよびVirtual Pet Gameが報告されている。日本ではこのようなゲームを利用したコモンセンス知識獲得の試みは行われておらず、他国に比べコモンセンス知識獲得が進んでいない。

2.3. ConceptNet

 OMCSで獲得したコモンセンス知識は、ConceptNet と呼ばれるコモンセンス知識データベースに取り込まれている。ConceptNetではコモンセンス知識を、概念(Concept)をノード、概念間の関係(Relation)をアークとした意味ネットワークで表現する。概念は単語や短いフレーズで表現し、関係はis-a、has-property、part-of など約30種類のあらかじめ規定されたものを用いる。またConceptNet では、意味表現と自然言語による表層表現を対応づけてデータを保持している。ConceptNet におけるコモンセンス知識の例を図1に示す。以後本稿では、ConceptNetにおける図1の単位を1件のコモンセンス知識として表現する。ConceptNetはオープンソースプロジェクトであり、各言語におけるコモンセンス知識データおよびデータアクセスのためのAPIが公開されている。


■執筆者紹介(敬称略)

・中原 和洋(Kazuhiro Nakahara)
 2004 年日本ユニシス(株)入社。システム連携技術の主管部門にて、各種システム開発プロジェクトに従事。2008 年よりR&D部門にて、主に知識処理技術の研究開発に従事。
・山田 茂雄(Shigeo Yamada)
 1983年日本ユニシス(株)入社。人工知能/オブジェクト指向モデリング/インターネット技術の研究開発に従事。IEEE会員。


※同記事は日本ユニシスの発行する「ユニシス技報」の転載記事である。
《RBB TODAY》

関連ニュース

特集

page top