【テクニカルレポート】日本でのコモンセンス知識獲得を目的としたWebゲームの開発と評価（後編）……ユニシス技報

4. 「ナージャとなぞなぞ」実績・評価

　本章では、効率的に幅広く日本のコモンセンス知識を獲得するという「ナージャとなぞなぞ」の目的に対して、獲得知識の量、獲得知識の範囲、獲得知識の質の三つの観点で実績と評価を記述する。

4.1. 獲得知識の量

　本ゲームは2010年9月24日にリリースし、インターネットに一般公開した。リリース日から2010年12月1日現在までの獲得知識数（回答知識数＋誤り知識数）の推移を図4に示す。獲得知識数は重複する知識を含んでいる。累計の獲得知識数は、リリース日から1 週間で10万件を突破した。1 日当たりの獲得知識数はリリース後2日目がピークであり、1日で3万件を越える知識を獲得した。その後、1日あたり約1,000件のペースに収束している。

4.2. 獲得知識の範囲

　「ナージャとなぞなぞ」で獲得した知識の関係の分布を表1 の左に示す。参考値として「ナージャとなぞなぞ」開始前におけるConceptNet の日本語知識の分布を表1の右に示す。「ナージャとなぞなぞ」で獲得した知識は、ConceptuallyRelatedTo の関係を除き、ConceptNetの知識分布とほぼ同じ傾向を示していることから、「ナージャとなぞなぞ」は、偏りなく幅広い関係の知識を獲得している。また「ナージャとなぞなぞ」では、ある関係のヒントを出す割合を意図的に増減させることで、ある関係の知識獲得の割合を調整することが可能であることから、目的に応じて知識獲得の範囲を制御できる柔軟性の高い知識獲得手法である。

4.3. 獲得知識の質

　獲得したコモンセンス知識の正しさを確認することは重要である。回答知識と誤り知識それぞれの質についての評価を以下に記述する。

4.3.1. 回答知識の質

　2010年9月24日のリリースから2010年10月10日までに獲得した回答知識127,428件のう
ち、重複および独自のフィルタリングによる不正データを排除した回答知識43,512件について、知識の質についての評価を実施した。43,512件の回答知識からランダムにサンプリングした標本400件について、表2に示す5段階評価を人手によって実施した。

　3名の評価者が同じ400件の知識に対して評価を実施し、3名の中央値を代表値として採用した。1-5 の各評価値の分布を示したグラフを図5の左に示す。回答知識は正しさが要求されるため、5（一般的に正しい）に近い評価値の割合が多いことが望ましい。400件の標本の人手による評価の結果、ポジティブな評価値である5（一般的に正しい）と4（まあまあ正しい）を合わせた割合が58％となっている。ネガティブな評価値である1（意味をなさない）と2（正しくない）を合わせて22％となっている。

　ここで、同一の回答知識を重複して獲得した回数を重複数として、5段階評価済の400 件の標本のうち、重複数1 以上の知識と重複数2 以上の知識に対する評価値分布のグラフを図5の中および右に表示する。重複数1 以上での5（一般的に正しい）と4（まあまあ正しい）を合わせた割合は75％、重複数2以上での割合は80％となる。重複数の増加に伴い、正しい知識の割合は増加していく傾向が確認できる。ゲームによるコモンセンス知識獲得を実施した文献では、5段階ではなくAgree／Disagree の2 段階評価を実施しており、Agree の割合はRapport Game では重複数1の時に約75％、重複数2の時に約85％、Virtual Pet Game では重複数1の時に約60％、重複数2の時に約80％となっている。本稿の5と4 の評価を合わせた割合と近い結果であることから、「ナージャとなぞなぞ」も文献の知識獲得手法と同様の質を持っていることが確認できる。

4.3.2 誤り知識の質

　2010年9月24日のリリースから2010年10月10日までに獲得した誤り知識3,662件のうち、重複を排除した1,344件を対象に評価を実施した。ランダムサンプリングした標本400件について、4. 3. 1 項と同様の5段階評価を同じ3名による人手で実施し、3名の中央値を代表値として採用した。誤り知識は正しくないことが要求されるため、1（意味をなさない）および2（正しくない）の評価値の割合が多いことが望ましい。各評価値の分布を図6 の左に示す。1（意味をなさない）と2（正しくない）の評価値を合わせて28％にとどまっており、5（一般的に正しい）と4（まあまあ正しい）の評価値を合わせた41％より少ない割合となっている。ここで、標本400件のうち重複数1 以上と重複数2 以上の誤り知識における評価値分布グラフを図6の中および右に示す。重複数が増加すると5（一般的に正しい）と4（まあまあ正しい）の評価値を合わせた割合が減少傾向にあり、1（意味をなさない）と2（正しくない）の評価値を合わせた割合が増加傾向にある。この結果から、3. 3 節で述べた誤り知識が重複する度に知識のscoreをマイナスすることで知識の信頼性を管理することが有効に機能する。

5. 結論

　日本におけるコモンセンス知識獲得を目的としたゲーム「ナージャとなぞなぞ」を開発し、1 週間という短期間で10万件の日本語コモンセンス知識を獲得した。幅広い関係の知識を獲得し、目的に応じて獲得知識の範囲を制御可能な柔軟性の高い獲得手法であることを示した。また、獲得した知識の質を評価し、他のゲーム手法と同等の質を有していることを確認した。

6. おわりに

　今後も世界各国で数多くのコモンセンス知識獲得プロジェクトが企画され、コンピュータは、様々な国における私たちの日常生活や価値観に関する知識を利用できるようになるであろう。これらのプロジェクトのいくつかは、「ナージャとなぞなぞ」のように利用者から直接知識を獲得し、また、別のいくつかのプロジェクトは、インターネット上の膨大なWebコンテンツからコモンセンス知識を「掘り出す」ことで知識を獲得してゆく。それら多くのプロジェクトの活動成果を組み合わせることにより、近い将来には数千万規模の知識数を持つ大規模なコモンセンス知識のデータベースが利用可能となると筆者らは考えている。

　しかしながら、大規模なコモンセンス知識のデータベースだけでは、私たち人間のような認知能力を持つコンピュータは実現しない。二つ目の大きな課題として、そのような知識を用いて日常の幅広い問題について考え決断する能力をコンピュータに与えることが残されている。私たちは、知識を用いるための方法をたくさん知っており、また、それらを用いて幅広い様々な問題に対処することができる。知識を用いるための方法には、例を挙げれば、「何かをする前にそれがもたらす結果について考えてみる」「問題に直面したら過去に似たような問題が解けた状況を考えてみる」「問題の解決に行き詰まったら他に別のやり方がないかを考えてみる」などがある。日常の幅広い問題に対して私たちのように臨機応変に応じる能力を持つコンピュータを実現するためには、問題を考え決断するための様々な思考方法、すなわち推論する・予測する・計画する・解釈するなど私たちが日常行っている思考方法をコンピュータに与える必要がある。さらに、直面している問題を解くための適切な思考方法をそれらの方法の中から選択する仕組みも実現しなければならない。

　この二つ目の課題は、今後の研究課題とし、「空気が読めるコンピュータをつくろう」プロジェクトの活動を通じて知識獲得の活動と共に取り組んでゆく所存である。

　最後に、「ナージャとなぞなぞ」は多くの方々の活動成果であり、本稿は、当プロジェクトの一員である筆者がその成果をまとめたものである。プロジェクトメンバーの方々に深く感謝の意を表する。また、MITメディアラボのプロジェクトメンバー、そして「ナージャとなぞなぞ」に参加し多くのコモンセンス知識を提供してくださったすべてのユーザにも深く感謝の意を表する。

■執筆者紹介（敬称略）

・中原和洋（Kazuhiro Nakahara）
　2004 年日本ユニシス（株）入社。システム連携技術の主管部門にて、各種システム開発プロジェクトに従事。2008 年よりR&D部門にて、主に知識処理技術の研究開発に従事。
・山田茂雄（Shigeo Yamada）
　1983年日本ユニシス（株）入社。人工知能／オブジェクト指向モデリング／インターネット技術の研究開発に従事。IEEE会員。

※同記事は日本ユニシスの発行する「ユニシス技報」の転載記事である。

【テクニカルレポート】日本でのコモンセンス知識獲得を目的としたWebゲームの開発と評価（後編）……ユニシス技報

関連リンク

関連ニュース

特集

ユニシス技報

日本ユニシス