KDDI研、有害ページを効率的に自動収集するWebクローラを開発 | RBB TODAY

KDDI研、有害ページを効率的に自動収集するWebクローラを開発

 KDDI研究所は2日、有害情報を含むWebページをインターネット上から効率的に自動収集する「有害クローラ」を開発したことを発表した。優先的に有害ページを推定できるため、青少年を保護するためのフィルタリングサービスへの適用が期待される。

エンタープライズ セキュリティ
有害クローラの特長、および有害可能性の算出基準
  • 有害クローラの特長、および有害可能性の算出基準
 KDDI研究所は2日、有害情報を含むWebページをインターネット上から効率的に自動収集する「有害クローラ」を開発したことを発表した。優先的に有害ページを推定できるため、青少年を保護するためのフィルタリングサービスへの適用が期待される。

 出会い系、あるいは犯罪予告などを目的とした有害ページなどを列記する「ブラックリスト方式」の有害情報フィルタが現在活用されているが、リストを生成するには、有害ページを大量に収集し、内容をチェックする必要があった。そのため、多くのWebページは無害であるため、有害である可能性が高いWebページを効率的に収集できる高度な「Webクローラ」(Webページを自動的に収集するロボットプログラム)が求められていた。

 KDDI研究所が開発した「有害クローラ」は、URLから得られるWebページのさまざまな特性を抽出し、Webページ自体を収集する前に有害ページである可能性を推定する点が特長となっている。有害ページに現れやすい特性として、たとえば「安価なサーバを利用している(IPアドレスを他のWebページと共有している)」「有害情報規制の緩い場所にサーバを設置している(他の有害ページとIPアドレスが近い)」といった点を考慮し、従来のWebクローラよりも、有害ページをより多く含めることを可能とした。

 実際に、20%の有害ページを含む10,000ページを対象とし、このうち2,000ページを収集する条件で有害ページの収集効率を計測する実験を行ったところ、従来のWebクローラの場合では、2000ページのうちの400ページ(全有害ページの20%)が有害ページであったのに対し、今回開発した「有害クローラ」ではその3.5倍以上となる1430ページ(全有害ページの71.5%)の有害ページが収集可能だった。

 KDDI研では今後、ブラックリストを作成しているフィルタリング事業者等に対して本技術の導入を進めるため、開発した有害クローラの大規模な実験を行い、技術開発を進めて行くとともに早期の実用化を目指すとしている。
《冨岡晶》

関連ニュース

特集

page top