1日10億件以上のメールを自動判別する「Hotmail」の技術とは……マイクロソフト、判別手法を公開 | RBB TODAY

1日10億件以上のメールを自動判別する「Hotmail」の技術とは……マイクロソフト、判別手法を公開

ブロードバンド セキュリティ

2006年Hotmailの受信トレイの内訳
  • 2006年Hotmailの受信トレイの内訳
  • 2012年Hotmailの受信トレイの内訳
  • グレーなメールの内訳
  • ニュースレターの判別結果
 マイクロソフトは24日、Windows Live Hotmailで採用されている迷惑メール対策技術「Microsoft SmartScreen」に関する情報を公開した。

 最新版のHotmailでは、SmartScreenを利用して毎日10億件以上のニュースレターを自動的に判別しているという。公開された情報では、どのようにSmartScreenを調整し、迷惑メールあるいはグレーなメールを判別したのかについて、その背景や手法を説明している。

 それによると、2006年ごろは、迷惑メールが受信トレイ内のメールの30%程度だった。その後、SmartScreenに多大な投資を行った結果、迷惑メールは3%以下というかなり低い水準にまで減少させることができたが、さらに踏み込んで「受信トレイ内の他のメール」について調査したところ、ニュースレターや通知メールのように、個人メールでもスパムメールでもない、中間的な「グレーなメール」が大多数を占めていることが明らかとなった。

 「グレーなメール」対策で問題となったのは、「すべての人に当てはまる一般的な対処方法が存在しない」点だった。そこでマイクロソフトでは、一括処理、自動クリーンアップのスケジュール設定、受信トレイの特別な表示といった機能を提供し、ユーザー自身がグレーなメールを管理できるようにした。しかしこうした機能があっても、最新状態に保つためにはメンテナンスが必要であり、ユーザー自身の判別が必要とされるため、根本的な対策とはならなかった。そこでマイクロソフトでは、あらたな手法を採ることとした。

 マイクロソフトが調査を進めると、ここ数年ソーシャル ネットワーキングがデジタル ライフの中心となっているのを受けて、FacebookやTwitterといった人気サイトからの通知メールが受信トレイの大半を占めていることが判明した。そこでHotmailに「ソーシャル ネットワーク」に絞ったメールの表示を導入した。

 次に、販売業者、クラブ、地域、学校からのメールや、ショッピングやイベント関連のクーポン、セール情報、通知メールなどの「ニュースレター」を判別するため、特性をリストアップした。そのリストでは「List-Unsubscribeヘッダーが存在するかどうか」「送信元アドレス」「ユーザーに表示する内容」が記載され、それをもとに抽出を可能とした。

 また、「ニュースレターとは何か」を明確に定義し、約10,000件のメールを“ニュースレター”あるいは“非ニュースレター”に分類する判定基準を作成した。

 さらに“機械学習”という手法を使用し、判定基準のニュースレターのほとんどを安定して判別できるようになるまでモデルを改善し調整するシステムを構築した。判定基準はまったく無作為に抽出されたサンプルなので、フィルターのパフォーマンスはほぼ現実に即しているとのことで、2011年9月には、この機能を社内にパイロット導入したとしている。社内パイロットの対象ユーザーには、ニュースレターを見逃したり正しく判別できなかった場合に報告を義務付け、失敗の分析には数週間を費やしたという。

 ニュースレターの多くは平日に配信され、毎日15億件のニュースレターがユーザーに届いている。これはマイクロソフトのサーバに配信されるすべての電子メールの約半数となる。また、平均的なユーザーの受信トレイのニュースレターの73%に相当する。マイクロソフトでは今後、新しいカテゴリや機能を継続的に追加していく予定だとしている。また、メールでの領収書や銀行明細などをより効果的に表示したり管理するための方法についても、引き続き検討していくとしている。
《冨岡晶》

関連ニュース

特集

page top