【NTT R&Dフォーラム2014 Vol.5】話題のPk-匿名化技術の展示あり……パーソナルデータ活用は進むか | RBB TODAY

【NTT R&Dフォーラム2014 Vol.5】話題のPk-匿名化技術の展示あり……パーソナルデータ活用は進むか

エンタープライズ セキュリティ

Pk-匿名化の説明パネル
  • Pk-匿名化の説明パネル
  • ダミーの動画配信サービスのログ情報
  • 左が匿名化前の集計結果。右が匿名化後データでの集計。ブルーのパターンは似ている
  • Pk-匿名化処理されたデータの例
 ビッグデータの広がりとともにパーソナルデータの活用が問題となっている。とくに最近はデータ収集技術や解析技術の話より、個人情報やパーソナルデータの扱いに関する課題についての議論が沸き起こっている。

 ビジネスチャンスや国際競争力、あるいは疫学データや渋滞回避、都市計画といった社会問題の解決というキーワードから活用を広げたい声と、プライバシー・人権・大企業や権力による情報管理に対する懸念の声も大きい。

 この問題について、技術的な側面から一定のおとしどころを探っているのがデータの匿名化技術である。個人は特定しないが一定の条件で識別または分類してビッグデータを処理するための技術だ。

 NTTが先ごろアナウンスしたPk-匿名化技術は、従来のk-匿名化より複数の匿名化データとの組み合わせや繰り返し処理による復号に対する耐性が高いという技術だ。いちばん単純なk-匿名化は、例えば年齢を10~20というような範囲データでまとめることで個人を特定しにくくするものだが、これでは、住所データや性別、その他行動履歴を利用すれば個人を特定できてしまう。Pk-匿名化では、元データの住所やIDなどを乱数処理で変換したあと、ヘイズ推定理論を応用した再構築という処理によって、別の住所やIDに変換してしまう。

 この状態で例えば住所ごとの人口分布などを集計してみると、匿名化する前のデータで分析した結果と同じ傾向の統計がとれるという。しかし、住所やIDはオリジナルとは別データになっているので、正しい個人にはたどり着けないとのことだ。

 デモでは、ダミーの動画配信サービスの視聴データを住所ごとの人気コンテンツを集計する例を示していた。
《中尾真二》

関連ニュース

特集

page top