稲田哲将 研究所

オープンデータ・ビッグデータの情報保護


単独では個人を特定できないデータでも複数のデータを結合すると個人を特定できる場合がある。

■簡単な例:

質問1:お子さんは、何歳ですか?

答え:7歳です。

質問2:何歳の時に生まれたのですか?

答え:23歳です。

現在の年齢:30歳(23歳+7歳)

■個人を特定されないための対策:ノイズを入れる。

統計的に同値になるようなノイズを入れることで統計上は信頼できるが個人は特定できないデータを作り出すことができる。

■時間方向にデータが重なることで特定の個人が特定される可能性

一つのデータでも時間方向にデータが積み重なると個人を特定できるようになる可能性がある。

■匿名化されていない部分に個人を特定できる文言が入っている可能性

例えば、グーグルの検索キーワードに自分で行ったエゴサーチの検索キーワードが残っている可能性がある。