AWSのre:Inventに参加中の佐々木です。怒涛のような情報の濁流と、夜な夜な開催される情報交換という名の酒席でスタックオーバーフローを起こしています。
今回は、キーノートで発表された新サービス『AWS Clean Rooms』について紹介します。Clean Roomsは、発表時にデータを移動せずに安全に利用できるための仕組みと紹介されていました。これが何を実現するものか非常に気になったので、"Privacy-enhanced collaboration with AWS Clean Rooms"というセッションを受けてきました。そのまとめです。
AWS Clean Roomsのターゲット顧客
まずClean Roomsのターゲットの顧客として第一に挙げられていたのが、広告とマーケティングです。これを聞いて、私はある程度Clean Roomsが実現したいことが解りました。マーケティングには、様々なデータを使います。Webサイトの閲覧履歴や、ユーザーの属性情報、或いは製品の売上情報と言ったものも利用します。広告やマーケティングの配信時に直接利用するデータはDMP(Data management platform)と呼ばれるものに入れることが多いですが、そこに入るまでの過程で様々な処理がされます。その際にやっかいな問題が幾つかあります。ユーザーの名寄せや、個人情報などの除去、また色々なシステムに大量にあるデータの連携処理などです。Clean Roomsは、それらの問題を解決するためのソリューションです。
直接的なターゲットとして広告やマーケティングと銘打っていますが、実際はデータ分析基盤を設計するうえで必須となる事項を解決するためのサービスとして考えられます。この機能を必要としているユーザーは非常に多いと思われます。
AWS Clean Roomsが解決すること
それでは、Clean Roomsが解決するのは、どのような問題なのでしょうか。機能としては沢山あるようですが、実際に事前に利用していたユーザーによると、次の3つのようです。
ユーザーの名寄せ(ID Match)
ユーザーの名寄せと呼ばれる問題です。これは、複数のシステム間で同一のIDを利用していない場合に必要な処理です。例えばある会員サイトの私のユーザーIDがXXXだとして、実店舗でのユーザーIDがYYYという場合があります。このXXXとYYYが同一の人物として扱うにはIDの紐づけが必要です。これが名寄せです。Clean Roomsは、名寄せを機能として提供しています。
なおID同士の紐づけは比較的簡単ですが、これを名前や住所・電話番号などで紐づけする必要がある場合は、非常に複雑な処理となります。Clean Roomsがどこまで対応しているかは今後評価してみる必要があります。
機微データの隠蔽
広告やマーケティングでデータを処理する際に、それがどのユーザーであるかを紐づけて扱うことが重要です。一方で、それが誰であるかの実名付きのデータとして扱う訳にはいきません。また、ユーザーの住所が埼玉県という属性を知ることは重要ですが、番地までの詳細の情報は邪魔になります。またクレジットカード番号や保険証の番号も同様です。このような機微情報は、隠蔽もしくは除去して使います。例えば、IDの場合はハッシュ化して不可逆にし、名前の項目は除去、住所については都道府県コードを扱うといった感じですね。どのようなことが出来るか、具体的なことは説明されていませんが、Clean Roomsはこれらに該当する機能を有しているようです。
全数データの取り出し
最後に全数データの取り出し。これはどういう事かというと、そもそも広告やマーケティングで使うデータは、それを扱うシステム単体に直接入ってくる訳ではありません。Webサイトや基幹システムなど様々な場所に散在するデータを集めてきます。他システムからのインポートとETLと呼ばれるデータ変換を事前の前処理として実施します。Clean Roomsもこれを実現できるようです。
AWS Clean Roomsは、どうやって実現しているか
それでは、Clean Roomsは上記の機能をどのように実現しているのでしょうか?ポイントは、最初の発表にあった『データの移動なしに』の部分です。実はClean Roomsは、SQLの処理として実現しているようです。そして、上記処理を行うテンプレートを沢山もっています。成程なぁと思う反面、実際の設計に落とし込むにはいろいろ考える必要がありそうです。数週間後にプレビュー版が公開されるようなので、楽しみです。
まとめ
ということで、かなり楽しみなサービスがでてきました。ただ作りこみの深さの面で実際にはClean Roomsが使えないケースも多々あると思います。それでも、AWSがどう実現しているか知ることは、設計面での大きな支援になるでしょう。
なお、奇しくも私もデータ分析基盤の設計の話を技術同人誌として出しています。もしご興味ある方は、見てみて下さい。最後は会社ブログでステマで締めさせていただきます。Enjoy!!
AWSの薄い本Ⅲ データ分析基盤を作ってみよう 〜設計編〜