NRIネットコム Blog

NRIネットコム社員が様々な視点で、日々の気づきやナレッジを発信するメディアです

新サービス『Amazon DataZone』の概要と何を解決するのか?

 2022年のre:Inventで、私が注目したサービスの一つにAmazon DataZoneがあります。Amazon DataZoneは、組織の枠を超えてデータ活用しつつガバナンスを効かせるサービスです。詳細について聞いてみようと思いつつ、re:Invent期間中にはセッションに参加することができませんでした。最近、セッション動画が公開されたので、Amazon DataZoneの概要をまとめてみます。まだ2022年12月14日現在ではPreview版も利用できないので、公開資料を元に推測を交えつつ記事を書いています。正確でない部分あるかと思うので、その点はご了承ください。

www.youtube.com

動画見ながらのつぶやきは、こちらです

企業におけるデータ活用の有用性と障壁

 セッションの冒頭で、データ活用の有用性について力説されていました。なんでもデータ駆動でビジネスを推進している組織は、その業界の平均より30%成長率が高いとのこと。業界平均が3%の成長率であれば、3.9%ということでしょうね。言い方大事!!
 しかし、組織がデータを活用にするには、いくつもの障壁があると。

  • 複数の環境にまたがるデータへのアクセス
  • データアクセスに時間が掛かる
  • ツールへのアクセスへの制限
  • ユーザー間で共同作業する環境の欠如
  • データガバナンスの欠如

 まず、複数環境とは何か。ここでは、異なるAWSのアカウントやリージョンあるいはオンプレミス上のデータと説明していました。AWSの活用が進むと、必然的にマルチアカウントになります。AWSアカウントをまたいでデータを活用するのは、正直大変ですよね。2つ目は、Delayed access to dataということで、データアクセスへの遅延。なかなかデータにたどり着けないといった感じでしょうか。3つ目は、Technical barriers limiting access to toolsということで、技術的な障壁によるツールへのアクセスの制限です。執務環境からはポート制限でツールを使えないってのもあるかもですね。
 4つ目は、ユーザー間での共同作業するための環境の欠如。これはどういう事かというと、例えばデータサイエンティストが使う環境とマーケッターが使う環境がそれぞれ異なっていて、お互いの成果を相互で利用できないなどの問題があると。データの民主化を阻む要因ですね。最後は、組織としてのデータガバナンスの欠如。それぞれの環境で、それぞれやっていたら、さもありなんという感じですね。

aws.amazon.com

Amazon DataZoneが解決すること

 では、DataZoneを使えば、何を解決できるのでしょうか?よく訓練されたre:Invent参加者は、先程の前フリの部分が新サービスの機能というのに気が付きます。水戸黄門や暴れん坊将軍のように、パターンにはめると見る方も心の準備ができます。型は大事!!
 DataZoneの主要機能は、次の4つです。

  • Business data catalog ・・・ ビジネス用途に応じてデータのカタログ化する機能
  • Data Projects ・・・ データをグルーピングしてプロジェクトとして管理する機能
  • Governance and access control ・・・ ガバナンスとアクセスコントロール
  • Data portal ・・・ データを扱うためのポータル画面

 この後でも説明しますが、これらの機能はDataZone単体で実現している訳ではありません。他のAWSサービスを組み合わせて実現しています。DataZoneは、管理するためのメタデータを抽出し、それを扱うための管理画面(Data Portal)を提供しています。例えば、Business data catalogについては、Glue Data Catalogを利用してデータを抽出します。DataZoneは、その抽出するタイミングや頻度、あるいはどの項目を公開するかといったところを設定の上で、データポータルで表示すると言った感じのようです。これらをメタデータの設定で実現するそうですが、イチから手動で設定するのではなく、コンテキストを読み込んである程度自動的に推奨してくれるようです。世の中、何でもAIですね。

Amazon DataZoneは、どうやって実現しているか?何を目指しているのか?

 DataZoneは、どのように実装されているのでしょうか?極論すれば、DataZoneはオーケストレーションサービスです。Business data catalog機能は、Glue Data CatalogあるいはRedshiftを利用して実現しています。データの出し分けなどのガバナンスは、LakeFormationを利用しています。Data portalについては、DataZoneの中核機能なので新規に作り込んでいると思われます。もしこのポータル上に、グラフなどの可視化の機能があるのであれば、それはAmazon QuickSightで実現するのでしょうね。
 そしてDataZoneが実現するのは、AWSのサービス間のオーケストレーションだけではありません。もう一つ重要、あるいは最も重要なのが、複数のAWSアカウントにまたがってデータとガバナンスを管理できることです。個々のデータ分析基盤はLakeFormationを中心に管理されるので、DataZoneはそれらを束ねて使うといった感じになるのでしょうね。

分散所有とガバナンスをいい感じに折り合いつけて、Data mesh化する

 セッションの最後の方で、Data meshについて熱く語られていました。さまざまなデータソースからデータが流れ込みデータレイク(Data Lake)が形成される。Data Lakeの周りには、DWHや各種データベース、機械学習のプロセスなどデータ活用のためのプラットフォームが形成されます。巨大な組織では、これが単一のものではなく、幾つも幾つも形成されることになります。つまり、それぞれのData Lakeは組織の構造に従って分散所有されるということです。

 この現実がDataZoneのサービスが出されたキーコンセプトなのでしょう。分散所有されるData Lakeを相互につないで、かつデータの共有や一時的な権限を付与するフェデレーションをすることで組織の枠を超えたデータの活用が促進されます。これがData mesh化であり、冒頭のデータ駆動が実現できている組織ということなのでしょう。DataZoneは、その実現をサポートするサービスです。

まとめ

 Keynoteで発表されたサービスであるDataZoneとClean Roomsは、どちらも組織内外でのデータ共有とガバナンスをテーマにしたサービスです。この2つはデータの民主化と呼ばれる、組織内の誰でも安全にデータを扱える仕組みを、標準的な手法で実現できるようなサービスです。これが2つ同時に発表されたということで、組織にとってのデータの重要性と今直面している課題が認識できますね。AWSのサービスには、その一つ一つに文脈が存在します。サービスの発表の系譜や、どのタイミングで出されたかを抑えるのも、顧客が直面している課題に気が付くキッカケになります

執筆者 佐々木拓郎

Japan AWS Ambassadors
ワイン飲みながら技術書を書くのが趣味なおじさんです

Twitter:https://twitter.com/dkfj

Facebook:https://www.facebook.com/takuro.sasaki

個人ブログ:https://blog.takuros.net/

Amazon著者ページ:Amazon.co.jp:佐々木 拓郎:作品一覧、著者略歴

Booth:https://takuros.booth.pm/

コーポレートサイト:https://www.nri-net.com/

ソリューションサイト:https://cloud.nri-net.com/