こんにちは、佐々木です。 CodeCommitをはじめとした幾つかのサービスが終了に向かいつつあるとのアナウンスを聞き、特にSimpleDBについては遂にこの時がきたのかと感慨にひたっております。
そんな感傷はさておき、今日は7月18日に『データ分析基盤を作ってみよう ~設計編~』というタイトルで実施した勉強会の動画・資料の公開と、簡単な解説をします。短い文章なので、ぜひお付き合いください。
動画・資料
講演のテーマ
タイトルを読んで勘の鋭い方は気がついていたかもしれませんが、この技術同人誌をベースに話しています。タイトルに設計編と書いていますが、裏のテーマとしてはデータの扱いです。もっともデータ分析基盤なので、データの話が中心になるのは当たり前かもしれませんが。
セッションでは、構造化データや半構造化データ・非構造化データといったデータの種類から始まり、個人的に非常に重要視している構造化の際のデータの切り捨てについての問題提起をしています。その弊害を防ぐために、データレイクとDWHの分離の進めや、データレイクを使いやすくするための方法論を語っています。データレイクの構造化を進めていくと、やがてデータレイクハウス(レイクハウス)に行き着くという最近の潮流の話もしています。
データ分析基盤に関する雑感
最近のIT業界全体のトレンドは、生成AIをどう活用するかという話になっています。個人的には、AI活用もデータがあってこそと確信しています。組織内でAIを活用するには、血液が循環するが如くに新鮮なデータが流れていくことが不可欠です。一方で、どういう構成にしたら良いのかはだいたい解るものの、実際の運用を見据えての設計というのは結構難しいのも事実です。何故ならデータの量や更新頻度、あるいは利用用途によっても、設計は大きく変わりうるからです。そのため、組織ごとに試行錯誤しながらデータ分析基盤を作っていくことは不可欠です。
その際に少しでもハマりポイントを回避できるように、経験を語っていきたいです。この『データ分析基盤を作ってみよう』はシリーズ化して、今後も勉強会を実施予定です。これからも宜しくお願いします。