Prepper Open Data Bank x Snowflake お試しキャンペーン中!

Prepper Open Data Bank x Snowflake お試しキャンペーン中! |
prepper

こんにちは。藤です。

先日(2021年12月8日)、Prepper Open Data Bank(以降 PODB)の取り組みが社会課題の改善を促進していると評価され、Snowflake Data Drivers Awardsの『DATA FOR GOOD』部門受賞となりました。
Snowflake社のプレスリリース

せっかくの機会なので、もっと幅広くご活用いただくために Snowflake との正式な契約が無くても  PODB をお試しできるキャンペーンを開催することにしました。

12/24まで!PODB&Snowflake同時お試しキャンペーン実施中!
【2021/12/17 追記】12/24(金)⇒1/11(火)までキャンペーン延長しました!
【2022/1/11追記】期間無期限でキャンペーン延長しました!

こんな方にオススメ!

その①
e-Stat から人口や世帯数のデータをポチポチダウンロードして使っている方

その②
気象庁の気象データをポチポチダウンロードして使っている方、または使ってみたい方

その③
オープンデータに興味はあるが、どこから手を付けたらいいか分からない方

その④
Snowflake には興味があるが、契約するには社内申請や承認のハードルが高く、諦めている方

①e-Stat から人口や世帯数のデータをポチポチダウンロードして使っている方

もうその必要はありません。限りなく時間の無駄です。

ご存じの通り、e-Stat は極めて使いづらいです。データの検索性は低く、見つけても都道府県ごとにCSVをダウンロード、つまり47回もファイルが細かく分かれておりポチポチする必要があったりします。
※2021年12月14日訂正:国勢調査データは都道府県ごとには分かれていません。国土数値情報とごちゃ混ぜになりました。失礼しました。

そして開いたデータはこの通り…。下準備が大変です。

最近は  e-Stat も進化して、API が用意されるようになりました。これは大きな進歩です。しかし、そこから取得可能な JSON なかなか複雑な作りです。トランザクションテーブルとマスターテーブルが同梱されており、それらを正しく分離して結合し直さないと分析では使いづらい状況です。

しかも、国勢調査は5年に1度のデータ更新です。平成27年国勢調査のデータに対し、API 経由でデータ取得する処理フローを構築していたのですが、令和2年国勢調査では見事に仕様が変わっていました。統計表番号なども変わるので、結局一から作り直す必要がありました。

つまり、国勢調査の API については事実上更新のないデータなので、複雑な仕様を読み解いて API 連携するのは非常にコスパが悪いです。

ちなみに、先日他社のデータ分析者の方から教えていただいたのですが、国勢調査は API は使わず、DB 機能を使って手作業でポチポチして CSV を複数ダウンロードしたほうが圧倒的に早いことがわかりました。この話は少し長くなるので後日別のブログにまとめようと思います。

いずれにせよ、主要な人口統計量についてはこの PODB を使えばポチポチする必要はありません。Snowflake 上にある PODB に接続すれば、47都道府県分のデータが最初からセットでいきなり分析できます。

この画像は町丁目のデータを Tableau で開いたものです。

町丁目データについては、現時点では令和2年国勢調査の公開前ですので平成27年国勢調査のデータになりますが、47都道府県分全てが最初から揃っており、前処理なくいきなり分析に進めます。

②気象庁の気象データをポチポチダウンロードして使っている方、または使ってみたい方

月次と日次の気象データについては、PODB で共有しています。データ分析者がわざわざ自分で取得する必要はありません。

稀に想定外のデータがあり、記事公開時点ではベータ版扱いではありますが、全国のアメダス・測候所・気象台の二日前までの気象データを共有しています。

取得しているのは気象庁の過去データです。

このサイトから月次と日次を取得しています。

観測所は全国約1300箇所、約17km間隔で設置されています。従って、少し粗いデータにはなりますので、精度の高い気象データが必要な場合には苦しいですが、商圏が広域であったり、マクロな分析を行う場合には全く問題なく活用できます。

③オープンデータに興味はあるが、どこから手を付けたらいいか分からない方

まずは使ってみてはいかがでしょうか?

なんとなくぼんやり頭で考えるより、データを見て、とりあえず使ってみると、想定していなかった新しい分析軸が意外と見つかったりするものです。

イシューから始めるのは極めて重要です。データ分析はデータありき、ツールありき、手法ありきではありません。

しかし、世の中にどういうデータがあるのか、どういうツールがあるのか、どんな分析手法があるのかを知っているのか否かでは、課題を定義する段階でも大きな差が出ます。様々な選択肢を持っているからこそ、課題もその解決策も素早く浮き上がってきます。

データに関しては、日本においても様々なオープンデータが存在し公開されるようになりました。しかし、①で述べたように、非常に使い勝手が悪く、分析を始めるまでに前処理に時間がかかります。

しかし、PODB は全く異なります。複数のファイルで公開されているデータは統合し、すぐにデータ分析ができる形に加工しています。クラウド共有なのでオンライン環境があればどこからでもアクセスできます。

ファイル共有サービスからいったんダウンロードとか、Zip ファイルをパスワードで解凍とか、そんな手間もありません。

PODB は Snowflake データマーケットプレイスで、データ代無料で公開しています。

公開中のデータの詳細はこちらで共有しています。
※Googleスプレッドシートなのでスマホからは見づらいかもしれませんがその点はご理解ください…。

赤い背景のテーブルは、2021年11月30日に公開された令和2年国勢調査の確定版が反映されています。

具体的なカラムは Google スプレッドシートで確認可能です。

また、カラム名が日本語のテーブルも用意しており、Tableau ユーザーなどにとってはより使いやすい仕様になっています。

④Snowflake には興味があるが、契約するには社内申請や承認のハードルが高く、諦めている方

PODB は Snowflake データマーケットプレイス上でデータ代無料で公開しています。

ただし、基本的に Snowflake のアカウントが必要になり、Snowflake 環境下でのデータ抽出等には処理能力と時間に応じた費用は発生します。

 今回のキャンペーンでは、Snowflake のデータシェアリング機能を用いて、truestar の契約下の Snowflake 環境を読み取り専用のアカウントで共有する形になります。従ってエンドユーザー側で Snowflake との契約は発生せず、費用も全て truestar が負うため、完全に無料でお試しいただけます。

Snowflake との契約のためには、AWS や GCP を契約する際と同じような社内申請や承認が求められそうで、そもそも申請自体を断念してしまっている、というような方には特にオススメです。

個人情報やクレジットカードの登録等も一切ありません。

tweetで 『#PODB使ってみたい』と呟くだけで20分後には使えます。このために作成した『捨て垢』でも全く問題ありません。
参考)捨て垢とは何? Weblio辞書

発行される Snowflake のアカウントは Reader Account という読み取り専用アカウントですのでエンドユーザー側のデータ等はアップできません。従ってデータの流出等の心配も皆無です。

Twitterで #PODB使ってみたい とつぶやくだけ!

Twitter データと自動連携しており、20分以内につぶやいた Twitter アカウントが登録され、PODB が使えるようになります。

共有中のデータ一覧は Google スプレッドシートで公開中です。
PrepperOpenDataBank搭載データ一覧

再掲になりますが、詳しくはキャンペーンのページをご確認ください。
参考)12/24まで!PODB&Snowflake同時お試しキャンペーン実施中!
【2021/12/17 追記】12/24(金)⇒1/11(火)までキャンペーン延長しました!

Snowflake のコンソール画面から SQL でデータを操作することも、Tableau や Alteryx などの分析ツールからアクセスすることも可能です。もちろん Excel からも利用できます。
参考)Snowflake 上の Prepper Open Data Bank に Excel から接続する

Prepper Open Data Bank と Snowflake の両方がお試しいただけるキャンペーンですので、是非この機会にご活用ください!

なお、データに関するご質問・ご意見等がございましたら是非とも下のページ最下部のお問い合わせフォームよりフィードバックいただけると非常にありがたいです。

Prepper サービス紹介ページ

それではまた!