こんにちは、taharaです。アドベントカレンダー、本日は私が担当させて頂きます!
truestarでは商用・二次利用可能なオープンデータを抽出・加工し、無料共有しています。今回はそのデータを使ってtableauでのビジュアライゼーションを行ってみました。作成したvizはこちら。
tableauが利用できる環境さえ整っていれば、皆さんのお手元でもこのようなviz作成がすべて無料で行えるので、今回はその方法をご紹介したいと思います。
商用利用可能な無料データPODBとは?
今回扱うデータであるPODBとは、Prepper Open Data Bank の略で、e-Statで公開されている国勢調査などの商用・二次利用可能なオープンデータをtruestarで抽出・加工し無料共有しているものです。
データの内容としては、例えば、性別・年齢層別・持ち家別に分類された総人口データ、学生・労働者人口データ、日本全国のメッシュ別の人流データや将来推計人口データ、鉄道の路線や駅データ、全国の天気情報などなど、、、。色々なvizを作ってみることが出来そうで、わくわくしますね!
詳しいデータカタログはこちらに掲載しています。
PODBを使ったvizの作成方法
さっそく手順を確認していこうと思いますが、今回はPODBを扱う環境をsnowflakeを利用して整えていきます。「snowflakeとはなんぞや?」と思った人もご安心を。無料のsnowflakeアカウントを作成するところから、1つ1つ手順をご紹介していきます。
ちなみに、snowflakeとはsnowflake社が提供しているDWH機能をはじめとした様々な機能を提供するデータプラットフォームです。snowflakeの機能の1つにMarket placeがあり、マーケットプレイス=市場という文字の通りデータやアプリケーションをユーザー間で提供・販売することができるのですが、truestarはそちらでPODBを無料で公開しております。
それでは早速環境構築を進めていきましょう!
1.snowflakeの無料トライアルを申請
snowflakeは無料トライアルを30日間利用することが出来るので、まずはこのページを参考に申請を行います。30日のトライアルが終わってしまったとしても、その後同じアドレスで何度でもトライアルの申請をすることが出来るので、期限のことは気にせずにトライアルの申請を行って頂いて大丈夫です。
2.snowflakeからPODBデータにアクセス
snowflakeの利用環境が整ったら、今度はこのページを参考にPODBのデータにアクセスできるようにします。
3.tableauとsnowflakeを接続
続いてtableauとsnowflakeを接続できるようにする為、ODBCドライバーをダウンロードします。ODBCとはOpen Database Connectivityの略称で、データベースとアプリケーション(今回はsnowflakeとtableau)の間でデータのやり取りを可能にするものです。詳しく知りたい方はこちら。
tableauを開き、トップ画面から「接続」>「サーバーへ」>「snowflake」の通りに進むと下記の画面になるので、「ドライバーをダウンロードします」をクリック。
すると下記の通りのリンクに飛ぶので、こちらから「Tableau Desktop、Tableau Server:9.3-2004.1.3」よりdriverをインストール。
もう一度「接続」>「サーバーへ」>「snowflake」の順に進むと下記画面になるので、後述の方法を参考に必要情報を入力するとデータの接続が完了します。
サーバー情報は、snowflakeの左下の画面から、下記の通り「Copy acount URL」で取得できます。
役割とウェアハウスは、今回はひとまずsnowflakeの右上の情報を入力しましょう。
ウェアハウス、データベース(今回はPREPPER_OPEN_DATA_BANK__JAPANESE_LAND_PRICE_DATA)、スキーマ、テーブルを選択すると、このようにtableauからPODBのデータに接続することが出来ました!
番外編1.データを俯瞰してみたいとき
tableauのデータソース画面だと、画面が小さくて全体像がつかみずらい… そんな時はsnowflakeからデータを確認してみましょう。snowflakeの左の項目欄から「Databases」を選択。下記の通りデータベースとスキーマを選択すると、データの概要を見ることが出来ます。今回は2023年の地価公示データを見ていきます。
「PREPPER_OPEN_DATA_BANK__JAPANESE_LAND_PRICE_DATA」>「E_PODB」>「E_LP_PP23」
右上のタブの「Data Preview」や「Colums」をクリックするとデータの概要を見ることが可能です。
表示されない場合は、ロールが適切なものに設定されているか画面左下のアカウントから確認してみましょう。ロールによってアクセスできる場所を制限することが出来るので、データにアクセスできるロールに設定されている必要があります。
番外編2.一部のデータを抽出して手元で見たいとき
一部のカラムだけ選択して情報を見たい場合など、SQLでデータを抽出してExcel等で情報を確認することも可能です。今回は東京のデータに絞り込んでデータをダウンロードしてみましょう。まずは下記の画面のように+ボタンからワークシートを新規作成します。ワークシートは他の人には共有されず何回でも作成できるので、気軽に作成して頂いて大丈夫です。
ロール・ウェアハウス、データベース・スキーマの選択をしてから、下記のSQL文を実行してください。ロール・ウェアハウス、データベース・スキーマが選択されていないと、SQLが正しくてもエラーになってしまいます。
SQLが正しく実行されました!下記のようにダウンロードボタンからデータをダウンロードすることが可能です。
作成したvizのご紹介
今回私はPODBの地価公示価格データを使ってみました。戸建住宅購入を検討しているユーザーに対して、ユーザーの予算内では関東圏のどのあたりに家を建てられるのか把握できるvizを、地価公示価格データから土地の価格を算出することで作成しています。
例えば、年収500万円の方が利用する場合、STEP1で年収の500万円を入力すると、フラット35利用者調査のデータに基づいて住宅購入の平均予算が算出されます。土地のみだと1230万、土地+建物だと3850万円がおおよその予算です。
そして、この情報を参考にSTEP2で希望条件を入力。建物に予算の比重を置きたいな~と思ったら、土地の予算を抑えめで選択したりもできます。都道府県、市区町村も選択すると、その予算で購入可能なエリアが表示されます!ちなみに、土地の広さはフラット35利用者調査に基づいて、全国平均の広さを想定してつくっています。
私も自分の年収を入力して試してみました。結構住めるところたくさんあるな。高崎もいいなぁ〜。意外と鎌倉も住めちゃったりするかも。海沿いにも住めそう!と言った形で、一通り自分でも楽しむことができました。
ちなみに、今回は個人ユーザー向けのご紹介の仕方をしましたが、例えばハウスメーカーのHPに埋め込むことで、住宅購入への興味・関心層を増加させ、問合せまでの導線を確保することでリード獲得に繋げる、といった使い方もできると考え作成しました。
さいごに
いかがでしたでしょうか?私はいろんなデータがあると、こんなvizやあんなvizが作れるのではないかと想像が膨らみわくわくします。PODBではさまざまなデータを公開していますので、是非ぜひみなさん様々なvizを作成してみてください。