Tableau-id Press編集部 / About Author
Tableau-ID AlteryxAlteryxでPODBの統計量を面積按分してみた
こんにちは。インターン生として勤務しているk.ogawaraです。
今回はこちらの続きとなります。前回は株式会社TRUESTARがSnowflake データマーケットプレイスにて共有しているPrepper Open Data Bank(詳細はこちら)に新たに追加された「日本の駅データ」をもとにボロノイ図を作成しました。
今回はこのボロノイ図に様々な統計量を紐づけていきます。例えば自分が中学・高校受験向けの学習塾を運営する立場で、新しく駅前に塾を展開したいと考えている場合、前回作成したボロノイ図を指標とすることで、「どの駅近くだとアクセスが良いか」「最寄り駅が遠くなってしまう地点は避けたい」といったことが分かります。さらに、これに統計量を紐づけることで「この駅近くは人口が多くて立地に向いてる」「平均年齢が高い場所は生徒が少なそうだから避けたい」といった悩みを解決する材料となり、商圏分析の幅を大きく広げることができます!
では早速説明に入りたいと思います。
AlteryxのWFの最終形は以下のようになります。
まずはじめにデータがどのような内容なのか確認します。今回は①ボロノイ図を付与した日本の駅データ②町丁目基礎データの2つを使用します。
町丁目基礎データには市区町村名・町丁目ポリゴン・男女別人口・世帯数・平均年齢などが含まれています。
WFの大まかな流れは
1.ボロノイポリゴンと町丁目基礎ポリゴンをマッチング
2.ボロノイポリゴンの面積に対する重複部分の面積の割合を算出(按分比率)
3.算出した割合をもとに統計量を按分
となっています。ではWFの解説をしていきます。
まず前回作成した日本の駅データの方から準備をしていきます。レコードIDツールを使用してレコードIDを付与します。このようにすることで後々統計量を紐づける作業が少し楽になります。
続いて町丁目基礎データの準備を行います。フィルターツールを使用して範囲を横浜市に限定します。
続いて町丁目ポリゴンの面積を出力します。空間情報ツールを使用することで指定した空間オブジェクトの面積を出力することができます。
空間情報ツールとは
「指定した空間オブジェクトの面積や中心点、境界矩形を出力する」ツールです。
続いてボロノイポリゴンと町丁目ポリゴンの重複部分を出力します。空間マッチツールでマッチングした後に空間プロセスツールを使用することで重複部分の空間オブジェクトを出力することができます。
続いて空間情報ツールを使用して重複部分の面積を出力します。
これで①町丁目ポリゴンの面積②町丁目ポリゴンとボロノイポリゴンの重複部分の面積を出力したため、按分の比率を求めることができます。フォーミュラツールを使用して按分の比率を求めます。
求めた按分の比率をもとにボロノイポリゴンと町丁目ポリゴンの重複部分の統計量を出力します。
しかし、年齢に関しては注意が必要です。そのため今回は以下のような計算を行います。
ボロノイの平均年齢
=ボロノイの年齢の合計⁄ボロノイの人口
=(∑重複部の年齢の合計)⁄ボロノイの人口
=(∑(重複部の平均年齢×重複部の人口))⁄ボロノイの人口
まずフォーミュラツールを使用して重複部分の年齢の合計を求めます。
続いて集計ツールを使用してボロノイ単位で統計量を集計していきます。ボロノイごとにあらかじめレコードIDを付与したので、レコードIDごとにグループ化することでボロノイごとにグループ化できます。
続いて先ほど出力した①ボロノイの年齢の合計②ボロノイ単位の人口を使用してフォーミュラツールでボロノイの平均年齢を求めます。
最後に結合ツールを使用して、冒頭の日本の駅データと結合します。あらかじめ付与したレコードIDに基づいて結合することで楽になります。
しっかりと統計量がボロノイ単位で紐づいてますね。分かりやすいように簡単にtableauで可視化してみましょう。
ボロノイごとの平均年齢に大きな差はありませんが、人口に関しては東戸塚などに集中しているようにも見えます。東戸塚駅周辺に新店舗を立地すると顧客獲得が期待できそうですね。
いかがでしたでしょうか。今回は株式会社TRUESTARのPrepper Open Data Bankにて追加された「日本の駅データ」をもとに、よりデータ分析に役立つように加工を行いました。
株式会社TRUESTARではこのようなデータ加工作業を引き受け、データ分析者がすぐに分析できるような形で共有しています。また新たにPrepper Open Data Bankにてデータを追加していきます。少しでも興味を持っていただけたら幸いです!