t.fuji / About Author
Tableau-ID Prepper人口統計とポリゴンデータを期間限定無料公開中(8月末まで!しかも町丁目も!!)
こんにちは。藤です。
掲題の通り、8月末まで以下のデータを弊社の Snowflake 環境上で無料共有しています。
今回はその具体的にそのデータの中身をご紹介します。
1. 都道府県別基礎データ
国土数値情報の2021年のポリゴンと、2020年度国勢調査の速報データをtruestarが加工・結合したもの
2. 市区町村別基礎データ
国土数値情報の2021年のポリゴンと、2020年度国勢調査の速報データをtruestarが加工・結合したもの
3. 町丁目別基礎データ
2015年度国勢調査のポリゴンと統計データをtruestarが加工・結合したもの
ポリゴンは以前 GitHub で公開したデータの2021年版が入っています。全て元データからは250mで間引きをして軽くしています。
参考
都道府県ポリゴンから離島を除外してみた(前編)
都道府県ポリゴンから離島を除外してみた(後編)
GitHubだと結局一度ダウンロードする手間が無駄です。
Snowflake 上にあればダウンロードせず、即 Tableau 等で使えます。なので Snowflake での共有にしました。
位置情報としては、都道府県庁所在地を代表点としたポイントデータも持っています。
統計データは令和2年度(2020年度)国勢調査の速報値から、男女別人口、世帯数、前回調査(2015年度)からの増減数などが含まれています。
軽く可視化してみるとこんな感じ。
ポリゴンが複数あるのでパラメータで切り替えることが可能です。例えば一都三県表示では・・・
Before
After
メチャクチャ便利なんですが、マニアにしか伝わらないかもしれない・・・。
統計データは都道府県別と同じです。
ポリゴンは、フルバージョンと間引きした軽量バージョンの二種類あります。
代表点は持っていません。市区町村役場を持たせようと思いましたが、一部離島の町村が、その町村域内に役場がなく扱いが厄介なため、現時点では断念しています。
こちらも軽く可視化するとこんな感じ。
まあ、そうなりますよね、という感じです。このデータ単体では特に面白みは無いですね。
やはり、店舗の位置情報やその売上データと結合して、ターゲット人口あたり売上で店舗比較する、出店候補地をプロットして円形選択ツールで商圏内人口を可視化するなど、実際のビジネスで利活用するにはもう一段の実装と分析が必要です。
ポリゴンも人口統計も平成27年度(2015年度)の国勢調査データです。町丁目粒度のオープンデータは現時点でこれが最新で、2020年度国勢調査データは例年通りだと来年公開されるので、それまでは若干古いですが予めご了承ください。
ポリゴンは元データのまま、統計データは男女別人口、世帯数、平均年齢を領域ごとに保持しています。
いずれにせよ、ポリゴンも人口統計も同じ年度の同じ調査なので、誰でもすぐにこの程度のデータセットは作れるのではないかと思われるかもしれませんが、はっきり言って メチャクチャ大変 です。
まず、APIがありません。
しかも全国一括で落とせません。
都道府県ごと、統計量ごとにデータをダウンロードする必要があります。
もちろんダウンロードしたデータには不要なヘッダがあります。
数値の列にハイフン混ざってます。
町丁目を示すコードがないエリアがあります。
複数のエリアの粒度のデータが縦積みされています。
秘匿処理(詳しくはこちら)の扱いが難しい。
全国で大阪市北区梅田だけ秘匿処理のデータの持ち方が違う。(どうしても数値が合わず、数値検証時に発見)
などなど・・・
町丁目ポリゴンと町丁目統計量を結合するだけで、数日単位でかかります。
日本全国にいる優秀な分析者たちがこんな作業に時間を費やすなんて馬鹿げてます。
ということで 無料共有 しています。
では軽く可視化した結果です。
私が最初に一人暮らしを始めたのが目黒区の八雲1丁目でした。駅に近く単身向けの賃貸が多かったイメージがあるので、確かに世帯当たり人口は低そうです。
このくらい細かな地域特性が簡単に可視化できます。
ちなみに、町丁目のデータはさすがに重たいです。20万超のレコード数すべてに重複のないポリゴンがついています。
仮にTableauで可視化するならば、データソースフィルターやコンテキストフィルターで都道府県を絞った上で作業しないとストレスがたまりますが、そのあとはさほど気にならないレベルで使えると思います。
いくつか可視化サンプルを掲載しましたが、データ接続から可視化し終えるまで、 各5分 で可能です。
分析者のために使いやすく加工したデータ
が、
クラウドDWHに置いてある
って、そういうことです。
使っているのはオープンデータなので、自分でイチから頑張ってもできると思います。
でもたった5分では各都道府県のデータをダウンロードすら終わっていないかもしれません。それでも自分でやりますか?
それではまた!