データを民主化する新サービス『Prepper』

データを民主化する新サービス『Prepper』 | Tableau-id Press -タブロイド-
logo-prepper_mark-text-color

※7月16日『特典!』追加

こんにちは。truestarの藤です。

今回はtruestarの新しいサービス『Prepper(プレッパー)』のご紹介です。

昨年ローンチした『Hawkeye Viewer』から派生したものなのですが、サービスの紹介ページを作る前に売れ始めてしまった期待の新サービスです。


Prepperとは

簡単に言うと、データ分析の前段階で発生するデータプレップ(データプレパレーション)作業を肩代わりする、データ分析者の後方支援サービスです。

既にスタートしているのは、市販されているデータを我々truestarが加工してお届けするサービスです。
2021年7月7日時点では、Hawkeye Viewerでパートナーシップを締結していた二社のデータソースを取り扱っています。

店舗DMP|技研商事インターナショナル社

Map Fan DP|インクリメントP社

住所ジオコーディング|インクリメントP社

各社より直販でももちろん購入可能な商材ですが、Prepperなら分析者がすぐに使える形に加工したデータもお届けします。

そのカスタマイズ加工がなんと 無料 なのです。

何がうれしいのか

    
Prepperが貴重なデータ分析人材の時間を開放します!

そもそも、現在御社のデータ分析の担当者は、もともとデータ分析を目的に採用した方でしょうか?
最近はそういう採用も増えていると思いますが、実際多くのケースでは、どんな仕事でもバリバリこなすスーパーヒーロー・スーパーヒロイン的存在が、さらにスキルアップしてデータ分析をしているのではないでしょうか?

一方で、こんな話があります。

『分析データの整備に 8割 の時間が費やされている』Andrew Beers, Tableau CTO(ブログ投稿時点)
https://japan.zdnet.com/article/35118383/
これは2018年と少し古い記事ですが、4、5年前からデータプレップの課題感を良く耳にするようになりました。
※一番有名なのはおそらく2016年のForbesのこの記事

どの会社でも発生しているようなデータ加工作業に対して貴重なデータ分析人材の時間を費やすのは、本人にとっても組織にとっても大きな損失です。その会社においてその人でないと難しい仕事に時間を割くべきです。

Prepperでは汎用的なデータ加工はもちろん、カスタマイズにも柔軟に対応し、データ分析のプレップコスト(特に作業時間)を大幅に圧縮します。つまり貴重な人材の時間を創出することができます。

Prepperは御社のビジネス課題を直接的に解決できるものではありません。データ分析者の後方支援に徹底的に焦点を当てたサービスなのです。

実際にどんな問題が起こっているのか

    
ご自身の手でAPI経由でデータ取得してデータ分析をしたことはありますか?

社会的にデータ利活用が推進され、様々なデータが流通されるようになりました。API経由でシステム連携が容易になるなど、5年前、10年前と比べると、段違いに環境は良くなりました。

一方、一人の分析者の立場で考えると、APIからのデータ取得は意外と大変です。過去のブログでもそのプロセスを紹介していますので詳しい内容はそこに譲るとして、なかなか大変な作業です。これを突破しないとデータ分析は始まらないのです。

Alteryx で e-Stat API からデータを取得する

Alteryx でジオコーディング API を使って緯度経度や正規化された住所情報を取得する

私の場合、APIからのデータ取得機会が生じると、得意な方(スーパーヒーロー・スーパーヒロイン)に丸投げしたい誘惑にかられます。(というか丸投げしてます。)

APIでデータは共有されているものの、分析しやすく共有されているかというと必ずしもそんなことはないのです。

Prepperなら下のように最初から使いやすく加工されたデータが共有されます。

    
APIの仕様書とにらめっこし、分析のためにJSONデータを整形する必要はもうありません。

    
別の事例です。

下のようなローデータを取り扱ったことはありませんか?

    
政府統計の総合窓口であるe-Statからダウンロードした、住民基本台帳のエクセルデータです。

赤枠が二か所ありますが、こういったデータは取り扱いに注意が必要です。

まず、性別カラムに『計』が含まれています。つまり縦に単純集計すると、同じ市区町村の中で男女と計でダブルカウントが発生しますので、使うときには基本的に除外することになります。簡単な作業とはいえ最初から無いほうが少なくとも私は嬉しいです。

また、市区町村名カラムでは、全国合計や北海道の合計値に対して空白レコードがあるだけでなく、政令指定都市である札幌市の行政区も含まれています。つまり、市区町村カラムの空白をフィルタしても、政令指定都市はダブルカウントになります。
空白レコードには気づくとして、この政令指定都市のデータを見てすぐに重複を察知できるのでしょうか?

過去に同じようなデータを取り扱った経験がないと意外と気づかないものです。
誤集計に気づかないまま、この数値を使ったKPIが作られ、それを業績評価に使われて誰かのボーナス額が誤って決まってしまった時には目も当てられません・・・。

この問題の根源は、誤集計に気づかなかった分析者なのでしょうか?

確かに分析者に気づいて欲しいところではありますが、そもそもの問題は分析に使いづらいローデータにあります。
このオープンデータはこれから集計・分析を行なうためのデータではなく、集計した結果としてのデータです。

このデータを使ってデータ分析を行うところまでは、残念ながらそもそも考慮されていないと考えるほうが現実的です。

Prepperは、データ分析者にとってわかりやすく、すぐに使える形に加工したデータを提供します。

なぜ truestar がやるのか

    
truestar には事業承継前の親会社時代を含めて10年以上、私を含め複数のマネジメントメンバーは truestar が誕生する以前から一緒にデータ分析や関連するコンサルティング事業に携わっており、約20年間この領域で奮闘しています。

その20年間の8割は、確かにデータプレップな日々だったな、ということで、期せずして我々はデータプレップのスペシャリストになっていたのです!(笑)

いずれにせよ、日本中で似たようなデータプレップが発生し、同じような加工作用に対し、日本中の貴重なデータ分析人材が忙殺されるのは国家規模の損害です!(とりあえず言ってみたかった)

人的リソース、コンピューティングリソース、データリソース、それら全てをより効果的・効率的に活用できるようなデータ分析のエコシステムが作れないか、そんな熱い想いの中から、データプレップスペシャリストの集う truestar による Prepper が生まれました。

で?

    
結局、有償の加工済みデータを売るだけでしょ?

と思ったそこのアナタ!

半分正解で半分不正解です。

現在、商用利用可能なオープンデータを多数収集し、それらを分析で使いやすいよう加工しています。分析者がプレップ無し、または最低限のプレップでもすぐに分析が可能になるようなデータを、 データ代無料 で共有するサービスを準備中です。

本当はこのブログ投稿に間に合わせたかったのですが、残念ながら諸々の作業が間に合わず、最速で今月末でのローンチを目指しています。

ということで、

乞うご期待!

・・・となる予定だったのですが、せっかくなのでこのブログの読者に感謝を込めまして、急遽

特典!

    
※7月16日追記!

期間限定(8月末まで)

でご希望の方に先行共有致します!もちろん無料!

一般的なオープンデータと同じような利用規約はありますが、データのダウンロードも商用・二次利用も可能です!

公開するデータは大きく三種類あります。

  1. 都道府県別基礎データ
    • 国土数値情報の2021年のポリゴンと、2020年度国勢調査の速報データをtruestarが加工・結合したもの
    • 離島無しポリゴンも選択可能
  2. 市区町村別基礎データ
    • 国土数値情報の2021年のポリゴンと、2020年度国勢調査の速報データをtruestarが加工・結合したもの
  3. 町丁目別基礎データ
    • 2015年度国勢調査のポリゴンと統計データをtruestarが加工・結合したもの

基礎データには人口や世帯数が含まれます。

特におすすめは 3. 町丁目基礎データ です。

2020年度版は公開前のため、現時点では2015年度版国勢調査にはなりますが、e-Statで公開されているポリゴンと統計データは簡単にマッチングしないレコードが多数あり、プレップが超大変です。そこは既にtruestarで加工処理を施しています。

町丁目レベルのポリゴンと統計データが結合されてで無料公開されることは極めて珍しいはずです。(もしかして日本初!?)

ちなみに、47都道府県分をそのまま使うと重たすぎるので都道府県レベルでフィルタして使うことを強くお薦めします。例えばTableauであれば、データソースフィルタやコンテキストフィルタで絞れば快適に動きます。

    
なお、今回の先行公開は truestar の Snowflake 環境 で行います。

弊社環境用のアカウントを発行しますので、Snowflake社への正式なアカウント申請は不要、利用料もすべてtruestar負担です!

Snowflakeを一度使ってみたかったという方も是非ご活用下さい!

お申し込みはサービスページ最下部か、こちらよりお願い致します!

なお、予算にキャップがあり、異常な利用にはストップをかけさせていただく可能性はありますのでその点はどうかご了承ください。

    
また、『○○のオープンデータも取り扱ってほしい』、というご要望があれば、是非ともこちらよりお問い合わせ下さい!

商用・二次利用可能なデータであれば、優先度を上げてのご対応を即検討致します!

それではまた。