主に業務部門の中・上級者向けになりますが、Tableauの価値をより強化するツール”Alteryx“(アルタリクス)について今回は取り上げます。
ちなみに日本での認知度は限りなく低く、日本語の記事も非常に限られていますが、欧米ではTableauとAlteryxがセットで用いられているケースが多いようです。
実際に何ができるのか、という点については、Developers.IOのこちらの記事が参考になります。
ざっくり特徴をまとめると以下の4つに集約されると思っています。
①ETL(Extract/Transform/Load)処理
②統計解析(Rベース)
③空間情報処理
④レポーティング
これらがノンプログラミングで行えます。
一つずつ詳しく取り上げながら、なぜ欧米ではTableauとセットで使われているかを解き明かしたいと思います。
①ETL処理
Tableauで多様なデータソースにアクセスをし、業務部門でもノンプログラミングで様々なアウトプットが作れるようになりました。
ただ、Tableauのスキルが上がると、複雑なアウトプット、複雑な集計のニーズが高まったり、より大規模なデータを取り扱いたくなります。
Tableau上でもテーブルジョインや異なるデータソースのブレンド、カスタムSQLなどによるETL処理が可能ですが、そもそもETLツールではないので、できることに限りがあります。また、何でもTableau上で処理しようとすると可視化のパフォーマンスにも少なからず影響が出ます。
そうなるとTableauに接続するデータの持ち方を工夫する必要性が生じます。
Alteryxでは「ツール」と呼ぶアイコンをGUI上でつなげるだけ、一切のプログラミングなしでETL処理が可能です。Tableau同様、主要なデータソースには接続可能で(プラグインが必要なことが多い)、しかもTDE(Tableau抽出ファイル)形式でアウトプットすることも可能です。
セルフ(サービス)BIというワードも浸透してきましたが、ETLまでできないとレベルの高いアウトプットのセルフBIは実現しない、最近は特にそう感じるようになりました。
②統計解析(Rベース)
TableauではVer8.1からR連携が可能になりました。ただし、Tableauの中では、一つのビュー内で表計算的にRの関数がワークすることになります。
例えば、Rの関数を使って、一つのビュー内で外れ値を見つけたり、クラスター分けを行うことはできますが、その結果を別のシートで使うには、分析結果を元のデータソースから切り離す必要があり、ダイナミックな分析はできません。また、使える関数も限られます。
また、Tableau Desktopがインストールされた端末にRがインストールされている前提となります。共有を前提としたアウトプットには不向きです。
あくまで、分析者個人のその場の統計処理用に一部のR関数が使える、という認識が良いと思います。実際にTableau社も、Rで何でもできます、とは一言も言っていないようですし。
結局、現時点では複雑な統計処理はTableauの外で行う必要があります。
Alteryxでは、主要な統計手法についてRベースで実装された「ツール」が用意されており(先述した参考サイトの下部に詳細あり)、こちらもノンプログラミングで多彩な統計解析が可能になります。
Alteryxで事前に統計処理を行い、その分析結果を含むTableau用データソースを生成することで、高度な分析もBIに含むことが可能になります。
Rを含め、統計ソフトのグラフ機能は貧弱なケースが多く、従来から統計分析の結果をTableauで可視化することは多かったのですが、統計処理そのものをAlteryxのモジュールに組み込むことで、
ローデータ⇒統計分析⇒結果の可視化
という一連の処理、特にデータ更新による分析の焼き直しを大幅に効率化することが可能です。
なお、ノンプログラミングとは言えなくなりますが、自作のRスクリプトを動かすこともできます。この点については、後日別の記事で取り上げられればと思います。
③空間情報処理
簡単に言うと地図系のデータ処理のことです。
最近はスマートフォンのアプリなどでユーザーの位置情報が簡単に取れるようになりました。緯度経度データはTableauで簡単にマッピングできます。
ですが、それだけだとタダの点の集まりですし散布図にしかなりません。ユーザーの移動データは大量にたまってきたものの全く有効活用できていない、と感じられる方も多いのではないでしょうか?
AlteryxはもともとGIS(地理情報システム)系の会社だったようで、空間情報処理系のツールが豊富に揃っています。
特定地点から各点の距離を測ったり、円商圏を作ってその中に含まれる点の数を数えたり、ポリゴンからメッシュを作ったり、などといった処理を簡単に行うことができます。
AlteryxでShapeファイルが読み込めることは過去の記事でも取り上げられています。
例えば、総務省統計局のeStatから行政区域の境界データ(ポリゴン)を取得できますが、行動データとして取得した緯度経度データをこのようなポリゴンとマッチングさせることによって、緯度経度情報のみから市区町村や町丁目のようなエリア単位で集計や、A地区からB地区に動いたユーザーがどの程度存在するか、といったフローの分析が可能になります。
これらの具体的な処理方法については後日サンプルとともに公開していく予定です。
④レポーティング
Alteryxはデータビジュアライゼーションの部分についてはTableauやQlikviewといった別のBIツールに任せています。データソースとライブでつないでツール上でいろいろ切り替えるような動的なレポートではなく、パワーポイントやPDFで吐き出す静的なレポートの作成が得意です。
良いか悪いかはさておき、TableauのようなBIを導入しても、従来のPDFが良い、パワポが良い、帳票形式が良い、エクセルの条件付書式が見やすい、といった方々が少なからずいらっしゃいます。無視して突き進む、なんてことができれば苦労はないのですが、実際はそうならないことがほとんどです。
PDF化はTableauからエクスポートできますので何とかなるとは言え、フィルタやスクロールが機能しないのでその前提で作らなくてはなりません。
また、帳票形式はTableauの得意分野ではありません。そもそも以下のような観点からも目指す方向が違うと考えています。
Tableauが後者なのは明らかですね。
さて、そんな従来型の帳票形式ですがまだまだ必要とされているのは事実です。Alteryxならその取り扱いも簡単です。
例えば、TableauではおなじみのSuperstore SampleをAlteryxで読み込み、エクセルっぽい簡単な帳票とグラフを作成し、Region別にA4のPDFレポートを作成してみました。
(画像はCentral Region分のみ。あくまで見え面のサンプルとして作ったものですので完成度は低いです。予めご了承下さい。)
こちらも実装方法の詳細は後日取り上げたいと思いますが、Alteryxのモジュールは以下のような感じです。
これでワンクリックでデータソースからPDFレポートが生成されます。
レイアウトの調整も集計プロセスもフローの中に明示されるため修正も容易です。
数ヶ月使えば、この程度のものは30分もあれば簡単に作れると思います。
先述のとおり、AlteryxにはETL機能が充実しているため、Tableauの集計用データソース構築と並行する形で、極めて効率的にこのようなレポートを生成することが可能です。
従来型の静的な定期レポートで速報を配信し、必要な時にいつでも深掘りできるようTableauのダッシュボードを用意しておく、というような使い方は、急激な変化が好まれない組織へのBI導入の最初のステップとして特に有効ではないかと思います。
まとめ
主だった4つの特徴について、長々と説明をしてきました。
ETL、統計解析、空間情報処理、レポーティング、それぞれ単体で見るとフリーソフトを含め様々なツールが存在していますが、複数をこなせるものは多くありません。
これら全てを高いレベルで実現できるところがAlteryxの強みだと考えます。Tableauとの親和性も高く、両者を使いこなせるようになるとデータ分析の幅が急激に広がります。(しかもノンプログラミングで!)
データサイエンティストと呼ばれる人材の不足が叫ばれはじめて久しいですが、Tableau x Alterxyという二つのBIツールを使いこなせるようになると、大規模データの処理、統計分析、効果的なレポーティング(情報可視化)が高いレベルで可能になります。
難解で高度なデータ処理や分析にはやはりプログラミングが不可避だと思いますが、大多数の実務課題はそのレベルまで必要ではないはずです。
ビジネスへの理解度の高い実務部門の担当者がTableauとAlteryxという武器を手に入れることで、これまで難しかったデータサイエンティスト“的な”データの処理や分析ができるようになる、そういった手軽さが、欧米での支持につながっているのだと思います。
現時点(2015/10/19)ではAlteryxに関する日本語の情報は極めて限られていることもあり、tableau関連情報という位置づけで、tableau-id上でも積極的に取り上げていく予定です。
T.Fuji
※2015/10/20 タイトルを「Tableau x Alteryx」から「Tableau * Alteryx」に変更しました。大した意味はありません。