Alteryxはじめの一歩

Alteryxはじめの一歩 | Tableau-id Press -タブロイド-
mark_syoshinsya

こんにちは。3回目の登場のひめのです。
あっという間に4月!新年度ですね!
今年度はこれまでより少しアクティブに、釣りに挑戦しようと思っています!

そんな私もそろそろAlteryx 2年生になります。

まだまだ知名度が低いAlteryxを1年ほど使ってみた感想を、
別業界から入ってきた文系人間なりにご紹介します。
Excelはちょっとだけ(VLOOKUPとMATCH関数とか)わかるけど、
プログラミングなんてお手上げ、という視点です。
今回はこれから始める方の最初にステップになればいいな、という内容です。



①大きなデータの処理が速い!

計算式が張り巡らされたExcelは重くなりますよね…
永遠に開けない/閉じない…再計算が終わらない…という地獄。
正直、1000行くらいのデータだとあまり違いはわからないかもしれません。
でもExcelに収まらないような大き目なデータはAlteryxが速いです!

Excelファイルだけじゃなく、csvとかjsonなど、いろいろな形式にも対応できます!


②データの処理の流れがわかる!

Alteryxはそれぞれの役割に特化したツールをつなげてデータを処理します。
元のデータ(input)から出力(output)までどんなルートをたどったのか後から追えるようになっています。
その理由は1つ1つのツールでできる処理が限られていて、ステップをどんどん付け加えていくような構成になっているから。

例えば、まずはデータを読み込みます。

Inputルールでできるのはここまで!以上!
しかも別ファイルを読み込もうとするともう1つInputツールを使って読み込まないといけない…
できることが少なすぎてこの段階だとExcelの方がいいじゃん、になります。
だってコピペする方が好きなところに好きなだけ貼り付けられるじゃん、みたいな。
もうちょっとお付き合いください。

次に中身がどうなっているのか確認するためにBrowseツールをくっつけます。

やっとデータの中身を確認できました。
1個ずつツールをつなげていくのは少し面倒に感じるかもしれませんが、
すぐ慣れます!笑
とりあえず次に進みます。

もうちょっといろいろツールをくっつけて処理をつなげてみると…
例えばこんな感じ↓


なぜかタイタニックに乗船していた人たちの名前ランキングを作成したくなったとします。
(当時の人気の名前ランキングみたいな?)

Alteryxは1つ1つのツールでできることが少ないので、
どんな処理をしているのかわかりやすいです。
つまり私が志半ばで倒れても、後を継いでくれた人が何をしていたのかわかる、
ということです。
1個1個ツールをつなげていくのは少し面倒かもしれませんが、すぐ慣れます!

左から順に何をしているかというと…
・データを読み込む(だけ) みんな大好きタイタニックのデータです。
・氏名の列で名だけを分ける(スペースの前後で列を分ける)
・名でグループを作って、それぞれ何人いたのか数える
・人数が多い順に名グループを並び替える(だけ)
・TOP10だけに絞る(だけ)
・結果を確認する(だけ)

実現したいゴールによって、どの部分を変えればいいのかわかりやすい、というのは個人的にすごく使いやすいな~と思った点です。
こんな風に感じのは以下のようなときです。

後継者A:ひめのはトップ10しか出していないが、20位くらいまで見たい
→TOP10に絞るSampleツールを編集してTOP20にしよう。

後継者B:生き残った人だけに絞ったらラッキーな名前ランキングができそう?
→Inputツールの後にFilterツールを追加して「生き残った」を条件に絞ろう。

あと左から右にデータの処理が進むので、視覚的にもわかりやすいです。
設定を変更すると上から下、の縦バージョンにもできます。

③処理の途中経過が見える!

Excelで作業するとき、失敗したら怖いから念のためシートをコピーしておこう、や
このセルってこの計算式が入る前はどうなっていたんだっけ…と、
途中どうなっていたのかわからなくなってしまうことが悩みでした。

Alteryxでは列の名前を変えたり、数値だったところを数式で上書きしたりしても、
それぞれのステップでBrowseツールをつけてその段階でのデータを確認できます。
無駄に保険をかけてコピーしてバックアップを取っておく、ということをしなくても
元のデータを書き換えているわけではないので安心です。
Inputするファイルはそのまま生きていますし、Outputファイルは別に生成されます。
(上書きするのもやろうと思えばできます。)

この画像には alt 属性が指定されておらず、ファイル名は image-7.png です


この例に戻ると、□の中にレコード数と容量が表示されています。
名前でグループするとレコード数は減ります。
それで同じデータを使って他の情報を集計したくなったら、
データを分岐させることもできます。

どこまでは同じ処理をしていた、ここから集計方法が分かれた、というのがわかります。
同じことを何回も繰り返さなくても、ここまでは一緒!と遡れます。
私のような忘れっぽい人間にはありがたいです~
↑で分岐した後は客室の等級で生存者の年齢に差はあったのか、というのを見てみました。
ちなみに結果はこんな感じでした。

平均した時の小数点以下が長くて赤い印がついてしまっています。



プログラミングから入った方にとってはそれがどうした、という内容だったかもしれません。
これまでExcelしか使って来なかった方にはちょっとイメージがつきやすくなったでしょうか。

新年度で何か新しい事を探している方、Alteryxに挑戦してみてはいかがでしょうか!