前回の授業(高井さん)での「よくある質問・誤解」
customer.csv
を読み込む際に、生年月日が「Local Date」として正しく認識されないケースが多く見られました。そのため、「String型」で読み込んだ後に「Date型」に変換しようとする学生がいましたが、欠損値を示す文字が複数存在している(と思われる)ため、Row Filter
で「is not missing」だけを使っても正しく処理できない場合がありました。いろいろ工夫すると最終的にはうまく変換できます。なお、年齢を求めるには、生年月日を使ってTime Differenceを取る方法以外にも、元のファイルから「Part Time Extractor」で生年だけを抜き出し、「Math Formula」で2010年との差を取る方法も試されていました。
- 読み込みが失敗のとき、適宜「String型」で試しておく
String to Date&Time
で変換の際、Fail on error
のチェックを外して、変換できた分だけ変換して出力の作業が可能
GroupBy
ノードのAggregationで「Percent」を使うと、「金額の構成比」が出せると勘違いしている学生がいました。「Percent」は行数に対する構成比を出すもので、金額に対する構成比ではないことを繰り返し注意喚起しました。
- 「商品ライン」という言葉を、「商品」と「ライン」という別々の語として理解していた学生がいました。そのため、ラインごとの計算でも「商品」もつけるという訳のわからない状況になっていました。
実践課題からの教訓
- ツールを使って実行するよりも、まずはプロセスを頭の中で整理することが最も大切。
- **最初からスムーズに実行できることは少ない。トラブルは当たり前と考えるべき。**問題が起きたときに落ち込む必要はありません。それが普通です。
- エラーや問題が発生したとき、「なぜそうなったのか」「何をしたら解決できるか」をみんなで考えたり、議論したりすることが、学びと成長の鍵
- データ分析の結果を、現実世界でどう活かすかを考えるのは、人間の役割。
- 誰かに説明できるようになって初めて、本当に理解したと言える。
- ツールの使い方を覚えることは手段であって目的ではない。
課題
- これまで取り組んだ「初心者マーク検定」の分析作業をふり返り、自分たちの分析のプロセス・結果・発見を他人にわかりやすく伝えるためのスライドを作成すること
初心者マーク検定
1.まずは店レベルの分析から
1-1. 店レベル:売上関係の基礎分析
- 月別売上金額の推移とその可視化
- 日別売上金額の分布とその可視化
- 日別売上数量と来店人数の関係性の可視化
- 曜日別の売上金額・来店人数・顧客単価の把握
- 曜日ごとの顧客単価に大きな違いがあるか
- 違いがある/ない場合、それが示唆することは何か