データサイエンティストの備忘録

外資系コンサルティングファームでデータサイエンティストとして働く筆者がコンサルティング関連の知見やデータ解析技術を活用するために学んだ内容の備忘録

【読書メモ】分析者のためのデータ解釈学入門

読んだ目的

  1. データ分析の概観し、分析する上での注意点を網羅的に網羅的に確認するため
  2. データ処理する上で、注意すべき点で忘れがちなものが抜けていないか確認する

得られた学び

非常に多くの分析に関するTipsが記載されているので、自分が知らなかったり、改めてメモしておきたい内容を下記に記載する。

データに関するTips

  • 確率変数は、確率分布の存在を前提として、実際のデータはその確率分布から確率的に得られた変数
  • 標本平均の標準偏差を標準誤差という
  • 正規分布において、全体のデータは±1σに68.3%、±2σに95.4%、±3σに99.7%が収まるようになっている
  • バイアスはどんなデータにもあり、選択バイアス(全体から一部のデータが選択されたことに起因するバイアス。特に航空機の例は生存者バイアス)やサンプリングバイアス(大学生のみを対象とし、一般的には当てはまらない。志願者バイアスでは実験に参加意欲の高い人に偏る等がある)
  • 自分の仮説に都合の良いデータを集めることをチェリーピッキングや確証バイアスと呼ぶ

データの扱い、前処理の注意事項

  • 単位や桁を確認する
  • 外れ値や異常値をチェックし、除いて良い外れ値か検討する
  • 一つ一つの処理前後で、想定した処理が正しく行われているか逐一全てチェックする
  • 複数の処理をまとめた分析を最初から行わない
  • 何度も行う処理は一つにまとめる(関数やクラスにして、コピーはしない)
  • 長い処理はできるだけ分割する

変数間の関係

  • 独立した二群比較における手法の選択方法
    • データが正規分布に従っている&二つの群で分散が等しい(分散はF検定で等分散性を確認):ステューデントのt検定
    • データが正規分布に従っている&二つの群で分散が等しくない:ウェルチのt検定
    • データが正規分布に従っていない(サンプルサイズが小さい、裾の厚い分布):マン・ホイットニーのU検定
  • データ分析の種類はとして、データから特徴を見つけ出すことを目的とした"探索的データ分析"と仮説を検証するための"確証的データ分析"の2種類がある
  • 比較する対象が3つ以上ある場合は分散分析を実施する。着目する観点が1つの場合は"一元配置分散分析"という。要因が二つの場合の分散分析を"二元配置分散分析"という。
  • 複雑な相関構造を分析する代表的な手法は因子分析で行う。各変数を少ない共通因子で表現され、各々の共通因子がそれぞれの変数にどれだけ含まれているかを因子負荷量で表す。変数間の相関が一定以上存在する時、変数間に因果関係がない、のみ有効な手法となる
  • 観測した変数の間や、複数の潜在変数の間に因果関係がある場合は、グラフィカルモデルやパス解析、共分散構造分析、構造方程式モデリングの手法を使う
  • データを少ない変数で表現したい時は主成分分析を行う

データ解釈の罠

因果関係を判定するための基準に疫学の分野で知られているHillの基準がある。

  1. 頑強性:要因と結果が強く結びついている。効果量が大きい
  2. 一貫性:異なるサンプルに対して行われた調査で、一貫した結果が得られている
  3. 特異性:特定の要因のみからその結果が生じる特別な対応関係
  4. 時間性:原因となる要因は、結果よりも時間的に前に起きている
  5. 用量反応関係:原因の程度が大きければ、結果への影響も大きくなる
  6. 妥当性:論理的にあり得ないことは起きていない
  7. 整合性:今まで知られている事実と矛盾しないこと
  8. 実験の有無:介入を行う実験的研究によって関連性が支持されていること
  9. 類似性:別の似た関連性が存在していたこと

今後のToDo

  1. 分析する前に上記の注意点を確認する