感想と要約「それ、根拠あるの?と言わせないデータ・統計分析ができる本」

SHARE

感想と要約「それ、根拠あるの?と言わせないデータ・統計分析ができる本」

読書メモです

分析を進める発想とコツ

仮説アプローチ

仮説アプローチがあるとたくさんのデータや分析手法の前に悩んでしまうことが なくなる

課題を解決したり目的を達成するためのあたりをつける作業を仮説アプローチという

仮説を立てたらその仮説を実証するためにデータを調査する

その結果、的外れ行ったりさらに調査が必要であったり予想通りであったりとか仮説を説得つけることができる

仮説アプローチの注意点

仮説アプローチの対極に網羅的アプローチというあらゆる データを片っ端から分析していく手法もある

これによって当初考えもしなかった発見に出会うこともある

仮説アプローチではこれに気づくことができない

また仮説アプローチの思いつきに縛られすぎるといったリスクもある

自分の考えを証明したくなってしまうってはいけない

効果的な仮説を立てるためのポイント

4pや3 C などのフレームワークを使ってもれなくダブりなく仮説を洗い出す

複数の仮説を立ててみる

仮説を検証するためのピラミッドストラクチャー

データの集め方と分析の視点

効率的なデータの集め方

  • ベンチマークを活用する→自社製品の特徴を知る場合も他社製品のものも集めておけば後々比較すると言ったことができる
  • 細かい単位で収集する→月のデータで仮説が検証できそうだとしても あえて週や 日のデータを拾っておくと後々楽になるケースがある
  • 時間や場所や人 といった軸の視点で分割してデータを集めてみる
  • 外れ値が存在していることを認識する→平均を見たときにある一つの大きなデータや小さなデータがあると平均が 引っ張られてしまうことがある。散布図などで外れ値を可視化し存在理由を確認して処理を行う

データを増やす方法

絶対値を比率に変えることでデータを増やすことができる

  • 単位あたりの比率→人口当たり世帯当たり従業員一人当たり期間当たり 売上あたり ○○円当たり m2あたり
  • 属性による比率→男女比 年齢層比
  • 時間による比率→前年同期比年度平均伸び率
  • 他との比較→競合比 他国比 業界比

規模を掴む平均と中央値

平均を使うメリット

たくさんのデータを一つに集約できるだけではなく平均値を代表値として他の変数にかけることで簡単に全体の大きさを表すことができる

中央値を使うメリット

複数のデータの中で真ん中の値を取り出すことができる外れ値があったとしても 影響を受けない

リスクをつかむ標準偏差とヒストグラム

左右対称な正規分布でわかること

平均を15とした場合標準偏差プラスマイナスの間の中に2/3のデータがおさまっている

例えば来場者数を30日間毎日モニターしたとする

その月の1日の平均来場者は34.5人、標準偏差は14.6人だったとする

その場合19.9人から49.1人が30日間のうち約20日間(2/3)は訪れてきたということになる

標準偏差でわかること

標準偏差の最大の特徴は平均には現れないデータのばらつきを把握できることにある

標準偏差が大きい場合平均だけを頼りにするのは危険だと考えられる

また 平均額には大きな変化はなかったが昨年と比べてばらつきが減って安定してきたと言ったことをサポートしてくれる

標準偏差をエクセルで求める stdev 関数

ヒストグラムでばらつきを視覚化する

ヒストグラム では データの値の大きさを横軸にとるのだが 個々のデータの値をそのまま使うのではなくある大きさの範囲ごとに区切って 区切られた範囲ごとのデータの数をカウントする

これによってどの大きさのデータがいくつあるのかを目で見て判断することができる

横軸の分割数は データ数のルートを取った数が良い

データの結びつきの強さを見える化する相関分析

「新聞広告は売上に効果がある」といった複数の関係にどれだけの関わりがあるかを見える化したものが相関分析

平均や標準偏差は1つのデータの特徴を見るものだったけど、相関分析では2つのデータの関連を見られる

相関係数は+1から-1の間の数値となり、+1に近いほど正の相関があり、-1に近いほど負の相関がある

大体0.7を超えると「強い相関」と考えるケースが多い

相関係数をExcelで求めるCorrel関数

相関分析のポイント

相関分析を行うときはできるだけ「直接的な影響を受ける2つのデータ」で行うのが良い

  • ✕スタッフの人数→売上総額(安売りセールなど他の要因がたくさんある)
  • ○スタッフの人数→待ち時間、待たせた人数、顧客満足度…

相関分析のポイント 期間をずらす

2つのデータの期間をずらすと効果がわかることもある

例えばテレビCMと売上の関係を考えたときは、CMの効果が1ヶ月後の売上に影響する時差があるかもしれない

相関分析のポイント 疑似相関に気をつける

たとえば年収と起床時間には相関関係が出てしまうが、実際には間に「年功序列」が挟まってるかもしれない

  • 年齢が上がると起床時間が早くなる
  • 年齢が上がると年功序列と年収が高くなる

そのため若い人が早起きするようになったからといって年収が上がるとは限らない

相関分析のポイント 散布図を書く

相関係数だけを鵜呑みにすると勘違いすることがるが、散布図を書くことで「この範囲で相関分析し直したら全く違う結果になるな…」といったことが見えやすくなる

相関分析のポイント 軸を分けてみる

オーディオ機器の値引き額と売上増率に関係がないように見えても、

オーディオ機器(低価格グレード)の値引き額と売上増率には関係があったりする

相関を見る対象を特定の軸(時間・地域・年齢・性別・所得・業界…)に分けてみると新しい見え方になる

アウトプットを達成するためのインプットの大きさがわかる単回帰分析

一定の相関(0.7以上)がある2つのデータについて、y=ax+bの関係式を出せる

これによって「いくら投入したら(x)、欲しい効果が出るか?(y)」がわかる

使い方は散布図のグラフ化した式を表示するだけ(なんて簡単なんでしょうか!)

このときR2乗が0.5以上であれば「使える関係」といえる

KPIに使う

  1. 達成したいパフォーマンスをあげる(新規顧客開拓率、成約率、顧客リピート率)
  2. パフォーマンスを示す指標をあげる(売上、利益)
  3. 相関の高いものを選択し、KPIとする
  4. 単回帰分析を使って目標に対してのKPI目標値を算出する(顧客リピート率をKPIとし、売上10%増の達成のためにKPI目標値を現在の20から30に上げる)
  5. 施策がKPIにつながっているかを相関分析で定期的に確認する(「定期的な電話フォロー」「メルマガ」はKPIの顧客リピート率に相関があるか?)

まとめ

アプローチの図(写真)

感想

物語を読み進めながら統計手法と分析手順を効率的に学べた

アプローチ手段が特に活かしたい部分で、行動する前にまず仮説をラフに検証する癖を付けるようにしたい

ブログとかでも何となく「内部リンク最適化すればアクセス増えるだろ」とかやってるけど、内部リンク数とページセッションの相関分析くらいはしておきたい

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です