回帰分析は必ずしも説明材料にならない。クリック統計学の罠

 JUGEMテーマ:ビジネス


久しぶりに統計学についてすこし。
社会科学を少しでも学んだ人間であれば、統計学の「と」の字ぐらいは見たことがあるものです。うちの大学でも一応基礎科目に統計があったり(素で役に立たないレベルですが)。

で、統計学を学んでいると、回帰分析は割と最初のほうに出てくるものです。存在的には。

マァここでは単回帰を取り敢えず想定しますが、こいつを使うと、ある被説明変数を任意の1個の説明変数から求める、数式が得られるわけです。しかも対象がどんなデータセットであったとしても、です。

こういう便利な存在があると、企業の未来の業績などを予測するときに、深く考えずに回帰分析なんかを使っちゃったりしがちなわけです。私とか。

が。

(超初歩レベルでも)結構落とし穴は多いもので、一応その辺軽く考えておかないと、予測数値にツッコミ食らったときに死ねます。excelに回帰分析やらせて、提出しただけ、とかね。これをクリック統計学の罠といいます。たまに陥っている奴を見かける。

数字を読む側が回帰分析の数学的性質に知識がなければスルーされる目算も立ちますが・・。

決定係数や、検定、予測域の計算、説明変数と被説明変数の逆転可能性などはどんな初歩レベルの授業でも扱ってもらえるものとして、クリック統計学ではちょっと飛ばされそうなところをひとつ。

それは、回帰分析の前提として、母集団においてどの説明変数の値においても、被説明変数の値は、全く同形の正規分布に従う。と、仮定する。ってことです。

簡単に言うと、どんな状況下でも、結果予測のばらつき具合は一緒ということ。これが常識的にあり得ない対象に、さらっと回帰分析を無思考で使ってしまうと、手痛いツッコミを食らいます。

ひとつの回避方法を紹介しておくと、説明変数の値ごとの、被説明変数の平均値グラフを作り、これが階段状になったりすると、ダウトですね。


何でこんな話を急にしたかと言うと、今日友達とアナリストレポートの構成について話してたから思いついたのです。