第3の要因
前回は、仮に2つの変数AとBの間に「相関関係」があったとしても、どちらがどちらに影響しているのかという「因果の方向」まで見極めるのは難しい、という話をしました。今回は、仮に相関関係があったとしても、因果の方は全く無いかもしれない、という話です。AはBに影響していないし、BもAに影響していない、だけどAとBには相関関係がある、そういうことがあり得ます。それは、第3の要因がAとBの両方に影響を与えている場合です。
たとえばこんなケースを考えてみましょう。山田さんは、娘の桃子さんにいくら頼まれても、スマフォを買ってあげていません。ところがそのうちに桃子さんは、「スマフォを持っている友達には、成績の良い子が多い」という傾向に気づき、「だから自分もスマフォを買ってもらえば勉強ができるようになるはずだ」と主張し始めました。たしかに、娘の友達のことをよく知っている山田さんも、そのような傾向があると認めざるを得ません。逆にスマフォを持っていない子たちは、娘と同じで勉強が苦手な子が多いようです。では、そういう傾向が確かにあったとして、山田さんはそれをどう解釈すればいいのでしょうか。
スマフォがあれば、ウィキペディアが使えるから、成績が上がるのでしょうか。だとすれば、娘もスマフォを買ってあげれば、成績があがるかもしれません。もちろん、因果関係が逆である可能性もあります。この場合、逆の因果関係とは、たとえば成績がいい子たちがご褒美にスマフォを買ってもらっている、というものです。しかし山田さんは、ウィキペディア説も、ご褒美説も、いまひとつ説得力に欠けると思っています。
これに対して「第3の要因」説とは、たとえば以下のようなものです。
「親が高収入の家庭では、子供の教育にお金をかけられるから成績も上がり、子供にIT機器を買い与える余裕もある。」
あるいは、
「夜遅く街の塾に通っているような子供は、成績も高い傾向があり、親との連絡用にスマフォを与えられる可能性も高い。」
これらの説では、「親の収入」とか「夜塾に通っているか」などの第3の要因が、成績とスマフォ保有の双方に影響を与えているだけで、スマフォを持つこと自体が成績に貢献しているわけではありません。これらの説のもとでは、スマフォを持っている子供たちの成績がいいからといって、娘の成績を上げるために真似して買い与えるのは意味がないという結論になります。
「家庭でカップラーメンやファーストフードなどをたくさん消費している小中学生ほど、学校の成績が悪い」という傾向を誰かが見つけたとしても同じです。それだけでは、ジャンクフードが脳の働きに悪影響を及ぼしているとは断言できません。家庭環境という第3の要因を反映しているだけかもしれないからです。
第3の要因の影響を取り除くことは、データさえあれば、「回帰分析(かいき・ぶんせき)」という統計の手法で達成できます。スマフォの例では、もし親の収入のデータがあるならば、親の収入が同じくらいの子供だけを1000人集めて、スマフォを持っている子と持っていない子の成績を比べればいいのです。
この「回帰分析」を学ぶことが、統計学を学ぶことの一つの目標なのですが、それはもう少し先にすることにして、今は統計学の基本を続けることにしましょう。
>> 確率統計の入り口(1)統計学の哲学