未来予測データの有用性について
2021年9月3日

様々な情報が行き交う現代において、必要な情報をどのように入手し、活用すべきなのでしょうか。
この記事の著者であり、計算生物学に関する研究者でもあるWingify創業者兼会長のプラス・チョードリー氏は、複数の研究論文を執筆し、2017年にはEconomic Times Startup of the Yearを受賞しています。
今回彼は、情報に対する基本的な考え方や扱い方、存在意義について「未来は確率的なものである」という記事を執筆しました。
それでは、引き続き本文をご覧ください。

予測モデルは間違えを犯す可能性があるが、便利なものもある

1976年、イギリスの統計学者ジョージ・ボックスは「本質的にすべてのモデルは正しくない。但し、役に立つモデルはある。」と述べました。

一般的にデータの多くには様々な数値が含まれていますが、それは必ずしも毎回読者が求めている仮説に必要な要素とは限りません。
例えば、顧客の行動や、星が銀河の中心をどのように周回しているのか、コロナウイルスが人体にどのように影響を及ぼすのかなど、身近な世界で起こりうることを理解しようという努力はできます。しかし、これらの根底にある現実は、我々がどんなに努力したとしても完全に捉えることはできないのです。なぜならば、私たちが得られるものは捉えるためのプロセスによって生成されたデータでしかないからです。

例えば私たちは、Webサイトで顧客が1つのボタンをクリックしたか否かをデータとして捉えることができます。この時、データから顧客行動や顧客のニーズなど、どのようにすれば顧客の満足度が高まるのかを予測することができます。

しかしながら、データは単なる数字の羅列でしかないため、数値だけを見ても何ら意味はないのです。そこでどうするかというと、顧客がクリックしたという「行動」とその行動に至った「理由」を組み合わせることでデータに更なる価値が生まれるのです。
ここで述べた顧客行動とその理由は、あくまで「仮説」でありデータと組み合わせることで未来を予測することができます。これは、私たちにとって大切な能力であるとともに、データを有効に利用することにも繋がります。

では、このような仮定を組み立てたとして、それは現実と同じことになるのでしょうか。
いえ、そうとは限りません。なぜならば、ジョージ・ボックスは「すべてのモデルは間違っている。」と述べているからです。

一体どういうことなのか、明確に理解するために次のチャートをご覧下さい。

未来予測のグラフ

上記のグラフをご覧頂くと分かるように、グラフの左下から青い丸ポイントまでが時間の経過に沿って変化した実測値(収集したデータ)です。それ以降は、実測値を用いた2つの手法による予測値となります。赤い曲線は、指数回帰によるもので黒い曲線はロジスティック回帰による予測モデルを表しています。仮にこの2つの曲線、つまり予測モデルが最終候補とするのであれば、この段階でどちらの予測モデルを選択すべきなのかを決めなければなりません。もし、あなたがこれらの予測によりビジネスの場において決定を下す必要に迫られた場合、どちらを選びますか?

ちなみに、赤い曲線と黒い曲線は2つの異なる方程式によってデータが生成されています。実測値がある青い丸ポイントまでは、赤い曲線と黒い曲線はほとんど一致しています。そこまでのデータは一致していますが、これらは2つの予測モデルを選択するための判断材料にはなりません。

このことから、実際にはデータは仮説を選択する上では役に立たない代わりに、選択肢の中から何を排除すべきであるかの判断に役に立ちます。また、この時の理論が真実と同じとは決して証明できません。一方が間違っていることだけに焦点を当てると、それらを証明するということは科学の核心的な部分となるのです。従って、科学者はどの理論が間違っているのかを確実に知ってはいるものの、どの理論が「正しい」のかについて確実に知っているわけではありません。
身近な内容で例えるならば、ベンチャーキャピタリストが投資を行っている間、彼らはどの企業の投資が「失敗案件」になるのかを予測することはできます。しかし、どの企業が巨額の利益をもたらす可能性があるのかは、決して事前に予測することはできるわけではないのです。

このことから、ジョージ・ボックスは「幾つかのモデルは有用である」と述べています。ここで注意したいことは、彼は有用なモデルであったとしてもそれらが正しいものになりえるとは述べていません。つまり、彼は「役に立つ」かもしれないと述べたいのであって「正しい」か否かについては議論できるものではないと述べているのです。

結論

予測モデルの有用性には、正しい仮説となるものはありません。ここでは、正しさに焦点を当てるよりも、有用な仮説の構築を目指した方がより建設的だと言えるでしょう。また、データは数値の羅列でしかないので、あなた自身の洞察力をデータと組み合わせることでより価値のあるものとなります。このようにあなたの仮説が存在しているデータは、ある物事の事情や何かしらの知識を得られるものとなるでしょう。

大切なことは、情報収集をする人が個々の集積した情報をしっかり理解して活用する判断を怠らないことです。そうしなければ、科学的な方法で収集したデータであっても解釈次第で有益にも無益にもなりえるのです。

このことから私達は、情報が溢れる社会において目の前の情報を鵜呑みにするのではなく、その都度しっかり頭で考えて行動することが求められているのではないでしょうか。

ご質問やお問合せに関して

お客様のCROのどんなお悩みでも我々アッション(現・SHIFT)はいつでもお力添えさせていただきますので、
小さなお悩みだったとしても、お気軽にご相談ください。

 

一覧へ戻る