統計解析におけるAI の利用 | AI が返す回答の正確性
AI の日進月歩には目を見張るものがあります。無料でも、AI を十分活用できる環境が整ってきました。そこで、日ごろ利用している 7 種類の AI に、簡単な統計解析を質問してみたので、その結果を紹介します。
正しい回答を返した AI は・・・?
AI を利用するうえで、回答の取り扱いには十分に注意する必要があると感じました。正しく回答した AI は7つのうち2つだけだったのです。
AIに質問した内容
現在、私が無料で利用している AI は、ChatGPT、Claude、Gemini、Perplexity、Genspark、Felo、Copilot の7種類です。
これらの AI に、データの統計解析を依頼して、その回答を比較しました。
AI に渡した人工データは次の表です。薬剤 A と薬剤 B の2種類について、それぞれ3試験区を設けて処理を行い、各試験区とも2回測定して観測値を得ました。すべて無作為で行いました。

この表のファイル、またはテキストを AI に渡して、プロンプト-1 を入力しました。その回答を受けて、さらにプロンプト-2 を入力しました。
プロンプト-1 「このデータから薬剤 A と薬剤 B の観測値の平均値に差があるか統計的に検定してください。」
プロンプト-2 「薬剤 A の試験区は A1, A2, A3 の3区、薬剤 B の試験区は B1,B2,B3 の3区です。それぞれの試験区では、測定を2回ずつ繰り返しました。薬剤 A と薬剤 B の平均値に差があるか統計的に検定してください。」
それぞれのプロンプトに対してどのような回答が得られたか、プロンプト-1 の回答からプロンプト-2 の回答にどう変化したか、順に紹介します。
AI の回答
AI の回答を示す前に、皆さんはどのような回答を期待しますか。
プロンプト-2 の通り、各試験区の2つの観測値は、測定の繰返しであり、実験の繰返しではありません。したがって、測定の繰返しを平均して以下の表を作成し、この観測値を使って t 検定の計算を行います。その結果、t=2.40、p=0.074、有意水準 0.05 で 2 薬剤の差は有意ではありません。等分散を仮定しない Welch の検定でも p=0.074 です。

ところが、測定の繰返しを実験の繰返しと見なした場合、繰り返し数6となり、t 検定の結果、t=3.57、p=0.005 で差は有意です。Welch の検定でも p=0.005 で差は有意です。この結果は誤りです。
ChatGPT(Plus)の回答の抜粋
プロンプト-1 に対する回答:「薬剤 A と薬剤 B の観測値に対する t 検定の結果、t 値は -3.57、p 値は 0.0051 です。通常、p 値が 0.05 未満であれば、統計的に有意な差があると判断されます。」・・・この回答は誤りです。
プロンプト-2 に対する回答:「薬剤 A と薬剤 B それぞれに対して、試験区ごとに観測値が2回ずつ繰り返されているとのことですので、対応のある t 検定(ペアt検定)を使用するのが適切です。」・・・この回答の後、停止状態になりました。このデータに対応のある t 検定を適用することは適切ではありません。
Claude(Sonnet 4.5)の回答の抜粋
プロンプト-1 に対する回答:「結論:p 値(0.0055) < 0.05 であるため、帰無仮説を棄却します。薬剤 A と薬剤 B の観測値の平均値には統計的に有意な差があると結論づけられます。」・・・この回答は誤りです。
プロンプト-2 に対する回答「データ構造を理解しました。各薬剤について 3 つの試験区があり、各試験区で 2 回の反復測定が行われているという入れ子構造ですね。」「試験区をランダム効果として扱う入れ子分散分析(nested ANOVA)または混合効果モデルで分析します。」「p 値(0.0048) < 0.05 であるため、帰無仮説を棄却します。薬剤 A と薬剤 B の平均値には統計的に有意な差があると結論づけられます」・・・この計算結果は誤りです。このモデルの正しい分散分析表「変量効果を考慮した検定」を示します(JMP による計算結果)。薬剤の効果の p 値は 0.0743 であり、有意ではありません。なお、Claude と 3 回のやり取りを経て、最終的に Claude もこの分散分析表を回答しました。

Gemini(2.5 Pro)の回答の抜粋
プロンプト-1 に対する回答:「ご提供いただいたデータに基づき、薬剤 A と薬剤 B の観測値の平均値に統計的に有意な差があるかどうかの検定を試みましたが、繰り返し発生する技術的な問題により、統計計算を完了することができませんでした。」・・・この状態で停止しました。
プロンプト-2 に対する回答:「今回の検定で得られた p 値は 0.0053 であり、これは有意水準 0.05 よりも十分に小さい値です。したがって、「薬剤 A と薬剤 B の観測値の平均値に差はない」という帰無仮説は棄却され、薬剤 A と薬剤 B の観測値の平均値には統計的に有意な差があると結論付けられます。」・・・この回答は誤りです。
Perplexity の回答の抜粋
プロンプト-1 に対する回答:「薬剤 A と薬剤 B の観測値の平均値には、統計的に有意な差があります(p=0.0051)。」・・・この回答は誤りです。
プロンプト-2 に対する回答:「薬剤 A と薬剤 B の平均値には統計的に有意な差があります。薬剤の主効果のp値: 0.00012(有意)、試験区(薬剤ごと)の効果: p値=0.00081(有意)」・・・どのような計算を行ったのか不明です。さらに質問すべきでしたが、今回はここで終了させました。
Genspark の回答の抜粋
プロンプト-1 に対する回答:「p値(0.0051)< α(0.05)、薬剤 A と薬剤 B の観測値の平均値には統計的に有意な差があります」・・・この回答は誤りです。
プロンプト-2 に対する回答:「データの構造を正しく理解いたしました。薬剤 A は 3 つの試験区(A1, A2, A3)、薬剤 B も 3 つの試験区(B1, B2, B3)があり、各試験区で 2 回ずつ測定が行われているということですね。この場合、試験区を考慮した適切な統計解析を行う必要があります。」「試験区平均値を用いた二標本 t 検定(推奨) 試験区内の反復測定を平均化し、各試験区の平均値を独立した観測値として扱う方法 t 統計量: -2.401 p 値: 0.0743」「薬剤 A と薬剤 B の観測値の平均値には統計的に有意な差があるとは言えません」「試験区平均値を用いた検定が統計学的に最も適切」・・・ようやく、プロンプト-2 から正しい回答が得られました。
Felo の回答の抜粋
プロンプト-1 に対する回答:「結論 薬剤 A と薬剤 B の観測値の平均値には、統計的に有意な差があります(p < 0.01)。」・・・この回答は誤りです。
プロンプト-2 に対する回答:「今回のデータは「各試験区ごとに2回ずつ測定した」構造になっていますので、各試験区ごとの平均値を使って薬剤 A と薬剤 B の比較を行うのが適切です。」「薬剤 A と薬剤 B の平均値の差は、統計的に有意とは言えません(p ≈ 0.13)」・・・ プロンプト-2 により、統計的な考え方が正しく修正されました。ただし、途中の平均値の計算でミスがあり、正しい p 値 0.0743 が得られませんでした。薬剤 A の正しい平均値は 14.02 ですが、(平均値: (11.95 + 14.15 + 15.95) / 3 = 14.68)と表示されました。これを Felo に指摘すると、再計算して正しい結果を表示しました。このような計算ミスが発生することにビックリです。
Copilot の回答の抜粋
プロンプト-1 に対する回答:「p 値=0.0005 は通常の有意水準(0.05)よりも小さいため、薬剤 A と薬剤 B の平均値には統計的に有意な差があると判断できます。」・・・計算結果が全く違うので、計算が正しいか再度確認しました。「ご指摘ありがとうございます。先ほどの「t = -5.12, p = 0.0005」という仮の出力は、実際の計算結果ではなく、説明のための例示として記載したものでした。正確な検定結果を得るには、実際に R などの統計ソフトで計算する必要があります。」という不可解な回答が返ってきました。その後のやり取りで、実際の計算結果を回答してきましたが、誤った回答でした。
プロンプト-2 に対する回答:「試験区ごとに繰り返し測定がある構造を踏まえると、対応のない 2 要因の分散分析(2-way ANOVA)、あるいは薬剤を固定効果、試験区を薬剤にネストされた効果として扱う線形モデルが適切です。」「薬剤の主効果は有意(p=0.000104) → 薬剤 A と薬剤 B の平均値には統計的に有意な差がある。」・・・この回答は誤りです。このモデルの分散分析表は、Claude の所で説明済みです。薬剤の主効果の p 値は 0.0743 です。
各AI の回答の比較と対応
以上のように、プロンプト-1 のみで、正確な回答を返した AI はありませんでした。表の「試験区」の列に「A1、A1」と繰り返してあるので、試験区内で繰返し測定があることは伝わると思ったのですが、AI には理解されませんでした。AI に統計計算を依頼する場合には、統計的な専門用語で、実験計画を正しく丁寧に伝える必要があります。
プロンプト-2 により、測定の繰返しを理解して計算方法を正しく修正した AI は、Genspark と Felo の2つのみでした。ただし、Felo は途中の計算過程でミスがあり、正しい p 値が得られないというアクシデントがありました。
AI の支援による統計解析
AI の進歩に伴い、データ解析は AI との協働作業へと進化していくのでしょう。この新たな環境でユーザーに求められる資質は、ユーザーがAI を主体的に活用する能力です。
AI は強力な支援ツールですが、解析手法の選択や結果の解釈といった最終的な判断はユーザーが担うべきです。AI に「丸投げ」するのではなく、提示された選択肢や結果を批判的に吟味し、意思決定する責任がユーザーに求められます。
そのためには、自分が行った実験や調査の内容をAIに正確に伝え、AI の提案を的確に評価できる専門知識が不可欠です。AI はユーザーの知識不足を補い、能力を拡張し、効率化を促進してくれますが、その支援を最大限に活かすには、AI と議論するための最低限の専門性が基盤となります。
なお、今回は AI の回答の不備を指摘しましたが、日々の作業において7種類の AI にはたいへんお世話になっています。これらの AI の回答を比較しながら試行し考えることは、日々の作業において不可欠になってきました。特に、様々な目的で R スクリプトを作成する場合、Gemini(2.5 Pro)が適切でバグの少ないスクリプトを返してくれるので重宝しています。
(2025年10月6日)
