論文発表:KomoriBench

発表:KomoriBench

2026年7月1日
事実リコール · 全社単位 (%)20406057%34%ChatGPT30%claude.ai?近日追加?近日追加一字一句検証済みの事実群 · 有価証券報告書 10 年分 · 同一のAI採点者

蝙蝠は暗闇に信号を送り、返ってくる反響で世界を読む。我々は同じことをリサーチでやっている。そして今回、それがどれだけ正確かを測る物差しを作った。結論から言えば、日本企業に関する事実の想起で、Komori は 57%。ChatGPT の 34% と claude.ai の 30% をいずれも上回り、全セクションで勝った。

01問い

汎用AIに「この日本企業のサプライチェーン・リスクは?」と聞いてみてほしい。返ってくるのは、流暢で、もっともらしく、浅い答えだ。「為替に敏感」「主要顧客は自動車業界」。公開ウェブにたまたま載っている情報の言い換えであり、固有名詞も、日付も、数字もない。

Komori は別の道を取る。約 3,700 社の上場企業について、各社およそ 10 年分の有価証券報告書を読み込み、戦略的な実質、すなわち名指しされた取引先、顧客集中度、技術基盤、日付つきのリスク事象を抽出し、検索可能にしている。問いはひとつ:それは測定可能なほど良い答えを生むのか?

それを測るために作ったのが KomoriBench。日本株リサーチ専用のベンチマークだ。本稿はその初回結果の公開であり、ベンチマーク自体を公開アリーナ化していく告知でもある。

02作り方

採点基準は実在の事実のみ。対象企業の有価証券報告書(各社約 10 年分)の原文から、名指しされた仕入先、顧客集中度の数値、日付つきのリスク事象、中核技術といった一つひとつの事実を手作業で抜き出した。例えば ダイキン工業 なら、特定の調達リスク事象や中核技術基盤がどの年の報告書に書かれているか、までが採点対象になる。すべての事実は出典の提出書類に一字一句存在することを機械的に検証済み。合成データではなく、一次資料に接地したルーブリックである。

対象は複数の戦略情報セクション。うち投資家が実際に調べる 3 つ、サプライチェーン・外部エクスポージャー・技術に総合スコアの 80% を加重した。採点は同一のAI採点者が「この事実は回答に本当に含まれているか」を合否判定し、Komori も競合もまったく同じ条件で採点する。

ここで重要な設計判断がひとつ。対象には意図的に有名な大型株を選んだ。公開ウェブに材料が最も多い、つまり ChatGPT に最も有利な土俵である。それでもこの結果だ、という構図にするためだ。

03結果

全社単位の比較(ユーザーが実際に使う検索面と同じ条件)で、Komori は加重総合 57%。ChatGPT のウェブ調査は 34%、claude.ai は 30%。そして Komori は両者に対し全セクションで勝った。最も僅差のサプライチェーンでも +11 ポイント、技術では +29 ポイント差である。

事実リコール · 全社比較 · 同一採点者 (%)KomoriChatGPTclaude.ai02040608057%34%30%+23pt総合(加重)上位3セクション 80% 加重48%33%37%+11ptサプライチェーン全社単位66%40%31%+26pt外部エクスポージャー全社単位67%38%26%+29pt技術全社単位
図 1 · KomoriBench 初回結果
事実リコール(%)、全社単位、同一AI採点者。総合は上位3セクションに80%加重。Komori(金)が全グループで ChatGPT(青灰)と claude.ai(藤)の両方を上回る。差分は次点との比較。
事実リコール · 全社比較 (%)KomoriChatGPTclaude.ai総合(加重)+23pt57%34%30%サプライチェーン+11pt48%33%37%外部エクスポージャー+26pt66%40%31%技術+29pt67%38%26%
図 1 · KomoriBench 初回結果
事実リコール(%)、全社単位、同一AI採点者。総合は上位3セクションに80%加重。差分は次点との比較。

ChatGPT が負ける理由は、答えが下手だからではない。文章はむしろ流暢だ。負けるのは、ウェブで有名な一般論しか拾えないからだ。「為替に敏感」は言えても、名指しの仕入先、顧客集中度のパーセンテージ、2024年12月の工場火災、2020年のアストラゼネカとの提携は出てこない。それらは提出書類の中にしか存在せず、ChatGPT はそれを読んだことがない。

そして claude.ai の結果が、このベンチマークの存在理由をそのまま示している。三者の中で最も洗練された、最も「よく調べた」風のレポートを返すのは claude.ai だ。分析的で、文脈が豊かで、一見すると Komori より良く見えるかもしれない。だが検証済み事実の想起では最下位の 30%。固有名詞と日付が最も重要な外部エクスポージャー(31%)と技術(26%)で大きく落とす。見た目の説得力と、事実の網羅率は別物だ。目測ではなく測定が要る理由が、ここにある。

04差の源泉

差の源泉は提出書類の履歴にある。汎用AIは企業の「現在の公開プロフィール」を上手に要約できる。だが 10 年分の有価証券報告書を読んでいなければ、何が変わったかを語ることも、具体的な取引相手を名指しすることも、日付つきの事象を引くこともできない。Komori は読んだ。それだけの違いであり、決定的な違いだ。

もうひとつ強調すべきことがある。今回の対象はウェブ調査側に最も有利な有名企業だった。公開ウェブが薄くなる中小型株では、この差はさらに開く。そして日本市場の中小型株こそ、アナリストのカバレッジが乏しく、真剣なリサーチが最も困難な場所だ。我々はそこに特化している。それが Komori のすべてである。

05改善

このベンチマークの本来の用途は、実は社内にある。Komori リサーチ・エンジンの抽出パイプラインに対する客観的な物差しとして機能し、新しい手法・モデル・フレームワークを試すたびに「本当に良くなったか」を数字で答えてくれる。直感ではなくデータで開発判断を下せる。これがベンチマークを持つ最大の利点だ。

実例を示そう。提出書類ごとの厳密な抽出採点で、改善前のパイプラインは加重 17% だった。各セクションについて提出書類自体を意味検索し、関連箇所を重点的に再抽出する二段抽出を導入した結果、17% → 37%。中核 3 セクションのリコールは2 倍以上になり、サプライチェーンは3 倍超(11% → 39%)。

抽出リコール · 提出書類ごと厳密採点 (%) · 改善前 → 改善後総合(加重)17%37%×2.2サプライチェーン11%39%×3.5外部エクスポージャー16%38%×2.4技術21%45%×2.1
図 2 · 二段抽出による改善
提出書類ごとの厳密な抽出リコール(%)。灰 = 改善前、金 = 二段抽出後。最も顕著な例では、改善前に「該当する記載なし」と空欄だったセクションから、名指しの仕入先・海外工場の所在地・中核技術基盤が回収された。最初から書類の中にあったのだ。
抽出リコール (%) · 改善前 → 改善後総合(加重)×2.217%37%サプライチェーン×3.511%39%外部エクスポージャー×2.416%38%技術×2.121%45%
図 2 · 二段抽出による改善
提出書類ごとの厳密な抽出リコール(%)。灰 = 改善前、金 = 二段抽出後。

ベンチマークがなければ、この改善は「良くなった気がする」で終わっていた。あったから、+20 ポイントと言える。

06公開アリーナ

今日公開したのは初回結果にすぎない。我々はこのベンチマークを公開の競技場にしていく。新しいモデル、新しいフレームワーク、新しいリサーチ手法を継続的に走らせ、結果をこのページに追記していく。日本株リサーチにおいて「どのAIが実際に使えるのか」を、雰囲気ではなく検証済みの事実で測る場所だ。

測定対象も広げていく。事実の取りこぼし(リコール)だけでなく、過剰な主張への減点(プレシジョン)も計画している。続報をお楽しみに。

07試す

ベンチマークが測っているのは、結局のところあなたが調べたい企業について、どれだけ具体的に答えられるかだ。約 3,700 社の日本企業について、Komori は今日それに答えられる。

BENCHMARK UPDATES
ベンチマーク更新を受け取る

新しいモデル・フレームワークの追加時に結果をお送りします。いつでも解除できます。