はじめに
この話は、
岡田唯男. エビデンスは「あればいい」じゃないんです!医療界常識の非常識46 監修:竹村 洋典 ドクターズマガジン. No180. Oct 2014. P13.
(以下の民間医局コネクト でも閲覧可能
https://connect.doctor-agent.com/article/common_sense201410 )
その前には
岡田唯男. 院内の設備環境/IT による情報収集と管理”のコツ 「莫大な情報の海でいかに有用な情報にたどり着くか」. In: 日本プライマリ・ケア学会 編. 熟練医から“日常診療のさまざまなコツ”を伝授 治療 3 月臨時増刊号 Vol.91 南山堂 2009
で、紹介しており、もっというと、私が帰国して日本で家庭医の育成を始めた頃から、うちのプログラムでは4年間の専門研修の最初の1ヶ月「コアレク」のなかで、必ず話す内容である。上記の1ページまとめで、理解できた方は、この先は読む必要はない(この後は、上記のコラムを詳しく補足しているだけなので)
POEMとDOEとは
Shaughnessyらが1994年に発表したInformation Masteryの論文では、Disease‑Oriented Evidence(DOE)とPatient‑Oriented Evidence that Matters(POEM)という区別がはっきり示されている(これがおそらく初出)。定義上はDOEとPOEでも良いのだが、「患者にとって意味のある(that Matters)」という言葉をあえてつけることで、POEM (詩)という単語にもなり、語呂が良かったのだろうと思われる。
にもかかわらず、30年たった今でも、この用語を知り、日常診療で意識して使い分けている医療者は決して多くない。
「ターゲット(真の)アウトカム(POEM)」と「サロゲート(代理)アウトカム(DOE)」という表現と同じことであるが、その言葉に聞き覚えはあっても、それをきちんと区別し、診断や治療の意思決定に反映させているかと言われると、自信がない人も多いだろう。
POEMとDOEを分けると何が見えてくるか
DOEは「疾患プロセス」や「バイオマーカー」の変化(測定値によって示されるものの大半)、POEMは「患者が本当に気にする結末(死亡、長期予後、症状、機能、QOLなど)」の変化と考えるとわかりやすい。
この2つを意識的に分けると、ある医療行為について次の3パターンが区別できる。
- DOE(↑) → POEM(↑):
数値も良くなり、患者の重要アウトカムも改善する理想的なケース。 - DOE(↑) → POEM(?? or →):
数値は良くなるが、POEMはまだ調べられていない、あるいは中立(影響なし)のケース。 - DOE(↑) → POEM(↓):
数値は良くなるのに、患者にとっての結末はむしろ悪化する、最悪のケース。
直感的には「DOEが良くなればPOEMも良くなるだろう」と思いたくなるが、それは、前述のEXILEのケースのような「外挿」に相当するし、現実には上の2番目・3番目のパターンがかなりの頻度で存在する。
EXILEがこのペースで増え続けると、85年後くらいに日本の男性が全員EXILEのメンバーになるようです

DOEとPOEMが一致するとは限らないことは、すでにデータで示されている
心血管領域のサロゲート試験をまとめたBikdeliらのレビューは、この問題を定量的に示している。
- 1990〜2011年のNEJM、Lancet、JAMAなどから、循環器領域のサロゲート(DOE)を主要評価項目とした試験220件を抽出。
- そのうち71.4%(157件)は、サロゲートを主要評価項目として「成功」していた(DOEレベルではポジティブ)。
- しかし、その後臨床アウトカム試験(POEMレベル)まで進んだのは26.8%(59件)に過ぎない。(fig 2, table 4)
- さらにその59件の内訳を見ると、
- DOEの結果がPOEMでも裏づけられた試験:24件
- DOEはポジティブだったのに、POEMではネガティブ(効果なし):20件 (table3がよくまとまっている)
- DOEはネガティブなのに、POEMではベネフィットが出た:3件
という結果だった。
つまり、「DOEでうまくいっているからといって、POEMでもうまくいくとは限らない」どころか、「かなりの割合で裏切られる」ことが、主要誌のデータからはっきり示されている。
製薬企業の事情と、臨床家の立場
新薬開発の現実を考えれば、「いきなり10年スパンのPOEM(死亡や主要イベント)を主要アウトカムにしてRCTを行い、その結果が出るまで市場に出せない」のはビジネスとして成り立たない。
だからこそ、血圧やLDL、HbA1c、腫瘍マーカー、画像、腫瘍縮小などのDOEでまず試験を組み、ある程度の手応えを見てからPOEM試験に進む、あるいはサロゲートを根拠に加速承認を得る、という流れにならざるを得ない。
しかし、患者の側に立つ臨床家が「新薬の開発コスト回収」に協力する義理はない。
DOEしかない薬を「とりあえず新しいから」「数値が良くなるから」と使うことは、患者の利益よりもメーカーの事情を優先する態度になりかねない。
規制当局レベルでも、非検証サロゲート(DOE)依存は続いている
EMA(European Medicines Agency)の迅速承認(条件付き承認CMAと加速審査AA)を対象にした横断研究は、この問題をさらに具体的に示している。
- 2011〜2018年にCMAとAAで承認された新薬51製品のうち、臨床アウトカム(POEM)で承認されたのはわずか5製品、残り46製品はサロゲート(DOE)に基づいていた。
- 文献検索の結果、「サロゲート変化が臨床アウトカム変化を一貫して予測する」と示した高レベルの検証研究は1つも見つからなかった。
- 多くのサロゲートは、生物学的妥当性はあるが予測性が十分検証されていない“non‑validated surrogate”であり、EPARや添付文書でもそのことが明確に記載されていない。
- 条件付き承認であっても、「承認後に臨床アウトカムでベネフィットを確認する試験」をきちんと義務づけている例は少なく、「永続的にベネフィットが分からないままになる薬」のリスクが指摘されている。
著者らは、規制当局に対して次のように提言している。
- 承認文書に「この薬はサロゲートに基づいて承認された」「このサロゲートの妥当性はこの程度」と明示すること。
- 非検証サロゲートに依存して承認した場合には、必ず臨床アウトカムでのベネフィット確認試験をpost‑authorisation measureとして課すこと。
「サロゲートはゴールでも本質でもない」
Allucent社のブログ記事「Surrogate Endpoints – Neither the End nor the Point」(作成日不明だがおそらく2018年ごろ)は、FDAの加速承認制度の現状を踏まえつつ、サロゲートの利点と危険性をわかりやすく整理している。
- FDAの2018年レビューによれば、過去25年間の悪性血液・腫瘍薬の加速承認93件のうち、37件(40%)は市販後も臨床的ベネフィットが確認されておらず、5件(5%)はベネフィットを証明できず市場から撤退した。
- サロゲートを使うことで重篤な疾患へのアクセスが早まるメリットは否定しないが、「サロゲートが真のアウトカムをどの程度予測するか」を疫学・病態・薬理の総合的な証拠で慎重に評価しなければ、患者を危険にさらすと警告している。
タイトルのとおり、サロゲートは「エンド(最終目標)」でもなければ、「ポイント(本質)」でもない。臨床家が見たいのは、あくまでPOEMである。
DOEは改善、しかしPOEMは逆方向——現実に起きた「最悪のパターン」
POEMがまだ測定されていない(あるいは中立)という問題だけでも十分重いが、歴史的には「DOEは良くなるのに、POEMは悪化する」という事例もはっきり存在する。
代表的なものを3例挙げる。
※DOE側は「絶対に最初の1本」というより、「その介入のDOEが広く“良いものだ”と信じられるようになった代表的な臨床試験」の年で整理している
CASTでは、心筋梗塞後のPVCを強力に抑制できる抗不整脈薬が、死亡率を有意に増加させた。
トルセトラピブはHDLを大きく上げ、LDLを下げながら、心血管イベントと死亡を増加させ、開発中止に追い込まれた。
ナイアシン+スタチン併用は、「HDLをさらに上げればもっと良いはず」という期待と裏腹に、AIM‑HIGHとHPS2‑THRIVEでイベント減少を示せず、有害事象増加が問題となった。
DOEが「良い」と広く信じられてからPOEMで覆されるまで、1〜3年で済むこともあれば、10年以上かかることもある。
10年後に「あなたが飲んできた薬は、数値は良くしたが、死亡率をむしろ増やしていました」と告げなければならない可能性がある、ということだ。同じ病態の治療薬の複数の選択肢でPOEMの改善が既に証明された薬Aと、DOEの証明しかなく、将来的に薬Bとなるか薬Cとなるか(初出の「常識の非常識」コラム)の結論を、後になるまで待つしかない薬とで、自分が患者の立場ならどちらを選ぶのかを考えれば、処方すべき薬は明らかであろう。
この問題は「昔から分かっていた」ことでもある
理論的には1980年代末、Prenticeがサロゲートエンドポイントの定義と条件を厳密に示した時点で、「サロゲートと真のエンドポイントを混同してはいけない」ことは指摘されていた。
- 1989年:Prentice RL. Surrogate endpoints in clinical trials: definition and operational criteria. Stat Med. 1989 Apr;8(4):431-40.
- 1989〜1991年:CASTなどで、「DOE(PVC抑制)が良くなってもPOEM(死亡)が悪化し得る」ことが臨床的に可視化される。
- 1990年代:ASCOTなど大規模アウトカム試験が行われ、「長期のPOEMを直接見るRCT」が現実化し、サロゲート批判とDOE/POEMの区別が強まる。
- 2000年代:ShaughnessyらのInformation Masteryにより、POEM/DOEという枠組みがプライマリケア教育へ広く普及し、「まずPOEM、次にDOE」というスタンスが定着していく。
それでもなお、現在もDOEだけを主要アウトカムにしたRCTが多数行われている。
だからこそ、SPIRIT‑Surrogateは、ランダム化比較試験のプロトコル段階で「なぜサロゲートを用いるのか」「そのサロゲートとターゲットアウトカムの関係はどうなっているのか」を明示するよう求めている。
流石にDOE(↑) → POEM(↓)の逆向きパターンは段々と起こりにくくなっているが、新薬開発の性質上 DOE(↑) → POEM(?? or →) の医療行為はまだ多数存在しており、それらに対して、どのようなスタンスで臨むのかはこれからも求められていく。
「エビデンスはあるのか?」では遅れている
臨床疑問を考えるときに「XX(という医療行為)にはエビデンスがあるのか?」と問うだけでは、すでに30年遅れている。
問うべきは、「XXにはどのようなエビデンスがあるのか? POEMは存在するのか?」である。
少なくともプライマリ・ケアの立場からは、特定の病態に対する治療薬が複数あるとき、どれか一つでもPOEMがきちんと示されている薬があるなら、その上であえて、POEMのない薬を選ぶ理由はほとんど思いつかない。
必然的に、新薬は「POEMが示されている」「既存薬よりも明確な上乗せ効果がある」のでなければ、第一選択になりにくい。
まだPOEMがなく、DOEしか存在しない医療行為を行う必然性が生じる状況があるとすれば、自分自身の基準としては、次の2つぐらいしかないだろうと考えている。
- ある病態に対する標準治療薬の「どれにも」POEMが存在しない場合のみ、DOEを比較しつつ最も合理的と思われる選択肢を選ぶ。
- 既にPOEMの担保されている治療薬を最大限使ったうえで、さらに数値目標などの達成が必要な場合に限り、「上乗せ」としてDOEベースの治療を追加する(POEMはベース治療で担保されているので)。
プロフェッショナリズムとしての「POEM優先」
患者が「この薬を飲むとどんな良いことがありますか?」と尋ねたとき、多くの医師は反射的に「コレステロールが下がります」「HbA1cが下がります」とDOEで答えてしまいがちだ。
しかし、本当に患者にとって重要なのは、「心筋梗塞が減るのか」「長生きできるのか」「息切れが減るのか」といったPOEMである。
しかし患者側から「その薬で心筋梗塞は減るのですか? 長生きできますか?」と聞き返せるほどの質問力のある人、POEMをDOEを区別して考えられる人はほとんどいない。
だからこそ、医師の側が最初から「POEMが担保されている薬があるならそれを優先する」という姿勢をとることが、プロフェッショナリズムの最低限の責務だと思う。
学生・研修医に求めたい「問いの立て方」
学生や研修医が、指導医や同僚、あるいは製薬会社から「この薬にはエビデンスがある」と言われたとき、本来ならこう聞き返したい。
- 「どのようなエビデンスがあるのですか? どんなアウトカムを見ていますか?」
関係性が許せば、「よければ根拠となる論文を教えてください」と言えるのが理想だ。
アウトカムがPOEMかDOEかは、抄録の結果に書かれているエンドポイントを見るだけで判定できるし、最悪AIに聞いてもいい。
検討すべき医療行為が山のようにある中で、
- 「この介入は、患者にとって重要な転帰(POEM)を扱っているか?」
というフィルターを一度通し、答えが「No」であれば、その論文は読まない、その医療は当面自分の選択肢から外す――という戦略をとるだけで、検討対象は一気に絞り込める。
時間効率という意味でも、Information Masteryの文脈でも、これは極めて有用だと思う。
この問いが重要となる有用性の公式については、また別の機会に。
ここまでーーーー

コメント