未来はキミドリイロ

サイコメトリックアイドルを目指す心理学徒の勉強部屋です。勉強・趣味などについて書いています。

加工肉は発がんリスクを上げるのか?

WHOが「加工肉には発がん性がある」といった旨の声明を出したことが世間で話題となっているようですね。www.bbc.com

日本人への影響は小さいだの,続報がどんどん出てきているようですが,個人的にこの声明自体どこまで本当なのかしらと疑問に思ったので元ネタを探してみようと思いました。
おそらくそうした声明を出すに至った研究結果があったのだろうと考えてちらっと探してみたところ,いくつかヒットしました。

その中でも,今回はCross, Leitzmann, Gail, Hollenbeck, Schatzkin, & Sinha (2007) という論文*1をつまみぐいしてみようかと思います。journals.plos.org

タイトルを眺めるに,赤身肉・加工肉の摂取と発がんリスクの関係に関する前向き調査といったところでしょうか。
簡単にですが概要を訳してみました。

論文の概要

Abstract

Background

赤身肉と加工肉はいくつかの解剖学的観点から発がんと関連付けられてきたが,しかしながら悪性の範囲と肉の摂取との関係についての前向き調査はなされてこなかった。
本論文では,赤身肉ないしは加工肉の摂取ががんのリスクを高めるかどうか,様々な観点から調査した。

Methods and Findings

  • 1995-1996をベースラインとした,50~71歳の500,000人に対するコホート調査
  • 食肉の摂取はベースラインで質問紙調査を行い推定
  • Cox比例ハザード回帰で,赤身肉と加工肉を摂取している人の5分位におけるハザード比と95%信頼区間を推定
  • 8.2年のフォローアップで,53,396件のがんが確認された
  • 赤身肉摂取の最も高い20%と最も低い20%との間で,統計的に有意なリスク増加(20%~60%のレンジ)が食道・結直腸・肝臓・肺について見られた
  • 加えて,加工肉を摂取する人の上位20%は,結直腸がんのリスクが20%,肺がんのリスクが16%高まることが示された

Conclusions

赤身肉と加工肉の両方の摂取が,結直腸と肺のがんとの間に正の関連が見られた。
加えて,赤身肉の摂取は食道と肝臓のがんのリスク増加に関連が見られた。

今回のお話し

事前のお勉強

まず,そもそも私の不勉強さの問題ではあるのですが,Cox比例ハザードモデルについてはあまり知りませんでした。
医療系で使うらしい手法だなーとか,そのくらいの印象です。
なので,これについて簡単に,手元にあった森田(2014)の『実証分析入門 データから「因果関係」を読み解く作法』の第15章で勉強してみようと思います。

サバイバル分析

Cox比例ハザードモデルというのは,サバイバル分析の文脈で用いられるモデルだそうです。
サバイバル分析(Survival Analysis)*2について,これはある個体が死亡してしまった場合そこから先は観測されなくなってサンプルから落ちてしまう,という特徴を持ったデータを扱うときの手法の枠組みです。
サバイバル分析に関する詳細な説明はここでは割愛しますが,重要なのはこの枠組みではハザード率(Hazard Ratio; HR)というものを分析対象とすることだと言えます。
ハザード率は,森田(2014)では次のように定式化されています。

 h(t)=\dfrac{t期(時点)で死亡する確率}{t期(時点)まで生存している確率}

たとえば,a歳のある病気に罹患した患者を集めて30年間の継続調査を行ったとしましょう。
この病気が5年以内死亡率が非常に高いものだったとしたとき,分子や分母にあたるある時点での死亡者数や生存者数(確率)だけで考えると,25年目まで生きている人自体がそもそも非常に少ないためその時点での死亡率などを考えることに実質的な意味がなくなってしまいます。
そこで,ハザード比というものに変換する,要するに割合に直すことで刑事変化の問題を回避して本当の死亡率に焦点化するのがサバイバル分析で扱う対称の特徴と言えるかもしれません。

Cox比例ハザードモデル(Cox Proportion Hazard model)って?

さて,本題のCox比例ハザードモデルですが,このモデルは次のように定式化されます。

h(t)=h_o(t) \times exp(\beta_1x_1+\beta_2x_2+ \cdots +\beta_kx_k)

ここでh_0(t)はベースラインハザードという,全個体で共通のものです。
また,右辺の指数の中には時間を表す添え字tが存在していないことが見てわかると思います。
つまり,ベースラインハザードという共通のものと,時点で不変である様々な変数=要因を含んだ部分の積としてハザード率が表現されているということになります。
比例ハザードという名前の意味ですが,今回のお勉強本の記述がわかりやすかったので(一部変更はありますが)そのまま引用します。

各個体のハザード率が共通要員であるベースラインの何倍か(倍率は説明変数で決まる),というベースラインハザードに比例する形で決まるので,比例ハザードと呼ばれる

このモデルは時間部分,すなわちベースラインハザードは推定せず,どの要因の影響が大きいかという観点に絞った分析を行うことが特徴的であると言えます。
ベースライン部分の情報として,存続期間を順序情報のみ用いたうえでパラメトリックな解析を行うことから,セミパラメトリックな手法であると考えることもできるようですね。
ハザード率の経時変化を考えずに要因の影響という関心のある部分のみをモデリングするという便利な手法ではありますが,欠点として次の3つがあげられていました。

  1. 一部使わない情報がありもったいない
  2. 比例ハザードという仮定自体が強いものである
  3. 複数のリスク要因を独立とする仮定も強いものである


まとめると,ハザード率が全員共通のベースラインから,説明変数によって何倍になるかをセミパラメトリックな形でモデリングしたサバイバル分析の一手法ということですかね。

論文の図表を簡単に眺めてみる

Cox比例ハザードモデルをよく知らなかったのでいい勉強の機会だと思って記事を書き始めた,という事情がありここまででほとんど目的は達成してしまったのですが,せっかくなので少し今回取り上げた論文の結果を眺めてみようと思います。

たとえば,加工肉に関する分析を行ったTable 3ですが,基準となるQ1,すなわち加工肉を食べる頻度でソートした時の下位20%の人に対して,上位20%の人であるQ5の結直腸がんに関するハザード比は1.20でした。
表の脚注によると,説明変数としては年齢,性別,教育歴,結婚歴,がん経験,人種,BMI,喫煙,運動習慣,総摂取エネルギー量,飲酒,果物・野菜消費量を投入しているとのことです。

この論文ではがん発症をイベントとしているようですから,それまでにがんにかかっていなかった人がその時点でがんになる確率がハザード比としたとき,Q1の人に対してQ5の人は1.2倍(20%)多く発症リスクがあるということになるのでしょう。
ただ,信頼区間を見てみると1.07-1.30となっていますから,ほぼ変わらないかもしれないし,大きくて30%ほどなのかもしれません。
要旨で触れられていた肺がんについても,Q1に対してQ5のハザード比が1.16とのことですから16%とのことでしたが,信頼区間を見てみると1.06-1.26ということで個人的にはなんとも言い難いように思います。

検定結果は統計的に有意であったかもしれませんが,有意であることを以て真実であると主張できるわけではないですし,メタ分析などを通じて効果の大きさのより厳密な評価は必要かもしれませんね。
まだまだCox比例ハザードモデルへの理解が浅く,使い方も含めわかっていない部分が多いことから手続き自体に関する批判的検討ができないのが悔やまれますが,私個人の印象としてはそこまで気にしなくても大丈夫ではないかと感じました。
フォロー期間や説明変数を見ていて,赤身肉や加工肉の摂取が因果関係として発がんリスクを高めるという主張は,この結果からはまだ強すぎるようにも思われます。
もちろん論文では強い表現はつかっていないようですから,報道の仕方の問題もあるのかしら。

メタ分析をしている論文もあるようですから,後日気が向いたらabstractだけでも眺めてみようかと思います。journals.plos.org

*1:PLoS Med, 4

*2:イベントヒストリー分析(Event History Analysis),存続モデル(Duration model)とも