![]()
目次8)変数選択上の注意点
9)ロジスティック回帰分析が可能な統計ソフト
10)ロジスティック回帰分析に関する参考書
1)ロジスティック回帰分析概説近年の外国の論文にロジスティック回帰分析が非常に増えており、これが理解できないと論文を読めないことが多い。このことは、単変量解析では十分な解析ができないことが多いことを示唆しており、今後日本の論文でも、ロジスティック回帰分析が確実に増加していくものと思われる。しかし、ロジスティック回帰分析を理解しようと思っても、やさしい教科書は非常に少ない。ロジスティック回帰分析は、疫学調査などの大規模なスタディには必須であるが、個人でできるようなretrospective studyにも非常に有用と思われる。そこで、臨床で忙しい医師でも難しい参考書を読まなくても簡単に理解できる解説を行おうと考えた。医学の分野でよく使われる統計ソフトには、SASとSPSSがある。SASは非常にいろいろな解析が可能であり、多変量解析を行うには最も適したソフトではないかと思われる。実際には、私自身は使用したことはないが、リース契約であり個人では利用するにはちょっと無理があるかもしれない。その点、SPSSは比較的安価に入手可能であり、使い方もそれほど難しくはない。そこで、ここではSPSSでのロジスティック回帰分析の使用方法を基に解説をしていきたい。なお、Stat View 5.0もロジスティック回帰が可能になった.
論文を読む上で、ロジスティック回帰分析を理解しておくことは重要である。しかし、この統計法を用いる場合には十分な注意が必要と思われる。ブロック化、カテゴリー化などの適正な手を加えないと、正しい結果は出てこない。パソコンソフトにデータを入れて、クリックすれば結果は出るが、それが正しい分析法であるかどうかはなかなか判らないものである。
2)ロジスティック回帰分析はどんな時に使用するか(一例)
例 未熟網膜症の危険因子を検討する場合、いろいろな統計学的方法が考えられる。網膜症ありなしに対して、呼吸器使用期間、酸素使用期間、出生体重などを t 検定する方法や、ビタミンE内服ありなしをχ2検定する方法などが簡単な検定法である。しかし、未熟網膜症が発症する群は当然出生体重が小さい群に多いわけであるが、同時に酸素使用期間や呼吸器使用期間も長いものが多くなってしまう。酸素使用期間で有意差が得られたとしても、それは出生体重が小さいことが影響した可能性が大であると考えられる。また、ビタミンEを内服した群が偶然出生体重が大きくなってしまうこともあり、正しい検定でなくなってしまうことがある。このような交絡因子が存在する場合の検定に役立つのがロジスティック回帰分析である。この場合、未熟網膜症は従属変数(または目的変数)で酸素使用期間、呼吸器使用期間、出生体重、ビタミンE内服の有無などは独立変数(または説明変数)と呼ぶ。
未熟網膜症発症の有無・・・従属変数 or目的変数 or 被説明変数出生体重、酸素使用期間、呼吸器使用期間、ビタミンE内服・・・説明変数 or 独立変数
ロジスティック回帰では従属変数が、"あり""なし"のように2値を採る場合に利用できる。独立変数は、連続値でも、名義変数でもよい。ロジスティック回帰では、各独立変数に対してオッズ比が計算される。このオッズ比は、その他の独立変数の条件が一定であると仮定した場合の値であり交絡因子の調整(adjusting)がされているという点が重要である。
ロジスティック回帰分析が使用されるのは
1)危険因子の探索
2)交絡因子の調整 交絡因子とは、たとえば未熟網膜症の発症した群と発症しなかった群で酸素使用期間を比較しようとした場合に、通常発症群では出生体重が小さくなりそちらの因子の影響の方が大きくなってしまうことが考えられる。このような、結果に影響を与える背景因子を交絡因子という。両群にはいろいろな背景因子があり、有意差の出るものがいくつかあったとしても、それが結果に影響を与えないような因子は交絡因子とはいわず、単なる背景因子である。ロジスティック回帰において調整する場合に、交絡因子を調整することは意味があるが、意味のない背景因子まで調整しない方がよい。
3)新しい治療法や予後因子の評価
ロジスティック回帰分析は、単変量解析に比べれば有用な点が多いが、独立変数をあまり多くとるとおかしな結果が出ることがある。これは、変数選択法に問題があったり変数の扱い方に問題があったりするためと思われる。
ロジスティック回帰分析の条件
目的変数が2値であること。多変量解析の生存分析ではよくCox回帰分析とロジスティック回帰分析が使用されるが、ロジスティック回帰分析では打ち切り例(censored case)は扱えない。ロジスティック回帰分析は、5年生存率など一定の観察期間での予後調査などに向いている。
なお、「数学いらずの医科統計学」では独立変数に対して、最低5から10の事象が必要という。あまりに少ない事象(例えば死亡とか合併症とか)では、誤った結果を導くことがあるとされる。
また、注意点として独立変数を増やすと、欠損例が増加し分析に使用される症例数がかなり減少してしまうことがあるので、欠損例数を確認することが重要である。あるイベントの発生率をpとすると、オッズは p/(1−p)である。 その対数をとった log (p/ (1-p)) は対数オッズと呼ばれる。
ロジスティックモデルはlog(p/(1-p)) = B0+B1X1+B2X2+....+BpXp
の式で表される。
ここで、B0は定数。BPはXPの回帰係数。未熟網膜症の例で、X1を出生体重、X2を酸素使用期間、X3を呼吸管理期間、X4をビタミンEの使用(例えば使用が0,非使用が1)とすると、ロジスティック回帰分析結果よりB0〜B4が求められる。ある児のX1からX4までを入力してやるとその児の網膜症の発生確率が計算されるのである。しかし、実際には患者の発生確率を求めるためにロジスチィックモデルを使用することは少なく、オッズ比と95%信頼限界からX1〜XPが有意な因子であるかどうかの検討が行われることが多い。
上の式で出生体重bwのみを入れた式を考えてみると
log(p/(1-p)) = B0+B1x bw
となる。これは、体重増加が網膜症発生の対数オッズと比例関係にあるということである。出生体重が800gから900gに増加した時の対数オッズ増加分と900gから1000gに増加した時の対数オッズ増加分が等しい(B1)ということになる。
また、輸血(tr)をしたかどうか(輸血なしを0,輸血例を1)でみると
log(p/(1-p)) = B0+B1x tr
となり、輸血をしなかった群(0)に比べ輸血した群(1)で網膜症発生の対数オッズは
B1増加することになる。ここでB1は対数オッズ比を表す。対数オッズ比がわかれば、オッズ比もわかる。1)回帰係数(SPSS では"B"で表される) ロジスティックモデルで、ある患者のリスクを計算する場合に必要
2)標準誤差(SE) 95%信頼限界の計算に必要
3)Odds ratio(オッズ比) 回帰係数の指数がオッズ比
(SPSSではExp(B)で表される)
4)95%信頼限界(95% confidence interval ,95%CI)
=Exp(B±1.96xSE)
Expは指数をとること。
とりあえず上の4つがわかると理解できる。
95%CIは自分で計算しなければならないソフトもある。
5)Wald統計量
=(SE/B)2
Wald 統計量はχ2分布に従う。ロジスティックモデルの中のp 値はWald統計量から求める。ステップワイズ法でモデルからある因子を除去する方法の判断にも用いられる。
6)対数尤度(log likelihood=LL)
-2LLはχ2分布する。
7)尤度(ゆうど)比検定(SPSS では-2 Log LRとSignificance of Log LRで表される)
あるロジスティックモデルの-2LLと、このモデルに因子Aを加えたモデルの-2LLの比が有意であるかどうかを検定する。ステップワイズ法で用いられる。
8)スコアー統計量
SPSSのステップワイズ法で、モデルに含まれていない因子から、どの因子を取り込むかを判断する時に用いられる。
9)残差のχ2統計量
SPSSでは、ステップワイズ法において、モデルに含まれていない全ての変数の係数が0であるという帰無仮説を検定する。つまり、この有意水準がある基準以上であれば変数選択を終了する。
5)オッズ比とは
例えば網膜症の発症あり、なしを従属変数としたとする。ビタミンE使用についてのオッズ比は、ビタミンEを使用した場合の網膜症の発生率と発生しない率の比(オッズ)と、酸素を使用しない場合のオッズとの比である。体重などの連続値の場合には1gずつのオッズ比では小さくなりすぎてしまうので、100g毎の増加に対するオッズ比などで表す。このオッズ比は、他の因子の影響を補正したもとでのものである点が重要である。下表でオッズ比は(10 / 80)/(4 / 210) リスク比(RR)は(10 / 90) / (4 / 214) リスク差(RD)は(10/90 −4/214)
低血圧 頭蓋内出血あり 頭蓋内出血なし 合計 あり なし
10 4
80 210
90 214
オッズとは、ある事象の起こる確率と起こらない確率の比である。オッズ比は、2群のオッズの比をとったものである。ある事象の発生確率が極めて低い場合には、オッズ比とリスク比はほぼ等しくなる。
ロジスティック回帰分析で独立変数を一つしか投入しない場合のオッズ比を調整しないオッズ比(non-adjusted Odds ratio)と呼び、このような単変量の分析を単変量解析(univariate analysis)という。一方、ロジスティック回帰分析で独立変数を複数にした場合に求められるオッズ比を調整したオッズ比(adjusted Odds ratio)という。RRはrisk ratioの略であるが、相対リスク(relative risk)と同義であり略号も同じである。
6)オッズ比の95%信頼限界とは
オッズ比の95%信頼限界は
exp(B±1.96×SE)
で求められる。exp は指数のこと。ほとんどの表計算ソフトで計算可能(統計ソフトで自動的に計算するものも多くなった)。この95%信頼限界に1を含まなければ、その因子は5%の危険率で有意である。逆に1を含めば5%の危険率で有意でない。文献の記載には、オッズ比、95%信頼限界、その因子のP値が記載されている。なかには、P値の記載はなく、95% 信頼限界のみ記載されている場合もある。
7)ダミー変数について
ダミー変数とは
1)順序尺度、名義尺度のカテゴリー化
例えば、白血球数や体重などの連続値は独立変数としてそのまま使用できるが、軽症、中等症、重症などの重症度や治療効果などの順序尺度や疾患名などの名義尺度は、そのまま独立変数としては使用できない。治療法A、B、C、Dを0,1,2、3と割り当ててしまうと、A,B,C、Dの順に有効(または無効)と仮定してしまうことになるからである。本当は2つの治療法に差があるかもしれないのに、差がないと判定してしまう可能性があるからである。この場合、ダミー変数を用いてカテゴリーを表す必要がある。たとえば、4つのカテゴリーの場合にはそれより1つ少ない3つのダミー変数を用いて以下のように再分類する。
変数x1について、0は治療法B以外、1は治療法Bとなる。変数x2では、0が治療法C以外で1が治療法Cと定義する。つまり、治療法Aを基準として比較することになる。
x1 x2 x3 治療法A 0 0 0 治療法B 1 0 0 治療法C 0 1 0 治療法D 0 0 1
SPSSでは、名義変数は自動的にダミー変数を作成してくれる。
2)連続値のカテゴリー化
年齢は連続値だからそのまま独立変数で使用すればよいかというと、必ずしもそうではない。加齢と共に増加する独立変数であればよいが、40〜60歳にピークのあるような場合にはそのまま使用するのには問題がある。ロジスティック回帰では、独立変数の数値に対応する対数オッズが直線関係にあることが前提(log linearな関係)になっている。よってこのような場合にはあてはまらないため、2群あるいは3群に適宜カテゴリー化する必要が出てくる。逆に言うと、ある連続値のOdds ratioがlog linearであるかどうかを判定するために、まずカテゴリー化してみることである。例えば、年齢を10歳毎にカテゴリー化してだいたいlog linearであれば連続値として使用し、そうでなければ適当に再カテゴリー化するのである(ここら辺は「医者のためのロジスチック・Cox回帰入門」が参考になる)。
まず、カテゴリー化し基準になるカテゴリーに対するオッズ比を求め、その対数を計算し直線関係にあれば、そのまま使ってもよい。
しかし、カテゴリー化であまり独立変数が多くなりすぎるのは問題である。独立変数は必要最小限にすることが望ましい。ある疾患の発生予測式を求めるような場合には再カテゴリー化が必要である。
8)変数選択上の注意点
1) 他の独立変数と相関が強い独立変数を入れるのは望ましくない。例えば出生体重と出生身長はかなり相関の強い関係にあり、これらを同時に入れない方がよい
2) 手技が難しい測定法の検査より簡単に測定できる独立変数の方が臨床上役立つ。
3) 臨床上役立つ独立変数
例えば治療法など操作可能で、有意であった場合実現可能なもの。
4)独立変数はなるべく少なく。症例数が少ないのに、多くの独立変数を投入すると不安定な結果となる。
5)欠損値の多い独立変数を入れると、結果的に分析されるデータ数がかなり減少してしまうことがある。<コンピューターによる変数選択法>
SPSSでは、独立変数を任意に選択して投入する強制投入法と、自動的に有意な変数を選択してくれるステップワイズ法がある。ステップワイズ法には変数増加法、変数減少法、変数増減法がある。どのステップワイズ法がよいかは、教科書により様々であるが、論文では変数増加法がよく用いられているように思う。また、よく論文でみかける、ある変数のみ常に独立変数に入れ、調整した後にステップワイズ法を行うという方法もある。この手法は、SPSSではブロックを用いておこなう。ブロック1で調整したい独立変数を入れ、強制投入法に設定し、ブロック2で残った独立変数を投入しステップワイズに設定すればよい。
ステップワイズ法はある統計量を用い、その統計量の改善が最も適したものになるように自動的に選択してくれる便利な方法である。ある統計量とは、Wald統計量、尤度、条件統計量などである。尤度による条件選択(尤度比検定法)が一般的によく使われる。
変数増加法を例にとると、モデルに入っていない独立変数のうちでp値が最も小さいものからモデルに投入し、尤度比検定量の減少が有意であれば次にp値が小さいものを投入していく。尤度比検定量の変化が有意でなかったり、残った独立変数のp値がすべて一定以上になると終了となる。モデルに投入したり、除去したりする基準は自由に設定できる。この場合のp値の基準は0.15とか0.1など少し高めに設定した方がよいというものもある。
<尤 度>
尤度とは、ある観測データが起こる確率のことである。たとえば、こどもが何人かいたとする。このなかから一人選んで輪投げをさせたところ最初の2回は成功して3回目が失敗する確率を求めるとする。A君の成功する確率が0.4だとすると、確率は0.4×0.4×0.6=0.096(L)である。この0.096を尤度という。Lが最も大きくなる値を最尤値といい、この場合成功率2/3の者でLは0.148となる。ロジスティック回帰では、尤度の対数 (対数尤度=log(L)) を用いて検定する。ある条件を含まない場合と含んだ場合の最大対数尤度の差の2倍が自由度1のカイ2乗分布することを用いて検定する。
-2log L0-(-2log L)=-2log(L0/L)
を尤度比検定量と呼ぶ。また、この検定を尤度比検定(Likelihood ratio test)と呼ぶ。なお、-2log LはSPSSでは-2LLと表される。このように、ある条件が含まれない場合の-2log L0と含めた場合の-2log Lを求め、その差が有意であるかどうかを検定するのが尤度比検定である。最大対数尤度が3.84以上低下すれば、あとのモデルの方が適合度が高いと判断する。
9)ロジスティック回帰分析が可能な統計ソフト
以下に、ロジスティック回帰分析が可能な主な統計ソフトについて解説した。
1)SAS:医療統計で信頼されているのはなんといってもSASであり、詳しい参考書もいくつかある.しかし個人での利用はあまり聞いたことがない.
SASの製品情報へのリンクはこちら
2)SPSS:SPSSも統計分野では広く使用されており、しかも個人でも購入可能な価格と思われる。マッキントッシュ版と、Windows版があるが、マック版はver6までしかない。Windows版は日本語版でver8がある。ロジスティック回帰分析を行うには、Base systemとOptionが必要になる.医学統計に必要なものがパックされたメディカルパックがあったが現在発売されているかは不明.Windows版には医学統計に必要なものをそろえたDr SPSSがある.Dr SPSS for windowsは現在キャンペーン価格で98000円.
SPSSの製品情報へのリンクはこちら
3)Stat View ver 5:日本語版の発売は10月.定価125000円.Stat Viewも広く使われている統計ソフトであり、扱いやすい。以前はAbacusの製品であったが、SASに買収されたため、SASの製品と考えると堂々と使える?
Stat View 5.0の紹介はこちら
10)ロジスティック回帰分析に関する参考書
以下の4冊がおすすめである。詳しくは参考書の項を参照。
ロジスティック回帰分析もコックス回帰分析も、データを入力すれさえすれば結果が出てくるが、その分析が本当に正しいのかどうかはわからない。まず、十分に理解してから応用することが重要と思われる。
a)多変量解析による臨床研究
比例ハザードモデルとロジスティックモデルの解説とSASプログラム
b)医者のためのロジスチック・Cox回帰入門
c)臨床生存分析 生存データと予後因子の解析 SPSS Medical Packによる生存分析の実際d)学会・論文発表のための統計学