[의사가 알아야 할 통계학과 역학] -Ghaemi 저자
양극성 장애의 대가 Ghaemi 선생님의 역저입니다. 정신의학자의 관점이 잘 가미된 풍성한 예시들이 강점이며, 의학과 통계학의 균형을 잘 이룬 책입니다.
무엇보다도 이 책은 일반적인 의학통계 책처럼 공식이나 개념 위주의 설명으로 구성된 게 아니라, 인문학적이고 철학적인 설명 방식을 도입하여서 통계학이라는 학문 자체의 근원을 훑어주는 책입니다.
다 읽고 나서 바로 식을 적용하려 하면 크게 와닿지 않을 내용으로 구성되어 있지만, 통계학이라는 학문을 대하는 기본 자세와 밑작업을 탄탄하게 만들어 주는 책이기 때문에 이 책을 읽고 나서 다른 개론서들을 읽는다면 여러 모로 넓은 시야를 가지고 학문을 대할 수 있을 것입니다.
챕터 초반에 '과학이란 무엇인가?' 라는 근원적 질문을 시작으로 이야기를 전개하는 점은 특히 압권이었다.
-> 저자가 주장하는 'p 값의 임의성'에 대한 경고도 새겨 볼 만 하다.
(이 개념은 [직관으로 이해하는 의학통계학] 이라는 두텁고, 풍성한 책에서도 소개되어 있다.)
책을 읽어 내려가면서 공부하고 배운 내용들을 몇 가지 정리해 봤습니다.
________________________________________________________________________________________________________________________
) -->
) -->
층화(stratification): 이게 회귀(regression)에서 univariate(단변수)를 이용한 회귀 방정식을 세우는 것과 뭐가 다른지가 의문.
) -->
회귀(regression): 여러 가지 변수가 결과값에 영향을 줄 수 있으므로 이들간의 관계를 규명하기 위해 활용하는 기법인데, 우리가 알고자 하는 관찰변수를 제외한 다른 변수들은 다 controlled(또는 corrected 또는 adjusted) 시켜야 한다.
-> 실제 논문을 쓸 때도 이렇게 adjusted 된 값을 표에 표기하곤 하는데, 논문을 심사하는 측에서 실제 raw data를 한번 보내보라고 요구할 때도 있다.
그러다가 부정을 저지른 게 적발되기도 한다. 황우석 사태 등이 그래서 발생하는 것이다.
) -->
[80page]
교란인자 평가 방법 [effect size 에 대하여]
[1] p-값 사용하는 것
[2] 집단 간 차이의 크기를 단순 비교하는 것
-> 이 [2]번이 바로 effect size를 평가하는 건데, effect size(효과 크기)는 odds ratio 나 relative risk 등도 포함되고 여러 가지가 다 포함되는 개념이다. \
-> 교란효과 감지하기에는 후자가 더욱 민감한 방법이다.
-> t 검정에선 d 값, 그리고 product moment 것도 있고, Z 분포에선 h 값, 카이 분포에서는 오메가 값, F 검정에선 f 값, 다중 회귀에선 f^2 등이 effect size를 의미함.
-> 표준편차로 effect size를 나눠주면 단위들이 없어지므로 여러 실험에서 절대적인 값으로 비교가 가능하다. [표준편차라는 것도 결국 특정 값과 동일한 부호를 사용하므로]
-> 표본 크기가 아무리 작아도 effect size 가 크고 표준편차가 작기만 하면 통계적 검정력이 좋은 것인데 실제 이런 경우는 거의 없다. effect size 가 큰 경우가 극히 없다 보니, 대부분 N 수라도 늘려 보려고 혈안이 되어 있는 것이다.
) -->
왜냐하면 effect size 는 실제 두 값의 차이를 구체적으로 알려주기 때문이다.
그리고 이 값이 대략 10% 정도 차이가 있으면 교란효과가 작용하고 있을 가능성이 있다고 간주하는데 이 10%라는 것도 마치 p=0.05라는 기준을 만든 것처럼 임의적인 기준이긴 하다.
) -->
[83page]
-회귀 방정식 설명에서 나오는 beta(b)는 우리가 2종 오류=beta error 라고 할 때의 b 와는 다른 것이다. [기호 헷갈리지 않게 조심하기]
) -->
-effect size 의 두 종류 [1] 절대적 효과 크기 [2] 상대적 효과 크기
) -->
상대적 효과 크기라는 것은 결국 전체 분의 효과 있는 부분으로 분수 형태로 나타낼 수 있으므로(즉 % 라는 개념 자체가 전체 분의 부분을 의미하므로) 수학 등식을 봤을 때 relative risk(RR) 임을 파악할 수 있다.
-> Odds ratio 는 이와 다르게 각각의 odds를 구해서 그 비를 나타낸 것이다. relative risk 는 %(확률)이라면, odds 비는 일종의 가능성을 나타내고 %가 아니다.
) -->
-이변량 회귀 분석의 단점은 여러 가지 변수가 결과에 영향을 미친다 할 때, b1,b2,b3 등을 각각 하나씩 비교해 가지고서는 각 변수들 간에 서로 영향을 미치는 효과들에 대해서는 측정할 수 없다는 단점이 있다.
-> 그래서 다변량(multivariate) 회귀 분석을 사용하는 거다.
-> 회귀분석 식을 그래프로 그리면 실험에서 우리가 알고자 하는 실험 변수의 effect size 가 바로 그래프의 기울기(slope)가 된다.
-> 아무리 변수가 많아도 y 절편만 달라지고, 기울기는 다 동일하도록 adjusted를 시켜 준다.
) -->
주의사항
-> 다변량 회귀분석을 할 때 변수가 너무 많아지면 공선성(collinearity)이라는 문제가 생기는데 즉 변수간에 서로 상관관계가 있을 때 어떤 변수가 유의미한지 헷갈리게 만들어 버릴 수 있다.
) -->
relative risk(RR)과 Odds ratio(OR) 구분이 애매해 보인다.
-> RR은 직관적으로 이해가 쉬운 편이다. 2X2 TABLE 로 보거나 수학적으로 표현해 보면 한눈에 더 들어오는데 전체 분의 부분 이라는 분수 형태를 띄고 %, 확률이라고 볼 수 있기 때문이다.
-> RR은 전향적 코호트 연구에서 많이 사용되는데 특정 인구 집단인 cohort를 대상으로 전향적으로 쭉 조사를 해 보는 거다. 아직 병이 걸렸는지 안 걸렸는지는 잘 모르는 상태이지만 risk factor(위험인자)로 의심되는 것들은 이것저것 다 알고 있는 상태다.
) -->
반면에 OR은 우리 나라 문화에서는 좀 낯설다. odds(공산,승산)이라고 번역되기도 하는데, 전체 분의 부분이 아니라 각각의 비를 odds라고 부른다.
수학적으로 표시해 보면 B/D, A/C처럼 분모가 전체의 합이 아니라는 걸 알 수 있다.
-> 이건 환자-대조군 연구에서 활용되는데, 이 연구는 이미 환자(병에 걸린 군)와 대조군(병에 안 걸린 군)을 알고 있는 상태에서 미지의 위험인자 유/무를 알아보는 거다.
) -->
) --> |
질병 발생 |
질병 미발생 |
전체 |
위험인자 있음 |
A |
B |
A+B |
위험인자 없음 |
C |
D |
C+D |
) -->
A/A+B / C/C+D -> 이게 RR 이다.
) -->
질병이 있을 때 위험인자의 odds: A/C
질병이 없을 때 위험인자의 odds: B/D
A/C / B/D -> 이게 OR이다. [odds들의 비]
) -->
) --> |
질병 발생 |
질병 미발생 |
전체 |
위험인자 있음 |
P2 |
1-P2 |
1 |
위험인자 없음 |
P1 |
1-P1 |
1 |
) -->
) -->
OR을 수학적으로 표현해 보면 P2(1-P1) / P1(1-P2) 로 쓸 수 있다.
RR은 P2/P1 이다. P1과 P2 0에 가까워 지면 RR과 OR이 수학적으로 거의 같아지는 걸 알 수 있다.
-> P1과 P2가 0에 가까워 진다는 것의 의미는 질병 발생률이 거의 0이라는 거다.
-> 즉 질병발생률이 감소하면 감소할수록 OR이 RR과 거의 같아지는 거다.
) -->
95% CI(confidence interval): 모평균과 모표준편차를 추정하기 위해 표본을 추출할 때 점추정이 아니라 구간 추정(interval estimation)을 한 것으로 이 구간 내에 실제 모수가 존재할 가능성이 95% 라고 신뢰할 수 있음을 의미한다.
-> 논문 등에 잘 나오는 막대 그래프 누워 있는 형태의 그래프를 보면 0이 기준이다. 이게 바로 귀무가설을 의미하는데 실험군과 대조군 간의 차이가 없다(0이다) 라는 의미이다. 이 0에 닿아 있느냐 그렇지 않느냐가 가장 중요한 기준이다.
-> 0에 닿아 있지 않으면서 그래프가 오른쪽에만 그려져 있다는 건, 제약회사가 가장 원하고, 연구자가 가장 원하는 것이다. 즉 치료군이 대조군에 비해 긍정적인 효과가 있다는 것이다.
-> 반대로 0에 닿진 않아도 그래프가 0 의 왼쪽에만 그려지면, 치료군(실험군)과 대조군이 차이를 보이긴 하는데 그 효과가 negative 하다는 것이다.
) -->
또 다른 그래프를 보면 0과 1이 기준으로 나와 있다. OR 의 95% CI 로 제시되어 있는데 OR 이나 RR에선 1이 기준이 될 것이다.
즉 그래프가 1에 안 닿는 게 의미가 있는 거다. 그리고 1의 오른쪽에만 그래프가 그려지면 긍정적 의미가 있는 것이다.(효과가 있다는 의미)
-> 통계학 책을 보고나면 p>0.05 라고 해서 다 의미가 동일하게 없는 건 아니고, 1에 살짝만 닿아 있고, 긍정적인 오른쪽으로 그래프가 쭉 그려진 것은 비록 통계 기준에는 못 미쳐서 유의하진 않지만 일종의 tendency(경향성)은 있다고 표현 가능하다.
-> 이렇게 그래프가 쫙 늘어진다는 건 표본수가 적어서 CI의 간격이 늘어난 것이다.
-> 만약 n 수를 더 크게 해서 연구를 했더라면 CI 의 Interval 자체가 확 줄면서 p<0.05 , 즉 1보다 더 오른쪽에만 그래프가 그려졌을 수도 있다.
-> CI 의 간격은 좁을수록 값어치가 있다. 우리가 어떤 값을 예상할 때 0~100 사이 값이라고 말하는 거랑 0~3 사이야 라고 말해 주는 건 차이가 크다. 그 만큼 정확한 예측은 간격이 좁은 것이다.
-> 표본 수가 많아야 중심극한 정리에 의거하여 정규분포를 이루게 되므로 값어치가 더 높다.
) -->
137page 아래에 나온 표8.2 표를 가로로 누운 그래프 형태로 바꿔서 그려 보면 한눈에 들어 온다. 이 때 상대위험도는 고려 안해도 되고, 그래프에 0과 1을 기준으로 그려 놓고, 95% CI 에 나온 숫자만 염두에 두면서 쭉 그려주면 된다.
-> 다 그리고 나면 모든 수치들이 다 1을 통과하기 때문에 실험군과 대조군에 차이가 없다는 점을 알 수 있다. 즉 라모트리진과 위약 사용 군에서 별 차이가 없는 것이다.
-> 각각의 항목을 보면 조증 삽화 발생에 있어서 상대 위험도가 4.14로 4배 가까이 차이가 있긴 한데, 95% CI를 그래프로 그려보면 간격(범위)이 너무 넓어서 별 의미가 없다. N수가 너무 적어서 그럴 수도 있겠다.
) -->
____________________________________________________________________________
[사후 분석]
우리가 논문을 발표하고 나면 1차 결과가 나온다.
-> 그런데 힘들게 모은 data를 가지고 한 가지 결과만 내기가 아쉬울 수 있어서 2차 결과를 내는 경우도 많은데 이 대 post hoc(사후 분석)을 한 논문은 그나마 봐줄 만한 거다. 이런 사후 분석 안 하고, 그냥 2차 결과 제시한 건 별로 의미가 없을 것이다.
-> ex) 특정 약을 사용했을 때 사망률 감소만 보고자 했었으나, data 힘들게 모와둔 걸로 효과성도 검사해 보고 싶고, 이것저것 알아 보고 싶은 것이다.
-> 공선성이 문제가 된다.
-> 그래서 너무 많은 변수를 한꺼번에 회귀 분석에 넣거나 하면 안 된다.
-> 대개 주요 효능에 대한 1차 결과를 하나 보고, 이차 효능이나 부작용 등에 대한 1~2개의 2차 결과를 더 보는 방식으로 논문을 설계하라고 하나, 대부분의 사람들이 더 많은 요인들을 분석해 본다.(고생해서 얻은 데이터가 아깝다 보니)
) -->
[통계학의 가장 중요한 부분]
randomization을 잘 시켜 주고 -> N수를 최대한 많이 확보해 주고 -> 변수는 너무 많아지지 않게 해 주기[검정력이 떨어지니]
) -->
___________________________________________________________________________
[1종 오류, 2종 오류]
) --> |
실제값이 참 |
실제값이 거짓 |
관찰값이 참 |
a |
b |
관찰값이 거짓 |
c |
d |
) -->
여기서 우리가 날려 버려야 할 좋지 못한 data가 바로 b와 c 인데 b가 false(+)이고, c가 false(-)이다.
) -->
false (+)= alpha error (alpha 값) = p 값 이라고 생각하면 된다.
(p 값은 귀무가설을 증명하는 게 아니라, 이 귀무가설이 사실이 아님을 반증하는 척도다)
false (-)= beta error (beta 값)
검정력:1-beta(b)
) -->
좋은 실험은 검정력이 > 0.8 은 되어야 하고 p<0.05는 되어야 한다고 본다.
즉 beta error < 0.2 미만으로 나오게 하고(20% 미만), alpha error< 0.05 미만으로 나오게 하고(5% 미만)자 한다.
-> 딱 봐도 5% 미만으로 기준을 잡은 alpha error 가 더 중요하다. 이건, 효과도 없는데 효과가 있다고 실수로 나온 값이라서 독약인데 치료약인 줄 알고 환자들에게 주다가 대 참사가 벌어질 수도 있다. beta error 야, 뭐 안 주면 그만이다. 다른 대체 치료약들도 있을 거고 말이다. 연구한 사람이나 제약회사만 아쉬울 따름이다.
) -->
_____________________________________________________________________________
[본페로니 검정] (p 값이 계속 인플레이션 되는 걸 막기 위한 방법) [124page]
125page에 나오는 표8.1을 보면 검정 횟수가 올라갈수록 p 값이 확 올라가서 50번 정도만 검정 횟수가 늘어나도 p=0.92에 가까워 버림. 100번 정도 하면 p=0.999가 됨. 이 말인즉슨, 100번 중 1번 정도는 우연으로도 기준을 만족하는 값이 나와 버릴 수 있다는 것이다. 이런 p 값의 inflation을 막아야 한다.
) -->
p=0.05 라는 기준 자체도 임의적이긴 한데 이러한 alpha error를 5% 미만으로 잡는 것도 여러 실험을 계속 반복하고 그 때 그 때마다 p<0.05를 동일하게 유지하다 보면 한 100번 정도 실험이 반복되면 사실은 치료 효과가 없는데도 확률상 효과가 있는 것처럼 나와 버리는 수가 있다.
-> 그래서 본페로니 검정 같은 보수적인 방법을 써서 횟수가 늘어날수록 기준을 더 엄격하게 잡는 것이다. (즉 모든 %를 비교 횟수로 나눠 버리는 것이다.)
-> 본페로니 검정은 기준이 엄격하다 보니, false(+)가 생기는 건 확 막아주는데 false(-)가 속출하는 경우도 많다. 즉, 나름 효과가 있는데 효과가 없는 것인 양 결과가 나올 수 있다. 하지만 이건 감수하는 거다. false(+)가 많아져서 효과도 없는데 효과가 있다는 결과가 산출되서 파국을 맞이하는 것보단 낫기 때문이다.
____________________________________________________________________________
[ITT(intend to treat)와 LOCF 개념]
결국 ITT 는 치료할 의향을 지닌 군을 분석하는 것으로 실험을 오랜 기간 진행하다가 만료 기간을 조금 남긴 상태에서 몇 명이 탈락했을 때, 처음부터 치료할 의향이 있었던 몇 사람의 DATA를 포기하지 않고, 그대로 끌고 나가자는 개념으로서 ITT를 구현하는 하나의 방법이 바로 LOCF 이다.
last observation carried forward의 약자로, 그 사람이 떠나기 전 마지막으로 남긴 data가 11이라면 이 값을 남은 몇 주간 계속 동일하게 공식에 넣는 것이다.
-> 이 책에 나와 있는 충격적인 진실을 보자면, 이전에는 이렇게 ITT의 한 방법인 LOCF를 적용하는 이유가 그저 DATA가 누락되는 게 아까워서 쓰는 차선책으로만 간주했었는데 오히려 이렇게 LOCF를 해 주는 게 더 정확한 결과값을 얻는 방법이라고 저자는 주장한다.
-> 즉 처음에 randomization을 통해서 얻은 전체 그룹이 있는데, 여기서 몇 명이 빠져 나가버리면 더 이상 randomization 했던 의미가 상실되어 버리고, 깨져 버린다. 이 무작위화된 data 군을 파괴시키느니, 차라리 인위적인 값을 좀 넣더라도 전체 군을 살려 두는 게 더 중요하다고 보는 것이다.
-> ITT 방법은 가장 보수적인 방법 중 하나라고 볼 수 있다.
___________________________________________________________________________
[Generalizability](일반화 가능성)우리가 만약 흑인 남자에게 항우울제가 효과적인지 실험했는데, 그 실험 결과가 긍정적이었다고 해서 이걸 백인 여성 등 다른 race에 적용하는 건 위험하다는 것으로 그래서 inclusion criteria, exclusion criteria 가 중요하다.
-> 임상에서의 결과를 효능(efficacy)이라고 부르고, 실제 현실에서 나타나는 결과를 효과(effectiveness) 라고 부른다.
_____________________________________________________________________________[위약]
정신과에서는 ‘위약’이라는 개념도 의미가 있는 게 대부분의 정신 질환은 자연적으로 (적어도 짧은 기간 내에) 호전된다는 사실을 인식할 수 있게 되며, 약제를 사용하는 것이 병의 자연 경과를 넘어서는 충분한 이득을 주기 때문에 위험을 무릅쓸 만하다는 것을 보여주기 때문이다.
) -->