728x90
반응형
SMALL

통계학 책도 재미있게 읽을 수 있다. 

Bipolar disorder 의 거장(?) 이라고 하는 Ghaemi 선생님의 인문학적 통계학 저서다. 글로 쭉 풀어 쓴 통계학 책은 잘 읽어 보지 못했을 것이다.

이 책은 편견(Bias), 우연(Chance), 인과관계(Causation) 의 중요성을 설명하며

Randomization 의 우수성을 주창한다. 우리가 절대적으로 신봉하고 있는 P-value 값은사실 과학적 근거 없이 임의적으로 설정한 5% 라는 기준을 가지고 있으며, 모든 상황에서 다 적용하는 만능 수치가 아님을 강조하고 있다.

 

 

근거에도 수준이 존재하며 double-blind, RCT 연구의 중요성도 강조하고 있다. 그러나 근거 수준이 가장 낮은 Case report 등도 의미가 없는 것은 아니며, 때론 저명한 과학 저널에 실리는 논문들이 가장 중요하고 혁신적인 발견들은 놓치는 경우도 있음을 강조하기도 한다.

이 책의 매력은, 인간의 관찰과 사유의 '한계점'을 인정하고 시작한다는 점이다.

우리의 관찰과 학문 활동이 결코 객관적일 수 없으며, 극도의 주관성이 개입되어 있음을 전제한다. 그러다 보니, '과학의 정의'에 대한 고민으로 돌아가게 되며 칼 포퍼의 '반증 주의' 등도 한번씩 다뤄 주곤 한다.

다소 철학적인 내용이 섞여 있긴 하지만, 우리가 어떻게 하면 통계를 효율적으로 활용할 수 있을 지 그 비법이 잘 소개되어 있다.

 

 

통계학 책들을 보면 여러 가지 검정 방법들이 나열되어 있어, 마치 수학책을 보는 듯한 느낌이 강하다.

이 책은 통계학의 각론을 들어가기 전에, 우리가 기본적으로 지니고 있어야 할 배경 지식들을 훌륭하게 설명해 준다.

무엇보다도 '의학통계', 더 나아가 정신과 의사가 쓴 책이다 보니 예시들이 모두 정신과 약물 관련된 논문으로 수록되어 있다. 정신과 쪽 근무자들이라면 예시 하나 하나도 가슴으로 읽어 내려갈 수 있을 책이다.

 

훌륭한 논문들도 이 책에 나온 배경 지식을 가지고 들여다 보면, 많은 허점들이 보일 수 있다.

가령 Table 1 의 demographic characteristics 에서 p-value 값을 기재하여 혼란을 준다거나 말이다.

통계학에 신물이 나고, 수학에 진절머리가 난 이들에겐 이 책으로 돌아올 것을 추천한다. 천천히 사유하면서 배경 지식을 넓히고 나서 각론을 들어가도록 하자.

잘 쓰여진 훌륭한 책이다.​ 

 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

 

 

 

[의사가 알아야 할 통계학과 역학] -Ghaemi 저자

 

이라는 책을 읽고 있는데, 정신의학자의 관점이 잘 가미되어 있고, 의학과 통계학의 균형을 잘 갖추고 있다.

 

  저자의 철학적이고 인문학적인 접근 방식도 상당히 마음에 드는데, 과학의 정의를 다시 재정의 하고 귀납의 문제를 잘 훑어 준다.

-> p 값의 임의성에 대한 경고도 새겨 볼 만 하다.


________________________________________________________________________________________________________________________

) -->

   

층화(stratification): 이게 회귀(regression)에서 univariate(단변수)를 이용한 회귀 방정식을 세우는 것과 뭐가 다른지가 의문.

) -->

 

회귀(regression): 여러 가지 변수가 결과값에 영향을 줄 수 있으므로 이들간의 관계를 규명하기 위해 활용하는 기법인데, 우리가 알고자 하는 관찰변수를 제외한 다른 변수들은 다 controlled(또는 corrected 또는 adjusted) 시켜야 한다.

-> 실제 논문을 쓸 때도 이렇게 adjusted 된 값을 표에 표기하곤 하는데, 논문을 심사하는 측에서 실제 raw data를 한번 보내보라고 요구할 때도 있다. 그러다가 부정을 저지른 게 적발되기도 한다. 황우석 사태 등이 그래서 발생하는 것이다.

) --> 

[80page]

 

교란인자 평가 방법 [effect size 에 대하여]

 

[1] p-값 사용하는 것

[2] 집단 간 차이의 크기를 단순 비교하는 것

-> [2]번이 바로 effect size를 평가하는 건데, effect size(효과 크기)odds ratio relative risk 등도 포함되고 여러 가지가 다 포함되는 개념이다.

-> 교란효과 감지하기에는 후자가 더욱 민감한 방법이다.

-> t 검정에선 d , 그리고 product moment 것도 있고, Z 분포에선 h , 카이 분포에서는 오메가 값, F 검정에선 f , 다중 회귀에선 f^2 등이 effect size를 의미함.

-> 표준편차로 effect size를 나눠주면 단위들이 없어지므로 여러 실험에서 절대적인 값으로 비교가 가능하다. [표준편차라는 것도 결국 특정 값과 동일한 부호를 사용하므로]

-> 표본 크기가 아무리 작아도 effect size 가 크고 표준편차가 작기만 하면 통계적 검정력이 좋은 것인데 실제 이런 경우는 거의 없다. effect size 가 큰 경우가 극히 없다 보니, 대부분 N 수라도 늘려 보려고 혈안이 되어 있는 것이다.

) -->

 

  왜냐하면 effect size 는 실제 두 값의 차이를 구체적으로 알려주기 때문이다. 그리고 이 값이 대략 10% 정도 차이가 있으면 교란효과가 작용하고 있을 가능성이 있다고 간주하는데 이 10%라는 것도 마치 p=0.05라는 기준을 만든 것처럼 임의적인 기준이긴 하다.

) -->

 

[83page]

 

- 회귀 방정식 설명에서 나오는 beta(b)는 우리가 2종 오류=beta error 라고 할 때의 b 와는 다른 것이다. [기호 헷갈리지 않게 조심하기]

) --> 

- effect size 의 두 종류 [1] 절대적 효과 크기 [2] 상대적 효과 크기

) --> 

  상대적 효과 크기라는 것은 결국 전체 분의 효과 있는 부분으로 분수 형태로 나타낼 수 있으므로(% 라는 개념 자체가 전체 분의 부분을 의미하므로) 수학 등식을 봤을 때 relative risk(RR) 임을 파악할 수 있다.

-> Odds ratio 는 이와 다르게 각각의 odds를 구해서 그 비를 나타낸 것이다. relative risk %(확률)이라면, odds 비는 일종의 가능성을 나타내고 %가 아니다.

) --> 

-이변량 회귀 분석의 단점은 여러 가지 변수가 결과에 영향을 미친다 할 때, b1,b2,b3 등을 각각 하나씩 비교해 가지고서는 각 변수들 간에 서로 영향을 미치는 효과들에 대해서는 측정할 수 없다는 단점이 있다.

 

 


-> 그래서 다변량(multivariate) 회귀 분석을 사용하는 거다.

-> 회귀분석 식을 그래프로 그리면 실험에서 우리가 알고자 하는 실험 변수의 effect size 가 바로 그래프의 기울기(slope)가 된다.

-> 아무리 변수가 많아도 y 절편만 달라지고, 기울기는 다 동일하도록 adjusted를 시켜 준다.

) -->

 

주의사항

-> 다변량 회귀분석을 할 때 변수가 너무 많아지면 공선성(collinearity)이라는 문제가 생기는데 즉 변수간에 서로 상관관계가 있을 때 어떤 변수가 유의미한지 헷갈리게 만들어 버릴 수 있다.

) -->

 

relative risk(RR)Odds ratio(OR) 구분이 애매해 보인다.

-> RR은 직관적으로 이해가 쉬운 편이다. 2X2 TABLE 로 보거나 수학적으로 표현해 보면 한눈에 더 들어오는데 전체 분의 부분 이라는 분수 형태를 띄고 %, 확률이라고 볼 수 있기 때문이다.

-> RR은 전향적 코호트 연구에서 많이 사용되는데 특정 인구 집단인 cohort를 대상으로 전향적으로 쭉 조사를 해 보는 거다. 아직 병이 걸렸는지 안 걸렸는지는 잘 모르는 상태이지만 risk factor(위험인자)로 의심되는 것들은 이것저것 다 알고 있는 상태다.

) -->

 

  반면에 OR은 우리 나라 문화에서는 좀 낯설다. odds(공산,승산)이라고 번역되기도 하는데, 전체 분의 부분이 아니라 각각의 비를 odds라고 부른다. 수학적으로 표시해 보면 B/D, A/C처럼 분모가 전체의 합이 아니라는 걸 알 수 있다.

 

 


-> 이건 환자-대조군 연구에서 활용되는데, 이 연구는 이미 환자(병에 걸린 군)와 대조군(병에 안 걸린 군)을 알고 있는 상태에서 미지의 위험인자 유/무를 알아보는 거다.

) --> 

) --> 

질병 발생

질병 미발생

전체

위험인자 있음

A

B

A+B

위험인자 없음

C

D

C+D

) --> 

A/A+B / C/C+D -> 이게 RR 이다.

) -->

 

질병이 있을 때 위험인자의 odds: A/C

질병이 없을 때 위험인자의 odds: B/D

A/C / B/D -> 이게 OR이다. [odds들의 비]

) -->

 

) --> 

질병 발생

질병 미발생

전체

위험인자 있음

P2

1-P2

1

위험인자 없음

P1

1-P1

1

) --> 

) -->

 

  OR을 수학적으로 표현해 보면 P2(1-P1) / P1(1-P2) 로 쓸 수 있다.

RRP2/P1 이다. P1P2 0에 가까워 지면 RROR이 수학적으로 거의 같아지는 걸 알 수 있다.

-> P1P20에 가까워 진다는 것의 의미는 질병 발생률이 거의 0이라는 거다.

-> 즉 질병발생률이 감소하면 감소할수록 ORRR과 거의 같아지는 거다.

) -->

 

  95% CI(confidence interval): 모평균과 모표준편차를 추정하기 위해 표본을 추출할 때 점추정이 아니라 구간 추정(interval estimation)을 한 것으로 이 구간 내에 실제 모수가 존재할 가능성이 95% 라고 신뢰할 수 있음을 의미한다.

 

-> 논문 등에 잘 나오는 막대 그래프 누워 있는 형태의 그래프를 보면 0이 기준이다. 이게 바로 귀무가설을 의미하는데 실험군과 대조군 간의 차이가 없다(0이다) 라는 의미이다. 0에 닿아 있느냐 그렇지 않느냐가 가장 중요한 기준이다.

-> 0에 닿아 있지 않으면서 그래프가 오른쪽에만 그려져 있다는 건, 제약회사가 가장 원하고, 연구자가 가장 원하는 것이다. 즉 치료군이 대조군에 비해 긍정적인 효과가 있다는 것이다.

-> 반대로 0에 닿진 않아도 그래프가 0 의 왼쪽에만 그려지면, 치료군(실험군)과 대조군이 차이를 보이긴 하는데 그 효과가 negative 하다는 것이다.

) -->

 

  또 다른 그래프를 보면 01이 기준으로 나와 있다. OR 95% CI 로 제시되어 있는데 OR 이나 RR에선 1이 기준이 될 것이다. 즉 그래프가 1에 안 닿는 게 의미가 있는 거다. 그리고 1의 오른쪽에만 그래프가 그려지면 긍정적 의미가 있는 것이다.(효과가 있다는 의미)

 

-> 통계학 책을 보고나면 p>0.05 라고 해서 다 의미가 동일하게 없는 건 아니고, 1에 살짝만 닿아 있고, 긍정적인 오른쪽으로 그래프가 쭉 그려진 것은 비록 통계 기준에는 못 미쳐서 유의하진 않지만 일종의 tendency(경향성)은 있다고 표현 가능하다.

-> 이렇게 그래프가 쫙 늘어진다는 건 표본수가 적어서 CI의 간격이 늘어난 것이다.

-> 만약 n 수를 더 크게 해서 연구를 했더라면 CI Interval 자체가 확 줄면서 p<0.05 , 1보다 더 오른쪽에만 그래프가 그려졌을 수도 있다.

-> CI 의 간격은 좁을수록 값어치가 있다. 우리가 어떤 값을 예상할 때 0~100 사이 값이라고 말하는 거랑 0~3 사이야 라고 말해 주는 건 차이가 크다. 그 만큼 정확한 예측은 간격이 좁은 것이다.

-> 표본 수가 많아야 중심극한 정리에 의거하여 정규분포를 이루게 되므로 값어치가 더 높다.

) -->

 

  137page 아래에 나온 표8.2 표를 가로로 누운 그래프 형태로 바꿔서 그려 보면 한눈에 들어 온다. 이 때 상대위험도는 고려 안해도 되고, 그래프에 01을 기준으로 그려 놓고, 95% CI 에 나온 숫자만 염두에 두면서 쭉 그려주면 된다.

-> 다 그리고 나면 모든 수치들이 다 1을 통과하기 때문에 실험군과 대조군에 차이가 없다는 점을 알 수 있다. 즉 라모트리진과 위약 사용 군에서 별 차이가 없는 것이다.

-> 각각의 항목을 보면 조증 삽화 발생에 있어서 상대 위험도가 4.144배 가까이 차이가 있긴 한데, 95% CI를 그래프로 그려보면 간격(범위)이 너무 넓어서 별 의미가 없다. N수가 너무 적어서 그럴 수도 있겠다.

) --> 

____________________________________________________________________________

 

[사후 분석]

 

우리가 논문을 발표하고 나면 1차 결과가 나온다.

-> 그런데 힘들게 모은 data를 가지고 한 가지 결과만 내기가 아쉬울 수 있어서 2차 결과를 내는 경우도 많은데 이 대 post hoc(사후 분석)을 한 논문은 그나마 봐줄 만한 거다. 이런 사후 분석 안 하고, 그냥 2차 결과 제시한 건 별로 의미가 없을 것이다.

-> ex) 특정 약을 사용했을 때 사망률 감소만 보고자 했었으나, data 힘들게 모와둔 걸로 효과성도 검사해 보고 싶고, 이것저것 알아 보고 싶은 것이다.

-> 공선성이 문제가 된다.

-> 그래서 너무 많은 변수를 한꺼번에 회귀 분석에 넣거나 하면 안 된다.

-> 대개 주요 효능에 대한 1차 결과를 하나 보고, 이차 효능이나 부작용 등에 대한 1~2개의 2차 결과를 더 보는 방식으로 논문을 설계하라고 하나, 대부분의 사람들이 더 많은 요인들을 분석해 본다.(고생해서 얻은 데이터가 아깝다 보니)

) -->

 

[통계학의 가장 중요한 부분]

randomization을 잘 시켜 주고 -> N수를 최대한 많이 확보해 주고 -> 변수는 너무 많아지지 않게 해 주기[검정력이 떨어지니]

) --> 

 

___________________________________________________________________________

 

[1종 오류, 2종 오류]

) --> 

실제값이 참

실제값이 거짓

관찰값이 참

a

b

관찰값이 거짓

c

d

) -->

 

  여기서 우리가 날려 버려야 할 좋지 못한 data가 바로 bc 인데 bfalse(+)이고, cfalse(-)이다.

) -->

 

false (+)= alpha error (alpha ) = p 값 이라고 생각하면 된다.

(p 값은 귀무가설을 증명하는 게 아니라, 이 귀무가설이 사실이 아님을 반증하는 척도다)

false (-)= beta error (beta )

검정력:-beta(b)

) -->

 

  좋은 실험은 검정력이 > 0.8 은 되어야 하고 p<0.05는 되어야 한다고 본다.

beta error < 0.2 미만으로 나오게 하고(20% 미만), alpha error< 0.05 미만으로 나오게 하고(5% 미만)자 한다.

-> 딱 봐도 5% 미만으로 기준을 잡은 alpha error 가 더 중요하다. 이건, 효과도 없는데 효과가 있다고 실수로 나온 값이라서 독약인데 치료약인 줄 알고 환자들에게 주다가 대 참사가 벌어질 수도 있다. beta error , 뭐 안 주면 그만이다. 다른 대체 치료약들도 있을 거고 말이다. 연구한 사람이나 제약회사만 아쉬울 따름이다.

) -->  

_____________________________________________________________________________

 

[본페로니 검정] (p 값이 계속 인플레이션 되는 걸 막기 위한 방법) [124page]

 

 

  125page에 나오는 표8.1을 보면 검정 횟수가 올라갈수록 p 값이 확 올라가서 50번 정도만 검정 횟수가 늘어나도 p=0.92에 가까워 버림. 100번 정도 하면 p=0.999가 됨. 이 말인즉슨, 100번 중 1번 정도는 우연으로도 기준을 만족하는 값이 나와 버릴 수 있다는 것이다. 이런 p 값의 inflation을 막아야 한다.

) --> 

  p=0.05 라는 기준 자체도 임의적이긴 한데 이러한 alpha error5미만으로 잡는 것도 여러 실험을 계속 반복하고 그 때 그 때마다 p<0.05를 동일하게 유지하다 보면 한 100번 정도 실험이 반복되면 사실은 치료 효과가 없는데도 확률상 효과가 있는 것처럼 나와 버리는 수가 있다.

-> 그래서 본페로니 검정 같은 보수적인 방법을 써서 횟수가 늘어날수록 기준을 더 엄격하게 잡는 것이다. (즉 모든 %를 비교 횟수로 나눠 버리는 것이다.)

-> 본페로니 검정은 기준이 엄격하다 보니, false(+)가 생기는 건 확 막아주는데 false(-)가 속출하는 경우도 많다. , 나름 효과가 있는데 효과가 없는 것인 양 결과가 나올 수 있다. 하지만 이건 감수하는 거다. false(+)가 많아져서 효과도 없는데 효과가 있다는 결과가 산출되서 파국을 맞이하는 것보단 낫기 때문이다.

 

____________________________________________________________________________

 

 

[ITT(intend to treat)LOCF 개념]

 

 

  결국 ITT 는 치료할 의향을 지닌 군을 분석하는 것으로 실험을 오랜 기간 진행하다가 만료 기간을 조금 남긴 상태에서 몇 명이 탈락했을 때, 처음부터 치료할 의향이 있었던 몇 사람의 DATA를 포기하지 않고, 그대로 끌고 나가자는 개념으로서 ITT를 구현하는 하나의 방법이 바로 LOCF 이다. last observation carried forward의 약자로, 그 사람이 떠나기 전 마지막으로 남긴 data11이라면 이 값을 남은 몇 주간 계속 동일하게 공식에 넣는 것이다.

-> 이 책에 나와 있는 충격적인 진실을 보자면, 이전에는 이렇게 ITT의 한 방법인 LOCF를 적용하는 이유가 그저 DATA가 누락되는 게 아까워서 쓰는 차선책으로만 간주했었는데 오히려 이렇게 LOCF를 해 주는 게 더 정확한 결과값을 얻는 방법이라고 저자는 주장한다.

-> 즉 처음에 randomization을 통해서 얻은 전체 그룹이 있는데, 여기서 몇 명이 빠져 나가버리면 더 이상 randomization 했던 의미가 상실되어 버리고, 깨져 버린다. 이 무작위화된 data 군을 파괴시키느니, 차라리 인위적인 값을 좀 넣더라도 전체 군을 살려 두는 게 더 중요하다고 보는 것이다.

-> ITT 방법은 가장 보수적인 방법 중 하나라고 볼 수 있다.

___________________________________________________________________________

 

 

  [Generalizability](일반화 가능성)우리가 만약 흑인 남자에게 항우울제가 효과적인지 실험했는데, 그 실험 결과가 긍정적이었다고 해서 이걸 백인 여성 등 다른 race에 적용하는 건 위험하다는 것으로 그래서 inclusion criteria, exclusion criteria 가 중요하다.

-> 임상에서의 결과를 효능(efficacy)이라고 부르고, 실제 현실에서 나타나는 결과를 효과(effectiveness) 라고 부른다.

 

_____________________________________________________________________________

 

 

[위약]

 

  정신과에서는 위약이라는 개념도 의미가 있는 게 대부분의 정신 질환은 자연적으로 (적어도 짧은 기간 내에) 호전된다는 사실을 인식할 수 있게 되며, 약제를 사용하는 것이 병의 자연 경과를 넘어서는 충분한 이득을 주기 때문에 위험을 무릅쓸 만하다는 것을 보여주기 때문이다.

 

 

※ 모든 이미지는 구글에서 가져왔습니다. 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,