728x90
반응형
SMALL

의학 통계학 관련 공부를 하면서 배웠던 내용을 짧게 남겨 봅니다.

간단한 팁 정도로 참고하시면 될 것 같습니다.

 

____________________________________________________________________________________________________

 

 

 

일단 논문을 보다가 표를 보면 그래프를 그려 본다.

Relative Risk 라든지, Odds ratio , 그리고 또 다른 Effect size 중 하나인 Cohen's d 와 같은 것은 그래프로 표현할 때는 따로 고려하지 않아도 된다.

그저 95% CI(Confidence interval) 을 그림에 그려 주는데 0과 1을 그래프에 표시해 둔다.

여기서 RR, OR 등을 기준으로 1이라고 하는 것은 우리가 관찰하고자 하는 군과 대조군 사이에 차이가 없다는 것으로서 일종의 귀무가설과 같다.

이 1을 통과하는 그래프가 그려진다면 그 실험은 유의미하지 않을 것이다.

 

제시된 p 값만 보는 것보다 CI 는 더 많은 것을 알려 주기 때문에 더 유용하다.

1을 중심으로 양측에 거의 대칭을 이루고 있는 그래프가 그려진다면​ 그 실험은 잘 설계된 것일 것이고, 대칭이 더욱 정확할 수록 P 값은 더 높게 나올 것이다.

__________________________________________________________________________________________________________________________

 

Post hoc test 는 우리가 기존에 이 실험을 통해서 알고자 했던 값인 1차 결과가 아니라, 모와둔

data 를 가지고 2차 결과들을 보는 검사라고 볼 수 있다.

 

 

_________________________________________________________________________________________________________________________


표에 제시된 F 값은 결국 회귀분석을 유추할 수 있게 도와준다. 그 옆에 model 들이 다양하게 적혀 있는데 아마 여러 가지 변수들을 controlled 시켜 놓고, 우리가 알고자 하는 '변수'만을 관찰해 보면서 결과 값의 변화 양상을 관찰하는 것이다.

 

 

 

P 값이 0.05 보다 작아야 유의미하지만 0.05~0.1 사이 정도 값이 나오면 유의미하지는 않지만 일종의 경향성이 있는 정도는 되므로 의미가 아주 없는 건 아니다. 이런 기준들이 다소 임의적으로 보일 수 있지만, 간과할 수 없는 요인들이다.

_________________________________________________________________________________________________________________________

NNT나 NNH 개념은 잘 알아두는 게 좋다. NNT는 Number needed to treat의 약자로서 이 값이 작을 수록 효과 크기는 더 커진다고 볼 수 있는 것이다.

가령 항우울제의 치료 효과를 보고자 하는데 NNT가 5로 나온다면 5명의 환자에게 약을 주면 그 중 한명에선 약이 효과를 보인다는 것이다. NNH는 Number needed to harm 의 약자로서 이 값이 5라면 5명의 환자에게 항우울제를 주면 그 중 1명 정도는 자살 사고가 있다거나 할 때 활용 가능한 값이다.


일반적으로는 NNT 의 값이 크냐, 작냐를 가지고 효과 크기를 보겠지만 NNT 에서 Treat 의 대상 자체도 고민해 봐야 한다.

 

어떤 환자에겐 치료가 그 환자를 살리고 죽이는 문제일 수 있고, 다른 치료에서는 그 정도 무게를 지니진 않고 그저 좀 도움이 되는 정도라면 그 땐 NNT 값만 가지고 둘을 비교하는 건 무리다.


어떤 경우에는 NNT가 100이 넘어가더라도 한번 걸렸다 하면 사람이 죽는 문제라면 그건 의미가 있는 거고, 어떤 경우에는 NNT가 5로 낮게 나왔다 하더라도 큰 의미가 없는 효과일 수도 있으니까 말이다.


__________________________________________________________________________________________________________________________

통계학에서는 왜 바로 대립가설을 검증하지 않고, 일단 귀무가설(H0)을 세워 놓고 이것이 기각되는지 그렇지 않은지를 보는 방식으로 가설을 검증하는 것일까?

 

-> 과학이란 무엇인가? 라는 과학철학적 질문과 맞닿아 있다.

-> 실증주의 학파(빈 학파 등) 등은 실증주의를 주창하고, 귀납적으로 문제에 접근하길 원했으나 18세기 데이비드 흄이 제기했던 귀납의 문제를 고민해 봐야 한다. 즉, 여러 가지 관찰 사례만 가지고 일반화된 결론을 도출하는 건 불가능하기 때문이다. 우리가 확실히 말할 수 있는 건 그 이론이 잘못되었느냐에 관한 것이지, 그 이론이 옳은지는 입증할 방법이 없다.

-> 그래서 나온 것이 칼 포퍼의 '반증주의'다.


통계학에서 이와 같은 방식을 차용한 것이다.


(그러나, 문제도 있다. '반중'이 안 되는 논리도 많다. 가령 동전을 던져서 앞면이 나올 확률은 1/2 이다. 라고 말하는 확률적 진술은 반증할 수 없을 것이다. 그리고 뉴턴도 물리학을 정립할 때, 반증을 활용하지 않고 굵직한 이론들을 많이 내었다. 그러면 뉴턴의 과학도 사이비 과학일까?)

 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

[의사가 알아야 할 통계학과 역학] -Ghaemi 저자

양극성 장애의 대가 Ghaemi 선생님의 역저입니다.  정신의학자의 관점이 잘 가미된 풍성한 예시들이 강점이며, 의학과 통계학의 균형을 잘 이룬 책입니다. 

 

무엇보다도 이 책은 일반적인 의학통계 책처럼 공식이나 개념 위주의 설명으로 구성된 게 아니라, 인문학적이고 철학적인 설명 방식을 도입하여서 통계학이라는 학문 자체의 근원을 훑어주는 책입니다.

 

다 읽고 나서 바로 식을 적용하려 하면 크게 와닿지 않을 내용으로 구성되어 있지만, 통계학이라는 학문을 대하는 기본 자세와 밑작업을 탄탄하게 만들어 주는 책이기 때문에 이 책을 읽고 나서 다른 개론서들을 읽는다면 여러 모로 넓은 시야를 가지고 학문을 대할 수 있을 것입니다.

 

 챕터 초반에 '과학이란 무엇인가?' 라는 근원적 질문을 시작으로 이야기를 전개하는 점은 특히 압권이었다.

-> 저자가 주장하는 'p 값의 임의성'에 대한 경고도 새겨 볼 만 하다.

(이 개념은 [직관으로 이해하는 의학통계학] 이라는 두텁고, 풍성한 책에서도 소개되어 있다.)

 

책을 읽어 내려가면서 공부하고 배운 내용들을 몇 가지 정리해 봤습니다.

 

________________________________________________________________________________________________________________________

) --> 

) --> 

층화(stratification): 이게 회귀(regression)에서 univariate(단변수)를 이용한 회귀 방정식을 세우는 것과 뭐가 다른지가 의문.

) --> 

회귀(regression): 여러 가지 변수가 결과값에 영향을 줄 수 있으므로 이들간의 관계를 규명하기 위해 활용하는 기법인데, 우리가 알고자 하는 관찰변수를 제외한 다른 변수들은 다 controlled(또는 corrected 또는 adjusted) 시켜야 한다.

 

-> 실제 논문을 쓸 때도 이렇게 adjusted 된 값을 표에 표기하곤 하는데, 논문을 심사하는 측에서 실제 raw data를 한번 보내보라고 요구할 때도 있다.

 

그러다가 부정을 저지른 게 적발되기도 한다. 황우석 사태 등이 그래서 발생하는 것이다.

) --> 

 

[80page]

교란인자 평가 방법 [effect size 에 대하여]

[1] p-값 사용하는 것

[2] 집단 간 차이의 크기를 단순 비교하는 것

-> [2]번이 바로 effect size를 평가하는 건데, effect size(효과 크기)odds ratio relative risk 등도 포함되고 여러 가지가 다 포함되는 개념이다. \

 

-> 교란효과 감지하기에는 후자가 더욱 민감한 방법이다.

 

-> t 검정에선 d , 그리고 product moment 것도 있고, Z 분포에선 h , 카이 분포에서는 오메가 값, F 검정에선 f , 다중 회귀에선 f^2 등이 effect size를 의미함.

 

-> 표준편차로 effect size를 나눠주면 단위들이 없어지므로 여러 실험에서 절대적인 값으로 비교가 가능하다. [표준편차라는 것도 결국 특정 값과 동일한 부호를 사용하므로]

 

-> 표본 크기가 아무리 작아도 effect size 가 크고 표준편차가 작기만 하면 통계적 검정력이 좋은 것인데 실제 이런 경우는 거의 없다. effect size 가 큰 경우가 극히 없다 보니, 대부분 N 수라도 늘려 보려고 혈안이 되어 있는 것이다.

) --> 

왜냐하면 effect size 는 실제 두 값의 차이를 구체적으로 알려주기 때문이다.

 

그리고 이 값이 대략 10% 정도 차이가 있으면 교란효과가 작용하고 있을 가능성이 있다고 간주하는데 이 10%라는 것도 마치 p=0.05라는 기준을 만든 것처럼 임의적인 기준이긴 하다.

) --> 

[83page]

-회귀 방정식 설명에서 나오는 beta(b)는 우리가 2종 오류=beta error 라고 할 때의 b 와는 다른 것이다. [기호 헷갈리지 않게 조심하기]

) --> 

-effect size 의 두 종류 [1] 절대적 효과 크기 [2] 상대적 효과 크기

) --> 

상대적 효과 크기라는 것은 결국 전체 분의 효과 있는 부분으로 분수 형태로 나타낼 수 있으므로(% 라는 개념 자체가 전체 분의 부분을 의미하므로) 수학 등식을 봤을 때 relative risk(RR) 임을 파악할 수 있다.

 

-> Odds ratio 는 이와 다르게 각각의 odds를 구해서 그 비를 나타낸 것이다. relative risk %(확률)이라면, odds 비는 일종의 가능성을 나타내고 %가 아니다.

) --> 

-이변량 회귀 분석의 단점은 여러 가지 변수가 결과에 영향을 미친다 할 때, b1,b2,b3 등을 각각 하나씩 비교해 가지고서는 각 변수들 간에 서로 영향을 미치는 효과들에 대해서는 측정할 수 없다는 단점이 있다.

 

 


-> 그래서 다변량(multivariate) 회귀 분석을 사용하는 거다.

-> 회귀분석 식을 그래프로 그리면 실험에서 우리가 알고자 하는 실험 변수의 effect size 가 바로 그래프의 기울기(slope)가 된다.

 

-> 아무리 변수가 많아도 y 절편만 달라지고, 기울기는 다 동일하도록 adjusted를 시켜 준다.

) --> 

주의사항

-> 다변량 회귀분석을 할 때 변수가 너무 많아지면 공선성(collinearity)이라는 문제가 생기는데 즉 변수간에 서로 상관관계가 있을 때 어떤 변수가 유의미한지 헷갈리게 만들어 버릴 수 있다.

) --> 

relative risk(RR)Odds ratio(OR) 구분이 애매해 보인다.

 

-> RR은 직관적으로 이해가 쉬운 편이다. 2X2 TABLE 로 보거나 수학적으로 표현해 보면 한눈에 더 들어오는데 전체 분의 부분 이라는 분수 형태를 띄고 %, 확률이라고 볼 수 있기 때문이다.

 

-> RR은 전향적 코호트 연구에서 많이 사용되는데 특정 인구 집단인 cohort를 대상으로 전향적으로 쭉 조사를 해 보는 거다. 아직 병이 걸렸는지 안 걸렸는지는 잘 모르는 상태이지만 risk factor(위험인자)로 의심되는 것들은 이것저것 다 알고 있는 상태다.

) --> 

반면에 OR은 우리 나라 문화에서는 좀 낯설다. odds(공산,승산)이라고 번역되기도 하는데, 전체 분의 부분이 아니라 각각의 비를 odds라고 부른다.

 

수학적으로 표시해 보면 B/D, A/C처럼 분모가 전체의 합이 아니라는 걸 알 수 있다.


-> 이건 환자-대조군 연구에서 활용되는데, 이 연구는 이미 환자(병에 걸린 군)와 대조군(병에 안 걸린 군)을 알고 있는 상태에서 미지의 위험인자 유/무를 알아보는 거다.

) --> 

) --> 

질병 발생

질병 미발생

전체

위험인자 있음

A

B

A+B

위험인자 없음

C

D

C+D

) --> 

A/A+B / C/C+D -> 이게 RR 이다.

) --> 

질병이 있을 때 위험인자의 odds: A/C

 

질병이 없을 때 위험인자의 odds: B/D

 

A/C / B/D -> 이게 OR이다. [odds들의 비]

) --> 

) --> 

질병 발생

질병 미발생

전체

위험인자 있음

P2

1-P2

1

위험인자 없음

P1

1-P1

1

) --> 

) --> 

OR을 수학적으로 표현해 보면 P2(1-P1) / P1(1-P2) 로 쓸 수 있다.

RRP2/P1 이다. P1P2 0에 가까워 지면 RROR이 수학적으로 거의 같아지는 걸 알 수 있다.

-> P1P20에 가까워 진다는 것의 의미는 질병 발생률이 거의 0이라는 거다.

-> 즉 질병발생률이 감소하면 감소할수록 ORRR과 거의 같아지는 거다.

) --> 

95% CI(confidence interval): 모평균과 모표준편차를 추정하기 위해 표본을 추출할 때 점추정이 아니라 구간 추정(interval estimation)을 한 것으로 이 구간 내에 실제 모수가 존재할 가능성이 95% 라고 신뢰할 수 있음을 의미한다.

-> 논문 등에 잘 나오는 막대 그래프 누워 있는 형태의 그래프를 보면 0이 기준이다. 이게 바로 귀무가설을 의미하는데 실험군과 대조군 간의 차이가 없다(0이다) 라는 의미이다. 0에 닿아 있느냐 그렇지 않느냐가 가장 중요한 기준이다.

 

-> 0에 닿아 있지 않으면서 그래프가 오른쪽에만 그려져 있다는 건, 제약회사가 가장 원하고, 연구자가 가장 원하는 것이다. 즉 치료군이 대조군에 비해 긍정적인 효과가 있다는 것이다.

 

-> 반대로 0에 닿진 않아도 그래프가 0 의 왼쪽에만 그려지면, 치료군(실험군)과 대조군이 차이를 보이긴 하는데 그 효과가 negative 하다는 것이다.

) --> 

또 다른 그래프를 보면 01이 기준으로 나와 있다. OR 95% CI 로 제시되어 있는데 OR 이나 RR에선 1이 기준이 될 것이다.

 

즉 그래프가 1에 안 닿는 게 의미가 있는 거다. 그리고 1의 오른쪽에만 그래프가 그려지면 긍정적 의미가 있는 것이다.(효과가 있다는 의미)

-> 통계학 책을 보고나면 p>0.05 라고 해서 다 의미가 동일하게 없는 건 아니고, 1에 살짝만 닿아 있고, 긍정적인 오른쪽으로 그래프가 쭉 그려진 것은 비록 통계 기준에는 못 미쳐서 유의하진 않지만 일종의 tendency(경향성)은 있다고 표현 가능하다.

 

-> 이렇게 그래프가 쫙 늘어진다는 건 표본수가 적어서 CI의 간격이 늘어난 것이다.

 

-> 만약 n 수를 더 크게 해서 연구를 했더라면 CI Interval 자체가 확 줄면서 p<0.05 , 1보다 더 오른쪽에만 그래프가 그려졌을 수도 있다.

 

-> CI 의 간격은 좁을수록 값어치가 있다. 우리가 어떤 값을 예상할 때 0~100 사이 값이라고 말하는 거랑 0~3 사이야 라고 말해 주는 건 차이가 크다. 그 만큼 정확한 예측은 간격이 좁은 것이다.

 

-> 표본 수가 많아야 중심극한 정리에 의거하여 정규분포를 이루게 되므로 값어치가 더 높다.

) --> 

137page 아래에 나온 표8.2 표를 가로로 누운 그래프 형태로 바꿔서 그려 보면 한눈에 들어 온다. 이 때 상대위험도는 고려 안해도 되고, 그래프에 01을 기준으로 그려 놓고, 95% CI 에 나온 숫자만 염두에 두면서 쭉 그려주면 된다.

 

-> 다 그리고 나면 모든 수치들이 다 1을 통과하기 때문에 실험군과 대조군에 차이가 없다는 점을 알 수 있다. 즉 라모트리진과 위약 사용 군에서 별 차이가 없는 것이다.

 

-> 각각의 항목을 보면 조증 삽화 발생에 있어서 상대 위험도가 4.144배 가까이 차이가 있긴 한데, 95% CI를 그래프로 그려보면 간격(범위)이 너무 넓어서 별 의미가 없다. N수가 너무 적어서 그럴 수도 있겠다.

) --> 

____________________________________________________________________________

[사후 분석]

우리가 논문을 발표하고 나면 1차 결과가 나온다.

-> 그런데 힘들게 모은 data를 가지고 한 가지 결과만 내기가 아쉬울 수 있어서 2차 결과를 내는 경우도 많은데 이 대 post hoc(사후 분석)을 한 논문은 그나마 봐줄 만한 거다. 이런 사후 분석 안 하고, 그냥 2차 결과 제시한 건 별로 의미가 없을 것이다.

-> ex) 특정 약을 사용했을 때 사망률 감소만 보고자 했었으나, data 힘들게 모와둔 걸로 효과성도 검사해 보고 싶고, 이것저것 알아 보고 싶은 것이다.

-> 공선성이 문제가 된다.

-> 그래서 너무 많은 변수를 한꺼번에 회귀 분석에 넣거나 하면 안 된다.

-> 대개 주요 효능에 대한 1차 결과를 하나 보고, 이차 효능이나 부작용 등에 대한 1~2개의 2차 결과를 더 보는 방식으로 논문을 설계하라고 하나, 대부분의 사람들이 더 많은 요인들을 분석해 본다.(고생해서 얻은 데이터가 아깝다 보니)

) --> 

[통계학의 가장 중요한 부분]

randomization을 잘 시켜 주고 -> N수를 최대한 많이 확보해 주고 -> 변수는 너무 많아지지 않게 해 주기[검정력이 떨어지니]

) --> 

___________________________________________________________________________

[1종 오류, 2종 오류]

) --> 

실제값이 참

실제값이 거짓

관찰값이 참

a

b

관찰값이 거짓

c

d

) --> 

여기서 우리가 날려 버려야 할 좋지 못한 data가 바로 bc 인데 bfalse(+)이고, cfalse(-)이다.

) --> 

false (+)= alpha error (alpha ) = p 값 이라고 생각하면 된다.

(p 값은 귀무가설을 증명하는 게 아니라, 이 귀무가설이 사실이 아님을 반증하는 척도다)

false (-)= beta error (beta )

검정력:-beta(b)

) --> 

좋은 실험은 검정력이 > 0.8 은 되어야 하고 p<0.05는 되어야 한다고 본다.

beta error < 0.2 미만으로 나오게 하고(20% 미만), alpha error< 0.05 미만으로 나오게 하고(5% 미만)자 한다.

-> 딱 봐도 5% 미만으로 기준을 잡은 alpha error 가 더 중요하다. 이건, 효과도 없는데 효과가 있다고 실수로 나온 값이라서 독약인데 치료약인 줄 알고 환자들에게 주다가 대 참사가 벌어질 수도 있다. beta error , 뭐 안 주면 그만이다. 다른 대체 치료약들도 있을 거고 말이다. 연구한 사람이나 제약회사만 아쉬울 따름이다.

) --> 

_____________________________________________________________________________

[본페로니 검정] (p 값이 계속 인플레이션 되는 걸 막기 위한 방법) [124page]

125page에 나오는 표8.1을 보면 검정 횟수가 올라갈수록 p 값이 확 올라가서 50번 정도만 검정 횟수가 늘어나도 p=0.92에 가까워 버림. 100번 정도 하면 p=0.999가 됨. 이 말인즉슨, 100번 중 1번 정도는 우연으로도 기준을 만족하는 값이 나와 버릴 수 있다는 것이다. 이런 p 값의 inflation을 막아야 한다.

) --> 

p=0.05 라는 기준 자체도 임의적이긴 한데 이러한 alpha error5미만으로 잡는 것도 여러 실험을 계속 반복하고 그 때 그 때마다 p<0.05를 동일하게 유지하다 보면 한 100번 정도 실험이 반복되면 사실은 치료 효과가 없는데도 확률상 효과가 있는 것처럼 나와 버리는 수가 있다.

-> 그래서 본페로니 검정 같은 보수적인 방법을 써서 횟수가 늘어날수록 기준을 더 엄격하게 잡는 것이다. (즉 모든 %를 비교 횟수로 나눠 버리는 것이다.)

-> 본페로니 검정은 기준이 엄격하다 보니, false(+)가 생기는 건 확 막아주는데 false(-)가 속출하는 경우도 많다. , 나름 효과가 있는데 효과가 없는 것인 양 결과가 나올 수 있다. 하지만 이건 감수하는 거다. false(+)가 많아져서 효과도 없는데 효과가 있다는 결과가 산출되서 파국을 맞이하는 것보단 낫기 때문이다.

 

 

 

____________________________________________________________________________

[ITT(intend to treat)LOCF 개념]

결국 ITT 는 치료할 의향을 지닌 군을 분석하는 것으로 실험을 오랜 기간 진행하다가 만료 기간을 조금 남긴 상태에서 몇 명이 탈락했을 때, 처음부터 치료할 의향이 있었던 몇 사람의 DATA를 포기하지 않고, 그대로 끌고 나가자는 개념으로서 ITT를 구현하는 하나의 방법이 바로 LOCF 이다.

 

last observation carried forward의 약자로, 그 사람이 떠나기 전 마지막으로 남긴 data11이라면 이 값을 남은 몇 주간 계속 동일하게 공식에 넣는 것이다.

 

-> 이 책에 나와 있는 충격적인 진실을 보자면, 이전에는 이렇게 ITT의 한 방법인 LOCF를 적용하는 이유가 그저 DATA가 누락되는 게 아까워서 쓰는 차선책으로만 간주했었는데 오히려 이렇게 LOCF를 해 주는 게 더 정확한 결과값을 얻는 방법이라고 저자는 주장한다.

-> 즉 처음에 randomization을 통해서 얻은 전체 그룹이 있는데, 여기서 몇 명이 빠져 나가버리면 더 이상 randomization 했던 의미가 상실되어 버리고, 깨져 버린다. 이 무작위화된 data 군을 파괴시키느니, 차라리 인위적인 값을 좀 넣더라도 전체 군을 살려 두는 게 더 중요하다고 보는 것이다.

-> ITT 방법은 가장 보수적인 방법 중 하나라고 볼 수 있다.

___________________________________________________________________________

[Generalizability](일반화 가능성)우리가 만약 흑인 남자에게 항우울제가 효과적인지 실험했는데, 그 실험 결과가 긍정적이었다고 해서 이걸 백인 여성 등 다른 race에 적용하는 건 위험하다는 것으로 그래서 inclusion criteria, exclusion criteria 가 중요하다.

-> 임상에서의 결과를 효능(efficacy)이라고 부르고, 실제 현실에서 나타나는 결과를 효과(effectiveness) 라고 부른다.

_____________________________________________________________________________[위약]

정신과에서는 위약이라는 개념도 의미가 있는 게 대부분의 정신 질환은 자연적으로 (적어도 짧은 기간 내에) 호전된다는 사실을 인식할 수 있게 되며, 약제를 사용하는 것이 병의 자연 경과를 넘어서는 충분한 이득을 주기 때문에 위험을 무릅쓸 만하다는 것을 보여주기 때문이다.

) --> 

*모든 이미지는 구글 이미지에서 가져왔습니다.* 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

 

 

[ANOVA] (Analysis of variance)

 

 

t-test의 확장이자 형님뻘 됩니다.

 

우리 말로는 분산분석이라고 합니다.

 

t-test2개의 군에 대한 검정이라면, ANOVA3군 또는 그 이상에 대한 검정입니다.

 

t-test가 확장되었다고도 볼 수 있습니다.

 

이름은 전혀 다르지만 3군으로 늘었을 뿐, 결과변수가 연속변수라는 점에서는 동일합니다.

 

종속 변수가 서열변수라면 어떻게 할까요?

-t-test 에 비모수 검정인 Mann-Whitney U-test 가 있었다면, 세 그룹에서는 ANOVA의 비모수 검정인 Kruskal-Wallis H test가 있습니다.

 

 

[Kruskal-Wallis H test]

서열변수 일 때 사용하고, 모수성이 없다고 판단될 때, 즉 정규분포성이 없는 연속변수인 경우에도 사용합니다.

-Mann-Whitney U test와 완전히 동일한 원리임을 알 수 있습니다.

 

따라서 Mann-Whitney U test의 확장이 Kruskal-Wallis H test라고 보면 됩니다.

 

ANOVA의 귀무가설은 ‘3군이 통계적으로 차이가 없다는 것이기 때문에 만일 ANOVA에서 p=0.001이라고 하면 ’3개의 군이 동일하다라는 귀무가설을 기각하게 되기 때문에 ’3개의 군이 동일하지는 않다고 결론짓게 됩니다.

 

그러면 우리의 관심은 자연스럽게 그중에 어떤 군이 다른 군에 비해서 더 뛰어난가, 그렇지 않은가에 관심이 쏠리게 됩니다. , 다음 단계로 2개의 군을 서로 비교해 보는 것만이 남았다는 겁니다. 3개의 군에서 항상 생각해야 하는 문제입니다.

 

이것이 사후검정(post hoc test), 다중비교(multiple comparisons), 또는 pairwise comparisons 등으로 불립니다. 다시 한번 강조하지만 ANOVAKruskal-Wallis H test에서는 반드시 해야 하는 것입니다.

 

 

[카이 제곱 검정]

두 군에 대해 명목변수를 검정할 때 사용하였던 카이제곱은 세 집단 이상에 대해서도 쓸 수 있습니다.

 

(카이제곱 안에는 Fisher's exact test도 포함되어 있다는 것을 명심합시다.)

 

카이제곱의 경우에 사후 검정이란 말은 잘 사용하지 않지만, 개념은 그대로 살아 있어서 두 군씩 비교하게 됩니다.

 

두 군을 다루는 t-test 등과 마찬가지로 세 집단 이상에서 다루더라도 다른 변수(나이, 성별, 체중 등)의 교란 변수에 대해서는 동일한 작업을 합니다. 통계적으로 3군이 차이 없다는 것, , p>0.05 이상이라는 것을 먼저 보여줍니다.

 

 

[ANCOVA] (ANalysis of COVAriance)

이제 좀 더 응용된 경우를 다루어 봅시다.

 

만일 다른 변수(교란 변수)들이 동일하지 않다면 어떻게 할까요?

 

예를 들어 무작위 배치를 했는데도 연령대가 두 군에서 달랐다면, 또는 무작위 배치가 근본적으로 힘든 상황이라면 실험 자체를 포기해야 할까요?

 

그냥 밀어 붙일까요?

 

만약 결과의 차이가 연령에 의한 차이라고 반론이 나오면 어떻게 하죠?

 

이 때 고려할 수 있는 것이 ANCOVA입니다.

 

ANalysis of COVAriance의 약자

 

구조는 이렇습니다. A,B,C, 이렇게 3군이 된다고 하면 관심이 있는 변수, 그리고 교란작용을 하는 변수, 최소한 3개의 변수가 있는 상황입니다.

 

관심 갖고 있는 3개의 군이 독립변수에 해당합니다.

 

DV(dependent variable)라는 것이 결과적으로 알고자 하는 관심변수이면서 결과변수이자 종속

변수가 됩니다.

 

그리고 CVconfounding variable교란변수입니다.

 

원래 동일하기를 바라던 변수인데 동일하지 않아서 어떻게 할까 애를 먹고 있는 변수입니다.

 

교란변수의 효과를 없앤 ANOVA 가 즉 ANCOVA입니다.

 

http://www.vassarstats.net/ancova3.html 에 가서 다양한 통계를 돌려볼 수 있습니다.

 

   

 

-[한눈에 쏙쏙 의학통계 배우기] 에 나온 내용임-

 

 

 

※ 모든 이미지는 구글에서 가져왔습니다.

 

 

 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

 

 

 

1. 알파=false(+)=여기서 + 라는 건 대립가설을 채택한다는 건데 false (+) 는 대립가설을 우연히 채택할 확률=즉 귀무가설을 우연히 기각할 확률을 의미한다. [원래 대립가설을 채택하면 안되고, 귀무가설을 채택해야 할 상황인데 반대로 일이 벌어진 경우다]

) -->

 

2.베타=false(-) = 여기서 - 라는 건, 귀무가설을 채택한다는 거니까, false(-) 는 귀무가설을 우연히 채택할 확률=즉 대립가설을 우연히 기각할 확률이다. [원래 귀무가설을 채택하면 안 되고, 대립가설을 채택해야 하는데 반대로 일이 벌어진 경우다?]

) -->

 

3. 변수가 많아지면 N수도 많아져야 그나마 신뢰성이 생긴다.

) -->

 

4. 메타 분석은 내가 환자를 따로 enroll 하지 않아도 되는 편의성이 있다. 기존에 나온 연구들을 끌어 모와서 새로운 결과를 창출하는 것이기 때문이다. 하지만 [블랙 스완]이라는 책을 보면 나오는 문제가 메타 분석에도 적용된다. 쓰레기 채권이 1장만 있으면 신뢰가 떨어지지만 수백장의 쓰레기 채권을 모으면 더 높은 단계의 새로운 금융 상품을 만들 수 있다. 이게 바로 금융의 마법이라는 점이다. 이런 식으로 논문이 오용될 수 있다. 그리고 각각의 논문이 setting이 다르기 때문에 이런 점도 고려해야 한다.

) -->

 

5. 회귀 모델 세울 때 변수가 너무 많아지면 서로 간의 연관성이 생겨서 (공선성), 정확도가 떨어질 수 있다. 예를 들어 나이와 유병기간은 서로 공선성이 클 것이다. 나이가 많은 분이면 아무래도

유병기간도 길어질 테니 말이다.

) -->

 

6. [블랙스완]이라는 책을 사 보자.

) -->

 

7. 주로 사회경제적 지위가 낮은 사람이 연구 실험에 많이 참여한다[실험에 참여하면 돈도 주고 혜택을 주니까 말이다], 이렇게 Bias가 생기는 걸 완전히 막기는 불가능하다.

) -->

 

8. Relative Risk Odds Ratio를 비교해 보자. RR은 전향적 코호트 연구에서 많이 사용한다. 누가 질병군이고, 대조군인지는 모르는 상태이고 Risk factor 는 확실히 알고 있는 상태다. 그래서 2x2 table 로 그려 보면 질병군, 대조군이 아직 나뉘지 않았으니 왼쪽 위부터 오른쪽 방향으로 a,b 그리고 왼쪽 아래가 c, 오른쪽 아래가 d 라고 한다면

RR 구할 대 a/a+b 가 되고 c/c+d 가 될 것이다.

odds 는 일종의 승산인데 이건 환자-대조군 연구 때 쓰는 걸로 이미 환자군, 대조군은 알고 risk factor 가 명확하지 않은 상태다. 그러므로, 각각의 oddsa/c, b/d 가 될 것이고, odds ratio a/c / b/d 가 될 것이다. 즉 질병이 있는 군에서 위험 인자를 지닐 odds와 질병이 없는 군에서위험 인자를 지닐 odds 들을 구하고 각 odds 의 비를 구하는 것이다.

) --> 

9. 일단 회귀모델을 세우고 나서 각각의 차이가 10% 이내면 타당하다고 보는데 이 10%는 마치 p값이 5%인 것처럼 임의적인 값이다. p=alpha=1종 오류 값은 0.05(5%) 미만, beta=2종 오류는 0.02(20%) 미만으로 나오게 해야 함.

1-beta=검정력=sensitivity> 0.8 이상은 나와야 함. 1-alpha=specificity

) -->

 

10. post hoc test 는 사후 분석인데 내가 원하던 1차 결과 얻고 나서, data를 다시 활용해서 다른 결과들(2차 결과)을 도출할 때는 N수를 늘려 줘야 한다. , 결과값을 더 엄격하게 세워줘야 한다.

) -->

 

11. P 값도 시행 횟수가 많아지면 inflation 이 될 수 있다. 그래서 1000번 정도 중에 1번은 우연하게 p값을 충족해 버리는 오류가 생길 수 있다. 이걸 막기 위한 보수적 방법이 본페로니 검정이다.

시행 횟수로 p값을 나눠져 버리는 것이다.

) -->

 

12. 근거수준은 level I 이 최상위다. Double-blind 되고, RCT인 연구가 최고의 근거 수준을 지닌다. 그 다음이 Double blind 는 아니지만 RCT가 유지되는 경우, 그 다음은 대규모 연구이긴 한데 Randomization 이 안된 연구(ex) 코호트 연구 등), 그 다음은 N수가 20~50 사이정도 되는 연구, 가장 근거 수준이 낮은 연구는 Case report 정도가 될 것이다.

) -->

 

13. ITT=intention to treat 으로서 처음 enroll 할 때부터 환자군으로 골라둔 군이다. 이 군에서 연구 도중 f/u loss가 될 위기가 오고, drop out 될 것 같으면 그 환자를 빼버리면 초기에 세워둔 randomization이 깨져 버리기 때문에 오히려 객관성이 떨어질 수 있다. 그래서 LOCF (last observation carried forward)를 사용하는데, 가장 마지막에 나온 값을 그 이후에도 동일하게 적용하는 거다.

-> 가량 12주 연구 프로그램인데 11주차 때 한 피험자가 drop out 되었다면 마지막 BDI 점수인 10점을 12주 차에도 동일하게 사용해서 식을 계산하는 거다.

 

 

 

※ 모든 이미지는 구글에서 가져왔습니다.

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

 

 

2018.1.30(화)

 

  일단 논문을 보다가 표를 보면 그래프를 그려 본다.

 

  Relative Risk 라든지, Odds ratio , 그리고 또 다른 Effect size 중 하나인 Cohen's d 와 같은 것은 그래프로 표현할 때는 따로 고려하지 않아도 된다.

 

  그저 95% CI(Confidence interval) 을 그림에 그려 주는데 0과 1을 그래프에 표시해 둔다.

 

  여기서 RR, OR 등을 기준으로 1이라고 하는 것은 우리가 관찰하고자 하는 군과 대조군 사이에 차이가 없다는 것으로서 일종의 귀무가설과 같다.

 

  이 1을 통과하는 그래프가 그려진다면 그 실험은 유의미하지 않을 것이다.

 

  제시된 p 값만 보는 것보다 CI 는 더 많은 것을 알려 주기 때문에 더 유용하다.

 

  1을 중심으로 양측에 거의 대칭을 이루고 있는 그래프가 그려진다면​ 그 실험은 잘 설계된 것일 것이고, 대칭이 더욱 정확할 수록 P 값은 더 높게 나올 것이다.

__________________________________________________________________________________________________________________________

 

  Post hoc test 는 우리가 기존에 이 실험을 통해서 알고자 했던 값인 1차 결과가 아니라, 모아둔 data 를 가지고 2차 결과들을 보는 검사라고 볼 수 있다.

 

__________________________________________________________________________________________________________________________


  표에 제시된 F 값은 결국 회귀분석을 유추할 수 있게 도와준다. 그 옆에 model 들이 다양하게 적혀 있는데 아마 여러 가지 변수들을 controlled 시켜 놓고, 우리가 알고자 하는 '변수'만을 관찰해 보면서 결과 값의 변화 양상을 관찰하는 것이다.

_________________________________________________________________________________________________________________________

 

  P 값이 0.05 보다 작아야 유의미하지만 0.05~0.1 사이 정도 값이 나오면 유의미하지는 않지만 일종의 경향성이 있는 정도는 되므로 의미가 아주 없는 건 아니다. 이런 기준들이 다소 임의적으로 보일 수 있지만, 간과할 수 없는 요인들이다.

 

_________________________________________________________________________________________________________________________

 

  NNT나 NNH 개념은 잘 알아두는 게 좋다. NNT는 Number needed to treat의 약자로서 이 값이 작을 수록 효과 크기는 더 커진다고 볼 수 있는 것이다. 가령 항우울제의 치료 효과를 보고자 하는데 NNT가 5로 나온다면 5명의 환자에게 약을 주면 그 중 한명에선 약이 효과를 보인다는 것이다. NNH는 Number needed to harm 의 약자로서 이 값이 5라면 5명의 환자에게 항우울제를 주면 그 중 1명 정도는 자살 사고가 있다거나 할 때 활용 가능한 값이다.

 


  일반적으로는 NNT 의 값이 크냐, 작냐를 가지고 효과 크기를 보겠지만 NNT 에서 Treat 의 대상 자체도 고민해 봐야 한다. 어떤 환자에겐 치료가 그 환자를 살리고 죽이는 문제일 수 있고, 다른 치료에서는 그 정도 무게를 지니진 않고 그저 좀 도움이 되는 정도라면 그 땐 NNT 값만 가지고 둘을 비교하는 건 무리다.

 


 

  어떤 경우에는 NNT가 100이 넘어가더라도 한번 걸렸다 하면 사람이 죽는 문제라면 그건 의미가 있는 거고, 어떤 경우에는 NNT가 5로 낮게 나왔다 하더라도 큰 의미가 없는 효과일 수도 있으니까 말이다.


__________________________________________________________________________________________________________________________

 

  통계학에서는 왜 바로 대립가설을 검증하지 않고, 일단 귀무가설(H0)을 세워 놓고 이것이 기각되는지 그렇지 않은지를 보는 방식으로 가설을 검증하는 것일까?

-> 과학이란 무엇인가? 라는 과학철학적 질문과 맞닿아 있다.

 

-> 실증주의 학파(빈 학파 등) 등은 실증주의를 주창하고, 귀납적으로 문제에 접근하길 원했으나 18세기 데이비드 흄이 제기했던 귀납의 문제를 고민해 봐야 한다. 즉, 여러 가지 관찰 사례만 가지고 일반화된 결론을 도출하는 건 불가능하기 때문이다. 우리가 확실히 말할 수 있는 건 그 이론이 잘못되었느냐에 관한 것이지, 그 이론이 옳은지는 입증할 방법이 없다.

-> 그래서 나온 것이 칼 포퍼의 '반증주의'다.


 

  통계학에서 이와 같은 방식을 차용한 것이다.

 


 

(그러나, 문제도 있다. '반중'이 안 되는 논리도 많다. 가령 동전을 던져서 앞면이 나올 확률은 1/2 이다. 라고 말하는 확률적 진술은 반증할 수 없을 것이다. 그리고 뉴턴도 물리학을 정립할 때, 반증을 활용하지 않고 굵직한 이론들을 많이 내었다. 그러면 뉴턴의 과학도 사이비 과학일까?)

 

 

 

※ 모든 이미지는 구글에서 가져왔습니다.

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

 

 

 

[의사가 알아야 할 통계학과 역학] -Ghaemi 저자

 

이라는 책을 읽고 있는데, 정신의학자의 관점이 잘 가미되어 있고, 의학과 통계학의 균형을 잘 갖추고 있다.

 

  저자의 철학적이고 인문학적인 접근 방식도 상당히 마음에 드는데, 과학의 정의를 다시 재정의 하고 귀납의 문제를 잘 훑어 준다.

-> p 값의 임의성에 대한 경고도 새겨 볼 만 하다.


________________________________________________________________________________________________________________________

) -->

   

층화(stratification): 이게 회귀(regression)에서 univariate(단변수)를 이용한 회귀 방정식을 세우는 것과 뭐가 다른지가 의문.

) -->

 

회귀(regression): 여러 가지 변수가 결과값에 영향을 줄 수 있으므로 이들간의 관계를 규명하기 위해 활용하는 기법인데, 우리가 알고자 하는 관찰변수를 제외한 다른 변수들은 다 controlled(또는 corrected 또는 adjusted) 시켜야 한다.

-> 실제 논문을 쓸 때도 이렇게 adjusted 된 값을 표에 표기하곤 하는데, 논문을 심사하는 측에서 실제 raw data를 한번 보내보라고 요구할 때도 있다. 그러다가 부정을 저지른 게 적발되기도 한다. 황우석 사태 등이 그래서 발생하는 것이다.

) --> 

[80page]

 

교란인자 평가 방법 [effect size 에 대하여]

 

[1] p-값 사용하는 것

[2] 집단 간 차이의 크기를 단순 비교하는 것

-> [2]번이 바로 effect size를 평가하는 건데, effect size(효과 크기)odds ratio relative risk 등도 포함되고 여러 가지가 다 포함되는 개념이다.

-> 교란효과 감지하기에는 후자가 더욱 민감한 방법이다.

-> t 검정에선 d , 그리고 product moment 것도 있고, Z 분포에선 h , 카이 분포에서는 오메가 값, F 검정에선 f , 다중 회귀에선 f^2 등이 effect size를 의미함.

-> 표준편차로 effect size를 나눠주면 단위들이 없어지므로 여러 실험에서 절대적인 값으로 비교가 가능하다. [표준편차라는 것도 결국 특정 값과 동일한 부호를 사용하므로]

-> 표본 크기가 아무리 작아도 effect size 가 크고 표준편차가 작기만 하면 통계적 검정력이 좋은 것인데 실제 이런 경우는 거의 없다. effect size 가 큰 경우가 극히 없다 보니, 대부분 N 수라도 늘려 보려고 혈안이 되어 있는 것이다.

) -->

 

  왜냐하면 effect size 는 실제 두 값의 차이를 구체적으로 알려주기 때문이다. 그리고 이 값이 대략 10% 정도 차이가 있으면 교란효과가 작용하고 있을 가능성이 있다고 간주하는데 이 10%라는 것도 마치 p=0.05라는 기준을 만든 것처럼 임의적인 기준이긴 하다.

) -->

 

[83page]

 

- 회귀 방정식 설명에서 나오는 beta(b)는 우리가 2종 오류=beta error 라고 할 때의 b 와는 다른 것이다. [기호 헷갈리지 않게 조심하기]

) --> 

- effect size 의 두 종류 [1] 절대적 효과 크기 [2] 상대적 효과 크기

) --> 

  상대적 효과 크기라는 것은 결국 전체 분의 효과 있는 부분으로 분수 형태로 나타낼 수 있으므로(% 라는 개념 자체가 전체 분의 부분을 의미하므로) 수학 등식을 봤을 때 relative risk(RR) 임을 파악할 수 있다.

-> Odds ratio 는 이와 다르게 각각의 odds를 구해서 그 비를 나타낸 것이다. relative risk %(확률)이라면, odds 비는 일종의 가능성을 나타내고 %가 아니다.

) --> 

-이변량 회귀 분석의 단점은 여러 가지 변수가 결과에 영향을 미친다 할 때, b1,b2,b3 등을 각각 하나씩 비교해 가지고서는 각 변수들 간에 서로 영향을 미치는 효과들에 대해서는 측정할 수 없다는 단점이 있다.

 

 


-> 그래서 다변량(multivariate) 회귀 분석을 사용하는 거다.

-> 회귀분석 식을 그래프로 그리면 실험에서 우리가 알고자 하는 실험 변수의 effect size 가 바로 그래프의 기울기(slope)가 된다.

-> 아무리 변수가 많아도 y 절편만 달라지고, 기울기는 다 동일하도록 adjusted를 시켜 준다.

) -->

 

주의사항

-> 다변량 회귀분석을 할 때 변수가 너무 많아지면 공선성(collinearity)이라는 문제가 생기는데 즉 변수간에 서로 상관관계가 있을 때 어떤 변수가 유의미한지 헷갈리게 만들어 버릴 수 있다.

) -->

 

relative risk(RR)Odds ratio(OR) 구분이 애매해 보인다.

-> RR은 직관적으로 이해가 쉬운 편이다. 2X2 TABLE 로 보거나 수학적으로 표현해 보면 한눈에 더 들어오는데 전체 분의 부분 이라는 분수 형태를 띄고 %, 확률이라고 볼 수 있기 때문이다.

-> RR은 전향적 코호트 연구에서 많이 사용되는데 특정 인구 집단인 cohort를 대상으로 전향적으로 쭉 조사를 해 보는 거다. 아직 병이 걸렸는지 안 걸렸는지는 잘 모르는 상태이지만 risk factor(위험인자)로 의심되는 것들은 이것저것 다 알고 있는 상태다.

) -->

 

  반면에 OR은 우리 나라 문화에서는 좀 낯설다. odds(공산,승산)이라고 번역되기도 하는데, 전체 분의 부분이 아니라 각각의 비를 odds라고 부른다. 수학적으로 표시해 보면 B/D, A/C처럼 분모가 전체의 합이 아니라는 걸 알 수 있다.

 

 


-> 이건 환자-대조군 연구에서 활용되는데, 이 연구는 이미 환자(병에 걸린 군)와 대조군(병에 안 걸린 군)을 알고 있는 상태에서 미지의 위험인자 유/무를 알아보는 거다.

) --> 

) --> 

질병 발생

질병 미발생

전체

위험인자 있음

A

B

A+B

위험인자 없음

C

D

C+D

) --> 

A/A+B / C/C+D -> 이게 RR 이다.

) -->

 

질병이 있을 때 위험인자의 odds: A/C

질병이 없을 때 위험인자의 odds: B/D

A/C / B/D -> 이게 OR이다. [odds들의 비]

) -->

 

) --> 

질병 발생

질병 미발생

전체

위험인자 있음

P2

1-P2

1

위험인자 없음

P1

1-P1

1

) --> 

) -->

 

  OR을 수학적으로 표현해 보면 P2(1-P1) / P1(1-P2) 로 쓸 수 있다.

RRP2/P1 이다. P1P2 0에 가까워 지면 RROR이 수학적으로 거의 같아지는 걸 알 수 있다.

-> P1P20에 가까워 진다는 것의 의미는 질병 발생률이 거의 0이라는 거다.

-> 즉 질병발생률이 감소하면 감소할수록 ORRR과 거의 같아지는 거다.

) -->

 

  95% CI(confidence interval): 모평균과 모표준편차를 추정하기 위해 표본을 추출할 때 점추정이 아니라 구간 추정(interval estimation)을 한 것으로 이 구간 내에 실제 모수가 존재할 가능성이 95% 라고 신뢰할 수 있음을 의미한다.

 

-> 논문 등에 잘 나오는 막대 그래프 누워 있는 형태의 그래프를 보면 0이 기준이다. 이게 바로 귀무가설을 의미하는데 실험군과 대조군 간의 차이가 없다(0이다) 라는 의미이다. 0에 닿아 있느냐 그렇지 않느냐가 가장 중요한 기준이다.

-> 0에 닿아 있지 않으면서 그래프가 오른쪽에만 그려져 있다는 건, 제약회사가 가장 원하고, 연구자가 가장 원하는 것이다. 즉 치료군이 대조군에 비해 긍정적인 효과가 있다는 것이다.

-> 반대로 0에 닿진 않아도 그래프가 0 의 왼쪽에만 그려지면, 치료군(실험군)과 대조군이 차이를 보이긴 하는데 그 효과가 negative 하다는 것이다.

) -->

 

  또 다른 그래프를 보면 01이 기준으로 나와 있다. OR 95% CI 로 제시되어 있는데 OR 이나 RR에선 1이 기준이 될 것이다. 즉 그래프가 1에 안 닿는 게 의미가 있는 거다. 그리고 1의 오른쪽에만 그래프가 그려지면 긍정적 의미가 있는 것이다.(효과가 있다는 의미)

 

-> 통계학 책을 보고나면 p>0.05 라고 해서 다 의미가 동일하게 없는 건 아니고, 1에 살짝만 닿아 있고, 긍정적인 오른쪽으로 그래프가 쭉 그려진 것은 비록 통계 기준에는 못 미쳐서 유의하진 않지만 일종의 tendency(경향성)은 있다고 표현 가능하다.

-> 이렇게 그래프가 쫙 늘어진다는 건 표본수가 적어서 CI의 간격이 늘어난 것이다.

-> 만약 n 수를 더 크게 해서 연구를 했더라면 CI Interval 자체가 확 줄면서 p<0.05 , 1보다 더 오른쪽에만 그래프가 그려졌을 수도 있다.

-> CI 의 간격은 좁을수록 값어치가 있다. 우리가 어떤 값을 예상할 때 0~100 사이 값이라고 말하는 거랑 0~3 사이야 라고 말해 주는 건 차이가 크다. 그 만큼 정확한 예측은 간격이 좁은 것이다.

-> 표본 수가 많아야 중심극한 정리에 의거하여 정규분포를 이루게 되므로 값어치가 더 높다.

) -->

 

  137page 아래에 나온 표8.2 표를 가로로 누운 그래프 형태로 바꿔서 그려 보면 한눈에 들어 온다. 이 때 상대위험도는 고려 안해도 되고, 그래프에 01을 기준으로 그려 놓고, 95% CI 에 나온 숫자만 염두에 두면서 쭉 그려주면 된다.

-> 다 그리고 나면 모든 수치들이 다 1을 통과하기 때문에 실험군과 대조군에 차이가 없다는 점을 알 수 있다. 즉 라모트리진과 위약 사용 군에서 별 차이가 없는 것이다.

-> 각각의 항목을 보면 조증 삽화 발생에 있어서 상대 위험도가 4.144배 가까이 차이가 있긴 한데, 95% CI를 그래프로 그려보면 간격(범위)이 너무 넓어서 별 의미가 없다. N수가 너무 적어서 그럴 수도 있겠다.

) --> 

____________________________________________________________________________

 

[사후 분석]

 

우리가 논문을 발표하고 나면 1차 결과가 나온다.

-> 그런데 힘들게 모은 data를 가지고 한 가지 결과만 내기가 아쉬울 수 있어서 2차 결과를 내는 경우도 많은데 이 대 post hoc(사후 분석)을 한 논문은 그나마 봐줄 만한 거다. 이런 사후 분석 안 하고, 그냥 2차 결과 제시한 건 별로 의미가 없을 것이다.

-> ex) 특정 약을 사용했을 때 사망률 감소만 보고자 했었으나, data 힘들게 모와둔 걸로 효과성도 검사해 보고 싶고, 이것저것 알아 보고 싶은 것이다.

-> 공선성이 문제가 된다.

-> 그래서 너무 많은 변수를 한꺼번에 회귀 분석에 넣거나 하면 안 된다.

-> 대개 주요 효능에 대한 1차 결과를 하나 보고, 이차 효능이나 부작용 등에 대한 1~2개의 2차 결과를 더 보는 방식으로 논문을 설계하라고 하나, 대부분의 사람들이 더 많은 요인들을 분석해 본다.(고생해서 얻은 데이터가 아깝다 보니)

) -->

 

[통계학의 가장 중요한 부분]

randomization을 잘 시켜 주고 -> N수를 최대한 많이 확보해 주고 -> 변수는 너무 많아지지 않게 해 주기[검정력이 떨어지니]

) --> 

 

___________________________________________________________________________

 

[1종 오류, 2종 오류]

) --> 

실제값이 참

실제값이 거짓

관찰값이 참

a

b

관찰값이 거짓

c

d

) -->

 

  여기서 우리가 날려 버려야 할 좋지 못한 data가 바로 bc 인데 bfalse(+)이고, cfalse(-)이다.

) -->

 

false (+)= alpha error (alpha ) = p 값 이라고 생각하면 된다.

(p 값은 귀무가설을 증명하는 게 아니라, 이 귀무가설이 사실이 아님을 반증하는 척도다)

false (-)= beta error (beta )

검정력:-beta(b)

) -->

 

  좋은 실험은 검정력이 > 0.8 은 되어야 하고 p<0.05는 되어야 한다고 본다.

beta error < 0.2 미만으로 나오게 하고(20% 미만), alpha error< 0.05 미만으로 나오게 하고(5% 미만)자 한다.

-> 딱 봐도 5% 미만으로 기준을 잡은 alpha error 가 더 중요하다. 이건, 효과도 없는데 효과가 있다고 실수로 나온 값이라서 독약인데 치료약인 줄 알고 환자들에게 주다가 대 참사가 벌어질 수도 있다. beta error , 뭐 안 주면 그만이다. 다른 대체 치료약들도 있을 거고 말이다. 연구한 사람이나 제약회사만 아쉬울 따름이다.

) -->  

_____________________________________________________________________________

 

[본페로니 검정] (p 값이 계속 인플레이션 되는 걸 막기 위한 방법) [124page]

 

 

  125page에 나오는 표8.1을 보면 검정 횟수가 올라갈수록 p 값이 확 올라가서 50번 정도만 검정 횟수가 늘어나도 p=0.92에 가까워 버림. 100번 정도 하면 p=0.999가 됨. 이 말인즉슨, 100번 중 1번 정도는 우연으로도 기준을 만족하는 값이 나와 버릴 수 있다는 것이다. 이런 p 값의 inflation을 막아야 한다.

) --> 

  p=0.05 라는 기준 자체도 임의적이긴 한데 이러한 alpha error5미만으로 잡는 것도 여러 실험을 계속 반복하고 그 때 그 때마다 p<0.05를 동일하게 유지하다 보면 한 100번 정도 실험이 반복되면 사실은 치료 효과가 없는데도 확률상 효과가 있는 것처럼 나와 버리는 수가 있다.

-> 그래서 본페로니 검정 같은 보수적인 방법을 써서 횟수가 늘어날수록 기준을 더 엄격하게 잡는 것이다. (즉 모든 %를 비교 횟수로 나눠 버리는 것이다.)

-> 본페로니 검정은 기준이 엄격하다 보니, false(+)가 생기는 건 확 막아주는데 false(-)가 속출하는 경우도 많다. , 나름 효과가 있는데 효과가 없는 것인 양 결과가 나올 수 있다. 하지만 이건 감수하는 거다. false(+)가 많아져서 효과도 없는데 효과가 있다는 결과가 산출되서 파국을 맞이하는 것보단 낫기 때문이다.

 

____________________________________________________________________________

 

 

[ITT(intend to treat)LOCF 개념]

 

 

  결국 ITT 는 치료할 의향을 지닌 군을 분석하는 것으로 실험을 오랜 기간 진행하다가 만료 기간을 조금 남긴 상태에서 몇 명이 탈락했을 때, 처음부터 치료할 의향이 있었던 몇 사람의 DATA를 포기하지 않고, 그대로 끌고 나가자는 개념으로서 ITT를 구현하는 하나의 방법이 바로 LOCF 이다. last observation carried forward의 약자로, 그 사람이 떠나기 전 마지막으로 남긴 data11이라면 이 값을 남은 몇 주간 계속 동일하게 공식에 넣는 것이다.

-> 이 책에 나와 있는 충격적인 진실을 보자면, 이전에는 이렇게 ITT의 한 방법인 LOCF를 적용하는 이유가 그저 DATA가 누락되는 게 아까워서 쓰는 차선책으로만 간주했었는데 오히려 이렇게 LOCF를 해 주는 게 더 정확한 결과값을 얻는 방법이라고 저자는 주장한다.

-> 즉 처음에 randomization을 통해서 얻은 전체 그룹이 있는데, 여기서 몇 명이 빠져 나가버리면 더 이상 randomization 했던 의미가 상실되어 버리고, 깨져 버린다. 이 무작위화된 data 군을 파괴시키느니, 차라리 인위적인 값을 좀 넣더라도 전체 군을 살려 두는 게 더 중요하다고 보는 것이다.

-> ITT 방법은 가장 보수적인 방법 중 하나라고 볼 수 있다.

___________________________________________________________________________

 

 

  [Generalizability](일반화 가능성)우리가 만약 흑인 남자에게 항우울제가 효과적인지 실험했는데, 그 실험 결과가 긍정적이었다고 해서 이걸 백인 여성 등 다른 race에 적용하는 건 위험하다는 것으로 그래서 inclusion criteria, exclusion criteria 가 중요하다.

-> 임상에서의 결과를 효능(efficacy)이라고 부르고, 실제 현실에서 나타나는 결과를 효과(effectiveness) 라고 부른다.

 

_____________________________________________________________________________

 

 

[위약]

 

  정신과에서는 위약이라는 개념도 의미가 있는 게 대부분의 정신 질환은 자연적으로 (적어도 짧은 기간 내에) 호전된다는 사실을 인식할 수 있게 되며, 약제를 사용하는 것이 병의 자연 경과를 넘어서는 충분한 이득을 주기 때문에 위험을 무릅쓸 만하다는 것을 보여주기 때문이다.

 

 

※ 모든 이미지는 구글에서 가져왔습니다. 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,