728x90
반응형
SMALL

통계학 책도 재미있게 읽을 수 있다. 

Bipolar disorder 의 거장(?) 이라고 하는 Ghaemi 선생님의 인문학적 통계학 저서다. 글로 쭉 풀어 쓴 통계학 책은 잘 읽어 보지 못했을 것이다.

이 책은 편견(Bias), 우연(Chance), 인과관계(Causation) 의 중요성을 설명하며

Randomization 의 우수성을 주창한다. 우리가 절대적으로 신봉하고 있는 P-value 값은사실 과학적 근거 없이 임의적으로 설정한 5% 라는 기준을 가지고 있으며, 모든 상황에서 다 적용하는 만능 수치가 아님을 강조하고 있다.

 

 

근거에도 수준이 존재하며 double-blind, RCT 연구의 중요성도 강조하고 있다. 그러나 근거 수준이 가장 낮은 Case report 등도 의미가 없는 것은 아니며, 때론 저명한 과학 저널에 실리는 논문들이 가장 중요하고 혁신적인 발견들은 놓치는 경우도 있음을 강조하기도 한다.

이 책의 매력은, 인간의 관찰과 사유의 '한계점'을 인정하고 시작한다는 점이다.

우리의 관찰과 학문 활동이 결코 객관적일 수 없으며, 극도의 주관성이 개입되어 있음을 전제한다. 그러다 보니, '과학의 정의'에 대한 고민으로 돌아가게 되며 칼 포퍼의 '반증 주의' 등도 한번씩 다뤄 주곤 한다.

다소 철학적인 내용이 섞여 있긴 하지만, 우리가 어떻게 하면 통계를 효율적으로 활용할 수 있을 지 그 비법이 잘 소개되어 있다.

 

 

통계학 책들을 보면 여러 가지 검정 방법들이 나열되어 있어, 마치 수학책을 보는 듯한 느낌이 강하다.

이 책은 통계학의 각론을 들어가기 전에, 우리가 기본적으로 지니고 있어야 할 배경 지식들을 훌륭하게 설명해 준다.

무엇보다도 '의학통계', 더 나아가 정신과 의사가 쓴 책이다 보니 예시들이 모두 정신과 약물 관련된 논문으로 수록되어 있다. 정신과 쪽 근무자들이라면 예시 하나 하나도 가슴으로 읽어 내려갈 수 있을 책이다.

 

훌륭한 논문들도 이 책에 나온 배경 지식을 가지고 들여다 보면, 많은 허점들이 보일 수 있다.

가령 Table 1 의 demographic characteristics 에서 p-value 값을 기재하여 혼란을 준다거나 말이다.

통계학에 신물이 나고, 수학에 진절머리가 난 이들에겐 이 책으로 돌아올 것을 추천한다. 천천히 사유하면서 배경 지식을 넓히고 나서 각론을 들어가도록 하자.

잘 쓰여진 훌륭한 책이다.​ 

 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

 

 

[ANOVA] (Analysis of variance)

 

 

t-test의 확장이자 형님뻘 됩니다.

 

우리 말로는 분산분석이라고 합니다.

 

t-test2개의 군에 대한 검정이라면, ANOVA3군 또는 그 이상에 대한 검정입니다.

 

t-test가 확장되었다고도 볼 수 있습니다.

 

이름은 전혀 다르지만 3군으로 늘었을 뿐, 결과변수가 연속변수라는 점에서는 동일합니다.

 

종속 변수가 서열변수라면 어떻게 할까요?

-t-test 에 비모수 검정인 Mann-Whitney U-test 가 있었다면, 세 그룹에서는 ANOVA의 비모수 검정인 Kruskal-Wallis H test가 있습니다.

 

 

[Kruskal-Wallis H test]

서열변수 일 때 사용하고, 모수성이 없다고 판단될 때, 즉 정규분포성이 없는 연속변수인 경우에도 사용합니다.

-Mann-Whitney U test와 완전히 동일한 원리임을 알 수 있습니다.

 

따라서 Mann-Whitney U test의 확장이 Kruskal-Wallis H test라고 보면 됩니다.

 

ANOVA의 귀무가설은 ‘3군이 통계적으로 차이가 없다는 것이기 때문에 만일 ANOVA에서 p=0.001이라고 하면 ’3개의 군이 동일하다라는 귀무가설을 기각하게 되기 때문에 ’3개의 군이 동일하지는 않다고 결론짓게 됩니다.

 

그러면 우리의 관심은 자연스럽게 그중에 어떤 군이 다른 군에 비해서 더 뛰어난가, 그렇지 않은가에 관심이 쏠리게 됩니다. , 다음 단계로 2개의 군을 서로 비교해 보는 것만이 남았다는 겁니다. 3개의 군에서 항상 생각해야 하는 문제입니다.

 

이것이 사후검정(post hoc test), 다중비교(multiple comparisons), 또는 pairwise comparisons 등으로 불립니다. 다시 한번 강조하지만 ANOVAKruskal-Wallis H test에서는 반드시 해야 하는 것입니다.

 

 

[카이 제곱 검정]

두 군에 대해 명목변수를 검정할 때 사용하였던 카이제곱은 세 집단 이상에 대해서도 쓸 수 있습니다.

 

(카이제곱 안에는 Fisher's exact test도 포함되어 있다는 것을 명심합시다.)

 

카이제곱의 경우에 사후 검정이란 말은 잘 사용하지 않지만, 개념은 그대로 살아 있어서 두 군씩 비교하게 됩니다.

 

두 군을 다루는 t-test 등과 마찬가지로 세 집단 이상에서 다루더라도 다른 변수(나이, 성별, 체중 등)의 교란 변수에 대해서는 동일한 작업을 합니다. 통계적으로 3군이 차이 없다는 것, , p>0.05 이상이라는 것을 먼저 보여줍니다.

 

 

[ANCOVA] (ANalysis of COVAriance)

이제 좀 더 응용된 경우를 다루어 봅시다.

 

만일 다른 변수(교란 변수)들이 동일하지 않다면 어떻게 할까요?

 

예를 들어 무작위 배치를 했는데도 연령대가 두 군에서 달랐다면, 또는 무작위 배치가 근본적으로 힘든 상황이라면 실험 자체를 포기해야 할까요?

 

그냥 밀어 붙일까요?

 

만약 결과의 차이가 연령에 의한 차이라고 반론이 나오면 어떻게 하죠?

 

이 때 고려할 수 있는 것이 ANCOVA입니다.

 

ANalysis of COVAriance의 약자

 

구조는 이렇습니다. A,B,C, 이렇게 3군이 된다고 하면 관심이 있는 변수, 그리고 교란작용을 하는 변수, 최소한 3개의 변수가 있는 상황입니다.

 

관심 갖고 있는 3개의 군이 독립변수에 해당합니다.

 

DV(dependent variable)라는 것이 결과적으로 알고자 하는 관심변수이면서 결과변수이자 종속

변수가 됩니다.

 

그리고 CVconfounding variable교란변수입니다.

 

원래 동일하기를 바라던 변수인데 동일하지 않아서 어떻게 할까 애를 먹고 있는 변수입니다.

 

교란변수의 효과를 없앤 ANOVA 가 즉 ANCOVA입니다.

 

http://www.vassarstats.net/ancova3.html 에 가서 다양한 통계를 돌려볼 수 있습니다.

 

   

 

-[한눈에 쏙쏙 의학통계 배우기] 에 나온 내용임-

 

 

 

※ 모든 이미지는 구글에서 가져왔습니다.

 

 

 

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,
728x90
반응형
SMALL

 

 

2018.1.30(화)

 

  일단 논문을 보다가 표를 보면 그래프를 그려 본다.

 

  Relative Risk 라든지, Odds ratio , 그리고 또 다른 Effect size 중 하나인 Cohen's d 와 같은 것은 그래프로 표현할 때는 따로 고려하지 않아도 된다.

 

  그저 95% CI(Confidence interval) 을 그림에 그려 주는데 0과 1을 그래프에 표시해 둔다.

 

  여기서 RR, OR 등을 기준으로 1이라고 하는 것은 우리가 관찰하고자 하는 군과 대조군 사이에 차이가 없다는 것으로서 일종의 귀무가설과 같다.

 

  이 1을 통과하는 그래프가 그려진다면 그 실험은 유의미하지 않을 것이다.

 

  제시된 p 값만 보는 것보다 CI 는 더 많은 것을 알려 주기 때문에 더 유용하다.

 

  1을 중심으로 양측에 거의 대칭을 이루고 있는 그래프가 그려진다면​ 그 실험은 잘 설계된 것일 것이고, 대칭이 더욱 정확할 수록 P 값은 더 높게 나올 것이다.

__________________________________________________________________________________________________________________________

 

  Post hoc test 는 우리가 기존에 이 실험을 통해서 알고자 했던 값인 1차 결과가 아니라, 모아둔 data 를 가지고 2차 결과들을 보는 검사라고 볼 수 있다.

 

__________________________________________________________________________________________________________________________


  표에 제시된 F 값은 결국 회귀분석을 유추할 수 있게 도와준다. 그 옆에 model 들이 다양하게 적혀 있는데 아마 여러 가지 변수들을 controlled 시켜 놓고, 우리가 알고자 하는 '변수'만을 관찰해 보면서 결과 값의 변화 양상을 관찰하는 것이다.

_________________________________________________________________________________________________________________________

 

  P 값이 0.05 보다 작아야 유의미하지만 0.05~0.1 사이 정도 값이 나오면 유의미하지는 않지만 일종의 경향성이 있는 정도는 되므로 의미가 아주 없는 건 아니다. 이런 기준들이 다소 임의적으로 보일 수 있지만, 간과할 수 없는 요인들이다.

 

_________________________________________________________________________________________________________________________

 

  NNT나 NNH 개념은 잘 알아두는 게 좋다. NNT는 Number needed to treat의 약자로서 이 값이 작을 수록 효과 크기는 더 커진다고 볼 수 있는 것이다. 가령 항우울제의 치료 효과를 보고자 하는데 NNT가 5로 나온다면 5명의 환자에게 약을 주면 그 중 한명에선 약이 효과를 보인다는 것이다. NNH는 Number needed to harm 의 약자로서 이 값이 5라면 5명의 환자에게 항우울제를 주면 그 중 1명 정도는 자살 사고가 있다거나 할 때 활용 가능한 값이다.

 


  일반적으로는 NNT 의 값이 크냐, 작냐를 가지고 효과 크기를 보겠지만 NNT 에서 Treat 의 대상 자체도 고민해 봐야 한다. 어떤 환자에겐 치료가 그 환자를 살리고 죽이는 문제일 수 있고, 다른 치료에서는 그 정도 무게를 지니진 않고 그저 좀 도움이 되는 정도라면 그 땐 NNT 값만 가지고 둘을 비교하는 건 무리다.

 


 

  어떤 경우에는 NNT가 100이 넘어가더라도 한번 걸렸다 하면 사람이 죽는 문제라면 그건 의미가 있는 거고, 어떤 경우에는 NNT가 5로 낮게 나왔다 하더라도 큰 의미가 없는 효과일 수도 있으니까 말이다.


__________________________________________________________________________________________________________________________

 

  통계학에서는 왜 바로 대립가설을 검증하지 않고, 일단 귀무가설(H0)을 세워 놓고 이것이 기각되는지 그렇지 않은지를 보는 방식으로 가설을 검증하는 것일까?

-> 과학이란 무엇인가? 라는 과학철학적 질문과 맞닿아 있다.

 

-> 실증주의 학파(빈 학파 등) 등은 실증주의를 주창하고, 귀납적으로 문제에 접근하길 원했으나 18세기 데이비드 흄이 제기했던 귀납의 문제를 고민해 봐야 한다. 즉, 여러 가지 관찰 사례만 가지고 일반화된 결론을 도출하는 건 불가능하기 때문이다. 우리가 확실히 말할 수 있는 건 그 이론이 잘못되었느냐에 관한 것이지, 그 이론이 옳은지는 입증할 방법이 없다.

-> 그래서 나온 것이 칼 포퍼의 '반증주의'다.


 

  통계학에서 이와 같은 방식을 차용한 것이다.

 


 

(그러나, 문제도 있다. '반중'이 안 되는 논리도 많다. 가령 동전을 던져서 앞면이 나올 확률은 1/2 이다. 라고 말하는 확률적 진술은 반증할 수 없을 것이다. 그리고 뉴턴도 물리학을 정립할 때, 반증을 활용하지 않고 굵직한 이론들을 많이 내었다. 그러면 뉴턴의 과학도 사이비 과학일까?)

 

 

 

※ 모든 이미지는 구글에서 가져왔습니다.

728x90
반응형
LIST

WRITTEN BY
케노시스
다양한 주제의 이야기들을 나누는 공간입니다.

,