책으로 수학, 통계, 머신러닝 등을 배우면서 이제는 real data를 한번 다뤄보고 싶다는 생각을 하던 중, 국가임상시험지원재단에서 주최하는 Korea Clinical Datathon 2019공고를 읽으며, 딱 맞는 기회라고 생각이 되었다. 다양한 전문가와 협업을 할 기회가 주어질 뿐만 아니라, MIT, Oxford, NUS 등의 다양한 기관에서 온 멘토들과 교류할 기회가 주어졌다.
8월 31일에 pre-wrokshop을 진행하였고, 그때 산부인과, 내과 전문의 선생님 두분과 마음이 맞아 상대적으로 젊은 팀을 꾸리게 되었다. 그리고 9월 20일~22일 본 대회가 진행되었다.
책상에서 공부할 때는 ‘이제 곧 데이터 있으면 재밌는거 해 볼 수 있지 않을까?’라는 생각을 하게 된다. 다양한 수학, 통계, 머신러닝 이론들을 금방이라도 의료에 적용해 볼 수 있을 것 같다는 생각을 한다. 그러나, 당장 간단한 연구를 하는 것조차 쉬운 일이 아니다.
연구디자인, raw data를 추출하는 것 부터, 전처리, 분석, 시각화, 발표까지… 그 과정에는 책상 앞에서는 알 수 없었던, 수많은 허들들이 있었다. 무엇보다 real clinical data가 얼마나 다루기 힘든 데이터인 지 알 수 있었다.
하나의 연구를 할 때 생각보다 훨씬 다양한 역량들이 요구된다. 모든 것을 다 잘할 수는 없지만, 할 줄은 알아야 팀원을 이해 할 수 있고, 그들과 좀 더 유연하게 소통할 수 있다고 느꼈다.
책상에서 수학, 통계, 의학 이론 공부만 하는 것이아니라, 분석도 해보고, 코딩도 해보고, 환자도 보고, 부딪히면서 배우는 것도 항상 중요하다는 것을 다시 한번 깨닫게 해줬다. 이론과 현실을 연결하는 것에는 내가 알고있는 이론의 깊이도 중요하지만 현실에서 부딪혀본 경험도 중요하다. 내가 제일 좋아하는 말 중 하나인 Learning by Doing !! 을 몸으로 느꼈다.
이번 대회에서 1등을 한 팀은, 중환자실 data인 MIMIC-III dataset으로 sepsis(패혈증) classification을 시도한 팀이었다. 연구 배경을 잠시 들어보니, sepsis는 하나의 disease라기 보다는 heterogenous한 syndrome에 가깝고, 최근 그것을 classification하려는 저널들도 나오고 있으며, 임상에서 sepsis를 볼 때 경험적으로 phenotype을 묶을 수 있다고 느끼셨고, 지금까지 적용하지 못한 방법론인 머신러닝 비지도학습으로 clustering을 해보면 뭔가가 나올 것이라는 기대감으로 시작하였다고 한다. 발표 때 보여줬던 연구 결과는 대단했다. MIMIC-III의 sepsis환자를 머신러닝으로 clustering했고 기존에 없었던 4가지 phenotype으로 나뉘어 졌다. 각 phenotype이 대부분의 임상변수에서 유의미한 차이를 보였고, 예후 또한 마찬가지였다.
아직 의학지식이나 데이터 분석에 대한 이해가 모자라기에 이 연구를 평가할 수는 없다. 여기서 얻을 수 있었던 인사이트는, 현재 병원 안팎에서 다양한 분석법의 개발, 컴퓨팅 파워의 발전, 여기저기 흩어져 있는 다양한 의료데이터의 표준화와 구조화 등의 혁신들이 이뤄지고 있고, 그것이 바탕이 된다면, 지금까지 할 수 없었던 다양한 일들을, 상상력만 있다면 가능해 질 것이라는 것이다.(당연히 위에서 말했듯이, 실력이 전제가 된다면…)
무엇보다 값졌던 것은, 의사, Data scientisit, SQL전문가, IT전문가 등 다양한 (나빼고)전문가와 한 가지 목표를 향하여 토론하고, 소통하고, 서로를 이해하는 과정이었다. 서로 다른 Background를 가진 사람들 끼리 밤새워가며 연구 디자인부터 raw data를 지지고 볶아가며 결국 결과물을 만들어내는 그 과정에서 경험한 것과 느낀 것은 어디서도 얻을 수 없는 일이었고, 사실 그 과정이 정말 즐거웠다.
인턴에게 2박 3일의 시간은 내기 쉽지 않지만, 정말 아깝지 않은 시간이 었고, 쉽지 않겠지만 다음에 기회가 생긴다면 꼭 다시 참가하고 싶다.
빨리 뭐라도 할 줄 아는 것을 만들어서 정말 힘이되는 팀원이 되고싶다…ㅎㅎ