빅데이터와 인공지능,
지극히 현실적으로 바라보기
김헌성(가톨릭의대 서울성모병원 내분비내과)
요즘 의료계에서는 빅데이터 (Big data) 와 인공지능 (Artificial intelligence, AI)이 가장 큰 이슈 중의 하나입니다. 이런 분위기 속에서 제가 현직(?) 의료인들에게 자주 받는 질문들은 다음과 같습니다. “저는 의사인데, 저는 간호사인데, 저는 이런 정보통신기술 (Information and Communications Technologies, ICT) 분야와는 전혀 상관이 없는데, 미래를 위해서 이런 걸 꼭 배워야 하나요?” 우리가 생각하는 의료의 미래가 어떻게 변화할지는 저도 장담할 수 없습니다. 다만, 현재의 의료계에서 빅데이터와 인공지능이 의료의 모든 것을 대체할 수 있을 것이라는 무분별하고 자극적인 정보는 조심해야 합니다. 언젠가 불가피하게 그렇게 변화한다고 해도, 현재 의료계에 종사하고 있는 의료인들이라면 당연히 과학적으로 입증된 올바른 정보와 지식만을 선택하고 신뢰해야 합니다. 과학적으로 입증된 근거를 기반한 정보와 지식을 구별해 내는 것은 당연히 의료인들의 몫이 될 것입니다. 급격하게 변화하는 의료 분위기에서 의료진들이 ICT 영역에도 관심을 가지고 적극적으로 참여해야 하는 이유입니다.
실제 진료기반 데이터 (Real World Data, RWD)
빅데이터라는 단어는 의료계에서 실제 진료기반 데이터 (real world data, RWD)라는 단어로 정착이 되었습니다. 그리고, RWD를 이용하여 생성된 근거를 실제 진료기반 근거 (real world evidence, RWE) 라고 합니다. 미국식품의약국 (Food and Drug Administration, FDA)에서는 이미 어떤 의학적인 근거를 형성하기 위한 RWD의 사용을 인정하고 있습니다. RWD의 핵심은 임상 연구를 목적으로 하지 않은, 실제 진료 현장을 대변하는 데이터라는 것입니다. 여기에는 환자의 순응도를 반영하는 다양한 인자들이 포함됩니다. 약물의 크기, 냄새, 가격, 복용시간, 부작용 등 다양한 병원 밖 데이터들이 영향을 주기 때문입니다. 이 것은 무작위 대조군 연구 (randomized controlled trial, RCT)에서는 확인할 수 없는 너무나도 강력한 장점입니다. 대표적인 예시로는 GLP-1 유사체를 이야기할 수 있습니다. RCT에서 GLP-1 유사체의 혈당강하효과는 강력하게 나옵니다만, RWE에서의 혈당강하효과는 그다지 만족스럽지 않은 결과를 보입니다. 주사제라는 자체의 한계와 가격, 부작용 측면에서 환자들의 순응도에 영향을 주었기 때문입니다. 혈당 강하효과가 가장 강력한 인슐린도 비슷한 결과가 나올 것으로 예상합니다. RWE 에서는 이렇게 약물 고유의 효과가 아니라, 다양한 병원 밖의 데이터가 포함된 실제 결과라고 이해하는 것이 좋습니다. RWE는 RCT와 경쟁적인 구도가 아니라 서로의 장단점을 보완해 주는 상호 보완적인 관계입니다.
RWD는 빠른 시간에 적은 비용으로 대규모 데이터를 확보할 수 있다는 강력한 장점을 가지고 있습니다. 하지만 아쉽게도 위에서 언급했듯이, RWD는 임상연구를 위해 만들어지고 수집된 데이터가 아닙니다. 주로 청구용 목적으로 생성된 데이터가 대부분이기 때문입니다. 그런데 우리는 임상연구를 목적으로 하지 않은 이 RWD를 이용하여 임상연구를 해야만 하는 딜레마를 가지고 있습니다. 이런 이유로 RWD를 활용한 임상연구를 진행할 경우에는 불가피하게 발생하는 다양한 바이어스 (Bias)들을 이해해야 합니다. 향후에 분명히 많은 기대를 하게 되는 RWE 임에는 불구하고, 현재의 단계에서는 아직 기대보다 우려가 더 많은 것이 바로 이런 이유입니다. 이러한 Bias를 최소화하기 위해서는 연구시작 전부터 연구 목적에 따른 연구 디자인을 명확하게 설정해야 합니다. 단순히 데이터가 많기 때문에, 막연하게 어떤 결과가 나올 것이라는 생각은 바람직하지 못한 결과를 초래합니다.
데이터 “자체”의 한계 극복하기
데이터 분석을 위한 데이터를 추출하고 보면, RWD라는 것이 실제로 연구용 목적의 데이터가 아니란 것을 실감할 수 있습니다. 연구 목적의 데이터로 활용하기 위해서는 구조화된 형식으로 표현되어야 함에도 불구하고 실제 데이터는 그렇지 않기 때문입니다. (예시. <300, under 0.001) 따라서 연구 시작 전부터 임상의사들은 데이터 질관리 (Data Quality Management, DQM)"의 과정을 필수적으로 진행해야 합니다. (국민건강보험공단이나 건강보험심사평가원 데이터는 이미 질관리가 완료된 상태로 제공됩니다) 키와 몸무게가 뒤바뀐 경우도 있고, 수축기 혈압과 이완기 혈압이 뒤바뀐 경우도 있습니다. 뒤바뀐 이 검사결과를 연구자가 임의로 변경할 수는 없습니다. 연구 전 이에 대한 명확한 프로토콜을 제작해야 하는 것입니다. 데이터 질관리는 연구기간 중 가장 많은 시간이 소요되는 작업이며, 반드시 의료데이터 자체를 이해할 수 있는 경험 많은 전문가(의료진)가 직접 관리해야만 합니다. ICD-10 classification에 의한 진단명의 정확도에 대한 한계도 이해해야 합니다. 암과 같은 중증 질환 혹은 산정특례 질환의 경우에는 진단명이 대체적으로 정확합니다. 다만, 고혈압, 당뇨병, 이상지질혈증 등의 경미한 질환이나 만성질환의 경우 상당수 진단명이 누락되거나 부상병으로 이동합니다. 부가적인 혈액검사 혹은 복용중인 약제를 이용하여 상당수 보완할 수는 있지만, 과소평가(underestimation) 혹은 과대평가 (overestimation)의 가능성을 고민해야 합니다. 질적으로 좋지 않은 데이터로부터 도출된 결과는 당연히 신뢰하기 어렵습니다. 같은 주제의 연구임에도 불구하고 연구마다 서로 상반된 연구 결과를 보이는 것은 바로 이런 이유입니다. 데이터의 양보다는 데이터의 퀄리티가 정말 중요하다는 이야기입니다.
데이터 “분석”의 한계 극복하기
RWE는 사실 대규모 후향적 코호트 연구 (large scaled retrospective cohort study)입니다. 기존에 이미 존재하던 후향적 코호트 연구가 빅데이터라는 이슈와 함께 부각이 되었지만, 역시 코호트 연구의 제한점을 그대로 가지고 있습니다. 실제 많은 수를 대상으로 연구를 시작한다 하더라도 그 연구 목적에 따라 굉장히 많은 수가 누락되는 결측치 (missing data)가 존재합니다. 이러한 선택 오류 (selection bias) 이외에도 중도 이탈자에 의한 탈락 오류 (attrition bias), 조기발견 오류 (lead time bias), 병원마다 다른 측정 오류 (measurement bias) 등은 연구마다 자주 접하게 되는 굉장히 치명적인 오류들입니다. 단순히 샘플 수가 많으면 일정 부분 보완이 될 거라 생각할 수도 있지만, 데이터의 숫자와 분석 방법은 완전히 별개의 것으로 이해해야 합니다. 최근에는 이러한 다양한 오류들을 최소화하기 위해 역시 연구디자인의 조작적 정의를 다양한 방법으로 시도하고 있습니다. 무작위 대조군 연구 디자인을 흉내내기도 하고, 새로운 형식의 디자인도 만들어 내기도 합니다. 같은 데이터를 가지고서도 연구 디자인과 분석 방법에 따라 다른 연구결과가 나올 수 있습니다. 제대로 된 연구 디자인이란 단순한 통계 분석을 의미하지 않습니다. 연구 목적에 따른 전문가 집단의 명확한 프로토콜과 디자인이 필요합니다.
데이터 “해석”의 한계 극복하기
무작위 추출에 의해 강력한 인과관계를 추론할 수 있는 RCT와 달리, RWE는 기본적으로 인과 관계를 파악할 수 없습니다. RWE는 대부분의 현상을 반영하는 상관관계를 의미할 뿐입니다. 원인과 결과 사이에는 굉장히 많은 수의 변수가 포함될 것이며, 실제 RWE에서는 이 모든 변수를 포함할 수 없는 것입니다. 당뇨병 환자에서 스타틴을 처방하지 않은 경우 인슐린의 시작시기가 늦춰졌다는 빅데이터 연구결과가 있었습니다. (최근에 스타틴이 혈당을 올린다는 내용과 유사하게 해석이 가능합니다.) 하지만, 당뇨병 환자의 경우 목표 저밀도 콜레스테롤이 100 mg/dL 미만이므로, 당뇨병 환자의 대부분은 스타틴을 처방하게 되는 의료현실을 반영해 보겠습니다. 스타틴을 복용하지 않은 환자들은 운동이나 식이 등을 이유로 스타틴 복용을 거부했을 가능성이 높고, 이러한 환자들의 성향상 결국 인슐린도 안 맞겠다고 거부했을 가능성이 있습니다. 즉 인슐린의 시작시기는 당연히 늦춰진 것입니다. 이는 결국 스타틴과 인슐린의 문제가 아닌, 환자들 성향과 같은 병원 밖의 변수들이 결과에 반영되었을 수도 있다는 것입니다. 그럼에도 불구하고, 결과의 해석에 주의한다면 실제 진료현장에서의 상관 관계를 파악하는 것은 굉장히 중요한 의미를 내포할 수 있습니다. 다만 연구에 포함되지 못한 다양한 변수들을 고려한 연구의 해석이 중요합니다. 이런 이유로 환자들의 다양한 추가 정보가 필요하며, 인과 관계의 확인을 위하여 의료진들의 직접적인 차트 리뷰가 필요한 경우가 많습니다. 하지만 역시 차트 리뷰에도 불구하도 얻을 수 있는 정보는 많지 않으며, 많은 샘플 사이즈의 특성상 엄청난 시간이 소요될 수밖에 없습니다.
결론
빅데이터로부터 도출해내는 인공지능이라는 아이템은 학문 혹은 연구용 목적으로는 큰 의미가 있을 수도 있겠지만, 결국 의료행위라는 것은 의학적 결정 (Decision making)을 내려야 하는 학문입니다. 그리고 이러한 의학적 결정에는 병원 안에서 측정한 검사 값이 아닌 병원 밖의 생활 데이터가 더 중요한 역할을 합니다. 의료진들의 실제 의학적 결정에는 환자들과 문진에서 발생한 병원 밖 데이터가 포함됩니다. 환자의 경제 상태에 따라 치료를 미룰 수도 있고, 삶의 의지 능력에 따라 불가능한 치료, 성공가능성이 낮은 치료를 시도할 수도 있습니다. 빅데이터, 인공지능이라는 관점에서만 보면 아주 비합리적이고 옮은 결정이 아닙니다. 인공지능은 이 환자들을 위해서 다른 치료의 당위성과 방법을 순서대로 제시하겠지만, 이 순간 우리의 빅데이터라고 하는 것은 선한 의도를 벗어나는 것입니다. 현실로 돌아오면, 사실은 우선 순위를 벗어난 선택이 가장 최선일 수도 있는 것입니다. 결국 빅데이터가 의료에 있어서 엄청난 혁신을 가져올 것으로 생각되지만, 결국 의료행위에 있어서는 의학적 결정 (Decision making)이 제일 중요한 것이라는 전제를 가졌으면 합니다. 이런 이유로 인공지능의 핵심은 당분간 의학적 결정 (Decision making)이 아닌 의료진의 의사결정지원 (Decision supporting)의 역할이 될 것입니다. 의료진들은 앞으로도 어느 수준에서의 데이터를 신뢰할 것이며, 어느 수준의 데이터에 의료진들이 개입할 것인가라는 문제들을 지속적으로 고민해야 할 것입니다. 이를 위해서는 무분별하게 범람하고 있는 잘못된 정보와 지식을 근거에 기반하여 구별할 수 있는 능력을 갖추어야 합니다.
RWE는 “real world”를 반영할 수는 있으나, 아직까지 “real world”에서 “real” 하게 받아들이기에는 제한점이 많습니다. 위에서 언급했듯이 데이터 자체에 따라, 분석방법에 따라, 해석 방법에 따라 완벽하게 다른 연구 결과가 도출됩니다. 이러한 다양한 제한점으로 인해 의료 영역에서의 인공지능은 영상이나 병리와 같은 명확한 데이터를 확보할 수 있는 영역에 집중되어 있습니다. 하지만, 여러 제한점이 있음에도 불구하고 RWD는 병원 밖의 상황을 반영하여, 개별화된 맞춤형 치료가 가능한 연구 방식입니다. 물론 지금은 여전히 방법론적인 면에서 발전하는 단계지만, 이러한 경험과 노력의 축적으로 지속적인 RWE 연구의 업그레이드가 진행된다면, 가장 바람직한 방향으로 움직일 것입니다. 앞으로는 데이터 그 자체와 분석, 그리고 해석 능력을 가진 경험 많은 전문가가 필요할 것입니다. 의료 데이터를 제일 잘 아는 사람은 당연히 의료진입니다. 막연하고 피상적인 정보에 휘둘리지 말고, 근거에 기반한 구체적이고 현실적인 이야기를 해야 하는 시점입니다. 의료진들의 깊은 관심과 참여가 필요한 까닭입니다.
Copyright(c) Korean Endocrine Society. All rights reserved.