소스 코드 파일은여기에서 내려 받으실 수 있습니다.
https://github.com/AcornPublishing/healthcare-analytics
헬스케어에서 말하는 (1)건강 결과에 대한 개선 (2)비용 절감 (3)강화된 환자 경험이라는 헬스케어 3대 목표(Healthcare Triple Aim)가 있다. 여기에 한발 더 나아가 (4)헬스케어 제공자의 업무 환경 개선이라는 헬스케어 4대 목표(Quadraple Aim)를 달성할 수 있도록 이 책에서는 파이썬을 사용한 간단한 사례를 들어 인공지능(머신러닝) 활용법을 알려준다.
이제 애널리틱스(analytics)는 헬스케어(healthcare)의 핵심 요소로 자리매김했다. 헬스케어 애널리틱스는 치료를 최적화하고 결과를 개선하고 케어(care)의 비용을 줄이는 데 도움이 된다. 생의학적 데이터, 헬스케어, 운영 등에 대한 빅데이터가 준비돼 병원과 헬스케어 관련 기관은 과거 데이터를 이용해 환자의 미래와 클리니컬 패스웨이(clinical pathway)를 예측할 수 있게 됐다. 또한 예측 모델링과 헬스케어 데이터 과학을 통해 헬스케어 서비스 전달의 여러 측면을 효율적으로 구성할 수 있게 케어 패스웨이(care pathway)와 운영 전략을 디자인하는 데에도 도움을 줄 수 있다. 이렇게 헬스케어 애널리틱스는 흥미로운 분야이지만, 이를 수행하려면 의학과 데이터 과학에 관한 지식 외에도 데이터베이스, 프로그래밍, 데이터 시각화, 통계, 머신러닝과 같은 기술이 필요하다. 헬스케어 영역과 애널리틱스의 도구 및 방법을 아주 깊이 설명한 여러 책이 있지만 이런 것들을 하나로 통합해 쉽게 읽을 수 있도록 한 책은 많지 않다.
비카스 쿠마르 박사가 쓴 새롭고 흥미로운 이 책은 헬스케어, 컴퓨터 과학, 수학, 머신러닝의 핵심적인 학습 포인트를 융합해 설명하고 있다. 의사이자 데이터 과학자인 저자는 복잡한 의료 데이터를 보는 방법을 설명하고, SQL과 파이썬 언어로 헬스케어 애널리틱스의 여러 응용 사례를 소개한다.
이 책이 헬스케어 데이터의 핵심 개념에 관심 있는 데이터 과학자의 서재에 꼭 있어야 할 책이 될 것이라고 확신한다. 임상 정보학이나 헬스케어 정보학 전문가들이 머신러닝 모델을 설계, 개발, 검증하기 위한 핵심 기술을 얻는 데도 꼭 필요한 책이라고 생각한다. 또한 헬스케어 애널리틱스가 어떤 것인지 이해하고 싶은 의사나 바이오 전공자들에게도 유용하다. 나는 이 책을 재미있게 읽었고 여러 사례도 흥미롭게 따라 해봤다. 결론적으로, 이 책은 완전하고 포괄적인 안내를 제공해 헬스케어 애널리틱스 분야의 빈 틈을 채워주고 있어 컴퓨터 과학자, 소프트웨어 엔지니어, 데이터 과학자, 헬스케어 전문가 모두가 쉽게 읽을 수 있는 다학제적인 책이 될 것이다.
◆ 헬스케어 인사이트, 재정, 입법
◆ 머신러닝과 헬스케어 프로세스간의 연관성
◆ SQL과 파이썬을 사용한 데이터 분석
◆ 헬스케어 질과 서비스 제공자의 수행 능력 측정
◆ 훌륭한 헬스케어 모델을 만드는 데 필요한 특징과 속성에 대한 파악
◆ 실제 헬스케어 데이터를 사용한 예측 모델
◆ 정형화된 임상 데이터를 사용한 예측 모델
◆ 헬스케어 애널리틱스의 미래
파이썬이나 그와 비슷한 언어를 어느 정도 알고 있으면서 헬스케어 분야나 헬스케어 데이터를 사용한 예측 모델링에 관심이 있는 독자를 위한 책이다. 애널리틱스나 헬스케어에 관련한 컴퓨팅에 관심이 있다면 도움이 될 것이다. 또한 헬스케어에 사용될 수 있는 머신러닝을 공부하려는 학생들에게도 유용할 것이다.
1장. ‘헬스케어 애널리틱스 개론’에서는 헬스케어 애널리틱스에 대한 개론으로 그 정의와 몇 가지 기초 주제, 역사, 실제 사례를 소개하고, 이 책에서 사용될 소프트웨어를 다운로드해 설치하는 방법과 기본 사용법을 설명한다.
2장. ‘헬스케어의 기초’에서는 헬스케어의 기초를 알아본다. 미국에서 헬스케어가 어떻게 구조화되고 전달되는지 개략적으로 살펴본다. 그런 다음 헬스케어 애널리틱스에 관련된 법률들을 소개한다. 그리고 임상에서 사용되는 환자 데이터, 코딩 시스템을 설명하고 헬스케어 애널리틱스를 분류해본다.
3장. ‘머신러닝의 기초’에서는 머신러닝의 기초를 다룬다. 의학적 의사 결정에 사용되는 모델 프레임워크들과 머신러닝 파이프라인을 설명하고, 모델 평가를 위한 데이터 임포트(data import)를 다룬다.
4장. ‘컴퓨팅의 기초, 데이터베이스’에서는 컴퓨팅의 기초로 데이터베이스에 대한 개론을 설명한다. SQL 언어를 소개하고 헬스케어 예측적 애널리틱스를 실행할 때 SQL을 사용한 예를 소개한다.
5장. ‘컴퓨팅의 기초, 파이썬 언어’에서는 컴퓨팅의 기초로 파이썬 언어를 설명한다. 파이썬 언어를 개략적으로 살펴보고, 애널리틱스를 수행할 때 중요한 라이브러리들을 소개한다. 파이썬에서의 변수 타입, 데이터 구조, 함수, 모듈을 설명하고 판다스 패키지, 사이킷런의 기초적인 사용법을 다룬다.
6장. ‘헬스케어 질 측정’에서는 헬스케어 질 측정을 설명한다. 헬스케어 수행 평가에 사용되는 지표들과 미국에서 사용되는 가치 기반 접근법의 개요를 소개한다. 그리고 파이썬 언어로 서비스 제공자에 기초한 데이터를 다운로드하고 분석하는 예를 보여줄 것이다.
7장. ‘헬스케어 예측 모델 만들기’에서는 헬스케어에서의 예측 모델 만들기를 설명한다. 공개된 임상 데이터셋에 포함돼 있는 정보를 소개하고 다운로드 방법을 기술한다. 그런 다음 파이썬, 판다스, 사이킷런을 사용해 예측 모델을 만드는 방법을 살펴본다.
8장. ‘헬스케어 예측 모델 리뷰’에서는 헬스케어 예측 모델을 설명한다. 일부 선택된 질환들을 대상으로 한 헬스케어 예측적 애널리틱스 분야에서 현재 진행되고 있는 부분을 리뷰하고, 전통적인 방식을 사용한 방법들과 머신러닝 결과들을 비교해본다.
9장. ‘미래 - 헬스케어와 떠오르는 기술들’에서는 인터넷 사용을 통해 헬스케어 애널리틱스 분야에서 이뤄지고 있는 몇 가지 발전을 설명한다. 그리고 딥러닝 기술을 헬스케어 애널리틱스에 사용하는 것과 헬스케어 애널리틱스 분야의 도전적인 문제 및 한계점을 언급한다.
파이썬 패키지를 통한 데이터 분석이 어떻게 이뤄지는지를 설명하는 것이 이 책의 목적이다. 전자 의무 기록(Electronic Health Record)에서 데이터를 임포트하고, 정제해 필요한 형태로 만드는 방법을 소개한다. 그리고 실제 세계의 사례를 통해 예측 모델을 만드는 방법도 살펴본다.
미국 뉴욕주 니스카유나(Niskayuna)에서 자랐다. 피츠버그 대학교에서 의학 박사 학위를 받았지만, 컴퓨터와 데이터 과학에 진정한 흥미를 느껴 그 분야에 뛰어들었다. 이후 조지아 공과 대학에서 컴퓨터공학 학위를 받았고 헬스케어와 비헬스케어 회사들에서 데이터 과학자로 일해왔다. 현재 조지아주 애틀란타시에 거주하고 있다.
머신러닝 알고리즘과 머신러닝의 미래를 잘 설명한 명저 『마스터 알고리즘』(비즈니스북스, 2016년)에서 저자는 다음과 같이 말한다. “내가 하는 일에서 머신러닝이 할 수 있는 것은 무엇이고, 할 수 없는 것은 무엇이며, 내가 일을 더 잘하기 위해 어떻게 머신러닝을 이용할 수 있을지를 이해해야 한다.” 이 말을 한 컴퓨터 과학자는 이 ‘일’의 분야를 특정하지 않았다. 이 책은 그 일들 중 의료 분야를 다룬다.
이번 팬데믹을 통해 이제는 일반인들도 의료라는 자원이 한정된 것임을 알게 됐다. 서비스를 제공할 수 있는 자원도, 그에 대해 지불할 수 있는 자원도 한정돼 있다. 이렇게 한정된 자원으로 우리 사회의 건강이라는 목표를 달성해야 한다. 비록 이런 문제는 경제학에서 핵심으로 다루는 삶의 어디서나 나타나는 아주 일반적인 것이다. 의료는 단순한 시장의 원리 또는 단순한 구호나 약속으로 그 목적이 달성되기 어려운 분야다.
이 책의 저자는 헬스케어의 3대 목표인 (1)건강 결과에 대한 개선, (2)비용 절감, (3)의료의 질 보장을 달성하는 데 머신러닝이 기여할 수 있는 것을 파이썬 코드를 이용한 간단한 사례를 통해 보여준다. 어떤 장의 내용은 미국 의료제도에 다소 치우친 감이 있지만, 전반적으로 헬스케어 머신러닝이 무엇인지를 맛볼 수 있는 기회를 제공한다.
의료 분야 종사자들에게는 머신러닝을 통해 일의 수준을 향상시킬 수 있는 방법을 알려주고, 컴퓨터나 다른 분야 종사자들에게는 의료 현장에서 생기는 문제들이 어떤 것이며 의사들은 어떤 방식으로 사고하는지 엿볼 수 있는 기회를 제공할 것이다. 또한 의사들에게는 자신도 모르게 베이즈 추론 방법을 이미 습관처럼 사용하고 있었다는 사실을 깨닫게 해준다.
저자도 이야기하지만 헬스케어 애널리틱스가 헬스케어, 수학, 컴퓨터 과학이 융합된 분야인 터라, 이 작은 책에 그 내용을 모두 담아내기란 불가능하다. 특정한 기술적 관점에서 보면 이 책의 내용은 주제들을 피상적으로 다루는 것 같은 느낌을 줄 수도 있지만 SQL, 파이썬, 판다스(pandas), 넘파이(NumPy), 사이킷런(scikit-learn) 등을 다루면서 깊이 들어갈 때는 어떤 것을 공부해야 하고 왜 그런 것들이 필요한지 충분히 파악할 수 있을 것이다. 그리고 7장을 보면 머신러닝(데이터 과학)이 어떤 식의 작업을 하는지 알게 되는데, ‘데이터 전처리에 80%, 모델링에 20%를 쓴다.’는 말을 실감할 수 있을 것이다.
의료 인공지능에 대한 관심이 매우 높아진 상태에서 그 관심을 구체적으로 실현하는 방법을 제시하는 데 이 책이 유용할 것이다. 머신러닝, 인공지능 알고리즘이 의료에 참여하는 모든 이에게 유익할 수 있길 기원한다.
가톨릭대학교 의과대학을 졸업하고, 서울성모병원에서 신경과 전문의 자격을 획득했다. 종합병원, 요양병원 등에서 봉직의로 근무한 경력이 있고, 시립 요양원 책임자를 맡기도 했다. 센터 관리자, 병원장 등과 같은 행정 경험을 하면서 여러 가지 의료 현장의 문제를 컴퓨터가 해결할 수 있음을 깨닫고 독학으로 컴퓨터를 공부하기 시작했다. 시간을 쪼개 R 프로그래밍 언어와 헬스케어 관련 책들을 저술하고 번역했다. 액체 생검 바이오 벤처에서 일했고, 지금은 다시 의료 현장으로 돌아와 헬스케어 ICT를 통해 의료의 질과 효율을 향상시키는 데 기여하고자 노력 중이다.