소스 코드 파일은여기에서 내려 받으실 수 있습니다.
https://github.com/AcornPublishing/dl-life-sciences
로봇 공학의 발전으로 수많은 생명과학 실험들은 자동화돼 엄청난 양의 데이터를 만들어 낸다. 현대 생명 과학자들은 거대한 데이터 속에서 숨겨진 패턴을 찾고 지식을 얻어 과학적 결론을 도출해내는 능력이 필요하다.
이 책은 딥러닝을 유전체학부터 신약 개발, 질병 진단까지 다양한 생명과학 영역에서 사용하는 방법을 소개한다. 또한 실제로 사용할 수 있는 예제 코드를 제공해 독자들의 시간을 아껴줄 것이다.
"이 책은 생명과학자 커뮤니티의 발전에 귀중한 도움이 될 것이다."
- 프라바트(Prabhat), 로렌스 버클리 국립 연구소 데이터 분석 서비스 팀장
"기초 과학을 이해하고 딥러닝 응용을 시작하기에 좋은 책이다."
- C. 타이투스 브라운(C. Titus Brown), 캘리포니아 대학 부교수
■ 분자 데이터에 머신러닝을 적용하는 방법
■ 유전학/유전체학을 위한 강력한 분석 도구로서의 딥러닝
■ 딥러닝으로 생물물리학 시스템 이해
■ DeepChem 라이브러리를 사용한 머신러닝 소개
■ 딥러닝을 사용한 현미경 이미지 분석
■ 딥러닝을 사용한 의료 이미지 분석
■ VAE와 GAN 모델
■ 머신러닝 모델의 작동 원리 해석
최근 로봇공학의 발전으로 많은 생명과학 실험이 자동화돼 엄청난 양의 데이터를 만들어내고 있다. 약 20년 전에는 한 명의 과학자가 평생 동안 모아야 했을 데이터가 오늘날에는 하루면 쌓인다. 이로 인해 생명과학과 데이터 과학(data science)의 경계가 빠르게 사라지고 있으며, 데이터의 홍수 속에서 빠르게 데이터를 분석하는 능력은 생명과학자의 필수 자질이 되고 있다. 이제 엑셀(Excel)로 실험 데이터를 처리하고 그래프를 그리는 시대는 지났다. 현대의 생명과학자에게는 거대한 실험 데이터 속에 숨겨진 패턴을 찾아내고 새로운 지식을 얻어 과학적 결론을 도출하는 능력이 가장 필요하다.
지난 몇 년간 딥러닝(deep learning)은 데이터의 패턴과 의미를 찾아내는 강력한 도구로 활용돼 왔으며, 주로 이미지 분석, 외국어 번역, 음성 인식과 같은 빅데이터 분석에서 놀라운 성능을 보여줬다. 이 책에서는 딥러닝을 생명과학 분야에 적용하는 방법으로 유전체학, 신약 개발, 질병 진단 등의 다양한 분야에 사용하는 과정을 소개한다. 또한 실무에 바로 사용할 수 있는 예제 코드를 제공해 독자들의 시간을 아껴줄 것이다.
생물학적 빅데이터를 구축하는 블록체인(blockchain) 회사인 데이터마인드(Datamined)의 공동 창립자이자 최고기술책임자(CTO)다. 또한 신약 개발에 딥러닝을 적용하는 DeepChem1 라이브러리의 수석 개발자이자 MoleculeNet의 공동 개발자다.
UC 버클리에서 EECS와 수학 분야 학사 학위를 받았으며, 최근 스탠퍼드 대학교에서 컴퓨터과학으로 박사 학위를 받았다. 또한 과학 분야 최우수 대학원생을 지원하는 허츠 펠로우십(Hertz Fellowship)에 선정돼 비제이 판데(Vijay Pande) 교수에게 연구 지도를 받았다.
스탠퍼드 대학교의 생명공학 부서에서 생명정보학 소프트웨어를 개발하고 있다. 고성능 분자 역학 시뮬레이션 도구인 OpenMM의 수석 개발자이며 화학, 생물학, 재료과학 분야의 딥러닝 라이브러리인 DeepChem의 핵심 개발자다. 2000년부터 생명정보학 소프트웨어 회사인 실리콘 제네틱스(Silicon Genetics)의 기술 부사장을 역임한 전문 소프트웨어 엔지니어이며, 현재의 관심 분야는 물리학에 딥러닝을 응용하는 것이다.
케임브리지에 있는 릴레이 테라퓨틱스(Relay Therapeutics) 계산 및 정보학 부서(컴퓨터 시뮬레이션과 실험 데이터를 통합하는 새로운 응용 분야에 중점을 두고 약물 시뮬레이션 프로그램을 주도하는 통찰을 제공한다.)의 책임자다. 릴레이 테라퓨틱스에 합류하기 전에는 버텍스 제약(Vertex Pharmaceuticals)에서 20년 동안 모델링 및 정보학의 책임자로 근무했다.
현재 학술지 「Journal of Medicinal Chemistry」의 편집 자문 위원이며, 이전에는 「Letters in Drug Design & Discovery」와 「Molecular Informatics」에서 자문 위원을 맡았다. 2017년 Gordon Computer Assisted Drug Design 콘퍼런스의 의장이었고, 미국 국립 보건원(NIH)이 진행하는 D3R(Drug Design Data Resource)과 미국 화학회 TDT(Teach-Discover-Treat) 등의 과제에 여러 가지 도움을 주는 등 과학 공동체에서 적극적인 역할을 하고 있다. 캘리포니아 대학교에서 화학 학사 학위를 받았고, 애리조나 대학교에서 입체 분석에서의 인공지능 응용을 연구해 유기화학 박사 학위를 받았다. 박사 학위를 받기 전에는 바리언 인스트루먼츠(Varian Instruments)에서 화학자이자 소프트웨어 개발자로 일했다.
앤드리슨 호로위츠(Andreessen Horowitz)사의 총괄 파트너로 최신 컴퓨터 과학 기술을 생물학과 의료 체계에 적용하는 회사에 대한 투자를 담당한다. 스탠퍼드(Standford) 대학 생명공학과 부교수로 생명정보학에 대한 강의를 진행하며 200편의 논문과 2개의 특허를 출헌했다. 그리고 기업가로서 질병 연구를 위한 분산 컴퓨팅 프로젝트인 Folding@Home를 시작했다. Folding@Home 프로젝트는 새로운 질병 치료법을 찾고 기초 과학 발전에 필요한 연산 작업을 다수의 컴퓨터로 분산해 수행한다. 이미 10대에 비디오 게임으로 유명한 너티 독의 첫 번째 직원으로 일했으며 현재는 스탠퍼드 대학의 스타트업 기업인 Globavir Biosciences사의 공동 창립자로 뎅기열과 에볼라에 대한 치료법을 연구 중이다.
이 책은 나의 두 번째 번역서다. 번역이 어렵다는 것을 이전 책을 번역하면서 절실히 깨달았지만, 이 책의 제목을 보는 순간 까맣게 잊어버리고 다시 번역 작업을 하게 됐다.
컴퓨터과학과 생명과학의 융합은 오래된 꿈과 같다. 누구나 그 중요성을 알지만, 선뜻 다가가지 못한다. 아마도 각 영역이 방대하고 융합 학문은 추상적이기 때문일 것이다. 따라서 이 책은 나와 비슷한 생각을 하는 사람에게 한 줄기 빛과 같다. 저자들은 우리에게 앞으로 나아가야 할 방향을 알려줄 뿐만 아니라 실무에 적용할 수 있는 예시를 사용해 이해를 돕는다.
비록 딱딱한 내용으로 가득 찬 전문 서적이지만 독자들이 쉽게 이해할 수 있도록 번역 과정에서 나름대로 최선을 다했다. 그럼에도 부족한 부분이 너무나도 많은 것 같다. 이 책에서 잘 이해되지 않는 내용이 있다면 개의치 말고 연락을 주길 바란다. 독자들과의 소통은 언제나 환영이다.
제약회사 연구소에서 연구원으로 근무하고 있으며, 생물학 실험과 프로그래밍에 관심이 많은 자칭 바이오해커다. 다양한 과정에서 얻은 경험을 공유하는 블로그(https://partrita.github.io)를 운영하고 있다. 『파이썬을 활용한 생명정보학 2/e』(에이콘, 2019)을 번역했으며, 최근에는 신약 개발에서 빅데이터, 머신러닝 등과 같은 다양한 분석 기술을 응용하고자 노력하고 있다. 그리고 언젠가 사이언스 판타지 소설을 써보고 싶다는 꿈을 갖고 있다.