이제 다양한 실시형태들이 본 명세서의 일부를 구성하고 실시형태를 실시하는 특정 예를 예시로써 도시하는 첨부 도면을 참조하여 보다 상세히 설명될 것이다. 그러나, 본 명세서는 많은 상이한 형태로 구체화될 수 있으며 본 명세서에 설명된 실시형태에 한정되는 것으로 해석되어서는 안되며; 오히려, 이러한 실시형태들은 본 명세서가 철저하고 완전해질 수 있도록 제공되며, 당업자에게 본 발명의 범위를 충분히 전달할 것이다. 무엇보다, 이 명세서는 방법들 또는 디바이스들로 구체화될 수 있다. 따라서, 본 명세서의 다양한 실시형태들 중 임의의 것은 전적으로 하드웨어 실시형태, 전적으로 소프트웨어 실시형태 또는 소프트웨어 및 하드웨어 양태들을 결합한 실시형태의 형태를 취할 수 있다. 따라서, 이하의 명세서는 제한적인 의미로 해석되어서는 안된다.
명세서 및 청구 범위 전체에서, 다음 용어는 문맥상 명확하게 달리 지시하지 않는 한, 본원에서 명백하게 관련된 의미를 갖는다.
본 명세서에서 사용되는 "일 실시형태에서"라는 문구는 반드시 동일한 실시형태를 지칭하는 것은 아니지만, 동일한 실시형태를 지칭할 수도 있다. 따라서, 이하에서 설명되는 바와 같이, 본 발명의 다양한 실시형태들은 본 발명의 범위 또는 사상을 벗어나지 않고 용이하게 결합될 수 있다.
본원에 사용된 바와 같이, 용어 "또는"은 포괄적인 "또는" 연산자이며, 문맥상 명확하게 달리 지시하지 않는한 용어 "및/또는"과 등가이다.
"에 기초한"이라는 용어는 배타적인 것이 아니며 문맥상 명확하게 달리 명시하지 않는한 설명되지 않은 추가 요소에 기초할 수도 있다.
본원에서 사용된 바와 같이, 문맥상 달리 지시되지 않는 한, "에 커플링된"이라는 용어는 직접 커플링 (2개의 엘리먼트들이 서로 접촉하여 커플링됨) 및 간접 커플링 (2개의 엘리먼트들 사이에 적어도 하나의 추가 엘리먼트가 위치함) 모두를 포함하는 것으로 의도된다. 그러므로, "에 커플링된" 및 "와 커플링된"이라는 용어는 동의어로 사용된다. 둘 이상의 컴포넌트들 또는 디바이스들이 데이터를 교환할 수 있는 네트워크 환경의 맥락에서 "에 커플링된" 및 "와 커플링된"이라는 용어는, 가능하게는 하나 이상의 중개 디바이스들을 통해, "와 통신가능하게 커플링된"을 의미하는데 사용된다.
또한, 명세서 전체에 걸쳐, "a", "an" 및 "the"의 의미는 복수 참조를 포함하고, "in"의 의미는 "in" 및 "on"을 포함한다.
본원에 제시된 다양한 실시형태의 일부가 본 발명의 엘리먼트들의 단일 조합을 구성하지만, 본 발명의 청구물은 개시된 엘리먼트들의 모든 가능한 조합을 포함하는 것으로 이해되어야 한다. 따라서, 일 실시형태가 엘리먼트들 A, B 및 C를 포함하고 다른 실시형태가 엘리먼트 B 및 D를 포함하는 경우, 본 발명의 청구물은 또한 본원에 시적으로 논의되어 있지 않더라도 A, B, C 또는 D의 다른 나머지 조합을 포함하는 것으로 또한 고려된다. 더욱이, 과도기적 용어 "포함하는"은 부품 또는 부재로서 또는 이들 부품 또는 부재를 갖는 것을 의미한다. 본 명세서에 사용된 바와 같이, "포함하는"이라는 과도기적 용어는 포괄적이거나 제한이 없으며 추가의 언급되지 않은 엘리먼트 또는 방법 단계를 배제하지 않는다.
다음 논의의 전반에 걸쳐, 서버, 서비스, 인터페이스, 엔진, 모듈, 클라이언트, 피어, 포털, 플랫폼 또는 컴퓨팅 디바이스로 구성된 기타 시스템에 대해 많은 참조가 이루어질 수 있다. 이러한 용어의 사용은 컴퓨터 판독가능 타입적, 비일시적 매체 (예를 들어, 하드 드라이브, 솔리드 스테이트 드라이브, RAM, 플래시, ROM 등) 에 저장된 소프트웨어 명령들을 실행하도록 구성된 적어도 하나의 프로세서 (예를 들어, ASIC, FPGA, DSP, x86, ARM, ColdFire, GPU, 멀티 코어 프로세서 등) 를 갖는 하나 이상의 컴퓨팅 디바이스들을 나타내는 것으로 간주되어야 한다. 예를 들어, 서버는 설명된 역할, 책임 또는 기능을 수행하는 방식으로 웹 서버, 데이터베이스 서버 또는 다른 타입의 컴퓨터 서버로 동작하는 하나 이상의 컴퓨터들을 포함할 수 있다. 개시된 컴퓨터-기반 알고리즘, 프로세스, 방법 또는 다른 타입의 명령 세트들은, 프로세서로 하여금 개시된 단계들을 실행하게 하도록 하는 명령들을 저장하는 비일시적, 타입의 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 다양한 서버들, 시스템들, 데이터베이스들 또는 인터페이스들은 HTTP, HTTPS, AES, 퍼블릭-프라이빗 키 익스체인지들 (public-private key exchanges), 웹 서비스 API들, 공지된 금융 거래 프로토콜들, 또는 다른 전자 정보 교환 방법들에 기반하여 표준화된 프로토콜들 또는 알고리즘들을 사용하여 데이터를 교환할 수 있다. 데이터 교환들은 패킷 교환 네트워크, 회로 스위칭 네트워크, 인터넷, LAN, WAN, VPN 또는 다른 타입의 네트워크를 통해 수행될 수 있다.
본 명세서의 설명 및 이후의 청구범위 전반에 걸쳐 사용된 바와 같이, 시스템, 엔진, 서버, 디바이스, 모듈 또는 다른 컴퓨팅 엘리먼트가 메모리 내의 데이터에 대한 기능을 수행하거나 실행하도록 구성된 것으로 설명될 때, "로 구성된" 또는 "로 프로그래밍된"의 의미는 메모리에 저장된 타겟 데이터 또는 데이터 오브젝트들에서 기능들의 세트를 실행하도록 컴퓨팅 엘리먼트의 하나 이상의 프로세서들 또는 코어들이 컴퓨팅 엘리먼트의 메모리에 저장된 소프트웨어 명령들 세트에 의해 프로그래밍되는 것으로 정의된다.
서버들, 인터페이스들, 시스템들, 데이터베이스들, 에이전트들, 피어들, 엔진들, 컨트롤러들, 모듈들 또는 개별적으로 또는 집합적으로 동작하는 다른 유형의 컴퓨팅 디바이스들을 포함하여, 컴퓨팅 디바이스들의 임의의 적절한 조합을 포함하도록 컴퓨터로 전달되는 모든 언어를 읽어야 한다는 점에 유의해야 한다. 컴퓨팅 디바이스들은 유형의 (tangible), 비-일시적 컴퓨터 판독가능 저장 매체 (예를 들어, 하드 드라이브, FPGA, PLA, 솔리드 스테이트 드라이브, RAM, 플래시, ROM 등) 상에 저장된 소프트웨어 명령들을 실행하도록 구성된 프로세서를 포함하는 것을 이해해야 한다. 소프트웨어 명령들은 개시된 장치와 관련하여 아래에 논의되는 역할들, 책임들 또는 다른 기능들을 제공하도록 컴퓨팅 디바이스들을 구성하거나 프로그래밍한다. 또한, 개시된 기술들은 프로세서가 컴퓨터 기반 알고리즘들, 프로세스들, 방법들 또는 다른 명령들의 구현들과 관련된 개시된 단계들을 실행하도록 하는 소프트웨어 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로서 구체화될 수 있다. 일부 실시형태들에서, 다양한 서버들, 시스템들, 데이터베이스들 또는 인터페이스들은 HTTP, HTTPS, AES, 퍼블릭-프라이빗 키 익스체인지들 (public-private key exchanges), 웹 서비스 API들, 공지된 금융 거래 프로토콜들, 또는 다른 전자 정보 교환 방법들에 기반하여 표준화된 프로토콜들 또는 알고리즘들을 사용하여 데이터를 교환한다. 디바이스들 간 데이터 교환들은 패킷 교환 네트워크, 인터넷, LAN, WAN, VPN 또는 다른 유형의 패킷 교환 네트워크, 회선 교환 네트워크, 및/또는 세포 교환 네트워크를 통해 수행될 수 있다.
개시된 본 발명의 청구물의 초점은 컴퓨팅 디바이스의 구조 또는 구성이 게놈 샘플에서 DNA 접근성을 예측하는 것을 포함하여 인간의 능력 이상으로 방대한 양의 디지털 데이터에서 동작할 수 있게 하는 것이다.
개시된 기법들이 신경망을 사용하여 게놈 샘플에서 DNA 접근성을 예측하는 범위, 정확성, 소형화, 효율 및 속도를 개선하는 것을 포함하여 많은 유리한 기술적 효과를 제공한다는 것을 이해해야 한다. 또한, 이하의 명세서는 광범위한 개관으로서 의도된 것은 아니며, 명확성 및 간결성을 위해 개념이 단순화될 수 있다는 것을 이해해야 한다.
RNA-seq 데이터를 사용한 DNA 접근성 예측
세포-타입 특이적 DNA 접근성 신경망 모델에서, 마주한 각각의 새로운 형태의 게놈 샘플 (예를 들어, 주어진 바이오타입에 대한 생물학적 세포 또는 조직) 은 임의의 DNA 접근성 예측들이 이루어질 수 있기 이전에 새로운 타입의 게놈 샘플로부터 측정된 DNase I 과민성 부위 시퀀싱 (DNase-seq) 피크로 신경망이 먼저 트레이닝되도록 해야 한다. Basset 신경망 모델은 DNA 접근성을 예측하기 위한 세포-타입 특이적 모델의 일 예이다. Basset 신경망 모델은 잠재적으로 접근 가능한 게놈 부위의 범용 목록으로 게놈 샘플 타입 및 각각의 DNA 접근성의 이진 매트릭스를 사용한다. Basset 신경망 모델을 트레이닝하기 이전에, 범용 목록은 모든 게놈 샘플에 걸쳐 중복되는 모든 DNase-seq 피크들을 응집적으로 클러스터링하여 생성된다. Basset 신경망 모델의 최종 층은 각 바이오타입에 대한 개별의 예측 단위 (출력) 가 있는 다중 작업 출력이다.
그러나, 세포와 조직을 특징짓는 보충적인 수치 서명을 사용함으로써 세포-타입 특이적인 DNA 접근성 예측 모델의 이러한 한계 (즉, 세포 타입의 이산화 (discretization)) 를 회피할 수 있다. 이와 같은 세포 서명을 병렬 입력으로 사용하면 신경망이 세포 타입의 공간에서 유사성 및 구조를 활용하게 하고 DNA 접근성이 보다 일반적인 방식으로 (즉, 세포 서명 공간에서 게놈 샘플의 좌표에 의해) 조절되는 방식을 학습하게 할 수 있다.
그러한 보충적인 서명을 위한 하나의 후보는 RNA-서열 (RNA-seq) 데이터이고, 즉 주어진 모멘트에 생물학적 샘플 내의 RNA의 존재 및 양이며, 이는 예를 들어, TCGA 및 GTEx (Genotype-Tissue Expression) 프로젝트와 같은 연구에 관심이 있는 대용량 데이터 소스들에 걸쳐 입수 가능하다. 여러 연구에 따르면, RNA-seq 데이터로부터 추정되거나 도출된 유전자 발현 레벨들은 DNA 접근성을 예측하기 위한 신경망에 보충적인 서명 입력으로 사용될 수 있다. 예를 들어, 매칭된 샘플들로부터의 DNase-seq 및 마이크로어레이 기반의 유전자 발현 레벨들은 생물학적 관계에 따라 유사하게 클러스터링하도록 밝혀졌으며, 많은 DNase I 과민성 (DHS) 부위가 유전자 발현들과 유의미한 상관 관계가 있는 것으로 밝혀졌다. 비슷한 생물학적으로 의미있는 이웃 관계는 또한 ENCODE 프로젝트에서 수집한 DNase-seq 및 RNA-seq 데이터에도 나타났다. 또한, DNA 접근성은 결국 RNA-seq의 레벨에서 유전자 발현을 결정하는 많은 복잡한 팩터 중 하나인 것으로 관찰되었고, 이는 DNA 접근성과 RNA-seq 데이터 간의 관계를 쉽게 가역성으로 만들지 않는다. 유전자 발현 레벨들에 대한 지식이 DHS 부위들의 패턴을 독특하게 정의하지는 않지만, 잠재 DHS 부위를 즉각적으로 둘러싼 DNA 서열이 그 접근성을 결정할 수 있는 가장 가능성 있는 메커니즘은 관찰된 유전자 발현 레벨들의 맥락에서 학습될 수 있다. 따라서, RNA-seq 데이터를 사용하여 결정된 DNA 접근성 예측이 전체 게놈에 걸쳐 적용될 때, 이것은 로컬 서열 정보에 의해서만 제한된, 가장 가능성있는 DHS 부위를 획득하기 위해 유전자 발현을 바꾸는 접근법으로 볼 수 있다.
도 1은 일 실시형태에 따라 RNA-seq 데이터를 사용하여 DNA 접근성을 예측하기 위한 예시적인 동작들의 개략 흐름도를 도시한다. 흐름도 (100) 에서, RNA-seq 발현 데이터 파일들 (102), 모든 DNase I 과민성 (DHS) 부위들에 대한 DNA 서열 데이터 (104), 및 복수의 세포 타입들에 대한 DNase-seq 데이터 파일들 (106) 을 포함하는 게놈 샘플 데이터의 트레이닝 데이터세트는 RNA-seq 데이터에 기초하여 DNA 접근성을 예측하기 위해 신경망 (108) 을 트레이닝하도록 사용된다. 더욱 후술하는 바와 같이, 신경망 (108) 은 DNA 서열 데이터를 포함하는 제 1 입력 및 RNA-seq 데이터로부터 도출된 유전자 발현 레벨들을 포함하는 제 2 입력을 프로세싱하도록 구성되며, 여기서 입력 DNase-seq 및 RNA-seq 데이터 파일들은 동일한 바이오타입에 기초하여 쌍을 이룬다. 본원의 실시형태들에 따라, 쌍을 이룬 DNase-seq 및 RNA-seq 데이터 파일들의 복수의 배치들이 신경망 (108) 을 트레이닝 시키는데 사용된다. 트레이닝이 완료되면, DNA 접근성 예측을 위해 트레이닝된 신경망 (110) 은 트레이닝 데이터세트와 관련하여 새로운 게놈 샘플 입력에 대한 전체 게놈 시퀀싱 (114) 및 RNA-seq 데이터 (112) 를 수신하고, 그리고 새로운 게놈 샘플 입력 (116) 에서 DNA 접근성을 예측하도록 구성될 수 있다.
도 2는 일 실시형태에 따라 RNA-seq 데이터를 사용하여 DNA 접근성을 예측하기 위한 시스템의 블록도를 도시한다. 블록도 (200) 에서, 게놈 샘플에서 DNA 접근성을 예측하기 위한 엘리먼트는 트레이닝 엔진 (210), 예측 엔진 (220), 영구 저장 디바이스 (230) 및 주 기억 디바이스 (240) 를 포함한다. 일 실시형태에서, 트레이닝 엔진 (210) 은 RNA-seq 발현 데이터 파일 (102), 모든 DNase I 과민성 (DHS) 부위들 (104) 에 대한 DNA 서열 데이터, 및 DNase-seq 데이터 파일 (106) 을 포함하는 복수의 세포 타입들과 관련된 게놈 샘플 데이터를, 영구 저장 디바이스 (230) 및 주 기억 디바이스 (240) 중 하나 또는 둘 모두로부터 획득하도록 구성될 수 있다. 다음, 트레이닝 엔진 (210) 은 게놈 샘플 데이터를 사용하여 영구 저장 디바이스 (230) 및 주 기억 디바이스 (240) 중 하나 또는 둘 모두에 저장될 수 있는 신경망 (108) 을 구성하고 트레이닝할 수 있고; 그리고 게놈 샘플 데이터와 관련하여 새로운 세포 타입에 대한 전체 게놈 시퀀싱 및 RNA-seq 데이터를 포함하는 게놈 샘플 입력에서 DNA 접근성을 예측하기 위해 트레이닝된 신경망을 사용하도록 예측 엔진 (220) 을 구성할 수 있다. 예를 들어, 예측 엔진 (220) 은 새로운 게놈 샘플 입력에 대한 RNA-seq 데이터 (112) 및 전체 게놈 시퀀싱 (114) 을 획득하고, 그리고 영구 저장 디바이스 (230) 및 주 기억 디바이스 (240) 중 하나 또는 둘 모두에 저장될 수 있는 DNA 접근성 (110) 을 예측하도록 트레이닝된 신경망을 사용하여 게놈 샘플 입력 (116) 에서 DNA 접근성을 예측할 수 있다.
그러나, 도 2의 엘리먼트들 및 각각의 엘리먼트들에 기인한 다양한 기능들은 예시적인 것일 뿐이며, 이해를 용이하게 하기 위해 설명된 것임을 유의해야 한다. 당업자는 다양한 엘리먼트들에 기인한 하나 이상의 기능들이 다른 엘리먼트들 중 임의의 하나에 의해 및/또는 다양한 기능들의 조합을 수행하도록 구성된 엘리먼트 (도시되지 않음) 에 의해 수행될 수 있다는 것을 이해할 것이다. 따라서, 트레이닝 엔진 (210), 예측 엔진 (220), 영구 저장 디바이스 (230) 및 주 기억 디바이스 (240) 로 향하는 임의의 언어가, 서버, 인터페이스, 시스템, 데이터베이스, 에이전트, 피어, 엔진, 제어기, 모듈, 또는 다양한 엘리먼트들에 기인한 기능들을 수행하기 위해 개별적으로 또는 집합적으로 동작하는 다른 타입의 컴퓨팅 디바이스를 포함한, 컴퓨팅 디바이스의 임의의 적절한 조합을 포함하도록 판독되어야 한다는 것에 유의해야 한다. 또한, 당업자는 하나 이상의 서버들, 하나 이상의 클라이언트 디바이스들 (예를 들어, 하나 이상의 사용자 디바이스들), 및/또는 하나 이상의 서버들 및 클라이언트 디바이스들의 조합과 같은 클라이언트-서버 관계의 맥락 내에서, 본원에 설명된 도 2의 시스템의 하나 이상의 기능들이 수행될 수 있다는 것을 이해할 것이다.
도 3은 일 실시형태에 따라 게놈 샘플에서 DNA 접근성을 예측하기 위한 예시적인 동작들의 흐름도를 더 도시한다. 흐름도 (300) 에서, 트레이닝 엔진 (210) 은 복수의 세포 타입들에 대한 DNase-seq 데이터 파일들 및 RNA-seq 데이터 파일들을 포함하는 게놈 샘플 데이터를 획득한다.
유전자 발현 레벨들의 맥락에서 DNA 접근성을 예측하기 위한 신경망을 트레이닝하기 위해서는, DNase-seq와 RNA-seq 모두가 다양한 세포 타입들의 크고 다양한 수집에 사용할 수 있는 게놈 샘플 데이터세트를 구축해야 한다. 게놈 샘플 데이터는 ENCODE (Encyclopedia of DNA Elements) 프로젝트 컨소시엄 또는 국립 보건원 로드맵 에피제노믹스 (National Institutes of Health Roadmap Epigenomics) 맵핑 컨소시엄 데이터베이스를 포함하여, 모든 인간 게놈 데이터 소스에서 획득될 수 있다. 예를 들어, 보다 다양한 바이오샘플 타입들을 캡처하기 위해, ENCODE 프로젝트 데이터베이스에서 선택된 RNA-seq 데이터 파일들에는 "RNA-seq", "polyA mRNA", "polyA 디플리티드" 및 "단일 세포" ENCODE 라벨들 중 하나 이상을 갖는 파일들을 포함할 수 있다. 일부 실시형태들에서, ENCODE "ERROR" 감사 플래그들을 포함하는 RNA-seq 데이터 파일들은 샘플 데이터로부터 제거될 수 있다. 그러나, "불충분한 판독 깊이" 및 "불충분한 판독 길이" 경고가 있는 파일들은 유지될 수 있다. 경고 파일들은 ENCODE 프로젝트 표준들보다 낮은 것으로 특징지어졌지만, 경고 상황들에서 사용 가능한 판독 깊이들 및 길이들은 세포 타입들을 구별할 때 문제가 되지 않을 수 있다. 또한, 보다 많은 샘플 타입들의 다양성에 찬성하여 더 많은 잠재적 노이즈를 수용하는 것이 어떤 경우 바람직할 수 있다.
일 실시형태에서, 게놈 샘플 데이터세트는 쌍을 이룬 데이터 파일들의 세트를 생성함으로써 RNA-서열 데이터에 기초하여 DNA 접근성을 예측하도록 신경망을 트레이닝시키기 위해 준비된다. 단계 302에서, 쌍을 이룬 데이터 파일들은 DNase-seq 데이터 파일들을 적어도 동일한 바이오타입 내에 있는 RNA-seq 데이터 파일들에 할당함으로써 게놈 샘플 데이터에서 생성된다. 예를 들어, 짝을 이룬 데이터 파일들은 매칭하는 바이오샘플 입수물들 (accessions) 에 기초하여 RNA-서열 데이터 파일들에 DNase-seq 데이터 파일들을 할당함으로써 생성될 수 있다. 쌍을 이룬 데이터 파일들은 또한, 예를 들어 DNase-seq 데이터 파일이 RNA-seq 데이터 파일들에 매칭하도록 결정되는 경우, 동일한 바이오타입 내에 있는 것으로 결정된 복수의 RNA-seq 데이터 파일들 중 하나에 DNase-seq 데이터 파일을 랜덤하게 할당함으로써 생성될 수 있다. 2 가지 파일 타입들 간에 다수의 정확한 바이오샘플 입수물이 매칭하는 경우, 연관성이 이러한 정확한 매칭으로 제한될 수 있다. 그러나, 정확한 매칭 바이오샘플 입수물들이 존재하지 않는 경우, RNA-seq 및 DNase-seq 파일들이 예를 들어, 동일한 조직 샘플, 동일한 세포주 또는 동일한 환자 중 적어도 하나인 것에 기반하여 연관될 수 있다. 그러한 대응 관계가 없는 바이오타입들은 샘플 데이터에서 제거될 수 있다. 또한, 예를 들어, 테스팅 동안, 신경망에서 노이즈의 쉽지 않게 가역적인 양태들을 학습하기 위해, 기술 및 생물학적 복제본들은 동일한 바이오타입의 독립적인 샘플들로 취급할 수 있다. 당업자라면, 예를 들어 품질 우려 및 데이터세트에 대한 다양한 업데이트들, 예를 들어, ENCODE 컨소시엄 업데이트들로 인한 개선과 같은, 쌍을 이룬 데이터세트의 추가 개선이 가능함을 이해할 것이다.
단계 304에서, 신경망은 쌍을 이룬 데이터 파일들의 복수의 배치들을 사용하여 RNA-seq 데이터에 기초하여 DNA 접근성을 예측하도록 트레이닝되도록 구성된다. 본원에 기재된 실시형태를 위해, 하기에서 더 기술되는 바와 같이, RNA-seq 데이터에 기초한 DNA 접근성을 예측하기 위한 신경망은 각각이 최대 풀링 층으로 이어지는 복수의 컨볼루션 층들을 포함하는 계층적 구조를 포함한다. 신경망은 계층적 구조에 뒤따르는 적어도 2 개의 완전히 연결된 층들을 더 포함한다. 예를 들어, 신경망은 딥 컨볼루션 신경망, 또는 긴밀하게 연결된 컨볼루션 신경망을 포함할 수 있다.
일 실시형태에서, 신경망을 구성하는 것은 쌍을 이룬 데이터 파일들 중 하나로부터 DNA 서열 데이터를 포함하는 제 1 입력을 프로세싱하여 컨볼브된 출력을 생성하기 위한 컨볼루션 층들, 및 쌍을 이룬 데이터 파일들 중 하나로부터의 RNA-seq 데이터로부터 도출된 유전자 발현 레벨들을 포함하는 제 2 입력과 컨볼브된 출력을 결부시키고 그 결부를 프로세싱하여 DNA 접근성 예측 출력을 생성하기 위한 컨볼루션 층들 다음의 완전히 연결된 층들을 구성하는 것을 포함한다. RNA-seq 데이터로부터 도출된 유전자 발현 레벨들에 사용되는 유전자들의 서브세트를 선택하기 위한 많은 가능한 전략들이 있다. 예시적인 실시형태에서, LINCS (Lntegrated Network-Based Cellular Signatures) 큐레이티드 L1000 데이터세트의 라이브러리는 유전자들의 서브세트로서 사용될 수 있다. 그러나, 유전자의 서브세트는, 예를 들어, 보다 완전한 유전자 세트를 활용하는 자동엔코더를 포함하는 다른 수단을 사용하여 선택될 수 있고, L1000 데이터세트와 같이 수동으로 큐레이트된 서브세트 대신에 이용될 수 있다.
신경망은 단계 306 에서 쌍을 이룬 데이터 파일들의 복수의 배치들을 사용하여 트레이닝된다. 예를 들어, 트레이닝 동안, 네거티브 트레이닝 예들과 포지티브 트레이닝 예들의 선택된 비율로 인해 데이터가 배치별로 데이터 균형을 잡을 수 있다. 각각의 배치는 교체없이 동일한 양의 접근 가능한 및 접근 가능하지 않은 부위들을 샘플링하여, 모든 이용 가능한 네거티브 트레이닝 예들을 통과하는 하나의 통과가 모든 포지티브 트레이닝 예들을 통과하는 다수의 랜덤하게 돌연변이된 통과들을 구성하게 할 수 있다. DNase-seq 파일이 복수의 매칭하는 RNA-seq 파일들을 갖는 상황들에서, DNase-seq 파일로부터의 부위들은 트레이닝 배치를 위해 선택될 때마다 복수의 대응하는 RNA-seq 발현 벡터들 중 하나 (유도된 유전자 발현 레벨) 에 랜덤하게 할당될 수 있다.
일 실시형태에서, 쌍을 이룬 데이터 파일들의 배치들은 트레이닝 진행을 평가하기 위한 검증 세트를 포함할 수 있다. 예를 들어, 복수의 랜덤 샘플들은 검증 DNase-seq 파일마다 각각의 접근 가능한 및 접근 가능하지 않은 부위들로부터 선택될 수 있고 트레이닝을 통해 ROC AUC (Area Under the Receiver Operating Characteristic curve) 를 추정하는데 사용될 수 있다. 모든 검증 샘플들의 전체 게놈들 (즉, 잠재적인 모든 DHS 부위들) 에 대한 예측 성능도 평가될 수 있다. 다수의 RNA-seq 파일 매칭이 존재하는 경우, 예를 들어, 데이터 불균형이 존재하는 경우 오해의 소지가 적을 수 있는 PR AUC (Precision Recall area under curve) 에 의해 캡처된 성능을 특성화하기 위해, 전체 게놈에 걸친 예측들은 모든 가능한 DNase-seq 및 RNA-seq 파일 쌍에 대해 한번 평가될 수 있다. 테스트 세트들에 대한 결과들은 동일한 절차에 따라 전체 게놈들 전체에서 평가될 수 있다.
예시적인 트레이닝 실시형태에서, 쌍을 이룬 데이터 파일들은 복수의 고유한 바이오타입들을 포함할 수 있고, 표 1에 예시된 바와 같이 트레이닝, 검증 및 테스트 세트들로 파티셔닝될 수 있다.
[표 1]
데이터세트 파티션당 파일 타입들의 수
표 1에 도시된 파티션들에 대해, 검증 세트는 일정하게 유지될 수 있는 반면, 트레이닝 및 테스트 세트들은 복수의 변형들을 포함할 수 있다. 예를 들어, 제 1 테스트 세트는 랜덤하게 홀딩 아웃된 (held-out) 샘플을 포함할 수 있지만, 제 2 테스트 세트는 테스트 세트 내의 모든 샘플들이 트레이닝 또는 검증 데이터에 표현되지 않은 바이오타입들로부터가 되도록, 예를 들어, 본 명세서의 다양한 실시형태들에서 설명된 신경망의 적용을 정확하게 시뮬레이션하도록 선택될 수 있다.
일 실시형태에서, 그리디 머지 (greedy merge) 방법론은 전체 게놈을 따라 접근 가능한 DNA의 모든 잠재적 부위들의 세트를 획득하기 위해 트레이닝 세트들의 모든 DNase-seq 샘플들에 사용될 수 있다. 예를 들어, 고정 길이, 예를 들어 DHS 피크를 중심으로 한 600 개의 염기 쌍들이 각 부위를 정의하는데 사용될 수 있다. 블랙리스팅 부위들, 즉 측정들이 신뢰할 수 없는 부위들은 제외될 수 있다. 각 게놈 부위의 서열은 인간 게놈 데이터베이스, 예를 들어, 게놈 참조 컨소시엄의 인간 게놈 어셈블리 hg19 에서 획득될 수 있다.
일 실시형태에서, 신경망 층들의 시퀀스에 대한 동적 붕괴 레이트는 이동 평균들이 배치 정규화를 위해 업데이트될 때 트레이닝 과정에 걸쳐 증가되도록 구성될 수 있고, 그리고 신경망 층들의 시퀀스의 하나 이상의 네트워크 파라미터들은 적응형 모멘트 추정 (Adam) 최적화 알고리즘에 기초하여 최적화되도록 구성될 수 있다.
단계 308 에서, 컴퓨팅 디바이스, 예를 들어 예측 엔진 (220) 은 게놈 샘플 (트레이닝) 데이터와 관련하여 새로운 세포 타입에 대한 RNA-seq 데이터에 기초하여 게놈 샘플 입력에서 DNA 접근성을 예측하기 위해 트레이닝된 신경망을 사용하도록 구성된다. 일 실시형태에서, 게놈 샘플 입력은 암 게놈 지도 (The Cancer Genome Atlas, TCGA) 또는 종양의 암 코호트와 연관될 수 있다. 예를 들어, 암 코호트들은 폐 선암종 (Lung Adenocarcinoma, LAD), 폐 편평 세포 암종 (Lung Squamous Cell Carcinoma, LUSC), 신장 혐색소증 (Kidney Chromophobe, KICH), 신장 투명 세포 암종 (Kidney Clear Cell Carcinoma, KIRC), 신장 유두 세포 암종 (Kidney Papillary Cell Carcinoma, KIRP) 및 유방암 (Breast Cancer, BRCA) 중 하나 이상을 포함할 수 있다. 일단 구성되면, 동작중인 예측 엔진 (220) 은 게놈 샘플 데이터와 관련하여 새로운 세포 타입에 대한 전체 게놈 시퀀싱 및 RNA-seq 데이터를 포함하는 게놈 샘플 입력을 획득할 수 있고, 그리고 단계 310 에서, 트레이닝된 신경망을 사용하여 게놈 샘플 입력에서 DNA 접근성을 예측할 수 있다.
도 4는 일 실시형태에 따라 게놈 샘플에서 DNA 접근성을 예측하기 위한 종래의 신경망 시스템의 블록도를 도시한다. 컨볼루션 신경망 시스템 (400) 은 각각 최대 풀링 (max-pooling) 층이 이어지는 복수의 컨볼루션 층들을 포함하는 계층적 구조 (402) 를 포함하는 신경망 층들의 시퀀스를 포함한다.
계층적 구조 (402) 는 쌍을 이룬 데이터 파일로부터 DNA 서열 데이터를 포함하는 제 1 입력 (404) 을 수신하고 제 1 입력을 프로세싱하여 컨볼브된 출력을 생성하도록 구성된다. 일 실시형태에서, 제 1 입력 (404) 은 하나의 핫 코드 (단일의 하이 ("1") 비트 및 다른 모든 값들 로우 ("0") 인 코드) 로 표현되는 DNA 의 600 염기쌍 세그먼트일 수 있다. 상술한 바와 같이, 쌍을 이룬 데이터 파일은 적어도 동일한 바이오타입 내에 있는 RNA-seq 데이터 파일들에 DNase-seq 데이터 파일들을 할당함으로써 복수의 세포 타입들에 대한 게놈 샘플 데이터로부터 생성된다. 일 실시형태에서, 계층적 구조 (402) 는, 데이터에 지정된 수의 컨볼루션 필터들을 적용하고 데이터의 각 서브-영역에 대해 수학적 연산들의 세트를 수행하여 출력에 단일 값을 생성하는, (도시된 바와 같이) 적어도 3개의 컨볼루션 층들을 포함할 수 있다. 더욱이, 제 1 및 제 2 컨볼루션 층들은 시스템 (400) 의 학습 레이트 및 최종 정확도를 향상시키기 위해 인수 분해될 수 있다.
적어도 2 개의 완전히 연결된 층들 (406) 은 컨볼루션 층들에 의해 추출되고 풀링 층들에 의해 다운-샘플링되는 피쳐들에 대한 분류를 수행하기 위해 계층적 구조 (402) 를 뒤따른다. 일 실시형태에서, 적어도 2 개의 완전히 연결된 층들 (406) 은 계층적 구조 (402) 에 의해 생성된 컨볼브된 출력을, 쌍을 이룬 데이터 파일로부터의 RNA-seq 데이터로부터 도출된 유전자 발현 레벨들을 포함하는 제 2 입력 (408) 과 결부시키고, 그리고 결부를 프로세싱하여 단일 DNA 접근성 예측 출력 (410) 을 생성한다.
상술한 바와 같이, 신경망 층들의 시퀀스는 쌍을 이룬 데이터 파일들의 복수의 배치들을 사용하여 RNA-seq 데이터에 기초하여 DNA 접근성을 예측하도록 트레이닝될 수 있다. 예를 들어, 배치 정규화는 모든 층들에서 이용될 수 있고, 최대 놈 제약은 트레이닝 과정에서 모든 가중치들의 정규화에 적용될 수 있다. 또한, 동적 붕괴 레이트는 고정된 감쇠 레이트보다 더 빨리 경쟁 성능을 달성하기 위해 신경망 층들의 시퀀스에 사용될 수 있다. 예를 들어, 이동 평균들이 배치 정규화를 위해 업데이트될 때 동적 붕괴 레이트가 트레이닝 과정에 걸쳐 증가하도록 구성될 수 있다. 또한, 적응형 모멘트 추정 (Adam) 최적화 알고리즘 또는 하나 이상의 다른 최적화 알고리즘들 (예를 들어, RMSProp) 을 사용하여 신경망 층들의 시퀀스의 하나 이상의 망 파라미터들을 최적화할 수 있다.
도 4에 도시된 신경망 시스템이 본 명세서의 실시형태들을 구현하기에 예시적인 것이지만, 당업자는 다양한 다른 신경망 아키텍처들 (예를 들어, 조밀하게 연결된 컨볼루션 망들 및 LSTMs (Long Short-Term Memory Units)) 및 추가들 (예컨대, 주의 메커니즘들) 이 이용될 수 있음을 알 것이다. 이와 같이, 신경망 시스템 (400) 은 본 명세서에 설명된 실시형태들에 엄격하게 제한되는 것으로 해석되어서는 안된다.
도 5는 도 4의 신경망 시스템을 사용하여 복수의 세포 타입들에 대한 게놈 샘플 데이터를 프로세싱하는 방법의 흐름도를 도시한다. 예를 들어, 신경망 시스템 (400) 은 복수의 세포 타입들에 대한 DNase-seq 데이터 파일들 및 RNA-seq 데이터 파일들을 포함하는 게놈 샘플 데이터를 수신하거나, 또는 트레이닝될 때 게놈 샘플 데이터와 관련하여 새로운 세포 타입에 대한 RNA-seq 데이터 및 전체 게놈 시퀀싱을 포함하는 게놈 샘플 입력을 수신할 수 있다.
단계 502 에서, 쌍을 이룬 데이터 파일로부터의 DNA 서열 데이터를 포함하는 제 1 입력은 컨볼브된 출력을 생성하기 위해 각각이 최대 풀링 층 (예를 들어, 다운-샘플링 최대 필터가 초기 표현의 서브-영역들에 적용되는 층) 에 이어지는 복수의 컨볼루션 층들 (예를 들어, 지정된 수의 컨볼루션 필터들을 데이터에 적용하고, 그리고 데이터의 각 서브-영역에 대해, 출력에 단일 값을 생성하기 위해 수학적 연산들의 세트를 수행하는 층) 을 포함하는 계층적 구조를 이용하여 프로세싱된다. 단계 302 에서, 쌍을 이룬 데이터 파일은 DNase-seq 데이터 파일들을 적어도 동일한 바이오타입 내에 있는 RNA-seq 데이터 파일들에 할당함으로써 게놈 샘플로부터 생성된다.
단계 504 에서, 적어도 2 개의 완전히 연결된 층들 (즉, 층 내의 모든 노드가 선행 층의 모든 노드에 연결되는 층들) 은 컨볼브된 출력을 쌍을 이룬 데이터 파일로부터의 RNA-seq 데이터로부터 도출된 유전자 발현 레벨들을 포함하는 제 2 출력과 결부하도록 구성된다. 단계 506 에서, 적어도 2 개의 완전히 연결된 층들은 그 결부를 프로세싱하여 단일 DNA 접근성 예측 출력을 생성한다.
테스트 결과들
신경망 시스템 (400) 의 여러 대안적인 버전들이 테스트 목적을 위해 트레이닝되었다. 비교 목적으로, 세포-특이적 모델들은 Basset 신경망의 절차에 따라 트레이닝되고 평가되었다. ENCODE 및 로드맵 에피제노믹스 프로젝트들에서 획득된 164 개의 샘플 타입들로부터의 DNase-seq 피크 데이터를 세포-특이적 모델 트레이닝에 사용했으며, 모든 DNase-seq 데이터 샘플들에 걸쳐 중복되는 피크들의 그리디 머지에 의해 잠재적인 접근성 부위의 범용적인 세트가 만들어졌다. 각 부위에 대해, 이진 벡터를 사용하여 164 개의 세포 타입들 각각에서 접근성 상태를 라벨링했다. 다음, 데이터를 게놈 부위별로 분할하여, 검증을 위해 70,000 개의 피크 위치들을 홀딩하였고, 테스트를 위해 71,886 개, 그리고 나머지 180 만 부위를 트레이닝에 사용했다.
도 6은 RNA-seq 입력을 사용하는 다양한 모델 아키텍처에 있어서 모든 포지티브 예들 (포지티브 에포크들) 을 통과하는 수에 대한 작은 검증 세트의 전체 ROC AUC를 도시한다. 그래프 (600) 는 유전자 발현들을 컨볼루션 층들로부터의 출력들과 결부시키기 이전에 딥한 충분히 연결된 (FC) 층에 부가한 실험으로부터의 결과들을 도시한다. 그러나, 최종 세포-특이적 모델 (전달) 로부터 가중치들로 배치 크기를 증가시키고 컨볼루션 층들을 초기화하는 것은 성능이 가장 향상되었다. 세트 1에서 트레이닝된 모델들은 동일한 하이퍼파라미터들로 세트 2에서 트레이닝된 모델들과 유사한 검증 성능들을 보였다. 이 평가는 몇 가지 의심되는 낮은 품질의 샘플들을 취소했지만 모델 선택에 대한 귀중한 피드백을 제공하는 최종 데이터세트 개정 전에 수행되었다.
도 7은 최종 데이터세트 개정 이후에 트레이닝된 모델들에 대한 포지티브 트레이닝 에포크들에 대한 작은 검증 세트에 대한 전체 ROC AUC를 도시한다. 그래프 (700) 는 배치 크기의 추가 증가 및 학습 레이트의 감소가 추가적인 상당한 개선을 가져온다는 것을 예시한다. 트레이닝 배치 (0.5에서 0.25) 당 포지티브 샘플들의 분율의 변경으로, 전체 게놈 검증에서 ROC AUC뿐만 아니라 PR AUC도 약간 향상되었다. 데이터의 최종 취소 이전에 학습한 가중치의 전달 (도 6) 은 최종 세포-특이적 모델로부터의 전달 학습보다 더 효과적인 초기화였다. 또한, 동일한 하이퍼파라미터들이 두 트레이닝 파티션들에 걸쳐 우수한 유효성 검증 성능을 이끌어 냈다는 것이 확인되었다.
도 6 및 도 7의 검증 결과들에 보고된 바와 같이, 트레이닝의 과정에 걸쳐, RNA-seq 데이터를 결부시키기 이전에 완전히 연결된 층을 컨볼루션 층들로부터의 출력에 부가하는 것은 완전히 연결된 층 없는 직접적인 결부보다 일관되게 악화되게 수행되는 것으로 밝혀졌다. 더욱이, 전달 학습은 모델 변형들에 대한 트레이닝된 시간을 일관되게 단축시켰다. 그러나, 가장 영향력 있는 변화로는 배치 크기를 (128에서 512로, 마지막으로 2048로) 증가시키고, 학습 레이트를 (0.001에서 0.0001로) 감소시키는 것이 포함되었다.
세포-특이적 모델들은 다중 작업 출력을 가져, 각각의 트레이닝 샘플이 오차역전파법 (backpropagation) 에 대한 다수의 라벨들에 기초하여 정보 풍부한 그래디언트를 제공하도록 하였다. 그러나, 신경망 시스템 400에서 RNA-seq 입력을 사용하면 다중 작업 출력이 필요하지 않으므로, 각 샘플은 단일 출력을 기반으로 한 그래디언트 피드백만 제공했다. 이로써, 배치 크기 증가는 각 배치에 대해 보다 유용한 그래디언트를 생성하기 위해 출력 치수의 이러한 변화를 보상하기 위한 것으로 의도되었다.
반면에, 학습 레이트 감소는, 모든 네거티브 트레이닝 예들을 단일 풀 패스하기 전에는, 트레이닝이 개선이 느린 지점에 도달한다는 관찰로 안내되었다. 새로운 데이터세트는 또한 세포-특이적인 모델들을 트레이닝시키는데 사용된 것보다 훨씬 더 컸다. 전달 학습에서, 취소된 파일들을 최종 클린업하기 이전에 대응하는 데이터 분할들에서 학습한 가중치를 사용하는 것은 최상의 세포-특이적인 모델에서 컨볼루션 층 가중치들을 전달하는 것보다 최종 데이터에서 더 효과적이었다. 취소된 샘플들 중 일부는 매우 높은 레이트의 DHS 피크들을 특징으로 하기 때문에, 사전 취소 데이터세트는 더 많은 관심 부위 (270 만개) 가 포함되었다. 이것은, 많은 추가적인 네거티브 예들을 제외하고, 상당한 수의 잠재적으로 접근 가능한 부위들도 중심이 다른 피크들을 가지고 있음을 의미했다. 그러나, 이 추가된 위치 노이즈는 모델 견고성을 장려했을 수도 있다.
도 4에 도시된 바와 같이, 신경망 시스템 (400) 은 최종 취소 파일들이 제거되기 이전에 데이터세트의 이전 반복으로부터 학습된 가중치로 초기화되었다. 차례로, 이들 모델들은 최상으로 수행하는 세포-특이적인 모델로부터 컨볼루션 층 파라미터들에 의해 초기화되었다. 2048의 효과적인 배치 크기가 트레이닝을 위해 사용되었으며 (2 개의 GPU들은 1024의 별개 배치들을 프로세싱함), 모든 배치에서 Adam 학습 레이트는 0.0001 이고 포지티브 대 네거티브 샘플들의 비율은 0.25 이다.
표 2는 ROC AUC뿐만 아니라 PR AUC와 관련하여 2개의 트레이닝 파티션들 중 각각에 걸쳐, 전체 및 바이오타입에 의한 검증 세트에 대한 최종 신경망 시스템 성능이 일관되었음을 보여준다.
[표 2]
세트 1 (t1) 및 세트 2 (t2) 에서 트레이닝된 최종 신경망 시스템에 대한 전체 게놈 검증 결과들
표 3 및 표 4는 모든 잠재적인 DHS 부위에서 전체 게놈을 가로지르는 신경망 시스템 (400) 을 적용한 결과들을 요약한 것이다. 테스트 세트에 단일의 파일 쌍보다 많은 바이오타입의 경우, 각 샘플의 결과들이 나열된다.
[표 3]
테스트 세트 1 전체 게놈 결과들
[표 4]
테스트 세트 2 전체 게놈 결과들
놀랍지도 않게, 완전히 새로운 바이오타입으로 인해 시스템 성능이 저하되었지만, 이 더 까다로운 시나리오에서 전체 PR AUC가 알려진 바이오타입을 사용하여 평가된 최상의 세포 특이적 모델보다 높았다. 표 4의 결과들 중 일부는, 샘플 타입들이 트레이닝과 중복되는 예측들과 유사한 범위들 내에 있음에 유의한다.
신경망 시스템 (400) 의 성능 특성들 및 한계들을 더 잘 이해하기 위해, ENCODE 검증 및 테스트 결과들은 게놈 부위 타입에 의해 분류되었다. 엑손, 단백질 코딩 엑손, 유전자내 및 유전자간 영역들은 GENCODE v19에 의해 정의된 어노테이션 (annotation) 으으로부터 도출되었고, 프로모터 및 플랭크 영역 어노테이션들은 ENSEMBL로부터 획득되었다.
표 5는 홀딩-아웃된 바이오타입 트레이닝 세트에서 고려된 171만개 부위에 적용된 어노테이션들의 분포, 그리고 각 어노테이션 타입 내에 있는 모든 포지티브 샘플들의 분율을 상세히 보여준다. 단일 부위는 2 이상의 어노테이션과 중복될 수 있으며, 표 5는 홀딩-아웃된 바이오타입 파티션 (트레인/테스트 세트 2) 의 상세만을 보고한다는 점에 유의한다.
[표 5]
어노테이션에 의해 잠재적으로 접근 가능한 부위들의 분포
도 8, 도 9 및 도 10은 시스템이 전체적으로 열악하게 수행된 샘플에 대해서도, 프로모터 및 플랭크 영역들 내의 예측들이 일관되게 높은 레벨의 정확도를 달성하여, 모든 홀딩 아웃된 바이오타입들 (테스트 세트 2) 에 대해서는 PR AUC = 0:838 및 랜덤하게 홀딩 아웃된 샘플들 (검증 세트) 에 대해서는 PR AUC = 0:908을 달성한다는 것을 예시한다.
도 8에서, 그래프 (800) 는 전체 게놈 샘플당 홀딩 아웃된 바이오타입의 테스트 세트 (세트 2) 에 대한 PR AUC 및 ROC AUC 결과들을 나타낸다. ROC AUC는 데이터 불균형에 영향을 받기 때문에, PR AUC 메트릭은 전체 게놈 성능을 더 잘 평가한다.
도 9에서, 그래프 (900) 는 전체 게놈 샘플당 분리되고 게놈 부위 타입에 의해 분류된 홀딩 아웃된 바이오타입들의 테스트 세트 (세트 2) 에 대한 PR AUC 결과들을 도시한다. 예시된 바와 같이, 전체 결과들이 가장 낮은 샘플들에 대해서도, 프로모터 및 플랭크 영역에 대한 성능은 일관되게 높았다. 그래프 컬러링은 도 8의 범례에서 정의된 것과 동일하다는 점에 유의한다.
도 10 및 도 11은 이들 예측들의 정확도가 프로모터 및 플랭크 부위들이 우리의 RNA-seq 입력 벡터에서 사용된 유전자의 영역들과 오버랩되는지 여부와는 무관하다는 것을 확인한다.
도 10에서, 그래프 (1000) 는 전체 게놈 샘플당 분리되고 입력 유전자 세트 (L1000) 멤버십에 의해 분리된 홀딩 아웃된 바이오타입들의 테스트 세트 (세트 2) 에 대한 프로모터 및 플랭크 PR AUC 결과들을 도시한다. 프로모터 및 플랭크 영역들이 RNA-seq 입력 유전자 세트와 중첩되거나 중첩되지 않는 것들로 분리될 때 명확한 성능 차이가 관찰되지 않았다. 그래프 컬러링은 도 8의 범례에서 정의된 것과 동일하다는 점에 유의한다.
도 11에서, 그래프 (1100) 는 부위 타입 및 L1000 유전자 세트 멤버십에 의해 분류된 홀딩 아웃된 바이오타입들 (세트 2) 의 테스트 데이터세트에 대한 전반적인 결과들을 도시한다.
도 10 및 도 11에 도시된 바와 같이, 홀딩 아웃된 바이오타입 테스트 세트에 대해 정확도가 80% (20%의 거짓 발견 비율) 가 되도록 프로모터 및 플랭크 부위들만을 분류하기 위한 임계치를 선택하면, 트레이닝된 시스템은 10%의 거짓 포지티브 비율로, 접근 가능한 프로모터 영역들의 65.3%를 리콜한다. 또한, 바이오타입이 트레이닝 세트와 중첩되도록 허용되는 검증 세트에 이 동일한 임계치가 적용될 때, 시스템은 93.4%의 정확도를 달성하며, 단지 3.5%의 거짓 포지티브 비율로, 접근 가능한 프로모터 영역들의 62.6%를 리콜한다.
범-암 (pan-cancer) 게놈에 적용
일단 트레이닝되면, 본원의 다양한 실시형태에서 기술된 DNA 접근성을 예측하기 위한 신경망은 도 1에 도시된 바와 같이, RNA-seq (112) 및 전체 게놈 서열 정보 (114) 가 이용 가능한 새로운 데이터세트들에 적용될 수 있다.
신경망 시스템의 하나의 애플리케이션은 범-암 게놈의 샘플들에 대한 DNA 접근성을 예측하는 것이다. 각 TCGA 샘플에 대해 예상된 접근성 프로파일을 구성하기 위해, 영향을 받는 모든 부위에 모든 신체적 SNP, 삽입 (INS) 및 삭제 (DEL) 돌연변이가 적용되었다. 그러나, 전 지구적 범위를 살펴보고 접근성 프로파일을 비교하기 이전에, 돌연변이가 게놈 관심 영역들의 우리 세트에 미치는 영향을 이해하는 것이 도움이 된다.
도 12에서, 그래프 (1200) 는 각 코호트의 환자 수에 의해 표준화된 코호트당 SNP 1202, INDEL 1204 및 SNP+INDEL 1206 돌연변이의 총 수를 도시한다. 전체 게놈 데이터에 대한 위의 코호트들의 모든 샘플들에 걸쳐서, 3172개의 관심 영역들은 단일의 SNP를, 78개의 관심 영역들은 2개의 SNP들을, 그리고 단지 9개의 관심 영역들은 3개와 5개 사이의 SNP들을 가졌다. 총 465 개의 부위들이 삽입 또는 삭제 (INDEL) 돌연변이를 포함하였고, SNP와 INDEL 돌연변이들 모두가 함께 발생한 곳은 단 7 개 (BRCA에서 4 개, LUSC 에서 2 개, LUAD 에서 1 개) 의 부위였다. 따라서, 이 플롯에서는 거의 볼 수 없다.
적어도 하나의 돌연변이에 의해 영향을 받은 각 샘플 부위에 대해, 예측된 접근성의 변화는 각 돌연변이 타입이 적용되기 전과 후에 계산되었다. 도 13은 일 실시형태에 따라 600 염기쌍 프로모터 및 플랭크 부위들에서의 예측된 접근성 스코어에 대한 돌연변이들의 영향을 도시한 박스 플롯들의 시각적 표현을 도시한다.
도 13에서, 플롯 (1300) 은 모든 샘플에 걸쳐 적용된 SNP들만 (1302), INDEL들만 (1304) 및 모든 돌연변이들 (1306) 로 인한 변화들의 분포를 도시한다. INDEL 돌연변이 (1304) 는 접근성 점수에 어느 정도 영향을 주었는지에 대한 큰 차이를 보여 주었는데, 이는 일반적으로 더 많은 수의 염기쌍들에 영향을 주기 때문인 것으로 예상된다.
도 14는 일 실시형태에 따라 hg19 참조 게놈을 사용하는 것에 비해 말단이 플립된 특정 돌연변이 범주 내의 돌연변이된 부위의 분율을 그래프 (1400) 로 나타낸 것이다. 그래프 (1400) 에서, 80% 정확도 임계치를 적용하여 각 타입의 돌연변이가 접근성 결정 변경을 일으키는 빈도를 조사했다. 분류가 변경된 모든 돌연변이들 중에서, 가장 흔한 결정 플립의 원인들은 INS와 DEL 돌연변이들이었다. 특히, INDEL들 1402의 영향을 받는 모든 프로모터 및 플랭크 부위들 중에서, 5.46%가 분류 결과를 변화시켰다.
모든 돌연변이들을 적용한 이후, 6 개의 TCGA 코호트들에 있는 모든 샘플들에 대한 접근성 프로파일들을 형성하기 위해 모든 프로모터 및 플랭크 부위들의 예측들을 샘플당 단일 벡터에 쌓아두었다. 도 15는 일 실시형태에 따라 접근성 특성들의 시각적 표현 (1500) 을 도시한다. 도 15에서, 본원에 기재된 신경망 시스템은 6 개의 암 코호트들에 적용되었다: TCGA에서 폐 선암종 (LUAD), 폐 편평세포 암종 (LUSC), 신장 혐색소증 (KICH), 신장 투명 세포 암종 (KIRC), 신장 유두 세포 암종 (KIRP) 및 유방암 (BRCA). TCGA 샘플에 대한 예측들은, 모든 테스트들에서 예측 결과들이 높았기 때문에, 프로모터 및 플랭크 어노테이션들을 중첩한, 잠재적으로 접근 가능한 서브세트에 제한되었다. 위에 제시된 분석과의 일관성을 위해, 모든 TCGA 결과들은 (바이오타입들을 홀딩 아웃한) 세트 2에 대해 트레이닝된 최상의 모델을 적용하여 획득되었다. 도 15는 6 개의 TCGA 코호트들로부터의 샘플들에서 80% 정확도 임계치를 적용한 후 RNA-seq 데이터 (1502), 원시 예측된 접근성 프로파일 값들 (1502), 및 이진화된 접근성 프로파일 데이터 (1504) 로부터의 LINCS (Library of Integrated Cellular Signatures) L1000 유전자 발현 플랫폼 유전자 발현 레벨 벡터들의 t-SNE (t-Distributed Stochastic Neighbor Embedding) 시각화를 도시한다. RNA-seq 공간 (1506) 에서는, 기저양 (basal-like) 대 루미날 A/B와 HER2-농후의 유방암 (BRCA) 사이에 명확한 구분을 볼 수 있다. 예측된 접근성 공간들 (1504 및 1506) 에서는, 폐 (LUAD, LUSC) 및 유방 (BRCA) 암 샘플들은 공통된 접근성 특성들을 갖는 것으로 보이다. 따라서, 도 15에서 t-SNE를 사용하여 시각화된 TCGA 접근성 프로파일들 사이의 관계는, DNA 접근성의 관점에서 암을 보는 것이 RNA-seq와 상이한 관계 및 하위 카테고리를 제공한다는 것을 시사한다.
따라서, DNA 서열 데이터에서 작동하는 예측 신경망 시스템들은 재트레이닝없이 새로운 샘플 타입들에 적용할 수 있는 방식으로 세포 특이적인 거동을 핸들링하는 방법을 배울 수 있다. 본 발명의 실시형태들은 이전의 세포 특이적인 접근성 예측에 대해 개선하여, 이전의 평균 ROC AUC (receiver operating characteristic area under the curve) = 0:895 및 평균 PR (precision-recall) AUC = 0:561 과 비교하여, 평균 ROC AUC = 0:910 및 평균 정확도-리콜 (PR) AUC = 0:605 를 획득한다.
또한, 본 명세서의 실시형태는, 재-트레이닝을 위한 세포-타입 특이적 DNase-seq 데이터를 요구하지 않고도, RNA-seq 데이터를 사용할 수 있는 임의의 새로운 샘플에 대한 접근성 예측들을 가능하게 한다. 이 새로운 신경망 시스템은 바이오타입들이 트레이닝으로부터 홀딩 아웃된 새로운 샘플들의 전체 게놈들에 걸쳐 적용되었을 때 전체 PR AUC = 0:621 및 ROC AUC = 0:897을 얻었으며 바이오타입들이 트레이닝과 중첩되도록 허용된 랜덤하게 홀딩 아웃된 새로운 샘플들에 대해 PR AUC = 0:725 및 ROC AUC = 0:913 이었다. 또한, 게놈의 프로모터 및 플랭크 영역들에 대해, 신경망 시스템은 높은 신뢰성에 대한 접근성을 예측하여, 홀딩 아웃된 바이오타입들에서 PR AUC = 0:838 및 랜덤하게 홀딩 아웃된 샘플들에서 PR AUC = 0:908을 달성한다. 이 성능은 프로모터 및 플랭크 영역들이 입력 RNA-seq 발현 벡터에 사용된 유전자들 내에 있는지 여부에 민감하지 않다.
따라서, RNA-seq로부터의 유전자 발현은 세포 타입 유사성을 활용하기 위해 머신 학습을 허용하는 시그니처 입력으로서 추가될 수 있다. RNA-seq 데이터를 사용하여 DNA 접근성을 예측하는 신경망 시스템은 게놈의 프로모터 및 플랭크 영역들에서 예측들에 대해 일관된 고성능을 달성할 수 있고, 이로써 상이한 세포 및 조직 타입들에 걸친 종양 게놈들 분석을 위한 새로운 툴을 가능하며, TCGA (The Cancer Genome Atlas) 의 여러 코호트들에 걸쳐 DNA 접근성의 제 1 글림스 (예를 들어, 모터 접근성 패턴들) 을 제공하였다.
본원에 설명된 시스템들, 장치들 및 방법들은 디지털 회로를 사용하거나, 잘 알려진 컴퓨터 프로세서들, 메모리 유닛들, 저장 디바이스들, 컴퓨터 소프트웨어 및 기타 컴포넌트들을 사용하는 하나 이상의 컴퓨터들을 사용하여 구현될 수 있다. 통상적으로, 컴퓨터는 명령들을 실행하기 위한 프로세서 및 명령들 및 데이터를 저장하기 위한 하나 이상의 메모리들을 포함한다. 또한, 컴퓨터는 하나 이상의 자기 디스크, 내부 하드 디스크 및 이동식 디스크, 광 자기 디스크, 광 디스크 등과 같은 하나 이상의 대용량 저장 디바이스를 포함하거나, 또는 이에 커플링될 수 있다.
여기에 기술된 시스템, 장치 및 방법은 클라이언트-서버 관계로 동작하는 컴퓨터들을 사용하여 구현될 수 있다. 일반적으로, 이러한 시스템에서, 클라이언트 컴퓨터들은 서버 컴퓨터들에서 원격으로 위치하며 네트워크를 통해 상호 작용한다. 클라이언트-서버 관계는 각각의 클라이언트 및 서버 컴퓨터들에서 실행되는 컴퓨터 프로그램들에 의해 정의되고 제어될 수 있다.
본 명세서에 설명된 시스템들, 장치들 및 방법들을 구현하는데 사용될 수 있는 예시적인 클라이언트-서버 관계의 고레벨 블록도는 도 16에 도시되어 있다. 클라이언트-서버 관계 (1600) 는 네트워크 (1630) 를 통해 서버 (1620)와 통신하는 클라이언트 (1610) 를 포함하고, 그리고 클라이언트 (1610)와 서버 (1620) 사이에서 DNA 접근성 예측 태스크의 하나의 가능한 분할을 도시한다. 예를 들어, 클라이언트 (1610) 는 상술한 다양한 실시형태에 따라, 복수의 세포 타입들에 대한 DNase-seq 데이터 파일들 및 RNA-seq 데이터 파일들을 포함하는 게놈 샘플 데이터를 획득하고 게놈 샘플 데이터를 서버 (1620) 로 전송할 수 있다. 서버 (1620) 는 차례로 DNA 접근성 신경망 트레이닝 및 예측을 위해 클라이언트로부터 게놈 샘플 데이터/게놈 샘플 입력을 수신하고, 동일한 바이오타입 내에 있는 RNA-seq 데이터 파일들에 DNase-seq 데이터 파일들을 할당함으로써 상기 게놈 샘플 데이터로부터 쌍을 이룬 데이터 파일들을 생성하고, 쌍을 이룬 데이터 파일들의 복수의 배치들을 사용하여 RNA-seq 데이터에 기초하여 DNA 접근성을 예측하기 위해 트레이닝되도록 신경망을 구성하고, 그리고 쌍을 이룬 데이터 파일들의 복수의 배치들을 사용하여 RNA-seq 데이터에 기초하여 DNA 접근성을 예측하도록 신경망을 트레이닝할 수 있다. 클라이언트 (1610) 는 또한 게놈 샘플 데이터와 관련하여 새로운 세포 타입에 대한 RNA-seq 데이터 및 전체 게놈 시퀀싱을 포함하는 게놈 샘플 입력을 서버 (1620) 으로 전송할 수 있고, 서버 (1620) 는 게놈 샘플 입력을 수신하고, 트레이닝된 신경망을 사용하여 게놈 샘플 입력에서 DNA 접근성을 예측하고, 그리고 게놈 샘플 입력에 대한 DNA 접근성 예측 결과들을 클라이언트 (1610) 에 전송할 수 있다. 당업자는 도 16에 도시된 예시적인 클라이언트-서버 관계가 본 명세서에 설명된 시스템들, 장치들 및 방법들을 구현하기 위해 가능한 다수의 클라이언트-서버 관계들 중 단지 하나임을 알 것이다. 이와 같이, 도 16에 도시된 클라이언트-서버 관계는 어떠한 방식으로도 제한적으로 해석되어서는 안된다. 클라이언트 디바이스들 (1610) 의 예들은 세포룰러 스마트폰, 키오스크, 개인용 정보 보조기, 태블릿, 로봇, 차량, 웹 카메라, 또는 다른 타입의 컴퓨터 디바이스를 포함할 수 있다.
본 명세서에 설명된 시스템들, 장치들 및 방법들은 프로그램 가능한 프로세서에 의한 실행을 위해 정보 캐리어에서, 예를 들어 비일시적 머신 판독가능 저장 디바이스에서 유형적으로 구현된 컴퓨터 프로그램 제품을 사용하여 구현될 수 있고; 그리고 도 3 및 도 5의 단계들 중 하나 이상을 포함하여 본원에 설명된 방법 단계들은 그러한 프로세서에 의해 실행 가능한 하나 이상의 컴퓨터 프로그램들을 사용하여 구현될 수 있다. 컴퓨터 프로그램은 특정 활동을 수행하거나 특정 결과를 가져오기 위해 컴퓨터에서 직접 또는 간접적으로 사용될 수 있는 컴퓨터 프로그램 명령들의 세트이다. 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어들을 포함하여 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 단위를 포함한 모든 형태로 배포될 수 있다.
본 명세서에 설명된 시스템들, 장치들 및 방법들을 구현하는데 사용될 수 있는 예시적인 장치의 고레벨 블록도는 도 17에 도시되어 있다. 장치 (1700) 는 영구 저장 디바이스 (1720) 및 주 기억 디바이스 (1730) 에 동작 가능하게 커플링된 프로세서 (1710) 를 포함한다. 프로세서 (1710) 는 이러한 동작들을 정의하는 컴퓨터 프로그램 명령들을 실행함으로써 장치 (1700) 의 전체 동작을 제어한다. 컴퓨터 프로그램 명령들은 영구 저장 디바이스 (1720) 또는 다른 컴퓨터 판독가능 매체에 저장될 수 있고, 컴퓨터 프로그램 명령들의 실행이 요구될 때 주 기억 디바이스 (1730) 에 로딩될 수 있다. 예를 들어, 트레이닝 엔진 (210) 및 예측 엔진 (220) 은 컴퓨터 (1700) 의 하나 이상의 컴포넌트들을 포함할 수 있다. 따라서, 도 3 및 도 5의 방법 단계들은 주 기억 디바이스 (1730) 및/또는 영구 저장 디바이스 (1720) 에 저장된 컴퓨터 프로그램 명령들에 의해 정의되고 컴퓨터 프로그램 명령들을 실행하는 프로세서 (1710) 에 의해 제어될 수 있다. 예를 들어, 컴퓨터 프로그램 명령들은 도 3 및 도 5의 방법 단계들에 의해 정의된 알고리즘을 수행하기 위해 당업자에 의해 프로그램된 컴퓨터 실행가능 코드로서 구현될 수 있다. 따라서, 컴퓨터 프로그램 명령들을 실행함으로써, 프로세서 (1710) 는 도 3 및 도 5의 방법 단계들에 의해 정의된 알고리즘을 실행한다. 장치 (1700) 는 또한 네트워크를 통해 다른 디바이스들과 통신하기 위한 하나 이상의 네트워크 인터페이스들 (1780) 을 포함한다. 장치 (1700) 는 또한 사용자가 장치 (1700) (예를 들어, 디스플레이, 키보드, 마우스, 스피커, 버튼 등) 와 상호 작용할 수 있게 하는 하나 이상의 입/출력 디바이스들 (1790) 을 포함할 수 있다.
프로세서 (1710) 는 범용 및 특수 목적 마이크로프로세서들 모두를 포함할 수 있으며, 단독 프로세서 또는 장치 (1700) 의 다수의 프로세서들 중 하나일 수 있다. 프로세서 (1710) 는, 예를 들어 여기에 설명된 다양한 심층 학습 및 분석 애플리케이션을 위한 프로세싱을 가속화하기 위해 예를 들어 하나 이상의 CPU들과 별도로 및/또는 하나 이상의 CPU들과 다중 작업을 할 수 있는 하나 이상의 중앙 처리 장치들 (CPU) 및 하나 이상의 그래픽 처리 장치들 (GPU) 를 포함할 수도 있다. 프로세서 (1710), 영구 저장 디바이스 (1720) 및/또는 주 기억 디바이스 (1730) 는 하나 이상의 주문형 집적 회로 (ASIC) 및/또는 하나 이상의 필드 프로그램 가능한 게이트 어레이 (FPGA) 를 포함하거나, 이에 의해 보충되거나, 또는 이에 통합될 수 있다.
영구 저장 디바이스 (1720) 및 주 기억 디바이스 (1730) 는 각각 유형의 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 영구 저장 디바이스 (1720) 및 주 기억 디바이스 (1730) 는 각각 고속 랜덤 액세스 메모리, 예컨대 동적 랜덤 액세스 메모리 (DRAM), 정적 랜덤 액세스 메모리 (SRAM), 더블 데이터 레이트 동기 동적 랜덤 액세스 메모리) 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들을 포함할 수 있으며, 그리고 비휘발성 메모리, 예컨대 내부 하드 디스크 및 이동식 디스크와 같은 하나 이상의 자기 디스크 저장 디바이스, 광 자기 디스크 저장 디바이스, 광학 디스크 저장 디바이스, 플래시 메모리 디바이스, 반도체 메모리 디바이스, 예컨대 소거가능 프로그래머블 판독 전용 메모리 (EPROM), 전기적 소거가능 프로그래머블 판독 전용 메모리 (EEPROM), 콤팩트 디스크 판독 전용 메모리 (CD-ROM), 디지털 다용도 디스크 판독 전용 메모리 (DVD-ROM) 디스크, 또는 다른 비 휘발성 솔리드 스테이트 저장 디바이스를 포함할 수 있다.
입/출력 디바이스들 (1790) 은 프린터, 스캐너, 디스플레이 스크린 등과 같은 주변 장치를 포함할 수 있다. 예를 들어, 입/출력 디바이스들 (1790) 은 사용자에게 정보 (예를 들어, DNA 접근성 예측 결과) 를 디스플레이하기 위한 음극선 관 (CRT), 플라즈마 또는 액정 디스플레이 (LCD) 와 같은 디스플레이 디바이스의 모니터, 키보드, 및 사용자가 장치 (1700) 에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 디바이스를 포함할 수 있다.
트레이닝 엔진 (210) 및 예측 엔진 (220) 을 포함하여, 본 명세서에서 논의된 시스템 및 장치 중 임의의 것 또는 모든 것은 장치 (1700)와 같은 장치에 의해 수행될 수 있고 및/또는 그 장치에 통합될 수 있다.
당업자는, 실제 컴퓨터 또는 컴퓨터 시스템의 구현이 다른 구조를 가질 수 있고 다른 컴포넌트를 또한 포함할 수 있으며, 도 17이 예시적인 목적으로 그러한 컴퓨터의 컴포넌트들 중 일부의 고레벨 표현임을 인식할 것이다.
전술한 명세서는 모든 면에서 예시적이고 예증적인 것으로 이해되어야 하지만 제한적이지는 않으며, 그리고 본 명세서에 개시된 본 발명의 범위는 명세서로부터 결정되는 것이 아니라 특허법에 의해 허용된 전체 폭에 따라 해석되는 청구범위로부터 결정되어야 한다. 여기에 도시되고 설명된 실시형태들은 본 발명의 원리들을 설명하기 위한 것일 뿐이며 본 발명의 범위 및 사상을 벗어나지 않고 당업자에 의해 다양한 변형이 구현될 수 있음을 이해해야 한다. 당업자는 본 발명의 범위 및 사상을 벗어나지 않고 다양한 다른 특징 조합을 구현할 수 있다.