인간 게놈 프로젝트( Human Genome Project )가 2003년에 최초의 인간 게놈을 완성했다고 발표 했을 때 , 이는 처음으로 인간 생명의 DNA 청사진이 잠금 해제된 중대한 성과였습니다. 그러나 문제가 생겼습니다. 그들은 실제로 게놈의 모든 유전 정보를 모을 수 없었습니다. 공백이 있었습니다. 채워지지 않고 종종 반복되는 영역으로 너무 혼란스러워서 하나로 묶을 수 없었습니다.
이러한 반복적인 서열을 처리할 수 있는 기술의 발전으로 과학자들은 마침내 2021년 5월에 이러한 격차를 메웠고 최초의 종단 간 인간 게놈이 2022년 3월 31일에 공식적으로 발표 되었습니다 .
저는 진화 역사 전반에 걸쳐 반복적인 DNA 서열과 그것들이 어떻게 게놈을 형성하는지 연구 하는 게놈 생물학자 입니다. 나는 게놈에서 누락된 반복 시퀀스를 특성화 하는 데 도움을 주는 팀의 일원이었습니다 . 그리고 이제 진정으로 완전한 인간 게놈과 함께 이러한 반복적인 영역이 마침내 처음으로 완전히 탐구되고 있습니다.
사라진 퍼즐 조각
독일 식물학자 Hans Winkler 는 1920년 " 유전자 "라는 단어를 "완전한 세트"를 의미하는 접미사 "-ome"과 결합하여 각 세포에 포함된 전체 DNA 서열을 설명하는 "게놈"이라는 단어를 만들었습니다. 연구원들은 한 세기가 지난 후에도 유기체를 구성하는 유전 물질을 언급하기 위해 이 단어를 사용합니다.
게놈이 어떻게 생겼는지 설명하는 한 가지 방법은 그것을 참고서와 비교하는 것입니다. 이 비유에서 게놈은 생명에 대한 DNA 지침을 포함하는 선집입니다. 이것은 염색체(챕터)에 포장된 방대한 뉴클레오티드(문자) 배열로 구성됩니다. 각 염색체에는 유기체가 기능하도록 하는 특정 단백질을 암호화하는 DNA 영역인 유전자(단락)가 들어 있습니다.
모든 살아있는 유기체에는 게놈이 있지만 그 게놈의 크기는 종마다 다릅니다. 코끼리는 자신이 먹는 풀과 내장의 박테리아와 동일한 형태의 유전 정보를 사용합니다. 그러나 두 개의 게놈이 정확히 똑같지는 않습니다. 일부는 112,000개의 뉴클레오티드에 걸쳐 단 137개의 유전자를 가진 곤충 거주 박테리아 Nasuia deltocephalinicola 의 게놈처럼 짧습니다. 꽃 피는 식물 파리 자포니카 (Paris japonica) 의 1490억 뉴클레오티드와 같은 일부 는 너무 길어서 그 안에 얼마나 많은 유전자가 들어 있는지 파악하기 어렵습니다.
그러나 전통적으로 단백질을 암호화하는 DNA의 스트레치로 이해되어 온 유전자는 유기체 게놈의 작은 부분에 불과합니다. 사실, 그것들 은 인간 DNA의 2% 미만 을 구성합니다 .
인간 게놈 은 대략 30억 개의 뉴클레오티드와 20,000개 미만의 단백질 코딩 유전자를 포함하고 있으며 이는 게놈 전체 길이의 약 1%에 해당합니다. 나머지 99%는 단백질을 생산하지 않는 비암호화 DNA 서열입니다. 일부는 다른 유전자가 작동하는 방식을 제어하는 스위치보드로 작동하는 규제 구성 요소입니다. 다른 것들은 가유전자( pseudogenes ) 또는 기능을 상실한 게놈 유물입니다.
그리고 인간 게놈의 절반 이상 이 거의 동일한 서열의 여러 사본으로 반복적입니다.
반복 DNA 란 무엇입니까?
반복 DNA의 가장 단순한 형태는 위성 이라고 하는 직렬로 계속해서 반복되는 DNA 블록입니다 . 주어진 게놈에 있는 위성 DNA 의 양은 사람마다 다르지만 종종 텔로미어( telomere ) 라고 하는 영역에서 염색체의 끝을 향해 클러스터링 됩니다. 이 영역은 DNA 복제 중에 염색체가 분해되지 않도록 보호합니다. 그들은 또한 세포가 분열할 때 유전 정보를 온전하게 유지하는 데 도움이 되는 영역인 염색체 의 중심 에서 발견됩니다.
연구원들은 여전히 위성 DNA의 모든 기능에 대한 명확한 이해가 부족합니다. 그러나 위성 DNA는 각 사람의 고유한 패턴을 형성하기 때문에 법의학 생물학자와 계보학자는 이 게놈 "지문" 을 사용 하여 범죄 현장 샘플을 일치시키고 조상을 추적합니다. 헌팅턴병 을 포함하여 50개 이상의 유전 질환이 위성 DNA의 변이와 관련이 있습니다 .
반복적인 DNA의 또 다른 풍부한 유형은 게놈 주위를 이동할 수 있는 전위 요소 또는 서열입니다.
일부 과학자들은 결과에 관계없이 게놈의 어느 위치에나 자신을 삽입할 수 있기 때문에 이기적인 DNA로 설명했습니다. 인간 게놈이 진화함에 따라 많은 전이 가능한 서열 이 유해한 중단을 피하기 위해 이동하는 능력을 억제 하는 돌연변이를 수집했습니다. 그러나 일부는 여전히 이동할 수 있습니다. 예를 들어, 이식 가능한 요소 삽입은 유전적 출혈 장애인 혈우병 A의 여러 사례와 관련이 있습니다.
그러나 transposable 요소는 파괴적인 것만이 아닙니다. 그들은 다른 DNA 서열의 발현을 조절하는 데 도움 이 되는 조절 기능 을 가질 수 있습니다. 중심체에 집중되어 있을 때 세포 생존에 기본적인 유전자의 무결성을 유지하는 데 도움이 될 수도 있습니다.
그들은 또한 진화에 기여할 수 있습니다. 연구자들은 최근에 발달에 중요한 유전자에 이식 가능한 요소를 삽입하는 것이 인간을 포함한 일부 영장류에 꼬리가 없는 이유일 수 있음을 발견했습니다 . 전이 요소로 인한 염색체 재배열은 동남아시아의 긴팔 원숭이 와 호주의 왈라비 와 같은 새로운 종의 기원과도 관련이 있습니다 .
게놈 퍼즐 완성하기
최근까지 이러한 복잡한 지역 중 많은 부분이 달의 뒷면에 비유될 수 있었습니다. 존재하는 것으로 알려졌지만 보이지 않았습니다.
1990년 인간 게놈 프로젝트 가 처음 시작 되었을 때 기술적인 한계로 인해 게놈에서 반복적인 영역을 완전히 밝히는 것이 불가능했습니다. 사용 가능한 시퀀싱 기술 은 한 번에 약 500개의 뉴클레오티드만 읽을 수 있었고 전체 시퀀스를 다시 생성하려면 이 짧은 단편이 서로 겹쳐야 했습니다. 연구원들은 이러한 중첩 세그먼트를 사용하여 시퀀스의 다음 뉴클레오티드를 식별하고 게놈 어셈블리를 한 번에 한 조각씩 점진적으로 확장했습니다.
이 반복되는 간격 영역은 흐린 하늘의 1,000개 조각 퍼즐을 맞추는 것과 같았습니다. 모든 조각이 똑같아 보일 때 하나의 구름이 시작되고 다른 구름이 끝나는 곳을 어떻게 압니까? 많은 지점에서 거의 동일한 중첩 스트레치로 인해 단편적으로 게놈을 완전히 시퀀싱하는 것이 불가능해졌습니다. 수백만 개의 뉴클레오티드 가 인간 게놈의 첫 번째 반복에서 숨겨져 있었습니다.
그 이후로 서열 패치는 점차 인간 게놈의 공백을 조금씩 메워왔다. 그리고 2021년, 인간 게놈 어셈블리를 처음부터 끝까지 완성하기 위해 노력하는 과학자들의 국제 컨소시엄인 Telomere-to-Telomere(T2T) 컨소시엄 은 모든 남아 있는 격차가 마침내 채워 졌다고 발표했습니다 .
이것은 수천 뉴클레오티드 길이의 더 긴 서열을 읽을 수 있는 향상된 시퀀싱 기술에 의해 가능했습니다 . 더 큰 그림 내에서 반복적인 서열을 위치시키는 더 많은 정보와 함께, 게놈에서 그들의 적절한 위치를 식별하는 것이 더 쉬워졌습니다. 1,000피스 퍼즐을 100피스 퍼즐로 단순화하는 것처럼 긴 읽기 시퀀스 를 통해 처음으로 큰 반복 영역 을 조합할 수 있었습니다.
Long-read DNA 시퀀싱 기술의 힘이 증가함에 따라 유전학자들은 처음으로 개체군과 종에 걸쳐 복잡하고 반복적인 서열을 풀면서 유전체학의 새로운 시대를 탐색할 수 있는 위치에 놓였습니다. 그리고 완전하고 빈틈이 없는 인간 게놈은 연구자들이 유전 구조와 변이, 종의 진화 및 인간 건강을 형성하는 반복적인 영역을 조사할 수 있는 귀중한 자원을 제공합니다.
그러나 하나의 완전한 게놈이 모든 것을 포착하지는 못합니다. 노력은 지구상 의 인간 인구 와 생명 을 완전히 대표하는 다양한 게놈 참조를 지속적으로 생성 합니다 . 보다 완전한 "텔로미어 대 텔로미어" 게놈 참조를 통해 DNA의 반복적인 암흑 물질에 대한 과학자들의 이해가 더욱 명확해질 것입니다.
Gabrielle Hartley 는 박사입니다. 코네티컷 대학의 분자 및 세포 생물학 후보. 그녀는 국립 과학 재단으로부터 자금을 지원받습니다.
이 기사는 Creative Commons 라이선스에 따라 The Conversation 에서 다시 게시되었습니다. 여기에서 원본 기사 를 찾을 수 있습니다 .