Các nhà khoa học cuối cùng đã lấp đầy khoảng trống 8 phần trăm trong bộ gen người

Apr 01 2022
Thông báo năm 2003 rằng các nhà khoa học đã hoàn thành bộ gen người đầu tiên có khoảng cách 8%. Giờ đây, khoảng trống đó đã được lấp đầy và bộ gen đầu tiên của con người đã được công bố.
Hơn một nửa bộ gen người chứa các chuỗi DNA lặp đi lặp lại mà chức năng của chúng vẫn chưa được hiểu đầy đủ. Hình ảnh Adam Gault / Getty

Khi Dự án Bộ gen người thông báo rằng họ đã hoàn thành bộ gen người đầu tiên vào năm 2003, đó là một thành tựu quan trọng - lần đầu tiên, bản thiết kế DNA của cuộc sống con người được mở khóa. Nhưng nó đi kèm với một khó khăn - họ thực sự không thể tập hợp tất cả thông tin di truyền trong bộ gen. Có những khoảng trống: các vùng không được lấp đầy, thường lặp lại quá khó hiểu để ghép lại với nhau.

Với những tiến bộ trong công nghệ có thể xử lý các chuỗi lặp đi lặp lại này, các nhà khoa học cuối cùng đã lấp đầy những khoảng trống đó vào tháng 5 năm 2021 và bộ gen người đầu tiên được công bố chính thức vào ngày 31 tháng 3 năm 2022 .

Tôi là nhà sinh học bộ gen , người nghiên cứu các chuỗi DNA lặp đi lặp lại và cách chúng định hình bộ gen trong suốt lịch sử tiến hóa. Tôi là thành viên của nhóm đã giúp xác định các trình tự lặp lại bị thiếu trong bộ gen. Và giờ đây, với một bộ gen người hoàn chỉnh thực sự, những vùng lặp đi lặp lại được khám phá này cuối cùng cũng đang được khám phá đầy đủ lần đầu tiên.

Các mảnh ghép còn thiếu

Nhà thực vật học người Đức Hans Winkler đã đặt ra từ " bộ gen " vào năm 1920, kết hợp từ "gen" với hậu tố "-ome", có nghĩa là "bộ hoàn chỉnh", để mô tả trình tự DNA đầy đủ có trong mỗi tế bào. Các nhà nghiên cứu vẫn sử dụng từ này một thế kỷ sau để chỉ vật chất di truyền tạo nên một sinh vật.

Một cách để mô tả bộ gen trông như thế nào là so sánh nó với một cuốn sách tham khảo. Tương tự như vậy, bộ gen là một tuyển tập chứa các chỉ dẫn DNA cho sự sống. Nó bao gồm một lượng lớn các nucleotide (chữ cái) được đóng gói thành các nhiễm sắc thể (chương). Mỗi nhiễm sắc thể chứa các gen (đoạn) là các vùng của DNA mã hóa các protein cụ thể cho phép một sinh vật hoạt động.

Trong khi mọi sinh vật sống đều có một bộ gen, kích thước của bộ gen đó khác nhau giữa các loài. Một con voi sử dụng dạng thông tin di truyền giống như cỏ mà nó ăn và vi khuẩn trong ruột của nó. Nhưng không có hai bộ gen nào giống nhau hoàn toàn. Một số ngắn, như bộ gen của vi khuẩn sống ở côn trùng Nasuia deltocephalinicola chỉ với 137 gen trên 112.000 nucleotide. Một số, như 149 tỷ nucleotide của loài thực vật có hoa Paris japonica , dài đến mức rất khó để biết có bao nhiêu gen được chứa bên trong.

Nhưng các gen theo cách hiểu truyền thống - như những đoạn DNA mã hóa cho protein - chỉ là một phần nhỏ trong bộ gen của một sinh vật. Trên thực tế, chúng chỉ chiếm chưa đến 2% DNA của con người .

Bộ gen người chứa khoảng 3 tỷ nucleotide và chỉ dưới 20.000 gen mã hóa protein - ước tính khoảng 1% tổng chiều dài của bộ gen. 99% còn lại là chuỗi DNA không mã hóa không tạo ra protein. Một số là các thành phần điều hòa hoạt động như một tổng đài để kiểm soát cách các gen khác hoạt động. Một số khác là các gen giả , hoặc các di tích bộ gen đã mất khả năng hoạt động.

Và hơn một nửa bộ gen của con người là lặp đi lặp lại, với nhiều bản sao của các trình tự gần giống nhau.

DNA lặp lại là gì?

Dạng DNA lặp lại đơn giản nhất là các khối DNA lặp đi lặp lại song song được gọi là vệ tinh . Mặc dù lượng DNA vệ tinh của một bộ gen nhất định thay đổi ở mỗi người, nhưng chúng thường tụ tập về phía cuối của nhiễm sắc thể trong các vùng được gọi là telomere . Những vùng này bảo vệ nhiễm sắc thể không bị thoái hóa trong quá trình sao chép DNA. Chúng cũng được tìm thấy trong tâm động của nhiễm sắc thể, một vùng giúp giữ thông tin di truyền nguyên vẹn khi tế bào phân chia.

Các nhà nghiên cứu vẫn chưa hiểu rõ về tất cả các chức năng của DNA vệ tinh. Nhưng vì DNA vệ tinh tạo thành các mẫu độc đáo ở mỗi người, các nhà sinh học pháp y và các nhà phả hệ sử dụng "dấu vân tay" bộ gen này để đối sánh với các mẫu hiện trường vụ án và theo dõi tổ tiên. Hơn 50 rối loạn di truyền có liên quan đến các biến thể trong DNA vệ tinh, bao gồm cả bệnh Huntington .

DNA vệ tinh có xu hướng tập hợp về phía cuối của nhiễm sắc thể trong các telomere của chúng. Ở đây, 46 nhiễm sắc thể của con người có màu xanh lam, với các telomere màu trắng.

Một loại DNA lặp lại phong phú khác là các phần tử có thể chuyển vị hoặc các trình tự có thể di chuyển xung quanh bộ gen.

Một số nhà khoa học đã mô tả chúng là DNA ích kỷ vì chúng có thể tự chèn vào bất kỳ vị trí nào trong bộ gen, bất chấp hậu quả. Khi bộ gen của con người phát triển, nhiều trình tự chuyển vị đã thu thập các đột biến kìm hãm khả năng di chuyển của họ để tránh những gián đoạn có hại. Nhưng một số vẫn có thể di chuyển. Ví dụ, chèn yếu tố chuyển vị có liên quan đến một số trường hợp bệnh ưa chảy máu A , một rối loạn chảy máu di truyền.

Nhưng các yếu tố có thể chuyển vị không chỉ gây rối. Chúng có thể có các chức năng điều tiết giúp kiểm soát sự biểu hiện của các chuỗi DNA khác. Khi chúng tập trung ở tâm động , chúng cũng có thể giúp duy trì tính toàn vẹn của các gen cơ bản cho sự tồn tại của tế bào.

Chúng cũng có thể góp phần vào quá trình tiến hóa. Các nhà nghiên cứu gần đây đã phát hiện ra rằng việc chèn một yếu tố có thể chuyển vị vào một gen quan trọng đối với sự phát triển có thể là lý do tại sao một số loài linh trưởng, bao gồm cả con người, không còn đuôi nữa. Sự sắp xếp lại nhiễm sắc thể do các yếu tố chuyển vị thậm chí còn liên quan đến nguồn gốc của các loài mới như vượn ở Đông Nam Á và vượn ở Úc .

Hoàn thành câu đố bộ gen

Cho đến gần đây, nhiều khu vực phức tạp này có thể được so sánh với phía xa của mặt trăng: được biết là tồn tại, nhưng không thể nhìn thấy.

Khi Dự án bộ gen người lần đầu tiên được khởi động vào năm 1990, những hạn chế về công nghệ khiến nó không thể khám phá đầy đủ các vùng lặp lại trong bộ gen. Công nghệ giải trình tự hiện có chỉ có thể đọc khoảng 500 nucleotide cùng một lúc và các đoạn ngắn này phải chồng lên nhau để tạo lại trình tự đầy đủ. Các nhà nghiên cứu đã sử dụng các phân đoạn chồng chéo này để xác định các nucleotide tiếp theo trong trình tự, từng bước mở rộng tổ hợp bộ gen từng đoạn một.

Những vùng cách biệt lặp đi lặp lại này giống như việc ghép 1.000 mảnh ghép lại với nhau về một bầu trời u ám: Khi mọi mảnh đều giống nhau, làm sao bạn biết được đám mây này bắt đầu và đám mây khác kết thúc ở đâu? Với các đoạn chồng chéo gần giống hệt nhau ở nhiều điểm, việc giải trình tự đầy đủ bộ gen từng phần trở nên khó khả thi. Hàng triệu nucleotide vẫn ẩn trong lần lặp lại đầu tiên của bộ gen người.

Kể từ đó, các bản vá trình tự dần dần lấp đầy những khoảng trống của bộ gen người từng chút một. Và vào năm 2021, Telomere-to-Telomere (T2T) , một tổ hợp các nhà khoa học quốc tế đang làm việc để hoàn thành việc lắp ráp bộ gen người từ đầu đến cuối, đã thông báo rằng tất cả những khoảng trống còn lại cuối cùng đã được lấp đầy .

Điều này được thực hiện nhờ công nghệ giải trình tự được cải tiến có khả năng đọc các chuỗi dài hơn có độ dài hàng nghìn nucleotide. Với nhiều thông tin hơn để xác định các trình tự lặp lại trong một bức tranh lớn hơn, việc xác định vị trí thích hợp của chúng trong bộ gen trở nên dễ dàng hơn. Giống như việc đơn giản hóa một câu đố 1.000 mảnh thành một câu đố 100 mảnh, các chuỗi được đọc dài giúp lần đầu tiên có thể tập hợp các vùng lặp lại lớn.

Với sức mạnh ngày càng tăng của công nghệ giải trình tự DNA đọc lâu, các nhà di truyền học có vị trí để khám phá một kỷ nguyên gen mới, lần đầu tiên gỡ rối các trình tự lặp đi lặp lại phức tạp giữa các quần thể và loài. Và một bộ gen người hoàn chỉnh, không có khoảng trống cung cấp một nguồn tài nguyên vô giá cho các nhà nghiên cứu để điều tra các vùng lặp đi lặp lại hình thành cấu trúc và sự biến đổi gen, sự tiến hóa của loài và sức khỏe con người.

Nhưng một bộ gen hoàn chỉnh không nắm bắt được tất cả. Các nỗ lực tiếp tục tạo ra các tài liệu tham khảo đa dạng về bộ gen đại diện đầy đủ cho dân số và sự sống của con người trên Trái đất . Với tài liệu tham khảo đầy đủ hơn về bộ gen "telomere-to-telomere", hiểu biết của các nhà khoa học về vật chất tối lặp đi lặp lại của DNA sẽ trở nên rõ ràng hơn.

Gabrielle Hartley là một Tiến sĩ ứng viên sinh học phân tử và tế bào tại Đại học Connecticut. Cô nhận được tài trợ từ Quỹ Khoa học Quốc gia.

Bài viết này được xuất bản lại từ The Conversation theo giấy phép Creative Commons. Bạn có thể tìm thấy bài báo gốc ở đây.