Biohackers Netflix-DNA에서 바이너리 및 비디오로

Aug 21 2020

나는 후원을받지 않았고, 그들의 DNA 코드를 해독하려는 그들의 도전에 관심이 있습니다.

그들은 "Biohackers"비디오 / 바이너리 파일의 첫 번째 에피소드를 DNA 코드로 인코딩하고 디코딩 할 수 있다면 (Netflix없이) 볼 수 있다고 말했습니다. 그들의 페이지는 다음과 같습니다.https://biohackersnetflix.comDNA 염기 서열 파일에 대한 설명 및 다운로드와 함께. (단지 독일어인지 번역 할 수 있는지 모르겠습니다.이 페이지에 관한 질문이 있으면 저에게 물어보세요.)

파일 크기는 ~ 550MB이고 3.882.771 줄 (fasta 형식이 아님)을 포함합니다. 모든 줄의 길이는 양쪽 끝에 프라이머 (Illumina?)를 포함하여 147 자입니다. 다음은 처음 5 줄입니다.

ACACGACGCTCTTCCGATCTCTCCCAGGGACAAAGGTTCTGCATTTGCAGCAAGACTCCTGTAGTGCTGCAGATTCTCTGGTTGGATAGTACGGCGTACATTTCTGTATTGTAGCACCATGGGGTAGATCGGAAGAGCACACGTCT
ACACGACGCTCTTCCGATCTTAAGGCTTCGTAACAGATATTCTATATCGTCACATTGGTCTGAAGGAAGTCGCCTATAATCGCTCCTCTGTTTTTTAAAACTGCTATGGACCCGCTGTTCGGTGGAGATCGGAAGAGCACACGTCT
ACACGACGCTCTTCCGATCTCATGGTATAAGTGTTAAGGGTAATAACCACCTACCCCCCTCATTGCTCGTTTTTCCTGGAACCTTAACATTCGCAATAGCTAGCTGTTTCCTAGTAGAACCAAGGAGATCGGAAGAGCACACGTCT
ACACGACGCTCTTCCGATCTAGGATGTAGTCACAGGTCATTGTCATTAACTCAACCGAGGACATAACACTAAGTCCCACTAGGCCTGGATTCTCTAACGCGGTCTCTCTATTGGGGGAAGGGGTGAGATCGGAAGAGCACACGTCT
ACACGACGCTCTTCCGATCTTCTGGTAAGGCGGGTTGATATCAGTCACCTCCCTTTGAGCTAAAATACGATGGCGATTTAGTGTGAAACTAATAATGCTTGTCATACCAGCAGTACCGGATCGGGAGATCGGAAGAGCACACGTCT

나는 모든 프라이머를 다듬고 파이썬을 사용하는 명백한 (?) 해독 방법 (4! = 24 개의 가능한 디코딩)으로 모든 순열 {00, 01, 10, 11}을 고려하여 {A, C, G, T}를 디코딩하려고했습니다.

그런 다음 24 개의 파일 중 하나를 VLC 미디어 플레이어에로드하거나 재생할 것을 원했지만 작동하지 않았고 모든 파일이 동일한 방식으로 손상된 것 같습니다. 여기에 뭔가 빠진 것 같아요.

DNA 코드가 올바르게 해독 된 경우 0과 1 만 포함 된 텍스트 파일을 VLC에서 재생할 수 있다고 가정 할 수 있습니까?

(내가 틀렸다면 말하거나 움직이십시오.)

// 편집 : 24 개의 파일을 모두 ASCII로 변환하여 "비디오와 같은 헤더"가 있는지 확인했습니다. (모든 비디오는 텍스트 편집기에서 열면 첫 줄에 일종의 설명이 있습니까?) 그러나 의미가 없습니다.

// 편집 : 모든 84 번째 시퀀스 위치에 "T"가있는 것을 보았습니다. 이것은 좀 이상합니다. 그래서이 T를 제거한 상태에서 스크립트를 다시 실행하려고했지만 여전히 해결책이 없습니다.

// 편집 : 내가 만들고 16 진 덤프 한 모든 비디오 파일에서 "AVI", "264", "코덱"및 기타 문자열을 검색했습니다. 아무것도 찾을 수 없음. 설명 : 나는 DNA를 24 개의 바이너리로 번역 한 다음 19 개의 upvotes 답변에 따라 ASCII 표현으로 변환했습니다.https://stackoverflow.com/questions/7290943/write-a-string-of-1s-and-0s-to-a-binary-file. 104 개베이스 / 208 비트 (반복적 인 "T"및 프라이머 제거)는 실제로 8의 배수 (각각 26 바이트)이므로 올바른 길을 가고있을 수 있습니다 (32 바이트가 아니더라도?). De novo Assembly는 작동하지 않았고 비디오 파일의 크기가 150MB에 불과하다는 점을 고려할 때 비디오에 대한 일종의 URL을 나타내는 명백한 ORF "유전자"를 찾지 못했습니다. (댓글 참조)

답변

6 thelostlambda Aug 27 2020 at 03:40

저도 그걸봤을 때 꽤 궁금 했어요. 나는 당신이 가진 종류의 시도를 인정하는 것보다 더 많은 시간을 보냈습니다. 나는 지금 그것을 해독했지만 문제가 미리 해결 되었기 때문에 어떤 종류의 승리도 주장 할 수 없습니다.

당신이했던 것과 동일한 실험 중 일부를 고심한 후, 저는 여기에서 그들의 설명자 비디오를 자세히 살펴보기로 결정했습니다. https://youtu.be/DMYgjOHgHxc

먼저 1시 30 분경에 칠판 스케치를 해독하려고했지만 꽤 모호했습니다. 그러나 화자에 대한 면밀한 조사는 약간의 행운을 가져 왔습니다. 인터넷 검색 Dr. Reinhard Heckel이 저를 그의 웹 사이트로 데려 왔습니다.http://www.reinhardheckel.com/그의 가장 최근 출판물 인 DNA의 디지털 데이터 인코딩에 관한 논문 을 보여줍니다 .

인코딩은 상대적으로 복잡하지만 (우연히 우연히 마주 치게 될 거의 불가능한 것입니다.) 매혹적입니다. 조각은 인덱싱되고 두 개의 계층화 된 오류 수정 코드가 있습니다. 아마도 우리의 일을 더 어렵게 만드는 것은 (그러나 호모 폴리머와 원치 않는 어닐링을 최소화하는 실질적인 목적을 위해) 데이터가 데이터를 섞는 의사 랜덤 노이즈로 XOR된다는 사실입니다. 이 논문에는 분명히 모든 세부 사항이 있습니다.

그러나 내 스키밍에서 나는 논문에 링크 된이 Github 저장소를 우연히 발견했습니다. https://github.com/reinhardh/dna_rs_coding

README는 지난주에 방금 업데이트되어 제공된 파일에서 에피소드를 디코딩하는 방법을 설명했습니다. Docker가있는 경우 일부 명령을 복사하여 붙여 넣기 만하면됩니다.

이 제품은 실제로 전체 및 마지막 에피소드입니다. 63.1MB로 제공됩니다. 압축 된 40 분 분량의 비디오를 어떻게 얻었습니까? 간단히 말해서 24fps에서 720x360입니다. 조금 끔찍해 보이며 독일어로만 제공되지만 확실히 멋진 작은 이스터 에그입니다. 다른 것이 없다면 읽을만한 멋진 논문이 있습니다.