Biopython - วัตถุ Motif

แม่ลายลำดับคือรูปแบบลำดับนิวคลีโอไทด์หรือกรดอะมิโน รูปแบบลำดับเกิดจากการจัดเรียงกรดอะมิโนสามมิติซึ่งอาจไม่อยู่ติดกัน Biopython จัดเตรียมโมดูลแยกต่างหาก Bio.motifs เพื่อเข้าถึงฟังก์ชันของ motif ลำดับตามที่ระบุด้านล่าง -

from Bio import motifs

การสร้างแม่แบบดีเอ็นเออย่างง่าย

ให้เราสร้างลำดับแม่ลายดีเอ็นเอง่ายๆโดยใช้คำสั่งด้านล่าง -

>>> from Bio import motifs 
>>> from Bio.Seq import Seq 
>>> DNA_motif = [ Seq("AGCT"), 
...               Seq("TCGA"), 
...               Seq("AACT"), 
...             ] 
>>> seq = motifs.create(DNA_motif) 
>>> print(seq) AGCT TCGA AACT

ในการนับค่าลำดับให้ใช้คำสั่งด้านล่าง -

>>> print(seq.counts) 
         0       1      2       3 
A:    2.00    1.00   0.00    1.00 
C:    0.00    1.00   2.00    0.00 
G:    0.00    1.00   1.00    0.00 
T:    1.00    0.00   0.00    2.00

ใช้รหัสต่อไปนี้เพื่อนับ 'A' ในลำดับ -

>>> seq.counts["A", :] 
(2, 1, 0, 1)

หากคุณต้องการเข้าถึงคอลัมน์ของจำนวนให้ใช้คำสั่งด้านล่าง -

>>> seq.counts[:, 3] 
{'A': 1, 'C': 0, 'T': 2, 'G': 0}

การสร้างโลโก้ลำดับ

ตอนนี้เราจะพูดถึงวิธีการสร้างโลโก้ลำดับ

พิจารณาลำดับด้านล่าง -

AGCTTACG 
ATCGTACC 
TTCCGAAT 
GGTACGTA 
AAGCTTGG

คุณสามารถสร้างโลโก้ของคุณเองโดยใช้ลิงค์ต่อไปนี้ - http://weblogo.berkeley.edu/

เพิ่มลำดับด้านบนและสร้างโลโก้ใหม่และบันทึกภาพชื่อ seq.png ในโฟลเดอร์ biopython ของคุณ

seq.png

หลังจากสร้างภาพแล้วให้รันคำสั่งต่อไปนี้ -

>>> seq.weblogo("seq.png")

แม่ลายลำดับดีเอ็นเอนี้แสดงเป็นโลโก้ลำดับสำหรับแม่ลายที่มีผลผูกพัน LexA

ฐานข้อมูล JASPAR

JASPAR เป็นหนึ่งในฐานข้อมูลยอดนิยม มีสิ่งอำนวยความสะดวกในรูปแบบ motif สำหรับการอ่านการเขียนและการสแกนลำดับ จะจัดเก็บข้อมูลเมตาสำหรับแต่ละบรรทัดฐานThe module Bio.motifs contains a specialized class jaspar.Motif to represent meta-information attributes.

มีประเภทคุณลักษณะเด่นดังต่อไปนี้ -

  • matrix_id - รหัสแม่แบบ JASPAR ที่ไม่ซ้ำกัน
  • ชื่อ - ชื่อของแม่ลาย
  • tf_family - ตระกูลของ motif เช่น 'Helix-Loop-Helix'
  • data_type - ประเภทของข้อมูลที่ใช้ใน motif

ให้เราสร้างรูปแบบไซต์ JASPAR ชื่อใน sample.sites ในโฟลเดอร์ biopython มีการกำหนดไว้ด้านล่าง -

sample.sites
>MA0001 ARNT 1 
AACGTGatgtccta 
>MA0001 ARNT 2 
CAGGTGggatgtac 
>MA0001 ARNT 3 
TACGTAgctcatgc 
>MA0001 ARNT 4 
AACGTGacagcgct 
>MA0001 ARNT 5 
CACGTGcacgtcgt 
>MA0001 ARNT 6 
cggcctCGCGTGc

ในไฟล์ด้านบนเราได้สร้างอินสแตนซ์ motif ตอนนี้ให้เราสร้างวัตถุ motif จากกรณีข้างต้น -

>>> from Bio import motifs 
>>> with open("sample.sites") as handle: 
... data = motifs.read(handle,"sites") 
... 
>>> print(data) 
TF name None 
Matrix ID None 
Matrix:
            0       1       2       3       4       5 
A:       2.00    5.00    0.00    0.00    0.00    1.00 
C:       3.00    0.00    5.00    0.00    0.00    0.00 
G:       0.00    1.00    1.00    6.00    0.00    5.00 
T:       1.00    0.00    0.00    0.00    6.00    0.00

ที่นี่ข้อมูลจะอ่านอินสแตนซ์ motif ทั้งหมดจากไฟล์ sample.sites

ในการพิมพ์อินสแตนซ์ทั้งหมดจากข้อมูลให้ใช้คำสั่งด้านล่าง -

>>> for instance in data.instances: 
...    print(instance) 
... 
AACGTG 
CAGGTG 
TACGTA 
AACGTG 
CACGTG 
CGCGTG

ใช้คำสั่งด้านล่างเพื่อนับค่าทั้งหมด -

>>> print(data.counts)
            0       1       2       3       4       5 
A:       2.00    5.00    0.00    0.00    0.00    1.00 
C:       3.00    0.00    5.00    0.00    0.00    0.00 
G:       0.00    1.00    1.00    6.00    0.00    5.00 
T:       1.00    0.00    0.00    0.00    6.00    0.00
>>>