Biopython - วัตถุ Motif
แม่ลายลำดับคือรูปแบบลำดับนิวคลีโอไทด์หรือกรดอะมิโน รูปแบบลำดับเกิดจากการจัดเรียงกรดอะมิโนสามมิติซึ่งอาจไม่อยู่ติดกัน Biopython จัดเตรียมโมดูลแยกต่างหาก Bio.motifs เพื่อเข้าถึงฟังก์ชันของ motif ลำดับตามที่ระบุด้านล่าง -
from Bio import motifs
การสร้างแม่แบบดีเอ็นเออย่างง่าย
ให้เราสร้างลำดับแม่ลายดีเอ็นเอง่ายๆโดยใช้คำสั่งด้านล่าง -
>>> from Bio import motifs
>>> from Bio.Seq import Seq
>>> DNA_motif = [ Seq("AGCT"),
... Seq("TCGA"),
... Seq("AACT"),
... ]
>>> seq = motifs.create(DNA_motif)
>>> print(seq) AGCT TCGA AACT
ในการนับค่าลำดับให้ใช้คำสั่งด้านล่าง -
>>> print(seq.counts)
0 1 2 3
A: 2.00 1.00 0.00 1.00
C: 0.00 1.00 2.00 0.00
G: 0.00 1.00 1.00 0.00
T: 1.00 0.00 0.00 2.00
ใช้รหัสต่อไปนี้เพื่อนับ 'A' ในลำดับ -
>>> seq.counts["A", :]
(2, 1, 0, 1)
หากคุณต้องการเข้าถึงคอลัมน์ของจำนวนให้ใช้คำสั่งด้านล่าง -
>>> seq.counts[:, 3]
{'A': 1, 'C': 0, 'T': 2, 'G': 0}
การสร้างโลโก้ลำดับ
ตอนนี้เราจะพูดถึงวิธีการสร้างโลโก้ลำดับ
พิจารณาลำดับด้านล่าง -
AGCTTACG
ATCGTACC
TTCCGAAT
GGTACGTA
AAGCTTGG
คุณสามารถสร้างโลโก้ของคุณเองโดยใช้ลิงค์ต่อไปนี้ - http://weblogo.berkeley.edu/
เพิ่มลำดับด้านบนและสร้างโลโก้ใหม่และบันทึกภาพชื่อ seq.png ในโฟลเดอร์ biopython ของคุณ
seq.png
หลังจากสร้างภาพแล้วให้รันคำสั่งต่อไปนี้ -
>>> seq.weblogo("seq.png")
แม่ลายลำดับดีเอ็นเอนี้แสดงเป็นโลโก้ลำดับสำหรับแม่ลายที่มีผลผูกพัน LexA
ฐานข้อมูล JASPAR
JASPAR เป็นหนึ่งในฐานข้อมูลยอดนิยม มีสิ่งอำนวยความสะดวกในรูปแบบ motif สำหรับการอ่านการเขียนและการสแกนลำดับ จะจัดเก็บข้อมูลเมตาสำหรับแต่ละบรรทัดฐานThe module Bio.motifs contains a specialized class jaspar.Motif to represent meta-information attributes.
มีประเภทคุณลักษณะเด่นดังต่อไปนี้ -
- matrix_id - รหัสแม่แบบ JASPAR ที่ไม่ซ้ำกัน
- ชื่อ - ชื่อของแม่ลาย
- tf_family - ตระกูลของ motif เช่น 'Helix-Loop-Helix'
- data_type - ประเภทของข้อมูลที่ใช้ใน motif
ให้เราสร้างรูปแบบไซต์ JASPAR ชื่อใน sample.sites ในโฟลเดอร์ biopython มีการกำหนดไว้ด้านล่าง -
sample.sites
>MA0001 ARNT 1
AACGTGatgtccta
>MA0001 ARNT 2
CAGGTGggatgtac
>MA0001 ARNT 3
TACGTAgctcatgc
>MA0001 ARNT 4
AACGTGacagcgct
>MA0001 ARNT 5
CACGTGcacgtcgt
>MA0001 ARNT 6
cggcctCGCGTGc
ในไฟล์ด้านบนเราได้สร้างอินสแตนซ์ motif ตอนนี้ให้เราสร้างวัตถุ motif จากกรณีข้างต้น -
>>> from Bio import motifs
>>> with open("sample.sites") as handle:
... data = motifs.read(handle,"sites")
...
>>> print(data)
TF name None
Matrix ID None
Matrix:
0 1 2 3 4 5
A: 2.00 5.00 0.00 0.00 0.00 1.00
C: 3.00 0.00 5.00 0.00 0.00 0.00
G: 0.00 1.00 1.00 6.00 0.00 5.00
T: 1.00 0.00 0.00 0.00 6.00 0.00
ที่นี่ข้อมูลจะอ่านอินสแตนซ์ motif ทั้งหมดจากไฟล์ sample.sites
ในการพิมพ์อินสแตนซ์ทั้งหมดจากข้อมูลให้ใช้คำสั่งด้านล่าง -
>>> for instance in data.instances:
... print(instance)
...
AACGTG
CAGGTG
TACGTA
AACGTG
CACGTG
CGCGTG
ใช้คำสั่งด้านล่างเพื่อนับค่าทั้งหมด -
>>> print(data.counts)
0 1 2 3 4 5
A: 2.00 5.00 0.00 0.00 0.00 1.00
C: 3.00 0.00 5.00 0.00 0.00 0.00
G: 0.00 1.00 1.00 6.00 0.00 5.00
T: 1.00 0.00 0.00 0.00 6.00 0.00
>>>