Biopython - Lập kế hoạch
Chương này giải thích về cách vẽ các trình tự. Trước khi chuyển sang chủ đề này, chúng ta hãy hiểu những điều cơ bản về lập kế hoạch.
Âm mưu
Matplotlib là một thư viện vẽ biểu đồ Python, tạo ra các số liệu chất lượng ở nhiều định dạng. Chúng tôi có thể tạo các loại biểu đồ khác nhau như biểu đồ đường, biểu đồ, biểu đồ thanh, biểu đồ hình tròn, biểu đồ phân tán, v.v.
pyLab is a module that belongs to the matplotlib which combines the numerical module numpy with the graphical plotting module pyplot.Biopython sử dụng mô-đun pylab để vẽ các trình tự. Để thực hiện việc này, chúng ta cần nhập mã dưới đây:
import pylab
Trước khi nhập, chúng ta cần cài đặt gói matplotlib bằng lệnh pip với lệnh dưới đây:
pip install matplotlib
Tệp đầu vào mẫu
Tạo một tệp mẫu có tên plot.fasta trong thư mục Biopython của bạn và thêm các thay đổi sau:
>seq0 FQTWEEFSRAAEKLYLADPMKVRVVLKYRHVDGNLCIKVTDDLVCLVYRTDQAQDVKKIEKF
>seq1 KYRTWEEFTRAAEKLYQADPMKVRVVLKYRHCDGNLCIKVTDDVVCLLYRTDQAQDVKKIEKFHSQLMRLME
>seq2 EEYQTWEEFARAAEKLYLTDPMKVRVVLKYRHCDGNLCMKVTDDAVCLQYKTDQAQDVKKVEKLHGK
>seq3 MYQVWEEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVCLQYKTDQAQDV
>seq4 EEFSRAVEKLYLTDPMKVRVVLKYRHCDGNLCIKVTDNSVVSYEMRLFGVQKDNFALEHSLL
>seq5 SWEEFAKAAEVLYLEDPMKCRMCTKYRHVDHKLVVKLTDNHTVLKYVTDMAQDVKKIEKLTTLLMR
>seq6 FTNWEEFAKAAERLHSANPEKCRFVTKYNHTKGELVLKLTDDVVCLQYSTNQLQDVKKLEKLSSTLLRSI
>seq7 SWEEFVERSVQLFRGDPNATRYVMKYRHCEGKLVLKVTDDRECLKFKTDQAQDAKKMEKLNNIFF
>seq8 SWDEFVDRSVQLFRADPESTRYVMKYRHCDGKLVLKVTDNKECLKFKTDQAQEAKKMEKLNNIFFTLM
>seq9 KNWEDFEIAAENMYMANPQNCRYTMKYVHSKGHILLKMSDNVKCVQYRAENMPDLKK
>seq10 FDSWDEFVSKSVELFRNHPDTTRYVVKYRHCEGKLVLKVTDNHECLKFKTDQAQDAKKMEK
Lô đường
Bây giờ, chúng ta hãy tạo một biểu đồ đường đơn giản cho tệp fasta ở trên.
Step 1 - Nhập mô-đun SeqIO để đọc tệp fasta.
>>> from Bio import SeqIO
Step 2 - Phân tích cú pháp tệp đầu vào.
>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")]
>>> len(records)
11
>>> max(records)
72
>>> min(records)
57
Step 3 - Hãy để chúng tôi nhập mô-đun pylab.
>>> import pylab
Step 4 - Cấu hình biểu đồ đường bằng cách gán nhãn trục x và y.
>>> pylab.xlabel("sequence length")
Text(0.5, 0, 'sequence length')
>>> pylab.ylabel("count")
Text(0, 0.5, 'count')
>>>
Step 5 - Cấu hình biểu đồ đường bằng cách thiết lập hiển thị lưới.
>>> pylab.grid()
Step 6 - Vẽ biểu đồ đường đơn giản bằng cách gọi phương thức biểu đồ và cung cấp các bản ghi làm đầu vào.
>>> pylab.plot(records)
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]
Step 7 - Cuối cùng lưu biểu đồ bằng lệnh dưới đây.
>>> pylab.savefig("lines.png")
Kết quả
Sau khi thực hiện lệnh trên, bạn có thể thấy hình ảnh sau được lưu trong thư mục Biopython của mình.
Biểu đồ Histogram
Biểu đồ được sử dụng cho dữ liệu liên tục, trong đó các thùng đại diện cho các phạm vi dữ liệu. Vẽ biểu đồ giống như biểu đồ đường ngoại trừ pylab.plot. Thay vào đó, hãy gọi phương thức hist của mô-đun pylab với các bản ghi và một số giá trị custum cho thùng (5). Mã hóa hoàn chỉnh như sau:
Step 1 - Nhập mô-đun SeqIO để đọc tệp fasta.
>>> from Bio import SeqIO
Step 2 - Phân tích cú pháp tệp đầu vào.
>>> records = [len(rec) for rec in SeqIO.parse("plot.fasta", "fasta")]
>>> len(records)
11
>>> max(records)
72
>>> min(records)
57
Step 3 - Hãy để chúng tôi nhập mô-đun pylab.
>>> import pylab
Step 4 - Cấu hình biểu đồ đường bằng cách gán nhãn trục x và y.
>>> pylab.xlabel("sequence length")
Text(0.5, 0, 'sequence length')
>>> pylab.ylabel("count")
Text(0, 0.5, 'count')
>>>
Step 5 - Cấu hình biểu đồ đường bằng cách thiết lập hiển thị lưới.
>>> pylab.grid()
Step 6 - Vẽ biểu đồ đường đơn giản bằng cách gọi phương thức biểu đồ và cung cấp các bản ghi làm đầu vào.
>>> pylab.hist(records,bins=5)
(array([2., 3., 1., 3., 2.]), array([57., 60., 63., 66., 69., 72.]), <a list
of 5 Patch objects>)
>>>
Step 7 - Cuối cùng lưu biểu đồ bằng lệnh dưới đây.
>>> pylab.savefig("hist.png")
Kết quả
Sau khi thực hiện lệnh trên, bạn có thể thấy hình ảnh sau được lưu trong thư mục Biopython của mình.
Phần trăm GC trong trình tự
Phần trăm GC là một trong những dữ liệu phân tích thường được sử dụng để so sánh các trình tự khác nhau. Chúng ta có thể làm một biểu đồ đường đơn giản bằng cách sử dụng Phần trăm GC của một tập hợp các chuỗi và so sánh ngay lập tức. Ở đây, chúng ta chỉ có thể thay đổi dữ liệu từ độ dài chuỗi thành phần trăm GC. Mã hóa hoàn chỉnh được đưa ra bên dưới -
Step 1 - Nhập mô-đun SeqIO để đọc tệp fasta.
>>> from Bio import SeqIO
Step 2 - Phân tích cú pháp tệp đầu vào.
>>> from Bio.SeqUtils import GC
>>> gc = sorted(GC(rec.seq) for rec in SeqIO.parse("plot.fasta", "fasta"))
Step 3 - Hãy để chúng tôi nhập mô-đun pylab.
>>> import pylab
Step 4 - Cấu hình biểu đồ đường bằng cách gán nhãn trục x và y.
>>> pylab.xlabel("Genes")
Text(0.5, 0, 'Genes')
>>> pylab.ylabel("GC Percentage")
Text(0, 0.5, 'GC Percentage')
>>>
Step 5 - Cấu hình biểu đồ đường bằng cách thiết lập hiển thị lưới.
>>> pylab.grid()
Step 6 - Vẽ biểu đồ đường đơn giản bằng cách gọi phương thức biểu đồ và cung cấp các bản ghi làm đầu vào.
>>> pylab.plot(gc)
[<matplotlib.lines.Line2D object at 0x10b6869d 0>]
Step 7 - Cuối cùng lưu biểu đồ bằng lệnh dưới đây.
>>> pylab.savefig("gc.png")
Kết quả
Sau khi thực hiện lệnh trên, bạn có thể thấy hình ảnh sau được lưu trong thư mục Biopython của mình.