Python - Tải xuống dữ liệu HTTP
Chúng tôi có thể tải xuống dữ liệu từ trình liên kết bằng cách sử dụng mô-đun của python xử lý ftp hoặc Giao thức truyền tệp. Chúng tôi cũng có thể đọc dữ liệu và sau đó lưu nó vào hệ thống cục bộ.
Chúng tôi cần cài đặt mô-đun ftplib để đạt được điều này.
pip install ftplib
Tìm nạp tệp
Chúng tôi có thể tìm nạp một tệp cụ thể bằng cách sử dụng getfilephương pháp. Phương pháp này di chuyển một bản sao của tệp từ hệ thống từ xa sang hệ thống cục bộ từ nơi bắt đầu kết nối ftp.
import ftplib
import sys
def getFile(ftp, filename):
try:
ftp.retrbinary("RETR " + filename ,open(filename, 'wb').write)
except:
print "Error"
ftp = ftplib.FTP("ftp.nluug.nl")
ftp.login("anonymous", "ftplib-example-1")
ftp.cwd('/pub/') change directory to /pub/
getFile(ftp,'README.nluug')
ftp.quit()
Khi chúng tôi chạy chương trình trên, chúng tôi thấy tệp README.nlug hiện diện trong hệ thống cục bộ từ nơi bắt đầu kết nối.
Đọc dữ liệu
Trong ví dụ dưới đây, chúng tôi sử dụng mô-đun urllib2 để đọc phần dữ liệu bắt buộc mà chúng tôi có thể sao chép và lưu vào hệ thống cục bộ.
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
import urllib2
response = urllib2.urlopen('http://www.tutorialspoint.com/python')
html = response.read(200)
print html
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
<!DOCTYPE html>
<!--[if IE 8]><html class="ie ie8"> <![endif]-->
<!--[if IE 9]><html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!--> <html> <!--<![endif]-->
<head>
<!-- Basic -->
<meta charset="ut