Python - Trích xuất URL từ Văn bản
Trích xuất URL có được từ một tệp văn bản bằng cách sử dụng biểu thức chính quy. Biểu thức tìm nạp văn bản ở bất kỳ nơi nào nó khớp với mẫu. Chỉ mô-đun lại được sử dụng cho mục đích này.
Thí dụ
Chúng tôi có thể lấy một tập tin đầu vào chứa một số URL và xử lý nó trong suốt chương trình sau để trích xuất các URL. Cácfindall()hàm được sử dụng để tìm tất cả các trường hợp khớp với biểu thức chính quy.
Inout Tệp
Dưới đây là tập tin đầu vào. Trong đó chứa các URL nhỏ.
Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - https://www.tutorialspoint.com to learn further on a variety of subjects.
Bây giờ, khi chúng tôi lấy tệp đầu vào ở trên và xử lý nó thông qua chương trình sau, chúng tôi sẽ nhận được kết quả đầu ra cần thiết nhưng chỉ cung cấp các URL được trích xuất từ tệp.
import re
with open("path\url_example.txt") as file:
for line in file:
urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
print(urls)
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
['http://www.google.com.']
['https://www.tutorialspoint.com']