Python - Nguồn cấp RSS

RSS (Rich Site Summary) là một định dạng để cung cấp nội dung web thường xuyên thay đổi. Nhiều trang web liên quan đến tin tức, nhật ký web và các nhà xuất bản trực tuyến khác cung cấp nội dung của họ dưới dạng Nguồn cấp dữ liệu RSS cho bất kỳ ai muốn. Trong python, chúng tôi sử dụng gói bên dưới để đọc và xử lý các nguồn cấp dữ liệu này.

pip install feedparser

Cấu trúc nguồn cấp dữ liệu

Trong ví dụ dưới đây, chúng tôi lấy cấu trúc của nguồn cấp dữ liệu để có thể phân tích thêm về những phần nào của nguồn cấp dữ liệu mà chúng tôi muốn xử lý.

import feedparser
NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms")
entry = NewsFeed.entries[1]
print entry.keys()

Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:

['summary_detail', 'published_parsed', 'links', 'title', 'summary', 'guidislink', 'title_detail', 'link', 'published', 'id']

Tiêu đề nguồn cấp dữ liệu và bài đăng

Trong ví dụ dưới đây, chúng ta đọc tiêu đề và phần đầu của nguồn cấp dữ liệu rss.

import feedparser
NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms")
print 'Number of RSS posts :', len(NewsFeed.entries)
entry = NewsFeed.entries[1]
print 'Post Title :',entry.title

Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:

Number of RSS posts : 5
Post Title : Cong-JD(S) in SC over choice of pro tem speaker

Chi tiết nguồn cấp dữ liệu

Dựa trên cấu trúc mục nhập trên, chúng ta có thể lấy các chi tiết cần thiết từ nguồn cấp dữ liệu bằng chương trình python như hình dưới đây. Vì mục nhập là một từ điển, chúng tôi sử dụng các khóa của nó để tạo ra các giá trị cần thiết.

import feedparser
NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms")
entry = NewsFeed.entries[1]
print entry.published
print "******"
print entry.summary
print "------News Link--------"
print entry.link

Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:

Fri, 18 May 2018 20:13:13 GMT
******
Controversy erupted on Friday over the appointment of BJP MLA K G Bopaiah as pro tem speaker for the assembly, with Congress and JD(S) claiming the move went against convention that the post should go to the most senior member of the House. The combine approached the SC to challenge the appointment. Hearing is scheduled for 10:30 am today.
------News Link--------
https://timesofindia.indiatimes.com/india/congress-jds-in-sc-over-bjp-mla-made-pro-tem-speaker-hearing-at-1030-am/articleshow/64228740.cms