Python-RSS 피드 읽기
RSS (Rich Site Summary)는 정기적으로 변경되는 웹 콘텐츠를 제공하기위한 형식입니다. 많은 뉴스 관련 사이트, 웹 로그 및 기타 온라인 게시자는 자신의 콘텐츠를 원하는 사람에게 RSS 피드로 배포합니다. 파이썬에서 우리는 이러한 피드를 읽고 처리하기 위해 아래 패키지의 도움을받습니다.
pip install feedparser
피드 구조
아래 예에서는 피드의 구조를 가져 와서 처리 할 피드 부분에 대해 자세히 분석 할 수 있습니다.
import feedparser
NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms")
entry = NewsFeed.entries[1]
print entry.keys()
위의 프로그램을 실행하면 다음과 같은 결과가 나옵니다.
['summary_detail', 'published_parsed', 'links', 'title', 'summary', 'guidislink', 'title_detail', 'link', 'published', 'id']
피드 제목 및 게시물
아래 예에서는 RSS 피드의 제목과 헤드를 읽었습니다.
import feedparser
NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms")
print 'Number of RSS posts :', len(NewsFeed.entries)
entry = NewsFeed.entries[1]
print 'Post Title :',entry.title
위의 프로그램을 실행하면 다음과 같은 결과가 나옵니다.
Number of RSS posts : 5
Post Title : Cong-JD(S) in SC over choice of pro tem speaker
피드 세부 정보
위의 항목 구조를 기반으로 아래와 같이 python 프로그램을 사용하여 피드에서 필요한 세부 정보를 얻을 수 있습니다. 항목은 사전이므로 필요한 값을 생성하기 위해 키를 사용합니다.
import feedparser
NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms")
entry = NewsFeed.entries[1]
print entry.published
print "******"
print entry.summary
print "------News Link--------"
print entry.link
위의 프로그램을 실행하면 다음과 같은 결과가 나옵니다.
Fri, 18 May 2018 20:13:13 GMT
******
Controversy erupted on Friday over the appointment of BJP MLA K G Bopaiah as pro tem speaker for the assembly, with Congress and JD(S) claiming the move went against convention that the post should go to the most senior member of the House. The combine approached the SC to challenge the appointment. Hearing is scheduled for 10:30 am today.
------News Link--------
https://timesofindia.indiatimes.com/india/congress-jds-in-sc-over-bjp-mla-made-pro-tem-speaker-hearing-at-1030-am/articleshow/64228740.cms