Python-텍스트에서 URL 추출
URL 추출은 정규식을 사용하여 텍스트 파일에서 수행됩니다. 이 표현식은 패턴과 일치하는 모든 텍스트를 가져옵니다. 이 목적으로 re 모듈 만 사용됩니다.
일부 URL이 포함 된 입력 파일을 가져 와서 다음 프로그램을 통해 처리하여 URL을 추출 할 수 있습니다. 그만큼findall()함수는 정규 표현식과 일치하는 모든 인스턴스를 찾는 데 사용됩니다.
인아웃 파일
아래 입력 파일이 표시됩니다. teo URL을 포함합니다.
Now a days you can learn almost anything by just visiting But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - to learn further on a variety of subjects.
이제 위의 입력 파일을 가져와 다음 프로그램을 통해 처리하면 파일에서 추출한 URL 만 제공하는 필수 출력이 표시됩니다.
import re
with open("path\url_example.txt") as file:
for line in file:
urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
위의 프로그램을 실행하면 다음과 같은 결과가 나옵니다.