Python: extraer URL del texto
La extracción de URL se logra a partir de un archivo de texto mediante el uso de expresiones regulares. La expresión obtiene el texto dondequiera que coincida con el patrón. Solo el módulo re se utiliza para este propósito.
Ejemplo
Podemos tomar un archivo de entrada que contenga algunas URL y procesarlo mediante el siguiente programa para extraer las URL. losfindall()La función se usa para encontrar todas las instancias que coinciden con la expresión regular.
Archivo Inout
Se muestra el archivo de entrada a continuación. Que contiene teo URL.
Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - https://www.tutorialspoint.com to learn further on a variety of subjects.
Ahora, cuando tomamos el archivo de entrada anterior y lo procesamos a través del siguiente programa, obtenemos la salida requerida que proporciona solo las URL extraídas del archivo.
import re
with open("path\url_example.txt") as file:
for line in file:
urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
print(urls)
Cuando ejecutamos el programa anterior, obtenemos el siguiente resultado:
['http://www.google.com.']
['https://www.tutorialspoint.com']