Python - wyodrębnij adres URL z tekstu

Wyodrębnianie adresu URL z pliku tekstowego odbywa się za pomocą wyrażenia regularnego. Wyrażenie pobiera tekst wszędzie tam, gdzie pasuje do wzorca. Do tego celu służy tylko moduł re.

Przykład

Możemy pobrać plik wejściowy zawierający niektóre adresy URL i przetworzyć go za pomocą następującego programu, aby wyodrębnić adresy URL. Plikfindall()funkcja służy do znalezienia wszystkich instancji pasujących do wyrażenia regularnego.

Plik Inout

Pokazano plik wejściowy poniżej. Który zawiera adresy URL teo.

Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - https://www.tutorialspoint.com to learn further on a variety of subjects.

Teraz, gdy weźmiemy powyższy plik wejściowy i przetworzymy go za pomocą następującego programu, otrzymamy wymagane dane wyjściowe, które zawierają tylko adresy URL wyodrębnione z pliku.

import re
 
with open("path\url_example.txt") as file:
        for line in file:
            urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
            print(urls)

Po uruchomieniu powyższego programu otrzymujemy następujące dane wyjściowe -

['http://www.google.com.']
['https://www.tutorialspoint.com']