Начало работы с Python

В первой главе мы узнали, что такое парсинг веб-страниц. В этой главе давайте посмотрим, как реализовать парсинг веб-страниц с помощью Python.

Почему Python для веб-парсинга?

Python - популярный инструмент для реализации парсинга веб-страниц. Язык программирования Python также используется для других полезных проектов, связанных с кибербезопасностью, тестированием на проникновение, а также с приложениями цифровой криминалистики. Используя базовое программирование Python, парсинг веб-страниц может выполняться без использования каких-либо сторонних инструментов.

Язык программирования Python набирает огромную популярность, и причины, по которым Python хорошо подходит для проектов парсинга веб-сайтов, следующие:

Простота синтаксиса

Python имеет простейшую структуру по сравнению с другими языками программирования. Эта функция Python упрощает тестирование, и разработчик может больше сосредоточиться на программировании.

Встроенные модули

Еще одна причина использования Python для парсинга веб-страниц - это как встроенные, так и внешние полезные библиотеки, которыми он обладает. Мы можем выполнить множество реализаций, связанных со сканированием веб-страниц, используя Python в качестве основы для программирования.

Язык программирования с открытым исходным кодом

Python пользуется огромной поддержкой сообщества, потому что это язык программирования с открытым исходным кодом.

Широкий спектр приложений

Python можно использовать для различных задач программирования, от небольших сценариев оболочки до корпоративных веб-приложений.

Установка Python

Дистрибутив Python доступен для таких платформ, как Windows, MAC и Unix / Linux. Для установки Python нам нужно загрузить только двоичный код, применимый к нашей платформе. Но в случае, если двоичный код для нашей платформы недоступен, у нас должен быть компилятор C, чтобы исходный код можно было скомпилировать вручную.

Мы можем установить Python на различные платформы следующим образом:

Установка Python в Unix и Linux

Для установки Python на машины Unix / Linux вам необходимо выполнить следующие шаги:

Step 1 - Перейти по ссылке https://www.python.org/downloads/

Step 2 - Загрузите заархивированный исходный код, доступный для Unix / Linux по ссылке выше.

Step 3 - Извлеките файлы на свой компьютер.

Step 4 - Используйте следующие команды для завершения установки -

run ./configure script
make
make install

Вы можете найти установленный Python в стандартном месте /usr/local/bin и его библиотеки в /usr/local/lib/pythonXX, где XX - версия Python.

Установка Python в Windows

Для установки Python на машины с Windows вам необходимо выполнить следующие шаги:

Step 1 - Перейти по ссылке https://www.python.org/downloads/

Step 2 - Загрузите установщик Windows python-XYZ.msi файл, где XYZ - это версия, которую нам нужно установить.

Step 3 - Теперь сохраните файл установщика на локальном компьютере и запустите файл MSI.

Step 4 - Наконец, запустите загруженный файл, чтобы вызвать мастер установки Python.

Установка Python на Macintosh

Мы должны использовать Homebrew для установки Python 3 в Mac OS X. Homebrew прост в установке и представляет собой отличный установщик пакетов.

Homebrew также можно установить с помощью следующей команды -

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

Для обновления диспетчера пакетов мы можем использовать следующую команду -

$ brew update

С помощью следующей команды мы можем установить Python3 на нашу машину MAC -

$ brew install python3

Настройка пути

Вы можете использовать следующие инструкции для настройки пути в различных средах -

Настройка пути в Unix / Linux

Используйте следующие команды для настройки путей с использованием различных командных оболочек -

Для оболочки csh

setenv PATH "$PATH:/usr/local/bin/python".

Для оболочки bash (Linux)

ATH="$PATH:/usr/local/bin/python".

Для оболочки sh или ksh

PATH="$PATH:/usr/local/bin/python".

Настройка пути в Windows

Для установки пути в Windows мы можем использовать путь %path%;C:\Python в командной строке и нажмите Enter.

Запуск Python

Мы можем запустить Python любым из следующих трех способов:

Интерактивный переводчик

Операционная система, такая как UNIX и DOS, которая предоставляет интерпретатор командной строки или оболочку, может использоваться для запуска Python.

Мы можем начать кодирование в интерактивном интерпретаторе следующим образом:

Step 1 - Войти python в командной строке.

Step 2 - Тогда мы можем сразу приступить к написанию кода в интерактивном интерпретаторе.

$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS

Скрипт из командной строки

Мы можем выполнить сценарий Python в командной строке, вызвав интерпретатор. Это можно понять следующим образом -

$python script.py # Unix/Linux
or
python% script.py # Unix/Linux
or
C: >python script.py # Windows/DOS

Интегрированная среда разработки

Мы также можем запускать Python из среды графического интерфейса, если в системе есть приложение с графическим интерфейсом, поддерживающее Python. Некоторые IDE, которые поддерживают Python на различных платформах, приведены ниже -

IDE for UNIX - UNIX для Python имеет IDLE IDE.

IDE for Windows - В Windows есть PythonWin IDE с графическим интерфейсом.

IDE for Macintosh - Macintosh имеет IDLE IDE, которую можно загрузить в виде файлов MacBinary или BinHex'd с основного веб-сайта.