Машинное обучение с Python - экосистема
Введение в Python
Python - популярный объектно-ориентированный язык программирования, обладающий возможностями языка программирования высокого уровня. Его простой в изучении синтаксис и переносимость делают его популярным в наши дни. Следующие факты дают нам введение в Python -
Python был разработан Гвидо ван Россумом в Stichting Mathematisch Centrum в Нидерландах.
Он был написан как преемник языка программирования под названием «ABC».
Его первая версия была выпущена в 1991 году.
Название Python было выбрано Гвидо ван Россумом из телешоу «Летающий цирк Монти Пайтона».
Это язык программирования с открытым исходным кодом, что означает, что мы можем бесплатно загружать его и использовать для разработки программ. Его можно скачать с www.python.org .
Язык программирования Python обладает функциями как Java, так и C. Он имеет элегантный код «C» и, с другой стороны, классы и объекты, такие как Java, для объектно-ориентированного программирования.
Это интерпретируемый язык, что означает, что исходный код программы Python сначала будет преобразован в байт-код, а затем выполнен виртуальной машиной Python.
Сильные и слабые стороны Python
У каждого языка программирования есть свои сильные и слабые стороны, как и у Python.
Сильные стороны
Согласно исследованиям и опросам, Python является пятым по важности языком, а также самым популярным языком для машинного обучения и обработки данных. Это из-за следующих сильных сторон Python:
Easy to learn and understand- Синтаксис Python более простой; следовательно, выучить и понять язык относительно легко даже для новичков.
Multi-purpose language - Python - это многоцелевой язык программирования, поскольку он поддерживает структурное программирование, объектно-ориентированное программирование, а также функциональное программирование.
Huge number of modules- Python имеет огромное количество модулей, охватывающих все аспекты программирования. Эти модули легко доступны для использования, что делает Python расширяемым языком.
Support of open source community- Как язык программирования с открытым исходным кодом, Python поддерживается очень большим сообществом разработчиков. Благодаря этому ошибки легко исправляются сообществом Python. Эта характеристика делает Python очень надежным и адаптивным.
Scalability - Python - это масштабируемый язык программирования, поскольку он обеспечивает улучшенную структуру для поддержки больших программ, чем сценарии оболочки.
Слабость
Хотя Python - популярный и мощный язык программирования, у него есть собственная слабость - низкая скорость выполнения.
Скорость выполнения Python медленная по сравнению с компилируемыми языками, потому что Python является интерпретируемым языком. Это может быть основной областью улучшения для сообщества Python.
Установка Python
Для работы в Python мы должны сначала установить его. Вы можете выполнить установку Python любым из следующих двух способов:
Индивидуальная установка Python
Использование предварительно упакованного дистрибутива Python - Anaconda
Давайте обсудим их подробно.
Индивидуальная установка Python
Если вы хотите установить Python на свой компьютер, вам необходимо загрузить только двоичный код, применимый для вашей платформы. Дистрибутив Python доступен для платформ Windows, Linux и Mac.
Ниже приводится краткий обзор установки Python на вышеупомянутых платформах.
On Unix and Linux platform
С помощью следующих шагов мы можем установить Python на платформу Unix и Linux -
Сначала перейдите на www.python.org/downloads/ .
Затем щелкните ссылку, чтобы загрузить заархивированный исходный код, доступный для Unix / Linux.
Теперь загрузите и извлеките файлы.
Затем мы можем отредактировать файл Modules / Setup, если мы хотим настроить некоторые параметры.
Далее напишите команду run ./configure script
make
сделать установку
On Windows platform
С помощью следующих шагов мы можем установить Python на платформу Windows -
Сначала перейдите на www.python.org/downloads/ .
Затем щелкните ссылку на файл python-XYZ.msi установщика Windows. Здесь XYZ - это версия, которую мы хотим установить.
Теперь мы должны запустить загруженный файл. Это приведет нас к мастеру установки Python, которым легко пользоваться. Теперь примите настройки по умолчанию и дождитесь завершения установки.
On Macintosh platform
Для Mac OS X, Homebrew, для установки Python 3 рекомендуется отличный и простой в использовании установщик пакетов. Если у вас нет Homebrew, вы можете установить его с помощью следующей команды -
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
Его можно обновить с помощью команды ниже -
$ brew update
Теперь, чтобы установить Python3 в вашей системе, нам нужно выполнить следующую команду -
$ brew install python3
Использование предварительно упакованного распространения Python: Anaconda
Anaconda - это пакетная компиляция Python, в которой есть все библиотеки, широко используемые в Data Science. Мы можем выполнить следующие шаги, чтобы настроить среду Python с помощью Anaconda:
Step 1- Во-первых, нам нужно скачать необходимый установочный пакет из дистрибутива Anaconda. Ссылка на то же самое - www.anaconda.com/distribution/ . Вы можете выбрать ОС Windows, Mac или Linux в соответствии с вашими требованиями.
Step 2- Затем выберите версию Python, которую хотите установить на свой компьютер. Последняя версия Python - 3.7. Там вы получите варианты как для 64-разрядной, так и для 32-разрядной графической установки.
Step 3- После выбора ОС и версии Python он загрузит установщик Anaconda на ваш компьютер. Теперь дважды щелкните файл, и программа установки установит пакет Anaconda.
Step 4 - Чтобы проверить, установлен он или нет, откройте командную строку и введите Python следующим образом:
Вы также можете проверить это в подробной видеолекции по адресу www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp .
Почему Python для науки о данных?
Python - пятый по важности язык, а также самый популярный язык для машинного обучения и анализа данных. Ниже перечислены особенности Python, которые делают его предпочтительным языком для науки о данных.
Обширный набор пакетов
Python имеет обширный и мощный набор пакетов, готовых к использованию в различных областях. Также есть такие пакеты, какnumpy, scipy, pandas, scikit-learn и т.д., которые необходимы для машинного обучения и обработки данных.
Легкое прототипирование
Еще одна важная особенность Python, которая делает его предпочтительным языком для науки о данных, - это простое и быстрое прототипирование. Эта функция полезна для разработки нового алгоритма.
Функция совместной работы
Область науки о данных в основном требует хорошего сотрудничества, и Python предоставляет множество полезных инструментов, которые делают это чрезвычайно важным.
Один язык для многих доменов
Типичный проект по науке о данных включает в себя различные области, такие как извлечение данных, манипулирование данными, анализ данных, извлечение функций, моделирование, оценка, развертывание и обновление решения. Поскольку Python является многоцелевым языком, он позволяет специалистам по обработке данных обращаться ко всем этим доменам с общей платформы.
Компоненты экосистемы Python ML
В этом разделе давайте обсудим некоторые основные библиотеки Data Science, которые составляют компоненты экосистемы машинного обучения Python. Эти полезные компоненты делают Python важным языком для науки о данных. Хотя таких компонентов много, давайте обсудим здесь некоторые из важных компонентов экосистемы Python -
Блокнот Jupyter
Блокноты Jupyter в основном предоставляют интерактивную вычислительную среду для разработки приложений Data Science на базе Python. Ранее они назывались ноутбуками ipython. Ниже приведены некоторые особенности записных книжек Jupyter, которые делают его одним из лучших компонентов экосистемы Python ML.
Блокноты Jupyter могут иллюстрировать процесс анализа шаг за шагом, поэтапно упорядочивая такие вещи, как код, изображения, текст, вывод и т. Д.
Это помогает специалисту по обработке данных документировать мыслительный процесс при разработке процесса анализа.
Так же результат можно зафиксировать как часть записной книжки.
С помощью записных книжек jupyter мы также можем поделиться своей работой с коллегами.
Установка и выполнение
Если вы используете дистрибутив Anaconda, вам не нужно устанавливать jupyter notebook отдельно, поскольку он уже установлен вместе с ним. Вам просто нужно перейти в Anaconda Prompt и ввести следующую команду -
C:\>jupyter notebook
После нажатия клавиши ВВОД он запустит сервер ноутбука на локальном хосте: 8888 вашего компьютера. Это показано на следующем снимке экрана -
Теперь, после нажатия на вкладку «Новая», вы получите список опций. Выберите Python 3, и вы перейдете в новую записную книжку, чтобы начать в ней работать. Вы увидите это на следующих скриншотах -
С другой стороны, если вы используете стандартный дистрибутив Python, то ноутбук jupyter можно установить с помощью популярного установщика пакетов python, pip.
pip install jupyter
Типы ячеек в Jupyter Notebook
Ниже приведены три типа ячеек в записной книжке jupyter:
Code cells- Как следует из названия, мы можем использовать эти ячейки для написания кода. После написания кода / содержимого он отправит его в ядро, связанное с ноутбуком.
Markdown cells- Мы можем использовать эти ячейки для обозначения вычислительного процесса. Они могут содержать такие вещи, как текст, изображения, латексные уравнения, HTML-теги и т. Д.
Raw cells- Написанный в них текст отображается как есть. Эти ячейки в основном используются для добавления текста, который мы не хотим преобразовывать с помощью механизма автоматического преобразования ноутбука jupyter.
Для более детального изучения jupyter notebook вы можете перейти по ссылке www.tutorialspoint.com/jupyter/index.htm .
NumPy
Это еще один полезный компонент, который делает Python одним из любимых языков Data Science. Это в основном означает числовой Python и состоит из объектов многомерного массива. Используя NumPy, мы можем выполнять следующие важные операции:
Математические и логические операции над массивами.
Преобразование Фурье
Операции, связанные с линейной алгеброй.
Мы также можем рассматривать NumPy как замену MatLab, потому что NumPy в основном используется вместе с Scipy (научный Python) и Mat-plotlib (библиотека построения графиков).
Installation and Execution
Если вы используете дистрибутив Anaconda, вам не нужно устанавливать NumPy отдельно, поскольку он уже установлен вместе с ним. Вам просто нужно импортировать пакет в свой скрипт Python, выполнив следующие действия:
import numpy as np
С другой стороны, если вы используете стандартный дистрибутив Python, NumPy можно установить с помощью популярного установщика пакетов python, pip.
pip install NumPy
Для более детального изучения NumPy вы можете перейти по ссылке www.tutorialspoint.com/numpy/index.htm .
Панды
Это еще одна полезная библиотека Python, которая делает Python одним из любимых языков Data Science. Pandas в основном используется для обработки данных, обработки и анализа. Он был разработан Уэсом МакКинни в 2008 году. С помощью Pandas при обработке данных мы можем выполнить следующие пять шагов:
- Load
- Prepare
- Manipulate
- Model
- Analyze
Представление данных в пандах
Полное представление данных в Pandas выполняется с помощью следующих трех структур данных:
Series- По сути, это одномерный массив ndarray с меткой оси, что означает, что он похож на простой массив с однородными данными. Например, следующая серия представляет собой набор целых чисел 1,5,10,15,24,25 ...
1 | 5 | 10 | 15 | 24 | 25 | 28 | 36 | 40 | 89 |
Data frame- Это наиболее полезная структура данных, которая используется практически для всех видов представления данных и манипуляций с ними в пандах. По сути, это двухмерная структура данных, которая может содержать разнородные данные. Как правило, табличные данные представлены с использованием фреймов данных. Например, в следующей таблице показаны данные об учащихся, имеющих свои имена и номера списков, возраст и пол.
имя | Номер рулона | Возраст | Пол |
---|---|---|---|
Аарав | 1 | 15 | мужчина |
Harshit | 2 | 14 | мужчина |
Каника | 3 | 16 | женский |
Mayank | 4 | 15 | мужчина |
Panel- Это трехмерная структура данных, содержащая разнородные данные. Представить панель в графическом виде очень сложно, но ее можно проиллюстрировать как контейнер DataFrame.
В следующей таблице приведены размеры и описание вышеупомянутых структур данных, используемых в Pandas.
Структура данных | Размер | Описание |
---|---|---|
Серии | 1-D | Неизменяемый размер, однородные одномерные данные |
DataFrames | 2-D | Изменяемый размер, неоднородные данные в табличной форме |
Панель | 3-D | Массив изменяемого размера, контейнер DataFrame. |
Мы можем понять эти структуры данных, поскольку структура данных более высокого измерения является контейнером структуры данных более низкого измерения.
Установка и выполнение
Если вы используете дистрибутив Anaconda, вам не нужно устанавливать Pandas отдельно, поскольку он уже установлен вместе с ним. Вам просто нужно импортировать пакет в свой скрипт Python, выполнив следующие действия:
import pandas as pd
С другой стороны, если вы используете стандартный дистрибутив Python, Pandas можно установить с помощью популярного установщика пакетов python, pip.
pip install Pandas
После установки Pandas вы можете импортировать его в свой скрипт Python, как описано выше.
пример
Ниже приведен пример создания серии из ndarray с использованием Pandas -
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = np.array(['g','a','u','r','a','v'])
In [4]: s = pd.Series(data)
In [5]: print (s)
0 g
1 a
2 u
3 r
4 a
5 v
dtype: object
Для более подробного изучения Pandas вы можете перейти по ссылке www.tutorialspoint.com/python_pandas/index.htm .
Scikit-Learn
Еще одна полезная и самая важная библиотека Python для науки о данных и машинного обучения на Python - это Scikit-learn. Ниже приведены некоторые особенности Scikit-learn, которые делают его таким полезным:
Он построен на NumPy, SciPy и Matplotlib.
Это открытый исходный код, и его можно повторно использовать по лицензии BSD.
Он доступен для всех и может использоваться повторно в различных контекстах.
С его помощью можно реализовать широкий спектр алгоритмов машинного обучения, охватывающих основные области машинного обучения, такие как классификация, кластеризация, регрессия, уменьшение размерности, выбор модели и т. Д.
Установка и выполнение
Если вы используете дистрибутив Anaconda, вам не нужно устанавливать Scikit-learn отдельно, поскольку он уже установлен вместе с ним. Вам просто нужно использовать этот пакет в своем скрипте Python. Например, с помощью следующей строки скрипта мы импортируем набор данных о пациентах с раком груди изScikit-learn -
from sklearn.datasets import load_breast_cancer
С другой стороны, если вы используете стандартный дистрибутив Python и у вас есть NumPy и SciPy, то Scikit-learn можно установить с помощью популярного установщика пакетов Python, pip.
pip install -U scikit-learn
После установки Scikit-learn вы можете использовать его в своем скрипте Python, как вы это делали выше.