PySpark - Введение

В этой главе мы познакомимся с тем, что такое Apache Spark и как был разработан PySpark.

Spark - Обзор

Apache Spark - это молниеносная среда обработки в реальном времени. Он выполняет вычисления в памяти для анализа данных в реальном времени. Это вошло в картину какApache Hadoop MapReduceвыполняла только пакетную обработку и не имела функции обработки в реальном времени. Следовательно, был представлен Apache Spark, поскольку он может выполнять потоковую обработку в реальном времени, а также может заботиться о пакетной обработке.

Помимо обработки в реальном времени и пакетной обработки, Apache Spark также поддерживает интерактивные запросы и итерационные алгоритмы. У Apache Spark есть собственный диспетчер кластеров, где он может разместить свое приложение. Он использует Apache Hadoop как для хранения, так и для обработки. Оно используетHDFS (Распределенная файловая система Hadoop) для хранения и может запускать приложения Spark на YARN также.

PySpark - Обзор

Apache Spark написан на Scala programming language. Для поддержки Python с помощью Spark сообщество Apache Spark выпустило инструмент PySpark. Используя PySpark, вы можете работать сRDDsтакже на языке программирования Python. Это из-за библиотеки под названиемPy4j что они могут этого добиться.

PySpark предлагает PySpark Shellкоторый связывает Python API с ядром Spark и инициализирует контекст Spark. Большинство специалистов по обработке данных и аналитике сегодня используют Python из-за его богатого набора библиотек. Интеграция Python со Spark - благо для них.