Apache Presto - Обзор
Аналитика данных - это процесс анализа необработанных данных для сбора соответствующей информации для принятия лучших решений. Он в основном используется во многих организациях для принятия деловых решений. Что ж, аналитика больших данных включает в себя большой объем данных, и этот процесс довольно сложен, поэтому компании используют разные стратегии.
Например, Facebook - одна из ведущих и крупнейших компаний по хранению данных в мире. Данные хранилища Facebook хранятся в Hadoop для крупномасштабных вычислений. Позже, когда объем данных хранилища вырос до петабайт, они решили разработать новую систему с низкой задержкой. В 2012 году участники команды Facebook разработали“Presto” для интерактивной аналитики запросов, которая будет работать быстро даже с петабайтами данных.
Что такое Apache Presto?
Apache Presto - это распределенный механизм выполнения параллельных запросов, оптимизированный для обеспечения низкой задержки и интерактивного анализа запросов. Presto легко выполняет запросы и масштабируется без простоев даже с гигабайт до петабайт.
Один запрос Presto может обрабатывать данные из нескольких источников, таких как HDFS, MySQL, Cassandra, Hive и многих других источников данных. Presto построен на Java и легко интегрируется с другими компонентами инфраструктуры данных. Presto - мощный инструмент, и ведущие компании, такие как Airbnb, DropBox, Groupon, Netflix, принимают его.
Presto - Особенности
Presto содержит следующие функции -
- Простая и расширяемая архитектура.
- Сменные соединители - Presto поддерживает съемные соединители для предоставления метаданных и данных для запросов.
- Конвейерное выполнение - предотвращает ненужные задержки ввода-вывода.
- Пользовательские функции - аналитики могут создавать пользовательские пользовательские функции для облегчения миграции.
- Векторизованная столбчатая обработка.
Presto - Преимущества
Вот список преимуществ, которые предлагает Apache Presto:
- Специализированные операции SQL
- Простота установки и отладки
- Простая абстракция хранилища
- Быстро масштабирует петабайты данных с малой задержкой
Presto - Приложения
Presto поддерживает большинство современных промышленных приложений. Давайте взглянем на некоторые известные приложения.
Facebook- Facebook создал Presto для нужд аналитики данных. Presto легко масштабирует большие скорости передачи данных.
Teradata- Teradata предоставляет комплексные решения в области аналитики больших данных и хранилищ данных. Вклад Teradata в Presto позволяет большему количеству компаний выполнять все аналитические задачи.
Airbnb- Presto является неотъемлемой частью инфраструктуры данных Airbnb. Что ж, сотни сотрудников каждый день обрабатывают запросы с помощью этой технологии.
Почему Престо?
Presto поддерживает стандартный ANSI SQL, который очень упростил работу аналитиков и разработчиков. Хотя он построен на Java, он позволяет избежать типичных проблем кода Java, связанных с выделением памяти и сборкой мусора. Presto имеет архитектуру коннекторов, совместимую с Hadoop. Это позволяет легко подключать файловые системы.
Presto работает в нескольких дистрибутивах Hadoop. Кроме того, Presto может обращаться с платформы Hadoop для запроса Cassandra, реляционных баз данных или других хранилищ данных. Эта кроссплатформенная аналитическая способность позволяет пользователям Presto извлекать максимальную выгоду для бизнеса из гигабайт или петабайт данных.