Представляем Парадайм

Введение
Сегодня мы приоткрываем завесу и представляем Paradime , операционную систему для аналитики, которую мы тайно разрабатывали последние 2 года.
Создать стартап в тайне сложно. Это сложнее, чем вы можете себе представить. Трудно нанять, найти трудно. Говорить с людьми о вашем продукте сложно. Но это помогает создавать и дорабатывать продукт без отвлекающих факторов вместе с нашими партнерами по дизайну, чтобы укрепить предложение. Вот чем мы занимались.
В современном стеке данных за последние несколько лет распространение новых точечных решений привело к инструментальному хаосу. Инструментов так много, что уследить за всеми невозможно. Руководители данных тратят больше времени, чем следовало бы, на управление своими инструментами, затратами и поставщиками. Они устали ходить туда-обратно с закупками. Им также надоело иметь дело с разбросанными данными между несколькими поставщиками, что увеличивает риск утечки данных.
Для инженера-аналитика хаос с инструментами привел к когнитивной перегрузке и падению производительности. Жизнь стала тяжелее, чем когда-либо прежде.
Как резюмировал Бенн в своем посте «Пороховая бочка современного стека данных», это:
Однако самая большая надвигающаяся битва развернется на другой территории: мозг или операционная система.
В Paradime мы создаем операционную систему для аналитики .
Фон
Еще в 2018–2019 годах в Octopus моя команда перестраивала весь стек данных с нуля. Мы разобрали хрупкий устаревший стек, состоящий из служб SSIS, специального кода загрузки, написанного на .NET, SQL Server, Qlik и т. д.
Окончательное решение, к которому мы пришли после 6 месяцев изнурительной работы, выглядело примерно так:
- Stitch , Fivetran и Segment для приема данных
- dbt-core работает внутри воздушного потока для преобразования
- Искатель для визуализации

Помимо архитектуры инструментов, когда мы добавили уровень люди/команда, мы увидели следующее:
- Потоки данных поддерживали тесную связь между инструментами
- Тем не менее, инструменты фрагментировали уровень людей/команд.
- И Slack был единственным связующим звеном для человеческого общения.

Каждый аналитик данных будет проводить большую часть своего дня, переключаясь между приложениями с низким кодом / некоторым кодом / открытым исходным кодом / коммерческими приложениями, борясь с пожарами и утопая в запросах данных, когда все, что они должны делать, — это генерировать рентабельность инвестиций для бизнеса.
В средней организации уровня C+ на одного аналитика данных приходилось бы 70 сотрудников, выполняющих бизнес-функции, а это означает, что в любой день эти 70 сотрудников будут сходить с ума от того, что не получают ответов на свои вопросы или запросы, а бедный аналитик будет кричать во все горло. голову, что он хотел получить ценную информацию, а не отвечать на Slack весь день. Этот тупик мы видели из первых рук в Octopus, затем в Guardian, затем в Revolut, Hubspot, Carta, и этот список буквально можно продолжить.
Мы снова и снова слышали от аналитиков данных и инженеров-аналитиков, что, хотя dbt освободил их от ада SQL, бум инструментов загнал их обратно в адское пламя.
С другой стороны, мы увидели, что бизнес-функции жаждут данных и принятия бизнес-решений на основе данных, которые растут в геометрической прогрессии. Slack без контекста данных больше не подходил для предприятия, управляемого данными.
Основной слой человеческого общения вокруг данных был громоздким, трудоемким и лишенным контекста.
Мы решили решить проблему производительности и совместной работы в рабочих процессах аналитики с помощью Paradime.
Мы поняли, что новый мир dbt + современный стек данных нуждается в новой категории инструментов для работы, чтобы люди могли работать быстрее, умнее и меньше уставать.
Что мы строим?
Дисциплина анализа данных сильно изменилась за последние несколько лет. Существует движение за привнесение принципов разработки программного обеспечения в аналитику. Аналитика как дисциплина отличается от разработки программного обеспечения. Есть контекст кода, контекст данных и контекст людей. Тем не менее, как аналитики, мы застряли с инструментами, используемыми разработчиками программного обеспечения.
Мы меняем этот статус-кво, выводя на рынок следующее:
- Аналитическая операционная система, которая дает людям контроль над своими данными, создавая нелинейный скачок ценности благодаря эффективным рабочим процессам.
- объединение данных, аналитики и бизнес-функций в единый рабочий процесс для совместной работы
Это как иметь действительно мощные процессоры на материнской плате, а шинная система между ними ограничена по пропускной способности.
Paradime создан для того, чтобы ускорить те аналитические рабочие процессы, которые сегодня либо отсутствуют в большинстве организаций, либо присутствуют только в компаниях со значительными ресурсами для создания внутренних инструментов.
С этой целью сегодня мы анонсируем 5 компонентов этого рабочего процесса, как описано ниже.
1. Онбординг
Отходя от настройки и управления рабочими пространствами dbt на отдельных ноутбуках, в Paradime вы можете подключить аналитиков менее чем за 3 минуты после настройки учетной записи администратором. Настройка учетной записи администратора занимает менее 30 минут и не требует какой-либо инженерной поддержки. Нет затрат на внедрение и профессиональные услуги в течение 3 месяцев.
Мы поддерживаем подключение к репозиторию dbt на Github , BitBucket и Gitlab . Мы поддерживаем подключение к Redshift , BigQuery , Snowflake , Firebolt и многим другим.
2. Код IDE
Code IDE — это жемчужина в короне Paradime.
Paradime IDE предоставляет лучшую в своем классе настольную среду IDE для аналитики в облаке. Он быстрый, производительный и обладает широчайшим набором функций. Он специально создан для рабочих процессов аналитики по сравнению с облачными IDE общего назначения, такими как Gitpod , AWS Cloud9 , Stackblitz , которые больше подходят для разработки программного обеспечения.
Он обладает всей эргономикой, которую разработчики ожидают от настольной IDE, но некоторые из примечательных функций включают в себя:
- Все, что у вас есть в VSCode — внешний вид, сочетания клавиш, поиск файлов, так что вам не придется изучать новую IDE с нуля.
- Собственный терминал для запуска любой команды CLI, включая git, python и SqlFluff.
- Опытные пользователи dbt также могут устанавливать свои собственные пакеты Python.
- Полная поддержка git-ops на основе пользовательского интерфейса для начинающих и опытных пользователей.
- И самое главное, оперативный просмотр происхождения, документов, предварительного просмотра данных для любой модели dbt — без запуска какой-либо команды dbt или создания manifest.json.

3. Графическое происхождение
Проблема, которую мы хотели решить здесь, заключалась в следующем:
- Аналитики не могут ждать часы или даже минуты, чтобы увидеть обновленную родословную, поскольку они строят новые модели или реорганизуют существующие. Им нужен обзор в реальном времени.
- Аналитикам необходимо целостное понимание происхождения как на уровне dbt (уже в dbt-cloud), так и на уровне BI в их повседневной работе.

Для Looker мы предоставляем информацию о происхождении через Views, Explores, Looks, Dashboards и Schedules, предоставляя вам сквозное представление о вашей происхождении dbt+Looker. Точно так же для Tableau мы можем связать источники данных, рабочие листы и информационные панели.
Команды выходят за рамки dbt exposures
, которые сложно поддерживать и которые не обеспечивают никакой видимости компонентов уровня BI между таблицами dbt и информационными панелями BI.
4. Расписание болтов
Проблема, которую мы хотели решить здесь, заключалась в следующем:
- Пользователи Analytics считают Airflow / Dagster / Prefect сложными
- Команды Data Platform не любят, когда люди меняют производственные рабочие процессы в пользовательском интерфейсе dbt-cloud без возможности отслеживания.

У нас также есть API-интерфейсы для запуска ваших расписаний dbt из Airflow, Dagster или Prefect и получения предупреждений, когда они будут завершены. API дает командам платформ больший контроль для управления зависимостями выше и ниже расписаний dbt.
Говорил ли я вам, что у нас также есть импортер одним щелчком мыши для всех ваших заданий dbt из облака dbt в Paradime, поэтому миграция не кажется сумасшедшим приключением.
5. Запрос SQL
Построение модели dbt чаще всего является последним шагом в процессе моделирования. Аналитики тратят много времени на изучение данных в хранилище и возятся с необработанными и скомпилированными SQL существующих моделей для выполнения своей повседневной работы. Существует множество переходов между IDE и редактором SQL, копированием и вставкой, редактированием и заменой имен таблиц ссылками.
Проблема, которую мы хотели решить здесь, заключалась в следующем:
- Как сделать процесс моделирования dbt и исследования данных бесшовным, чтобы вам не приходилось переходить туда и обратно.
- Как сделать настройку скомпилированных dbt-моделей эффективной, не переключаясь между редактором кода и редактором SQL.
Для кого Парадайм?
Во время эволюции ОС для Apple существовало два взгляда: Возняк считал, что это должна быть открытая система, чтобы с ней могли играть любители и мастера, а Стив Джобс считал, что это должна быть система, которая просто работает. Сегодня мы любим MacOS, потому что она просто работает.
В ходе нашего исследования мы обнаружили, что сегодня в мире есть две основные личности аналитиков/инженеров-аналитиков:
- Тинкереры — это люди, которые любят возиться, экспериментировать с различными инструментами и библиотеками. Им нравится исследовать и создавать свои собственные функции поверх существующей OSS. Они уже очень комфортно себя чувствуют со своей собственной настройкой IDE. Они любители. Они больше ориентированы на разработку программного обеспечения. Сегодня Paradime вряд ли им подойдет.
- Строители — это пользователи, которые сосредоточены исключительно на быстром выполнении своей работы без каких-либо хлопот. Пользователи, которые ценят производительность, пользователи, для которых скорость побеждает. Они хотят отточить свои навыки аналитики и моделирования данных. Они хотят создавать ценность для бизнеса на основе своих идей. Им просто нравятся инструменты, которые не требуют настройки, которые просто работают. Парадайм для них.
Что дальше?
Ну чертовски много. Здесь мы анонсируем лишь верхушку айсберга. Мы также запускаем Product Hunt на следующей неделе, поэтому, пожалуйста, подпишитесь на нас, чтобы получить уведомление, когда мы запустим.
Нам предстоит многое сделать в ближайшие месяцы, так что держитесь за свои места.
Потому что, как я уже говорил, миру аналитики действительно нужен лучший класс инструментов для работы, и нам предстоит пройти долгий путь.