giới thiệu thiên đường
Giới thiệu
Hôm nay chúng tôi sẽ vén màn và giới thiệu Paradime , hệ điều hành dành cho phân tích, mà chúng tôi đã bí mật xây dựng trong 2 năm qua.
Xây dựng một công ty khởi nghiệp trong tàng hình là điều khó khăn. Nó khó hơn bạn có thể tưởng tượng. Tuyển dụng đã khó, tìm kiếm đã khó. Nói chuyện với mọi người về sản phẩm của bạn là khó khăn. Nhưng nó giúp xây dựng và lặp lại một sản phẩm mà không bị phân tâm cùng với các đối tác thiết kế của chúng tôi để củng cố đề xuất. Vì vậy, đó là những gì chúng tôi đã được lên đến.
Trong ngăn xếp dữ liệu hiện đại, trong vài năm qua, sự phổ biến của các giải pháp điểm mới đã dẫn đến sự hỗn loạn của công cụ. Có rất nhiều công cụ ngoài kia nên không thể theo dõi tất cả chúng. Các nhà lãnh đạo dữ liệu đang dành nhiều thời gian hơn mức cần thiết để cố gắng quản lý các công cụ, chi phí và nhà cung cấp của họ. Họ mệt mỏi với việc đi lòng vòng với việc mua sắm. Họ cũng phát ngán với việc xử lý dữ liệu tràn lan trên nhiều nhà cung cấp, điều này làm tăng nguy cơ vi phạm dữ liệu.
Đối với kỹ sư phân tích, sự hỗn loạn của công cụ đã dẫn đến tình trạng quá tải nhận thức và giảm năng suất. Cuộc sống trở nên khó khăn hơn bao giờ hết.
Như Benn đã tóm tắt trong bài viết của mình Thùng bột của ngăn xếp dữ liệu hiện đại rằng:
Tuy nhiên, trận chiến lớn nhất sắp diễn ra sẽ diễn ra trên một lãnh thổ khác: Bộ não - hay hệ điều hành
Tại Paradime, chúng tôi đang xây dựng hệ điều hành để phân tích .
Tiểu sử
Trở lại năm 2018–19, tại Octopus, nhóm của tôi đang xây dựng lại toàn bộ kho dữ liệu từ đầu. Chúng tôi đã tách rời một ngăn xếp kế thừa dễ vỡ bao gồm SSIS, mã nhập riêng biệt được viết bằng .NET, SQL Server, Qlik, v.v.
Giải pháp cuối cùng mà chúng tôi đã đạt được sau 6 tháng làm việc mệt mỏi trông giống như bên dưới:
- Stitch , Fivetran và Segment để nhập dữ liệu
- dbt-core chạy bên trong luồng không khí để chuyển đổi
- Người tìm kiếm trực quan
Ngoài kiến trúc công cụ, khi chúng tôi thêm lớp người/nhóm, chúng tôi thấy rằng:
- Luồng dữ liệu giữ cho các công cụ được liên kết chặt chẽ
- Tuy nhiên, các công cụ đã phân mảnh lớp người/nhóm
- Và, Slack là chất keo kết nối lỏng lẻo duy nhất cho giao tiếp của con người
Mọi nhà phân tích dữ liệu sẽ dành phần lớn thời gian của họ để chuyển giữa các ứng dụng mã thấp/một số mã/mã nguồn mở/thương mại, chữa cháy và chìm đắm trong các yêu cầu dữ liệu khi tất cả những gì họ nên làm là tạo RoI cho doanh nghiệp.
Một tổ chức Series C+ trung bình sẽ có 70 nhân viên đảm nhiệm các chức năng kinh doanh cho mỗi nhà phân tích dữ liệu, điều đó có nghĩa là vào bất kỳ ngày nào, 70 nhân viên này sẽ phát điên lên khi họ không nhận được câu trả lời cho câu hỏi hoặc yêu cầu của mình và nhà phân tích kém cỏi sẽ la hét trong rằng anh ấy muốn xây dựng những hiểu biết có giá trị không phản hồi Slack cả ngày. Sự bế tắc này chúng tôi đã thấy tận mắt tại Octopus, sau đó là Guardian, rồi đến Revolut, Hubspot, Carta, và danh sách này thực sự tiếp tục.
Chúng tôi đã nghe đi nghe lại từ các nhà phân tích dữ liệu và kỹ sư phân tích rằng mặc dù dbt đã giải phóng họ khỏi địa ngục SQL, nhưng sự bùng nổ của các công cụ đã đẩy họ trở lại địa ngục.
Mặt khác, chúng tôi thấy rằng các chức năng kinh doanh đang khao khát dữ liệu và việc đưa ra các quyết định kinh doanh dựa trên dữ liệu đã tăng lên theo cấp số nhân. Slack không có bối cảnh dữ liệu không còn phù hợp cho mục đích của doanh nghiệp dựa trên dữ liệu.
Lớp hội thoại thiết yếu giữa con người với con người xung quanh dữ liệu rất phức tạp, tốn thời gian và không có ngữ cảnh.
Chúng tôi quyết định giải quyết vấn đề về năng suất và cộng tác trong quy trình phân tích thông qua Paradime.
Chúng tôi nhận ra rằng thế giới mới của dbt + ngăn xếp dữ liệu hiện đại cần một danh mục công cụ mới để làm việc để mọi người có thể làm việc nhanh hơn, thông minh hơn và ít căng thẳng hơn rất nhiều.
Chúng ta đang xây dựng cái gì?
Kỷ luật phân tích dữ liệu đã phát triển ồ ạt trong vài năm qua. Có một phong trào đưa các nguyên tắc công nghệ phần mềm vào phân tích. Phân tích như một môn học khác với công nghệ phần mềm. Có bối cảnh mã, bối cảnh dữ liệu và bối cảnh con người. Tuy nhiên, với tư cách là nhà phân tích, chúng tôi bị mắc kẹt với các công cụ được sử dụng bởi các kỹ sư phần mềm.
Chúng tôi đang thay đổi hiện trạng này bằng cách đưa ra thị trường những thứ sau:
- Một hệ điều hành phân tích cung cấp cho mọi người quyền kiểm soát dữ liệu của họ đồng thời tạo ra giá trị phi tuyến tính nhảy qua các quy trình làm việc hiệu quả.
- kết nối dữ liệu, phân tích và các chức năng kinh doanh trong một quy trình làm việc hợp tác duy nhất
Nó giống như việc có những bộ xử lý thực sự mạnh mẽ trên bo mạch chủ trong khi hệ thống bus giữa chúng bị hạn chế về thông lượng.
Paradime được xây dựng để tăng tốc các quy trình công việc phân tích đó, mà ngày nay không tồn tại trong hầu hết các tổ chức hoặc chỉ có trong các doanh nghiệp có nguồn lực quan trọng để xây dựng công cụ nội bộ.
Để đạt được hiệu quả đó, hôm nay chúng tôi xin công bố 5 thành phần của quy trình làm việc đó như được giải thích bên dưới.
1. Giới thiệu
Bỏ qua việc thiết lập và quản lý không gian làm việc dbt trên từng máy tính xách tay, trong Paradime, bạn có thể sử dụng các nhà phân tích trong vòng chưa đầy 3 phút sau khi quản trị viên thiết lập tài khoản. Quá trình thiết lập tài khoản quản trị mất chưa đầy 30 phút và không yêu cầu bất kỳ hỗ trợ kỹ thuật nào. Không có 3 tháng thực hiện và chi phí dịch vụ chuyên nghiệp.
Chúng tôi hỗ trợ kết nối với kho lưu trữ dbt trên Github , BitBucket và Gitlab . Chúng tôi hỗ trợ kết nối với Redshift , BigQuery , Snowflake và Firebolt , v.v.
2. Mã IDE
Code IDE là viên ngọc quý của trải nghiệm Paradime.
Paradime IDE mang lại trải nghiệm IDE dành cho máy tính để bàn tốt nhất trong lớp để phân tích lên đám mây. Nó nhanh, hiệu quả và có nhiều tính năng nhất. Mục đích của nó được xây dựng cho quy trình công việc phân tích so với các IDE đám mây có mục đích chung như Gitpod , AWS Cloud9 , Stackblitz , phù hợp hơn cho công nghệ phần mềm.
Nó đi kèm với tất cả các công thái học mà các nhà phát triển mong đợi từ một IDE dành cho máy tính để bàn, nhưng một số tính năng đáng chú ý bao gồm:
- Mọi thứ bạn có trong VSCode — giao diện, phím tắt, tìm kiếm tệp để bạn không phải học một IDE mới từ đầu.
- Một thiết bị đầu cuối gốc để chạy bất kỳ lệnh CLI nào bao gồm git, python và SqlFluff
- Người dùng thành thạo dbt cũng có thể cài đặt các gói python của riêng họ.
- Hỗ trợ git-ops dựa trên giao diện người dùng đầy đủ cho người dùng mới bắt đầu và người dùng nâng cao
- Và quan trọng nhất, chế độ xem nội tuyến theo thời gian thực của dòng dõi, tài liệu, xem trước dữ liệu cho bất kỳ mô hình dbt nào — mà không cần chạy bất kỳ lệnh dbt nào hoặc tạo manifest.json
3. Đồ thị truyền thừa
Vấn đề chúng tôi muốn giải quyết ở đây là:
- Các nhà phân tích không thể đợi hàng giờ hoặc thậm chí vài phút để xem dòng cập nhật khi họ xây dựng các mô hình mới hoặc tái cấu trúc các mô hình hiện có. Họ cần một cái nhìn thời gian thực.
- Các nhà phân tích cần có sự hiểu biết toàn diện về dòng trong cả lớp dbt (đã có trong dbt-cloud) và lớp BI trong công việc hàng ngày của họ.
Đối với Looker, chúng tôi cung cấp dòng dõi trên Chế độ xem, Khám phá, Giao diện, Bảng điều khiển và Lịch biểu, cung cấp cho bạn chế độ xem từ đầu đến cuối về dòng dõi dbt+Looker của bạn. Tương tự, đối với Tableau , chúng ta có thể liên kết Nguồn dữ liệu, Bảng tính và Bảng điều khiển.
Các nhóm đang tiến xa hơn dbt exposures, khó duy trì và không cung cấp bất kỳ khả năng hiển thị nào trên các thành phần của lớp BI giữa các bảng dbt và bảng điều khiển BI.
4. Lịch trình Bolt
Vấn đề chúng tôi muốn giải quyết ở đây là:
- Người dùng phân tích khó tìm thấy Airflow / Dagster / Prefect
- Các nhóm Nền tảng dữ liệu không thích mọi người thay đổi quy trình sản xuất trong giao diện người dùng dbt-cloud mà không có khả năng truy xuất nguồn gốc.
Chúng tôi cũng có các API để kích hoạt lịch trình dbt của bạn từ Airflow, Dagster hoặc Prefect và nhận thông báo khi chúng hoàn tất. API cung cấp cho các nhóm nền tảng nhiều quyền kiểm soát hơn để quản lý các phụ thuộc ngược dòng và xuôi dòng của lịch trình dbt.
Và tôi đã nói với bạn chưa — chúng tôi cũng có một trình nhập bằng một cú nhấp chuột cho tất cả các công việc dbt của bạn từ dbt cloud đến Paradime, vì vậy việc di chuyển không giống như một cuộc phiêu lưu điên rồ.
5. Truy vấn SQL
Xây dựng mô hình dbt thường là bước cuối cùng trong quy trình lập mô hình. Các nhà phân tích dành thời gian đáng kể để khám phá dữ liệu trong kho và xử lý SQL thô và được biên dịch của các mô hình hiện có để chạy công việc hàng ngày của họ. Có rất nhiều thao tác qua lại giữa trình soạn thảo IDE và SQL, sao chép và dán, chỉnh sửa và thay thế tên bảng bằng tham chiếu.
Vấn đề chúng tôi muốn giải quyết ở đây là:
- Cách làm cho quy trình khám phá dữ liệu và lập mô hình dbt trở nên liền mạch để bạn không phải quay đi quay lại.
- Cách điều chỉnh các mô hình dbt đã biên dịch hiệu quả mà không cần phải thực hiện các vòng lặp giữa trình soạn thảo mã của bạn và trình soạn thảo SQL
Paradime dành cho ai?
Trong quá trình phát triển HĐH cho Apple, có hai trường phái tư tưởng - Wozniak tin rằng đó phải là một hệ thống mở để những người có sở thích và những người mày mò có thể chơi với nó và Steve Jobs, cho rằng đó phải là một hệ thống chỉ hoạt động. Ngày nay, chúng tôi yêu thích MacOS, bởi vì nó chỉ hoạt động.
Trong quá trình nghiên cứu, chúng tôi nhận thấy rằng có hai diện mạo chính của các nhà phân tích/kỹ sư phân tích trên thế giới hiện nay:
- Tinkerers — Đây là những người thích mày mò, nghịch ngợm với các công cụ và thư viện khác nhau. Họ thích khám phá và xây dựng các tính năng của riêng họ trên PMNM hiện có. Họ đã rất thoải mái với thiết lập IDE của riêng mình. Họ là những người có sở thích. Họ thiên về công nghệ phần mềm hơn. Paradime dường như không phù hợp với họ ngày hôm nay.
- Người xây dựng — Đây là những người dùng đặc biệt tập trung vào việc hoàn thành công việc của họ một cách nhanh chóng mà không gặp rắc rối. Người dùng coi trọng năng suất, người dùng coi trọng vận tốc. Họ muốn trau dồi kỹ năng phân tích và mô hình hóa dữ liệu của mình. Họ muốn tạo ra giá trị kinh doanh từ những hiểu biết của họ. Họ chỉ yêu thích những công cụ không cần thiết lập mà vẫn hoạt động. Thiên đường là dành cho họ.
Cái gì tiếp theo?
Vâng, rất nhiều. Chúng tôi chỉ công bố phần nổi của tảng băng trôi ở đây. Chúng tôi cũng sẽ ra mắt trên Product Hunt vào tuần tới, vì vậy hãy theo dõi chúng tôi để nhận thông báo khi chúng tôi ra mắt.
Chúng tôi có rất nhiều điều sẽ đến trong những tháng tới, vì vậy hãy giữ vững chỗ ngồi của bạn.
Bởi vì như tôi đã nói trước đây, thế giới phân tích thực sự cần một loại công cụ tốt hơn để làm việc và chúng ta còn một chặng đường dài phía trước.

![Dù sao thì một danh sách được liên kết là gì? [Phần 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































