แนะนำ Paradime

Dec 01 2022

บทนำ วันนี้เรากำลังจะเปิดม่านและแนะนำ Paradime ซึ่งเป็นระบบปฏิบัติการสำหรับการวิเคราะห์ที่เราได้สร้างขึ้นในช่วง 2 ปีที่ผ่านมาอย่างลับๆ การสร้างสตาร์ทอัพแบบ Stealth นั้นยาก

บทนำ

วันนี้เรากำลังเปิดม่านและแนะนำParadimeระบบปฏิบัติการสำหรับการวิเคราะห์ที่เราสร้างขึ้นมาอย่างลับๆ ในช่วง 2 ปีที่ผ่านมา

การสร้างสตาร์ทอัพแบบ Stealth นั้นยาก มันยากกว่าที่คุณจะจินตนาการได้ จ้างว่ายาก หาว่ายาก การพูดคุยกับผู้คนเกี่ยวกับผลิตภัณฑ์ของคุณเป็นเรื่องยาก แต่มันช่วยสร้างและทำซ้ำผลิตภัณฑ์โดยปราศจากสิ่งรบกวนควบคู่ไปกับพันธมิตรด้านการออกแบบของเราเพื่อยืนยันข้อเสนอ นั่นคือสิ่งที่เราได้รับถึง

ในสแต็กข้อมูลสมัยใหม่ ในช่วงไม่กี่ปีที่ผ่านมา การเพิ่มจำนวนของโซลูชันจุดใหม่ได้นำไปสู่ความโกลาหลของเครื่องมือ มีเครื่องมือมากมายจนไม่สามารถติดตามได้ทั้งหมด ผู้นำด้านข้อมูลใช้เวลามากกว่าที่ควรในการจัดการเครื่องมือ ต้นทุน และผู้ขาย พวกเขาเหนื่อยกับการไป-กลับกับการจัดซื้อจัดจ้าง พวกเขายังเบื่อที่จะจัดการกับข้อมูลที่แผ่กระจายไปทั่วผู้ให้บริการหลายราย ซึ่งเพิ่มความเสี่ยงของการละเมิดข้อมูล

สำหรับวิศวกรการวิเคราะห์ ความยุ่งเหยิงของเครื่องมือได้นำไปสู่การโอเวอร์โหลดการรับรู้และผลผลิตที่ลดลง ชีวิตลำบากขึ้นกว่าเดิม

ดัง ที่ Benn สรุปไว้ในโพสต์ของเขาThe powder keg of the modern data stackว่า:

อย่างไรก็ตาม การต่อสู้ที่กำลังจะเกิดขึ้นครั้งใหญ่ที่สุดจะเกิดขึ้นเหนือดินแดนอื่น: สมอง — หรือระบบปฏิบัติการ

ที่ Paradime เรากำลังสร้างระบบปฏิบัติการสำหรับการวิเคราะห์

พื้นหลัง

ย้อนกลับไปในปี 2018–19 ที่ Octopus ทีมของฉันกำลังสร้างกองข้อมูลทั้งหมดขึ้นมาใหม่ตั้งแต่เริ่มต้น เราฉีกสแต็กเดิมที่เปราะบางซึ่งประกอบด้วย SSIS, รหัสการนำเข้าตามความต้องการที่เขียนใน .NET, SQL Server, Qlik เป็นต้น

ทางออกสุดท้ายที่เราลงเอยด้วยการทำงานอย่างเหน็ดเหนื่อยเป็นเวลา 6 เดือนมีดังนี้:

Stitch , FivetranและSegmentสำหรับการนำเข้าข้อมูล
dbt-core ทำงานภายในกระแสลมเพื่อการแปลง
Lookerสำหรับการแสดงภาพ

กองข้อมูลที่มีเพียงเครื่องมือ

นอกเหนือจากสถาปัตยกรรมเครื่องมือแล้ว เมื่อเราเพิ่มชั้นบุคคล/ทีม เราพบว่า:

การไหลของข้อมูลทำให้เครื่องมือเชื่อมต่อกันแน่น
เครื่องมือยังแยกส่วนผู้คน / ชั้นทีม
และSlackเป็นเพียงกาวเชื่อมเดียวสำหรับการสื่อสารของมนุษย์

กองข้อมูลที่มีผู้คนและทีมซ้อนทับอยู่ด้านบน

นักวิเคราะห์ข้อมูลทุกคนจะใช้เวลาส่วนใหญ่ไปกับการตีกลับระหว่างแอพที่ใช้โค้ดน้อย/บางโค้ด/โอเพ่นซอร์ส / เชิงพาณิชย์ ต่อสู้กับไฟและจมอยู่ในคำขอข้อมูล เมื่อสิ่งที่พวกเขาควรทำคือสร้าง ROI ให้กับธุรกิจ

องค์กรระดับ Series C+ โดยเฉลี่ยจะมีพนักงาน 70 คนในสายงานธุรกิจต่อนักวิเคราะห์ข้อมูล 1 คน ซึ่งหมายความว่าในวันใดวันหนึ่งพนักงาน 70 คนเหล่านี้จะรู้สึกแย่ที่ไม่ได้รับคำตอบสำหรับคำถามหรือคำขอของพวกเขา และนักวิเคราะห์ที่น่าสงสารก็จะกรีดร้องอยู่ในนั้น เขาต้องการสร้างข้อมูลเชิงลึกที่มีค่าโดยไม่ตอบสนองต่อ Slack ตลอดทั้งวัน การหยุดชะงักนี้เราเห็นโดยตรงที่ Octopus จากนั้นที่ Guardian จากนั้นที่ Revolut, Hubspot, Carta และรายการจะดำเนินต่อไป

เราได้ยินมาครั้งแล้วครั้งเล่าจากนักวิเคราะห์ข้อมูลและวิศวกรการวิเคราะห์ว่าในขณะที่ dbt ได้ปลดปล่อยพวกเขาจากขุมนรกของ SQL การระเบิดของเครื่องมือได้ผลักดันให้พวกเขากลับไปสู่ไฟนรก

ในอีกด้านหนึ่ง เราเห็นว่าการทำงานทางธุรกิจต้องการข้อมูลและการตัดสินใจทางธุรกิจที่ขับเคลื่อนด้วยข้อมูลนั้นเพิ่มขึ้นอย่างทวีคูณ การหย่อนโดยไม่มีบริบทของข้อมูลไม่เหมาะสำหรับวัตถุประสงค์สำหรับองค์กรที่ขับเคลื่อนด้วยข้อมูลอีกต่อไป

ชั้นการสนทนาระหว่างมนุษย์กับมนุษย์ที่จำเป็นรอบ ๆ ข้อมูลนั้นเทอะทะ ใช้เวลานาน และไร้บริบท

เราตัดสินใจที่จะจัดการกับปัญหาด้านประสิทธิภาพและการทำงานร่วมกันในเวิร์กโฟลว์การวิเคราะห์ผ่าน Paradime

เราตระหนักว่าโลกใหม่ของ dbt + data stack ที่ทันสมัยต้องการเครื่องมือประเภทใหม่เพื่อทำงานร่วมกัน เพื่อให้ผู้คนสามารถทำงานได้เร็วขึ้น ฉลาดขึ้น และเครียดน้อยลงมาก

เรากำลังสร้างอะไร

ระเบียบวินัยในการวิเคราะห์ข้อมูลมีการพัฒนาอย่างมากในช่วงไม่กี่ปีที่ผ่านมา มีความเคลื่อนไหวในการนำหลักวิศวกรรมซอฟต์แวร์มาวิเคราะห์ การวิเคราะห์เป็นวินัยแตกต่างจากวิศวกรรมซอฟต์แวร์ มีบริบทโค้ด บริบทข้อมูล และบริบทบุคคล แต่ในฐานะนักวิเคราะห์ เราติดอยู่กับเครื่องมือที่วิศวกรซอฟต์แวร์ใช้

เรากำลังเปลี่ยนสถานะที่เป็นอยู่นี้โดยนำเสนอสิ่งต่อไปนี้สู่ตลาด:

ระบบปฏิบัติการวิเคราะห์ที่ให้ผู้คนควบคุมข้อมูลของพวกเขาในขณะที่สร้างค่าที่ไม่ใช่เชิงเส้นข้ามผ่านเวิร์กโฟลว์ที่มีประสิทธิภาพ
เชื่อมต่อข้อมูล การวิเคราะห์ และฟังก์ชันทางธุรกิจในเวิร์กโฟลว์การทำงานร่วมกันเพียงหนึ่งเดียว

มันเหมือนกับการมีโปรเซสเซอร์ที่ทรงพลังจริงๆ บนเมนบอร์ดในขณะที่ระบบบัสระหว่างโปรเซสเซอร์นั้นถูกจำกัดปริมาณงาน

พิมพ์เขียวของข่าวกรองข้อมูลสมัยใหม่

Paradime สร้างขึ้นเพื่อเพิ่มประสิทธิภาพเวิร์กโฟลว์การวิเคราะห์เหล่านั้น ซึ่งปัจจุบันไม่มีอยู่ในองค์กรส่วนใหญ่หรือมีเฉพาะในธุรกิจที่มีทรัพยากรจำนวนมากเพื่อสร้างเครื่องมือภายใน

ด้วยเหตุนี้ วันนี้เราจึงประกาศองค์ประกอบ 5 ประการของเวิร์กโฟลว์ดังกล่าวตามที่อธิบายไว้ด้านล่าง

1. ออนบอร์ด

เปลี่ยนจากการตั้งค่าและจัดการพื้นที่ทำงาน dbt บนแล็ปท็อปแต่ละเครื่อง ใน Paradime คุณสามารถเริ่มต้นใช้งานนักวิเคราะห์ได้ในเวลาน้อยกว่า 3 นาทีเมื่อผู้ดูแลระบบตั้งค่าบัญชีแล้ว การตั้งค่าบัญชีผู้ดูแลระบบใช้เวลาน้อยกว่า 30 นาที และไม่ต้องการความช่วยเหลือด้านวิศวกรรมใดๆ ไม่มีการดำเนินการ 3 เดือนและค่าบริการระดับมืออาชีพ

เรารองรับการเชื่อมต่อกับ ที่เก็บ dbt บนGithub , BitBucketและGitlab เรารองรับการเชื่อมต่อกับRedshift , BigQuery , SnowflakeและFireboltและอื่นๆ

2. รหัส IDE

Code IDE คือ เพชรเม็ดงามแห่งประสบการณ์ Paradime

Paradime IDE นำเสนอประสบการณ์ IDE บนเดสก์ท็อปที่ดีที่สุดในระดับเดียวกันสำหรับการวิเคราะห์ไปยังระบบคลาวด์ รวดเร็ว มีประสิทธิภาพ และมีคุณสมบัติครอบคลุมมากที่สุด สร้างขึ้นเพื่อจุดประสงค์สำหรับเวิร์กโฟลว์การวิเคราะห์เมื่อเปรียบเทียบกับ IDE บนคลาวด์ที่ใช้งานทั่วไป เช่นGitpod , AWS Cloud9 , Stackblitzซึ่งเหมาะสำหรับวิศวกรรมซอฟต์แวร์มากกว่า

มันมาพร้อมกับการยศาสตร์ทั้งหมดที่นักพัฒนาคาดหวังจากเดสก์ท็อป IDE แต่คุณสมบัติที่โดดเด่นบางอย่าง ได้แก่ :

ทุกสิ่งที่คุณมีในVSCode — รูปลักษณ์ แป้นพิมพ์ลัด การค้นหาไฟล์ คุณจึงไม่ต้องเรียนรู้ IDE ใหม่ตั้งแต่เริ่มต้น
เทอร์มินัลแบบเนทีฟสำหรับรันคำสั่ง CLI รวมถึง git, python และSqlFluff
ผู้ใช้ dbt power สามารถติดตั้งแพ็คเกจ python ของตัวเองได้เช่นกัน
รองรับ git-ops แบบ UI เต็มรูปแบบสำหรับผู้เริ่มต้นและผู้ใช้ขั้นสูง
และที่สำคัญที่สุดคือ มุมมองแบบเรียลไทม์ของ lineage, docs, data-preview สำหรับ dbt model ใดๆ — โดยไม่ต้องรันคำสั่ง dbt หรือสร้าง manifest.json

3. เชื้อสายกราฟ

ปัญหาที่เราต้องการแก้ไขคือ:

นักวิเคราะห์ไม่สามารถรอเป็นชั่วโมงหรือแม้แต่นาทีเพื่อดูเชื้อสายที่อัปเดตได้ในขณะที่พวกเขาสร้างโมเดลใหม่หรือปรับโครงสร้างโมเดลที่มีอยู่ พวกเขาต้องการมุมมองแบบเรียลไทม์
นักวิเคราะห์ต้องการความเข้าใจแบบองค์รวมของสายเลือดทั้งในเลเยอร์ dbt (มีอยู่แล้วใน dbt-cloud) และเลเยอร์ BI ในการทำงานประจำวัน

เชื้อสายที่ครอบคลุม dbt, Looker และ Tableau

สำหรับ Looker เรามีสายเลือดระหว่าง Views, Explores, Looks, Dashboards และ Schedules โดยมอบมุมมองแบบ end-to-end ของสายเลือด dbt+Looker ของคุณ ในทำนองเดียวกัน สำหรับTableauเราสามารถเชื่อมโยงแหล่งข้อมูล เวิร์กชีต และแดชบอร์ดได้

ทีมกำลังก้าวไปไกลกว่าdbt exposuresซึ่งยากต่อการบำรุงรักษาและไม่ให้การมองเห็นส่วนประกอบของเลเยอร์ BI ระหว่างตาราง dbt และแดชบอร์ด BI

4. กำหนดการโบลต์

ปัญหาที่เราต้องการแก้ไขคือ:

ผู้ใช้ Analytics พบว่าAirflow / Dagster / Prefectยาก
ทีม Data Platform ไม่ชอบให้ใครมาเปลี่ยนเวิร์กโฟลว์การผลิตใน UI ของ dbt-cloud โดยไม่มีการตรวจสอบย้อนกลับ

กำหนดการ git-tracked bolt ที่สามารถเรียกใช้งานได้จากทุกที่

เรายังมี API ที่จะเรียกใช้ตาราง dbt ของคุณจาก Airflow, Dagster หรือ Prefect และรับการแจ้งเตือนเมื่อเสร็จสิ้น API ช่วยให้ทีมแพลตฟอร์มควบคุมได้มากขึ้นเพื่อจัดการการพึ่งพาต้นน้ำและปลายน้ำของกำหนดการ dbt

และฉันได้บอกคุณหรือยัง — เรายังมีผู้นำเข้าแบบคลิกเดียวสำหรับงาน dbt ทั้งหมดของคุณจาก dbt cloud ไปยัง Paradime ดังนั้นการย้ายข้อมูลจึงไม่รู้สึกเหมือนเป็นการผจญภัยที่บ้าคลั่ง

5. แบบสอบถาม SQL

การสร้างแบบจำลอง dbt เป็นขั้นตอนสุดท้ายในกระบวนการสร้างแบบจำลอง นักวิเคราะห์ใช้เวลาอย่างมากในการสำรวจข้อมูลในคลังสินค้าและเล่นซอกับ SQL ดิบและคอมไพล์ของโมเดลที่มีอยู่เพื่อรันงานประจำวันของพวกเขา มีการกลับไปกลับมามากมายระหว่างตัวแก้ไข IDE และ SQL การคัดลอกและการวาง การแก้ไข และการแทนที่ชื่อตารางด้วยการอ้างอิง

ปัญหาที่เราต้องการแก้ไขคือ:

วิธีทำให้กระบวนการสร้างแบบจำลอง dbt และการสำรวจข้อมูลราบรื่น คุณจึงไม่ต้องกลับไปกลับมา
วิธีปรับแต่งโมเดล dbt ที่คอมไพล์แล้วให้มีประสิทธิภาพโดยไม่ต้องไปกลับระหว่างตัวแก้ไขโค้ดและตัวแก้ไข SQL

Paradime เหมาะกับใคร?

ในช่วงวิวัฒนาการของระบบปฏิบัติการสำหรับ Apple มีสำนักคิด 2 แห่ง นั่นคือ Wozniak เชื่อว่าควรเป็นระบบเปิดเพื่อให้มือสมัครเล่นและช่างซ่อมสามารถเล่นกับมันได้ และ Steve Jobs คิดว่ามันควรจะเป็นระบบที่ใช้งานได้ วันนี้เรารัก MacOS เพราะมันใช้งานได้จริง

ในระหว่างการวิจัยของเรา เราพบว่ามีสองบุคลิกหลักที่คล้ายกันของนักวิเคราะห์/วิศวกรวิเคราะห์ในโลกปัจจุบัน:

คน จรจัด — คนเหล่านี้คือคนที่รักการซ่อม เล่นกับเครื่องมือต่างๆ และห้องสมุดต่างๆ พวกเขาชอบที่จะสำรวจและสร้างคุณสมบัติของตนเองนอกเหนือจาก OSS ที่มีอยู่ พวกเขาสบายมากกับการตั้งค่า IDE ของตัวเองแล้ว พวกเขาเป็นงานอดิเรก พวกเขามุ่งเน้นด้านวิศวกรรมซอฟต์แวร์มากกว่า Paradime ไม่น่าจะเหมาะสำหรับพวกเขาในปัจจุบัน
ช่างก่อสร้าง — เหล่านี้คือผู้ใช้ที่มุ่งความสนใจไปที่การทำงานให้เสร็จอย่างรวดเร็วโดยปราศจากความยุ่งยาก ผู้ใช้ที่ให้ความสำคัญกับประสิทธิภาพ ผู้ใช้ที่ให้ความสำคัญกับความเร็ว พวกเขาต้องการฝึกฝนทักษะการวิเคราะห์และการสร้างแบบจำลองข้อมูล พวกเขาต้องการสร้างมูลค่าทางธุรกิจจากข้อมูลเชิงลึกของพวกเขา พวกเขาชอบเครื่องมือที่ต้องตั้งค่าเป็นศูนย์ซึ่งใช้งานได้จริง Paradime สำหรับพวกเขา

อะไรต่อไป?

ดีนรกมาก เรากำลังประกาศเพียงส่วนเล็กของภูเขาน้ำแข็งที่นี่ เรากำลังเปิดตัวใน Product Hunt ในสัปดาห์หน้า ดังนั้นโปรดติดตามเราเพื่อรับการแจ้งเตือนเมื่อเราเปิดตัว

เรามีงานมากมายที่จะมาถึงในอีกไม่กี่เดือนข้างหน้า ดังนั้นจงจับจองที่นั่งของคุณไว้ให้ดี

เพราะอย่างที่ฉันพูดไปก่อนหน้านี้ โลกแห่งการวิเคราะห์ต้องการเครื่องมือที่ดีกว่าเพื่อใช้งานจริง ๆ และเรายังมีหนทางอีกยาวไกล