แนะนำ Paradime
![](https://post.nghiatu.com/assets/images/m/max/724/1*JeIa6jGgctwyx23rUAIF2Q.png)
บทนำ
วันนี้เรากำลังเปิดม่านและแนะนำParadimeระบบปฏิบัติการสำหรับการวิเคราะห์ที่เราสร้างขึ้นมาอย่างลับๆ ในช่วง 2 ปีที่ผ่านมา
การสร้างสตาร์ทอัพแบบ Stealth นั้นยาก มันยากกว่าที่คุณจะจินตนาการได้ จ้างว่ายาก หาว่ายาก การพูดคุยกับผู้คนเกี่ยวกับผลิตภัณฑ์ของคุณเป็นเรื่องยาก แต่มันช่วยสร้างและทำซ้ำผลิตภัณฑ์โดยปราศจากสิ่งรบกวนควบคู่ไปกับพันธมิตรด้านการออกแบบของเราเพื่อยืนยันข้อเสนอ นั่นคือสิ่งที่เราได้รับถึง
ในสแต็กข้อมูลสมัยใหม่ ในช่วงไม่กี่ปีที่ผ่านมา การเพิ่มจำนวนของโซลูชันจุดใหม่ได้นำไปสู่ความโกลาหลของเครื่องมือ มีเครื่องมือมากมายจนไม่สามารถติดตามได้ทั้งหมด ผู้นำด้านข้อมูลใช้เวลามากกว่าที่ควรในการจัดการเครื่องมือ ต้นทุน และผู้ขาย พวกเขาเหนื่อยกับการไป-กลับกับการจัดซื้อจัดจ้าง พวกเขายังเบื่อที่จะจัดการกับข้อมูลที่แผ่กระจายไปทั่วผู้ให้บริการหลายราย ซึ่งเพิ่มความเสี่ยงของการละเมิดข้อมูล
สำหรับวิศวกรการวิเคราะห์ ความยุ่งเหยิงของเครื่องมือได้นำไปสู่การโอเวอร์โหลดการรับรู้และผลผลิตที่ลดลง ชีวิตลำบากขึ้นกว่าเดิม
ดัง ที่ Benn สรุปไว้ในโพสต์ของเขาThe powder keg of the modern data stackว่า:
อย่างไรก็ตาม การต่อสู้ที่กำลังจะเกิดขึ้นครั้งใหญ่ที่สุดจะเกิดขึ้นเหนือดินแดนอื่น: สมอง — หรือระบบปฏิบัติการ
ที่ Paradime เรากำลังสร้างระบบปฏิบัติการสำหรับการวิเคราะห์
พื้นหลัง
ย้อนกลับไปในปี 2018–19 ที่ Octopus ทีมของฉันกำลังสร้างกองข้อมูลทั้งหมดขึ้นมาใหม่ตั้งแต่เริ่มต้น เราฉีกสแต็กเดิมที่เปราะบางซึ่งประกอบด้วย SSIS, รหัสการนำเข้าตามความต้องการที่เขียนใน .NET, SQL Server, Qlik เป็นต้น
ทางออกสุดท้ายที่เราลงเอยด้วยการทำงานอย่างเหน็ดเหนื่อยเป็นเวลา 6 เดือนมีดังนี้:
- Stitch , FivetranและSegmentสำหรับการนำเข้าข้อมูล
- dbt-core ทำงานภายในกระแสลมเพื่อการแปลง
- Lookerสำหรับการแสดงภาพ
![](https://post.nghiatu.com/assets/images/m/max/724/1*-Ipv41UaJ7xETHDQtwzRgQ.png)
นอกเหนือจากสถาปัตยกรรมเครื่องมือแล้ว เมื่อเราเพิ่มชั้นบุคคล/ทีม เราพบว่า:
- การไหลของข้อมูลทำให้เครื่องมือเชื่อมต่อกันแน่น
- เครื่องมือยังแยกส่วนผู้คน / ชั้นทีม
- และSlackเป็นเพียงกาวเชื่อมเดียวสำหรับการสื่อสารของมนุษย์
![](https://post.nghiatu.com/assets/images/m/max/724/1*BrEnocx69JrzUsKoW5TcgA.png)
นักวิเคราะห์ข้อมูลทุกคนจะใช้เวลาส่วนใหญ่ไปกับการตีกลับระหว่างแอพที่ใช้โค้ดน้อย/บางโค้ด/โอเพ่นซอร์ส / เชิงพาณิชย์ ต่อสู้กับไฟและจมอยู่ในคำขอข้อมูล เมื่อสิ่งที่พวกเขาควรทำคือสร้าง ROI ให้กับธุรกิจ
องค์กรระดับ Series C+ โดยเฉลี่ยจะมีพนักงาน 70 คนในสายงานธุรกิจต่อนักวิเคราะห์ข้อมูล 1 คน ซึ่งหมายความว่าในวันใดวันหนึ่งพนักงาน 70 คนเหล่านี้จะรู้สึกแย่ที่ไม่ได้รับคำตอบสำหรับคำถามหรือคำขอของพวกเขา และนักวิเคราะห์ที่น่าสงสารก็จะกรีดร้องอยู่ในนั้น เขาต้องการสร้างข้อมูลเชิงลึกที่มีค่าโดยไม่ตอบสนองต่อ Slack ตลอดทั้งวัน การหยุดชะงักนี้เราเห็นโดยตรงที่ Octopus จากนั้นที่ Guardian จากนั้นที่ Revolut, Hubspot, Carta และรายการจะดำเนินต่อไป
เราได้ยินมาครั้งแล้วครั้งเล่าจากนักวิเคราะห์ข้อมูลและวิศวกรการวิเคราะห์ว่าในขณะที่ dbt ได้ปลดปล่อยพวกเขาจากขุมนรกของ SQL การระเบิดของเครื่องมือได้ผลักดันให้พวกเขากลับไปสู่ไฟนรก
ในอีกด้านหนึ่ง เราเห็นว่าการทำงานทางธุรกิจต้องการข้อมูลและการตัดสินใจทางธุรกิจที่ขับเคลื่อนด้วยข้อมูลนั้นเพิ่มขึ้นอย่างทวีคูณ การหย่อนโดยไม่มีบริบทของข้อมูลไม่เหมาะสำหรับวัตถุประสงค์สำหรับองค์กรที่ขับเคลื่อนด้วยข้อมูลอีกต่อไป
ชั้นการสนทนาระหว่างมนุษย์กับมนุษย์ที่จำเป็นรอบ ๆ ข้อมูลนั้นเทอะทะ ใช้เวลานาน และไร้บริบท
เราตัดสินใจที่จะจัดการกับปัญหาด้านประสิทธิภาพและการทำงานร่วมกันในเวิร์กโฟลว์การวิเคราะห์ผ่าน Paradime
เราตระหนักว่าโลกใหม่ของ dbt + data stack ที่ทันสมัยต้องการเครื่องมือประเภทใหม่เพื่อทำงานร่วมกัน เพื่อให้ผู้คนสามารถทำงานได้เร็วขึ้น ฉลาดขึ้น และเครียดน้อยลงมาก
เรากำลังสร้างอะไร
ระเบียบวินัยในการวิเคราะห์ข้อมูลมีการพัฒนาอย่างมากในช่วงไม่กี่ปีที่ผ่านมา มีความเคลื่อนไหวในการนำหลักวิศวกรรมซอฟต์แวร์มาวิเคราะห์ การวิเคราะห์เป็นวินัยแตกต่างจากวิศวกรรมซอฟต์แวร์ มีบริบทโค้ด บริบทข้อมูล และบริบทบุคคล แต่ในฐานะนักวิเคราะห์ เราติดอยู่กับเครื่องมือที่วิศวกรซอฟต์แวร์ใช้
เรากำลังเปลี่ยนสถานะที่เป็นอยู่นี้โดยนำเสนอสิ่งต่อไปนี้สู่ตลาด:
- ระบบปฏิบัติการวิเคราะห์ที่ให้ผู้คนควบคุมข้อมูลของพวกเขาในขณะที่สร้างค่าที่ไม่ใช่เชิงเส้นข้ามผ่านเวิร์กโฟลว์ที่มีประสิทธิภาพ
- เชื่อมต่อข้อมูล การวิเคราะห์ และฟังก์ชันทางธุรกิจในเวิร์กโฟลว์การทำงานร่วมกันเพียงหนึ่งเดียว
มันเหมือนกับการมีโปรเซสเซอร์ที่ทรงพลังจริงๆ บนเมนบอร์ดในขณะที่ระบบบัสระหว่างโปรเซสเซอร์นั้นถูกจำกัดปริมาณงาน
Paradime สร้างขึ้นเพื่อเพิ่มประสิทธิภาพเวิร์กโฟลว์การวิเคราะห์เหล่านั้น ซึ่งปัจจุบันไม่มีอยู่ในองค์กรส่วนใหญ่หรือมีเฉพาะในธุรกิจที่มีทรัพยากรจำนวนมากเพื่อสร้างเครื่องมือภายใน
ด้วยเหตุนี้ วันนี้เราจึงประกาศองค์ประกอบ 5 ประการของเวิร์กโฟลว์ดังกล่าวตามที่อธิบายไว้ด้านล่าง
1. ออนบอร์ด
เปลี่ยนจากการตั้งค่าและจัดการพื้นที่ทำงาน dbt บนแล็ปท็อปแต่ละเครื่อง ใน Paradime คุณสามารถเริ่มต้นใช้งานนักวิเคราะห์ได้ในเวลาน้อยกว่า 3 นาทีเมื่อผู้ดูแลระบบตั้งค่าบัญชีแล้ว การตั้งค่าบัญชีผู้ดูแลระบบใช้เวลาน้อยกว่า 30 นาที และไม่ต้องการความช่วยเหลือด้านวิศวกรรมใดๆ ไม่มีการดำเนินการ 3 เดือนและค่าบริการระดับมืออาชีพ
เรารองรับการเชื่อมต่อกับ ที่เก็บ dbt บนGithub , BitBucketและGitlab เรารองรับการเชื่อมต่อกับRedshift , BigQuery , SnowflakeและFireboltและอื่นๆ
2. รหัส IDE
Code IDE คือ เพชรเม็ดงามแห่งประสบการณ์ Paradime
Paradime IDE นำเสนอประสบการณ์ IDE บนเดสก์ท็อปที่ดีที่สุดในระดับเดียวกันสำหรับการวิเคราะห์ไปยังระบบคลาวด์ รวดเร็ว มีประสิทธิภาพ และมีคุณสมบัติครอบคลุมมากที่สุด สร้างขึ้นเพื่อจุดประสงค์สำหรับเวิร์กโฟลว์การวิเคราะห์เมื่อเปรียบเทียบกับ IDE บนคลาวด์ที่ใช้งานทั่วไป เช่นGitpod , AWS Cloud9 , Stackblitzซึ่งเหมาะสำหรับวิศวกรรมซอฟต์แวร์มากกว่า
มันมาพร้อมกับการยศาสตร์ทั้งหมดที่นักพัฒนาคาดหวังจากเดสก์ท็อป IDE แต่คุณสมบัติที่โดดเด่นบางอย่าง ได้แก่ :
- ทุกสิ่งที่คุณมีในVSCode — รูปลักษณ์ แป้นพิมพ์ลัด การค้นหาไฟล์ คุณจึงไม่ต้องเรียนรู้ IDE ใหม่ตั้งแต่เริ่มต้น
- เทอร์มินัลแบบเนทีฟสำหรับรันคำสั่ง CLI รวมถึง git, python และSqlFluff
- ผู้ใช้ dbt power สามารถติดตั้งแพ็คเกจ python ของตัวเองได้เช่นกัน
- รองรับ git-ops แบบ UI เต็มรูปแบบสำหรับผู้เริ่มต้นและผู้ใช้ขั้นสูง
- และที่สำคัญที่สุดคือ มุมมองแบบเรียลไทม์ของ lineage, docs, data-preview สำหรับ dbt model ใดๆ — โดยไม่ต้องรันคำสั่ง dbt หรือสร้าง manifest.json
![](https://post.nghiatu.com/assets/images/m/max/724/1*AL28L-tvnBj9abwnoIWHIQ.gif)
3. เชื้อสายกราฟ
ปัญหาที่เราต้องการแก้ไขคือ:
- นักวิเคราะห์ไม่สามารถรอเป็นชั่วโมงหรือแม้แต่นาทีเพื่อดูเชื้อสายที่อัปเดตได้ในขณะที่พวกเขาสร้างโมเดลใหม่หรือปรับโครงสร้างโมเดลที่มีอยู่ พวกเขาต้องการมุมมองแบบเรียลไทม์
- นักวิเคราะห์ต้องการความเข้าใจแบบองค์รวมของสายเลือดทั้งในเลเยอร์ dbt (มีอยู่แล้วใน dbt-cloud) และเลเยอร์ BI ในการทำงานประจำวัน
![](https://post.nghiatu.com/assets/images/m/max/724/1*J2Vyuo5L_hOPqZrrdZNV2w.png)
สำหรับ Looker เรามีสายเลือดระหว่าง Views, Explores, Looks, Dashboards และ Schedules โดยมอบมุมมองแบบ end-to-end ของสายเลือด dbt+Looker ของคุณ ในทำนองเดียวกัน สำหรับTableauเราสามารถเชื่อมโยงแหล่งข้อมูล เวิร์กชีต และแดชบอร์ดได้
ทีมกำลังก้าวไปไกลกว่าdbt exposures
ซึ่งยากต่อการบำรุงรักษาและไม่ให้การมองเห็นส่วนประกอบของเลเยอร์ BI ระหว่างตาราง dbt และแดชบอร์ด BI
4. กำหนดการโบลต์
ปัญหาที่เราต้องการแก้ไขคือ:
- ผู้ใช้ Analytics พบว่าAirflow / Dagster / Prefectยาก
- ทีม Data Platform ไม่ชอบให้ใครมาเปลี่ยนเวิร์กโฟลว์การผลิตใน UI ของ dbt-cloud โดยไม่มีการตรวจสอบย้อนกลับ
![](https://post.nghiatu.com/assets/images/m/max/724/1*U79Q9DIiJHxmIVVCCbqIsw.png)
เรายังมี API ที่จะเรียกใช้ตาราง dbt ของคุณจาก Airflow, Dagster หรือ Prefect และรับการแจ้งเตือนเมื่อเสร็จสิ้น API ช่วยให้ทีมแพลตฟอร์มควบคุมได้มากขึ้นเพื่อจัดการการพึ่งพาต้นน้ำและปลายน้ำของกำหนดการ dbt
และฉันได้บอกคุณหรือยัง — เรายังมีผู้นำเข้าแบบคลิกเดียวสำหรับงาน dbt ทั้งหมดของคุณจาก dbt cloud ไปยัง Paradime ดังนั้นการย้ายข้อมูลจึงไม่รู้สึกเหมือนเป็นการผจญภัยที่บ้าคลั่ง
5. แบบสอบถาม SQL
การสร้างแบบจำลอง dbt เป็นขั้นตอนสุดท้ายในกระบวนการสร้างแบบจำลอง นักวิเคราะห์ใช้เวลาอย่างมากในการสำรวจข้อมูลในคลังสินค้าและเล่นซอกับ SQL ดิบและคอมไพล์ของโมเดลที่มีอยู่เพื่อรันงานประจำวันของพวกเขา มีการกลับไปกลับมามากมายระหว่างตัวแก้ไข IDE และ SQL การคัดลอกและการวาง การแก้ไข และการแทนที่ชื่อตารางด้วยการอ้างอิง
ปัญหาที่เราต้องการแก้ไขคือ:
- วิธีทำให้กระบวนการสร้างแบบจำลอง dbt และการสำรวจข้อมูลราบรื่น คุณจึงไม่ต้องกลับไปกลับมา
- วิธีปรับแต่งโมเดล dbt ที่คอมไพล์แล้วให้มีประสิทธิภาพโดยไม่ต้องไปกลับระหว่างตัวแก้ไขโค้ดและตัวแก้ไข SQL
Paradime เหมาะกับใคร?
ในช่วงวิวัฒนาการของระบบปฏิบัติการสำหรับ Apple มีสำนักคิด 2 แห่ง นั่นคือ Wozniak เชื่อว่าควรเป็นระบบเปิดเพื่อให้มือสมัครเล่นและช่างซ่อมสามารถเล่นกับมันได้ และ Steve Jobs คิดว่ามันควรจะเป็นระบบที่ใช้งานได้ วันนี้เรารัก MacOS เพราะมันใช้งานได้จริง
ในระหว่างการวิจัยของเรา เราพบว่ามีสองบุคลิกหลักที่คล้ายกันของนักวิเคราะห์/วิศวกรวิเคราะห์ในโลกปัจจุบัน:
- คน จรจัด — คนเหล่านี้คือคนที่รักการซ่อม เล่นกับเครื่องมือต่างๆ และห้องสมุดต่างๆ พวกเขาชอบที่จะสำรวจและสร้างคุณสมบัติของตนเองนอกเหนือจาก OSS ที่มีอยู่ พวกเขาสบายมากกับการตั้งค่า IDE ของตัวเองแล้ว พวกเขาเป็นงานอดิเรก พวกเขามุ่งเน้นด้านวิศวกรรมซอฟต์แวร์มากกว่า Paradime ไม่น่าจะเหมาะสำหรับพวกเขาในปัจจุบัน
- ช่างก่อสร้าง — เหล่านี้คือผู้ใช้ที่มุ่งความสนใจไปที่การทำงานให้เสร็จอย่างรวดเร็วโดยปราศจากความยุ่งยาก ผู้ใช้ที่ให้ความสำคัญกับประสิทธิภาพ ผู้ใช้ที่ให้ความสำคัญกับความเร็ว พวกเขาต้องการฝึกฝนทักษะการวิเคราะห์และการสร้างแบบจำลองข้อมูล พวกเขาต้องการสร้างมูลค่าทางธุรกิจจากข้อมูลเชิงลึกของพวกเขา พวกเขาชอบเครื่องมือที่ต้องตั้งค่าเป็นศูนย์ซึ่งใช้งานได้จริง Paradime สำหรับพวกเขา
อะไรต่อไป?
ดีนรกมาก เรากำลังประกาศเพียงส่วนเล็กของภูเขาน้ำแข็งที่นี่ เรากำลังเปิดตัวใน Product Hunt ในสัปดาห์หน้า ดังนั้นโปรดติดตามเราเพื่อรับการแจ้งเตือนเมื่อเราเปิดตัว
เรามีงานมากมายที่จะมาถึงในอีกไม่กี่เดือนข้างหน้า ดังนั้นจงจับจองที่นั่งของคุณไว้ให้ดี
เพราะอย่างที่ฉันพูดไปก่อนหน้านี้ โลกแห่งการวิเคราะห์ต้องการเครื่องมือที่ดีกว่าเพื่อใช้งานจริง ๆ และเรายังมีหนทางอีกยาวไกล