Mengapa Kami Merekayasa Perangkat Lunak Secara Berlebihan (dan cara menghentikan kebiasaan tersebut)
Dengan akses siap pakai ke komputasi cloud publik, orkestrator kontainer, dan arsitektur layanan mikro, membuat sistem terdistribusi dengan skala dan kompleksitas yang hampir tak terbatas menjadi mudah. Meskipun semua alat ini memiliki tujuannya, penting bagi para insinyur untuk mempertimbangkan dengan hati-hati kapan dan apakah akan menggunakannya terutama di organisasi yang lebih kecil. Membuat pilihan yang salah dapat membuat Anda kurang gesit, kurang sehat secara finansial, dan kurang sukses. Artikel ini mengeksplorasi beberapa penyebab potensial dan mengusulkan beberapa solusi untuk anti-pola umum dari kerumitan yang tidak perlu.
Masalah
Kita Mulai Dengan Kompleksitas
Saat kami mewawancarai pekerjaan rekayasa perangkat lunak, kami harus menjalani proses wawancara yang sintetik, menantang, dan seringkali membuat stres untuk membuktikan kepada calon pemberi kerja bahwa kami memenuhi syarat untuk terus melakukan hal-hal yang telah kami lakukan selama beberapa tahun terakhir. Selama proses ini, kita mungkin diminta untuk menyelesaikan beberapa pertanyaan algoritmik sedang atau sulit dalam waktu singkat yang lebih terasa seperti tontonan olahraga daripada coding. Kami biasanya diharuskan merancang sistem baru dalam waktu kurang dari satu jam yang persyaratannya harus kami ekstrak terlebih dahulu dari pewawancara. Tidak satu pun dari latihan ini yang mirip dengan apa yang kita lakukan dalam pekerjaan kita yang sebenarnya, melainkan tantangan yang dirancang untuk menghasilkan berbagai tingkat "sinyal" yang dapat digunakan oleh komite perekrutan untuk menaikkan dan membedakan kandidat.
Wawancara desain sistem , khususnya, adalah konstruksi di mana kandidat diminta untuk menunjukkan pemahaman sistem yang luas dan mendalam pada skala yang mungkin Anda temukan di perusahaan terbesar. Kami menggunakan konsep seperti layanan mikro , hashing yang konsisten , bus peristiwa , mesh layanan , buffer protokol , WebSockets , Kubernetes , gateway API , jalur pipa data , danau data, dan kata kunci teknologi lainnya untuk menunjukkan bahwa kita tahu apa itu dan bagaimana kata itu digunakan. Hal ini memberikan keyakinan kepada calon pemberi kerja bahwa kami mengetahui semua teknik dan alat terbaru dan dapat melakukan apa yang mungkin diminta dari kami.
Kompleksitas Menimbulkan Kompleksitas
Jika kami mendapatkan pekerjaan itu, kami diberi kesempatan untuk menggunakan semua pengetahuan tingkat lanjut yang kami tunjukkan selama proses perekrutan untuk memecahkan masalah bisnis. Kami dengan patuh menggunakan teknologi ini dan seringkali berakhir dengan menciptakan sistem yang agak rumit berdasarkan pola arsitektur yang dipelopori oleh Google, LinkedIn, Meta, Amazon, Apple, dan Netflix.
Kepemimpinan perusahaan sering kali senang melihat kompleksitas ini karena hal itu menunjukkan bahwa perusahaan sekarang telah matang, "standar teknik" tinggi, dan sistem perusahaan akan dapat berkembang seiring dengan pertumbuhan bisnis. Kerumitan ini selanjutnya dimanfaatkan sebagai alat perekrutan untuk menunjukkan kepada kandidat bahwa mereka akan bekerja dengan semua teknologi terbaru dan rekan kerja masa depan mereka cerdas dan up to date pada alat dan teknik modern.
Apa yang salah dengan itu?
Masalah dengan pendekatan ini adalah bahwa banyak perusahaan tidak akan pernah tumbuh cukup besar atau mencapai skala yang cukup agar kompleksitas ini bermanfaat. Perusahaan terbesar mengembangkan teknologi dan pola baru ini untuk menangani masalah skala serius yang mereka hadapi karena basis pengguna dan volume transaksi tumbuh secara eksponensial selama periode waktu yang lama. Dalam banyak kasus, tidak ada solusi yang baik sehingga mereka membangun solusi mereka sendiri untuk skala yang dicapai bisnis, seringkali dengan biaya awal dan berkelanjutan yang besar. Banyak dari perusahaan ini dengan murah hati membuka beberapa teknologi mereka untuk kebaikan ekosistem teknologi yang lebih luas, menjadikannya "bebas digunakan" untuk perusahaan lain.
Saat tidak beroperasi dalam skala besar, banyak dari pola dan teknologi di atas berbahaya karena dapat memperlambat kemajuan, meningkatkan biaya secara dramatis, dan melipatgandakan beban kognitif pada staf teknik. Ini adalah masalah besar bagi perusahaan kecil karena membuat bisnis berkinerja lebih buruk dengan cara yang paling penting; kelincahan dan profitabilitas. Hal ini menciptakan jebakan bagi bisnis yang menemukan diri mereka dalam kemerosotan ekonomi atau sektor pasar yang tiba-tiba lebih kompetitif karena margin yang semakin ketat. Ketidaksesuaian ini diperparah karena sistem penghargaan untuk staf teknik seringkali tidak cukup terkait dengan bisnis yang berkinerja lebih baik (lebih lanjut tentang itu di artikel mendatang).
Dua Contoh
Mari kita mulai dengan sistem sederhana yang relatif mudah dipahami dan bandingkan bentuk minimalnya dengan apa yang bisa terjadi jika kita merekayasa secara berlebihan. Demi diskusi ini, anggap saja kita memiliki situs web umum tempat pengguna dapat mendaftar dan membeli sesuatu.
Versi Sederhana
Arsitektur minimal untuk situs web e-niaga sederhana sering disebut sebagai monolith , artinya seluruh basis kode dikemas dalam satu repositori sumber dan umumnya digunakan sebagai satu unit. Banyak startup memulai di sini, karena memungkinkan mereka untuk bergerak cepat ketika basis kode dan tim teknik masih kecil. Manfaat tambahannya adalah seluruh sistem seringkali dapat dimuat di laptop untuk pengembangan lokal yang mudah.
Dalam diagram di atas, kita dapat memilih beberapa default yang masuk akal dari satu penyedia cloud (dalam hal ini Amazon Web Services atau AWS) untuk menjaga konsistensi alat di seluruh layanan:
- Bahasa/Framework Pengembangan Utama: Ruby+Rails
kita juga bisa memilih Python+Django, Go+Buffalo, atau bahasa/framework lain yang masuk akal - Bahasa/Framework Frontend: JavaScript/TypeScript + React
hampir semua framework web modern memerlukan beberapa framework JavaScript, dan React sangat populer - Pemrosesan Batch/Latar Belakang: Ruby+Sidekiq
Python+Celery, Go+Faktory akan menjadi alternatif jika kita memilih bahasa utama yang berbeda - Kontrol Sumber: Git/GitHub
- CI/CD: Tindakan GitHub + Terraform
- Repositori Gambar: AWS ECR
- Sistem Orkestrasi Kontainer: AWS ECS
- Kunci: AWS KMS
- Rahasia: Manajer Rahasia AWS
- Firewall/Cache Berjenjang: Cloudflare
- DNS: Cloudflare
- Load Balancer: AWS ELB atau ALB
- Penyimpanan File/Objek: AWS S3
- Cache+Cache Node: AWS ElastiCache for Redis
- Database + Baca Replika: Postgres di AWS RDS
- Pesan: Sendgrid
- Pemrosesan Pembayaran: Stripe
- Identitas/SSO: Okta
- Log & Observabilitas: DataDog
Desain ini mencakup 16 komponen penting di mana pemadaman dapat menyebabkan pemadaman atau degradasi yang dihadapi pengguna di seluruh lokasi. Karena sistemnya minimal, sebagian besar komponen sangat penting, tetapi penerapan yang berlebihan membantu mengurangi risiko kegagalan yang menyebabkan waktu henti.
Versi Kompleks
Kami dapat berargumen bahwa versi sederhana di atas tidak terlalu sederhana, tetapi kami dapat melenturkan otot arsitektur kami dan membuat sistemnya sedikit lebih mengesankan.
Mari kita mulai dengan (sebagian) memecah monolit menjadi layanan mikro. Mari kita perkenalkan juga gateway API, Kubernetes, bus peristiwa (menggunakan Kafka), mesh layanan, beberapa sistem DNS, beberapa pipa CI/CD, pipa data (menggunakan kluster Kafka terpisah), dan danau data. Selain REST API, mari tambahkan dukungan untuk API gRPC (yang menyertakan buffering protokol) karena kami tahu ini jauh lebih cepat daripada REST dan kami menginginkan performa tinggi. Kami akan menambahkan sistem CI/CD kedua (Jenkins) karena beberapa staf lebih memilihnya daripada GitHub Actions.
Mari tambahkan bahasa dan kerangka kerja tambahan (Python/Django/Celery) untuk memberi pengembang lebih banyak opsi, dan pastikan kita ingat untuk menambahkan Go dan Groovy ke daftar bahasa yang didukung karena kita menggunakan Jenkins (dengan Groovy DSL) dan Kubernetes jadi kita mungkin memerlukan operator Kubernetes (Go) untuk mengelola beberapa sumber daya khusus yang akan kita buat. Untuk kinerja dan decoupling yang lebih baik, kami akan sepenuhnya memisahkan penyebaran UI frontend kami dari monolit backend kami. Mari tambahkan juga opsi lain untuk logging dan observability (Sumo Logic) karena pilihan pertama kita (DataDog) dianggap terlalu mahal untuk mengirimkan semua log kita.
Mari kita inventarisasi bagaimana perkembangan arsitektur ini telah mengubah sistem kita:
Jika kami menganggap layanan Python dan platform data kami tidak penting untuk misi, kami sekarang memiliki 33 komponen penting di mana pemadaman per komponen dapat menyebabkan masalah di seluruh situs. Berdasarkan cara kami menghitung ketersediaan , hal ini membuat pemadaman jauh lebih mungkin terjadi karena keseluruhan sistem hanya dapat tersedia sebagai komponen dependen yang paling sedikit tersedia. Kami memiliki lebih banyak komponen yang bergantung, sehingga menjaga ketersediaan yang sama dengan sistem yang lebih sederhana memerlukan ketelitian yang jauh lebih besar. Dalam praktiknya, semakin banyak komponen, semakin sulit penerapan standar tinggi secara konsisten.
Kami telah mengganti panggilan perpustakaan lokal yang andal dengan panggilan API melalui jaringan. Ini memiliki dampak ganda:
- Jaringan menambahkan latensi, membuat setiap pemanggilan layanan jarak jauh sedikit lebih lambat daripada panggilan perpustakaan lokal
- Panggilan jaringan apa pun bisa gagal atau dibatasi kecepatannya, artinya kita harus lebih berhati-hati tentang penanganan kesalahan daripada jika kita hanya memanggil kode di perpustakaan yang tersedia secara lokal
Kami sekarang memiliki 3 opsi untuk pola integrasi :
- API REST
- gRPC
- Bus Acara
11 Komponen baru bersih :
- Gerbang API (Gerbang API Amazon)
- Platform Ujung Depan+Komputasi Tepi (Vercel)
- DNS Internal (AWS Route53)
- Kafka untuk Bus Acara (AWS MSK)
- Kafka untuk Pipa Data (AWS MSK)
- Beberapa penyebaran Kafka Connect Source dan Sink untuk membaca/menulis dari berbagai database dan topik
- Data Lake: kami akan mengasumsikan AWS Lake Formation dengan Amazon Athena untuk kueri dan S3+Parquet untuk penyimpanan data
- Istio Service Mesh untuk mTLS dan perutean antara gateway API dan layanan mikro Python kami
- Beberapa Kluster Kubernetes (AWS EKS)
- Ingress Load Balancer (AWS ALB)
- Jenkins CI/CD
Sekitar 16 Komponen Duplikat :
- 3 Database+baca replika
- 3 kluster Redis (satu untuk monolit plus satu per layanan mikro)
- 2 Gugus Kafka
- 2 sistem DNS
Cloudflare eksternal + Route53 Internal. Ini tidak termasuk DNS kluster internal Kubernetes - 2 Sistem CI/CD
- 2 Solusi Logging & Observabilitas
- 2 Kluster Kubernetes
Sekitar 10–15x peningkatan biaya pengoperasian
Dengan menghitung tambahan kontainer, penyebaran, layanan terkelola, dan staf yang dibutuhkan, kami memperkirakan biaya pengoperasian jauh lebih tinggi. Bahkan Amazon , salah satu promotor layanan mikro dan cloud publik yang paling bersemangat, telah menemukan bahwa biayanya mahal untuk beberapa tujuan internal.
Terlalu Besar untuk Pengembangan Lokal Full-Stack
Bahkan dengan konfigurasi penerapan yang dirampingkan, kemungkinan ada terlalu banyak komponen bergerak untuk memungkinkan sistem lengkap dijalankan di laptop pengembang di Docker atau minikube. Ada cara untuk mengaktifkan pengembangan di cloud, tetapi pengembang akan membutuhkan tiruan atau contoh pengembangan layanan bersama untuk mensimulasikan sistem yang berfungsi penuh.
Bagaimana Kita Menghindari Kesalahan Ini?
Secara teknis tidak ada yang salah dengan contoh sistem sederhana atau kompleks di atas. Keduanya menyediakan fungsionalitas yang serupa, dan sistem yang kompleks, meskipun biaya pembuatan dan pengoperasiannya jauh lebih mahal, mungkin cocok untuk beberapa perusahaan pada ukuran dan skala tertentu. Yang mengatakan, contoh kompleks mungkin bukan titik awal terbaik bagi sebagian besar perusahaan. Untuk menghindari pengoptimalan prematur, pendekatan berikut sangat membantu:
Kembangkan Budaya yang Menghargai Kesederhanaan
Saat mewawancarai kandidat, alih-alih mendorong mereka untuk membuat Anda terkesan dengan keluasan dan kedalaman pengetahuan mereka dan untuk merancang sistem dalam skala web, pertimbangkan penyederhanaan arsitektur sebagai salah satu kriteria utama yang Anda gunakan untuk mengevaluasinya. Ajukan pertanyaan seperti, "Dapatkah Anda memikirkan cara untuk membuat sistem ini lebih sederhana atau lebih andal?" Jika mereka dapat mengidentifikasi hal-hal dalam desain mereka yang tidak mereka butuhkan, beri mereka hadiah untuk itu. Jika mereka tidak menambahkan komponen yang tidak perlu, lebih baik lagi.
Setelah mempekerjakan seorang kontributor individu, terutama di tingkat yang lebih senior, jadikan penyederhanaan arsitektur sebagai bagian dari evaluasi kinerja mereka. Beri penghargaan kepada karyawan yang mengambil sistem yang kompleks dan rapuh dan membuatnya lebih sederhana dan lebih kuat. Memiliki staf teknis yang mencari efisiensi dan penyederhanaan akan memastikan bahwa sistem gesit dan andal seperti saat Anda perlu bergerak cepat.
Minimalkan Jumlah Perubahan Simultan
Ketika sebuah perusahaan memulai latihan yang sulit seperti memindahkan konteks yang dibatasi dari monolit, godaannya adalah untuk mengekstrak, menerjemahkan, dan memfaktorkan ulang dalam satu operasi "big bang". Jika tim merasa bahwa mereka ingin melihat suatu masalah diimplementasikan dalam bahasa yang berbeda atau menggunakan alat yang berbeda (yang juga ingin mereka pelajari), biasanya menjual latihan penerjemahan ini sebagai bagian yang valid dan perlu dari upaya ekstraksi.
Dengan asumsi bahasa dan kerangka kerja yang ada masih memadai untuk beban kerja, biasanya lebih baik mengekstrak kode terlebih dahulu ke layanan eksternal dan setelah ekstraksi selesai, pertimbangkan refactoring, porting, atau restrukturisasi layanan jika masih ada yang kurang. Saya telah melihat banyak upaya migrasi berjuang untuk melakukan terlalu banyak hal sekaligus dan mempertaruhkan keberhasilan upaya keseluruhan atau membuat kemajuan yang sangat lambat. Jika kode yang ada ditulis di Ruby, biasanya yang terbaik adalah menjaganya tetap konstan sampai layanan benar-benar menjadi perhatian tersendiri. Anda dapat memperoleh lebih banyak bantuan dari teknisi lain jika Anda mengubah sesedikit mungkin dan mereka masih dapat memahami kode yang Anda pindahkan.
Mendorong Standar dan Konsensus
Saya telah melihat pertempuran antara direktur, insinyur, dan arsitek yang diselesaikan oleh semua pihak yang memutuskan untuk melakukannya dengan cara mereka sendiri dan menghindari konvensi dan standar yang mendukung pengembangan greenfield dengan alat dan teknologi baru. Meskipun hal ini dapat memberdayakan insinyur pemberani, hal ini biasanya berakhir dengan solusi pesanan yang tidak bekerja dengan baik dengan bagian lain dari ekosistem dan meningkatkan biaya operasional karena solusi tersebut "luar biasa" dalam semua cara yang salah.
Alih-alih memisahkan, dorong konsensus yang menghasilkan satu cara untuk mengatasi masalah yang dapat diadopsi secara luas. Daripada mengembangkan alat untuk diri sendiri atau tim langsung Anda, pikirkan semua yang Anda buat sebagai sesuatu yang akan Anda bagikan dengan seluruh organisasi teknik Anda. Jika masalah umum terjadi pada banyak insinyur, tetapi menurut Anda solusi Anda tidak akan diadopsi, pertimbangkan untuk meningkatkan sesuatu yang sudah digunakan secara luas atau diskusikan masalah tersebut dengan insinyur lain hingga Anda mendapatkan persetujuan dan persetujuan bahwa pendekatan Anda dapat dilakukan secara luas. digunakan dan mereka akan membantu Anda mendorong adopsi di seluruh organisasi.
Lebih Memilih Tidak Melakukan Apa-Apa Daripada Melakukan Hal Yang Salah
Banyak organisasi menjadi terobsesi dengan kecepatan, dan menggunakan metodologi Agile seperti Scrum untuk “memaksimalkan alur” dan keluaran tim. Dalam banyak kasus, sebuah bisnis tidak tahu persis apa yang perlu dilakukan sehingga ia hanya mencoba memastikan bahwa para insinyur tetap sibuk sehingga mereka tetap dalam mode eksekusi cepat yang konstan.
Masalah dengan pendekatan ini adalah sering kali dibangun hal-hal yang tidak diperlukan, tetapi alih-alih membuangnya, hal itu diperlakukan sebagai kelangsungan usaha yang membutuhkan dukungan dan investasi berkelanjutan. Alasannya adalah karena sebagian besar insinyur bangga dengan pekerjaan mereka dan tidak ingin mengerjakan perangkat lunak "sekali pakai".
Di saat tidak jelas apa yang perlu dilakukan, gunakan waktu ini untuk memungkinkan para insinyur bereksperimen, memperbarui keterampilan, atau berkolaborasi dengan manajer produk dan pimpinan lainnya untuk menentukan apa yang harus dilakukan selanjutnya. Ini akan mencegah terciptanya "cruft" dan akan meningkatkan kepemilikan saat tiba waktunya untuk mengeksekusi dengan cepat setelah Anda mengetahui apa yang harus dibuat.
Tunda Optimasi Sampai Tepat Sebelum Dibutuhkan
Itu selalu lebih baik untuk menjadi proaktif dan menyelesaikan masalah kinerja dan ketersediaan sebelum berdampak pada bisnis. Mungkin tergoda untuk memberikan solusi "bukti masa depan" secara agresif dengan membuatnya mendukung peningkatan skala besar-besaran sebelum diperlukan, tetapi ini biasanya merupakan kesalahan .
Alih-alih, jadikan definisi, pemantauan, dan perencanaan kapasitas SLI sebagai bagian dari kepemilikan layanan. Ketika sebuah tim bertanggung jawab untuk memastikan indikator tingkat layanan didefinisikan dengan baik dan memenuhi tujuan target, pengoptimalan adalah bagian dari kontrak. Jika pola penggunaan untuk suatu layanan akan berubah secara substansial berdasarkan beberapa peluncuran atau kemitraan produk baru, pemilik layanan harus berkonsultasi dan diizinkan untuk memasukkannya ke dalam perencanaan mereka dan memastikan mereka dapat menjaga indikator dalam rentang yang tepat dengan lalu lintas yang meningkat. Jika sebuah tim menjaga konsistensi SLO sambil menerima lebih banyak lalu lintas, berikan penghargaan kepada mereka (secara finansial) karena lebih banyak volume berarti lebih banyak pendapatan.
Pastikan Bahwa Kesuksesan Rekayasa dan Kesuksesan Perusahaan Berkorelasi Kuat
Sering kali, para insinyur diberi penghargaan karena menciptakan solusi yang mengesankan secara teknis, dan “peningkatan standar” ini adalah cara mereka membenarkan untuk naik dalam organisasi. Hal ini sering disebut sebagai "membangun resume", di mana para insinyur dapat menunjukkan kepada calon pemberi kerja sistem mengesankan yang telah mereka kerjakan sebagai sarana untuk keluar dan naik. Ini sangat disayangkan karena ahli materi pelajaran Anda meninggalkan gedung dengan memuji kebaikan sesuatu yang mereka bangun yang mungkin tidak Anda butuhkan. Sekarang Anda harus memutuskan untuk mendukung pembuatan ini dengan staf tambahan atau menonaktifkannya karena kurangnya pengetahuan internal.
Alih-alih, dorong para insinyur untuk menempatkan kebutuhan bisnis di atas solusi yang mengesankan secara teknis dengan memastikan bahwa mereka selalu melakukan yang lebih baik ketika perusahaan melakukannya dengan lebih baik. Saya akan mendedikasikan artikel lain untuk topik ini, tetapi TL;DR memastikan Anda (secara finansial) menghargai perilaku teknik yang benar-benar Anda perlukan untuk mengembangkan dan meningkatkan bisnis.