Agile Data Science - Panduan Cepat
Agile data science adalah pendekatan penggunaan ilmu data dengan metodologi agile untuk pengembangan aplikasi web. Ini berfokus pada keluaran dari proses ilmu data yang sesuai untuk mempengaruhi perubahan bagi organisasi. Ilmu data mencakup aplikasi bangunan yang mendeskripsikan proses penelitian dengan analisis, visualisasi interaktif, dan juga pembelajaran mesin yang sekarang diterapkan.
Tujuan utama dari ilmu data tangkas adalah untuk -
mendokumentasikan dan memandu analisis data penjelasan untuk menemukan dan mengikuti jalur penting menuju produk yang menarik.
Ilmu data tangkas diatur dengan serangkaian prinsip berikut -
Iterasi Berkelanjutan
Proses ini melibatkan iterasi berkelanjutan dengan pembuatan tabel, bagan, laporan, dan prediksi. Membangun model prediktif akan membutuhkan banyak iterasi rekayasa fitur dengan ekstraksi dan produksi wawasan.
Output Menengah
Ini adalah daftar lagu dari keluaran yang dihasilkan. Bahkan dikatakan bahwa percobaan yang gagal juga memiliki keluaran. Melacak keluaran dari setiap iterasi akan membantu menciptakan keluaran yang lebih baik di iterasi berikutnya.
Eksperimen Prototipe
Eksperimen prototipe melibatkan penetapan tugas dan menghasilkan output sesuai eksperimen. Dalam tugas tertentu, kita harus mengulang untuk mencapai wawasan dan iterasi ini dapat dijelaskan dengan sangat baik sebagai eksperimen.
Integrasi data
Siklus hidup pengembangan perangkat lunak mencakup berbagai fase dengan data penting untuk -
customers
pengembang, dan
bisnis
Integrasi data membuka jalan untuk prospek dan keluaran yang lebih baik.
Nilai data piramida
Nilai piramida di atas menggambarkan lapisan yang dibutuhkan untuk pengembangan "Agile data science". Ini dimulai dengan pengumpulan catatan berdasarkan persyaratan dan catatan individu pipa ledeng. Grafik dibuat setelah pembersihan dan agregasi data. Data agregat dapat digunakan untuk visualisasi data. Laporan dibuat dengan struktur, metadata, dan tag data yang tepat. Lapisan kedua dari piramida dari atas mencakup analisis prediksi. Lapisan prediksi adalah tempat lebih banyak nilai dibuat, tetapi membantu dalam membuat prediksi bagus yang berfokus pada rekayasa fitur.
Lapisan paling atas melibatkan tindakan di mana nilai data didorong secara efektif. Ilustrasi terbaik dari implementasi ini adalah "Artificial Intelligence".
Pada bab ini, kita akan fokus pada konsep siklus hidup pengembangan perangkat lunak yang disebut “agile”. Metodologi pengembangan perangkat lunak Agile membantu dalam membangun perangkat lunak melalui sesi peningkatan dalam iterasi singkat 1 hingga 4 minggu sehingga pengembangan tersebut sejalan dengan perubahan persyaratan bisnis.
Ada 12 prinsip yang menjelaskan metodologi Agile secara rinci -
Kepuasan pelanggan
Prioritas tertinggi diberikan kepada pelanggan yang berfokus pada persyaratan melalui pengiriman perangkat lunak berharga secara dini dan berkelanjutan.
Menyambut perubahan baru
Perubahan dapat diterima selama pengembangan perangkat lunak. Proses tangkas dirancang untuk bekerja agar sesuai dengan keunggulan kompetitif pelanggan.
Pengiriman
Pengiriman perangkat lunak yang berfungsi diberikan kepada klien dalam rentang satu hingga empat minggu.
Kolaborasi
Analis bisnis, analis kualitas, dan pengembang harus bekerja sama selama seluruh siklus hidup proyek.
Motivasi
Proyek harus dirancang dengan klan individu yang termotivasi. Ini menyediakan lingkungan untuk mendukung anggota tim individu.
Percakapan pribadi
Percakapan tatap muka adalah metode pengiriman informasi yang paling efisien dan efektif ke dan dalam tim pengembangan.
Mengukur kemajuan
Mengukur kemajuan adalah kunci yang membantu dalam menentukan kemajuan proyek dan pengembangan perangkat lunak.
Mempertahankan kecepatan yang konstan
Proses tangkas berfokus pada pembangunan berkelanjutan. Bisnis, pengembang, dan pengguna harus dapat mempertahankan kecepatan yang konstan dengan proyek.
Monitoring
Perhatian yang teratur terhadap keunggulan teknis dan desain yang baik untuk meningkatkan fungsionalitas tangkas adalah wajib.
Kesederhanaan
Proses tangkas membuat semuanya tetap sederhana dan menggunakan istilah sederhana untuk mengukur pekerjaan yang belum selesai.
Istilah yang diatur sendiri
Tim yang gesit harus mengatur dirinya sendiri dan harus mandiri dengan arsitektur terbaik; persyaratan dan desain muncul dari tim yang diatur sendiri.
Tinjau pekerjaannya
Penting untuk meninjau pekerjaan secara berkala sehingga tim dapat merefleksikan kemajuan pekerjaan. Meninjau modul secara tepat waktu akan meningkatkan kinerja.
Stand-up Harian
Stand-up harian mengacu pada pertemuan status harian di antara anggota tim. Ini memberikan pembaruan terkait dengan pengembangan perangkat lunak. Ini juga mengacu pada mengatasi hambatan pengembangan proyek.
Stand-up harian adalah praktik wajib, tidak peduli seberapa gesit tim yang dibentuk terlepas dari lokasi kantornya.
Daftar fitur stand-up harian adalah sebagai berikut -
Durasi stand-up meet harian kira-kira 15 menit. Seharusnya tidak diperpanjang untuk durasi yang lebih lama.
Stand-up harus mencakup diskusi tentang pembaruan status.
Peserta rapat ini biasanya berdiri dengan maksud agar rapat cepat berakhir.
Kisah Pengguna
Sebuah cerita biasanya merupakan persyaratan, yang dirumuskan dalam beberapa kalimat dalam bahasa yang sederhana dan harus diselesaikan dalam sebuah iterasi. Kisah pengguna harus mencakup karakteristik berikut -
Semua kode terkait harus memiliki check-in terkait.
Kasus uji unit untuk iterasi yang ditentukan.
Semua kasus uji penerimaan harus ditentukan.
Penerimaan dari pemilik produk saat mendefinisikan cerita.
Apa itu Scrum?
Scrum dapat dianggap sebagai bagian dari metodologi agile. Ini adalah proses yang ringan dan mencakup fitur-fitur berikut -
Ini adalah kerangka proses, yang mencakup serangkaian praktik yang perlu diikuti dalam urutan yang konsisten. Ilustrasi terbaik dari Scrum adalah mengikuti iterasi atau sprint.
Ini adalah proses "ringan" yang berarti bahwa proses tersebut dijaga sekecil mungkin, untuk memaksimalkan keluaran produktif dalam durasi yang ditentukan.
Proses scrum dikenal karena prosesnya yang berbeda dibandingkan dengan metodologi lain dari pendekatan agile tradisional. Ini dibagi menjadi tiga kategori berikut -
Roles
Artifacts
Kotak Waktu
Peran menentukan anggota tim dan peran mereka termasuk selama proses. Tim Scrum terdiri dari tiga peran berikut -
Scrum Master
Pemilik produk
Team
Artefak Scrum memberikan informasi penting yang harus diperhatikan oleh setiap anggota. Informasi tersebut meliputi detail produk, kegiatan yang direncanakan, dan kegiatan yang diselesaikan. Artefak yang didefinisikan dalam kerangka Scrum adalah sebagai berikut -
Product backlog
Sprint backlog
Grafik burn down
Increment
Kotak waktu adalah cerita pengguna yang direncanakan untuk setiap iterasi. Kisah pengguna ini membantu menjelaskan fitur produk yang merupakan bagian dari artefak Scrum. Product backlog adalah daftar cerita pengguna. Cerita pengguna ini diprioritaskan dan diteruskan ke rapat pengguna untuk memutuskan mana yang harus diambil.
Mengapa Scrum Master?
Scrum Master berinteraksi dengan setiap anggota tim. Sekarang mari kita lihat interaksi Scrum Master dengan tim dan sumber daya lain.
Pemilik produk
Scrum Master berinteraksi dengan pemilik produk dengan cara berikut -
Menemukan teknik untuk mencapai simpanan produk yang efektif dari cerita pengguna dan mengelolanya.
Membantu tim untuk memahami kebutuhan item product backlog yang jelas dan ringkas.
Perencanaan produk dengan lingkungan tertentu.
Memastikan bahwa pemilik produk mengetahui cara meningkatkan nilai produk.
Memfasilitasi acara Scrum sesuai kebutuhan.
Tim Scrum
Scrum Master berinteraksi dengan tim dalam beberapa cara -
Membimbing organisasi dalam penerapan Scrum.
Merencanakan implementasi Scrum ke organisasi tertentu.
Membantu karyawan dan pemangku kepentingan untuk memahami persyaratan dan tahapan pengembangan produk.
Bekerja dengan Scrum Master dari tim lain untuk meningkatkan efektivitas penerapan Scrum dari tim tertentu.
Organisasi
Scrum Master berinteraksi dengan organisasi dalam beberapa cara. Beberapa disebutkan di bawah -
Tim pembinaan dan scrum berinteraksi dengan organisasi mandiri dan menyertakan fitur fungsionalitas silang.
Melatih organisasi dan tim di area di mana Scrum belum sepenuhnya diadopsi atau tidak diterima.
Manfaat Scrum
Scrum membantu pelanggan, anggota tim, dan pemangku kepentingan untuk berkolaborasi. Ini termasuk pendekatan timeboxed dan umpan balik berkelanjutan dari pemilik produk memastikan bahwa produk dalam kondisi kerja. Scrum memberikan manfaat untuk berbagai peran proyek.
Pelanggan
Sprint atau iterasi dipertimbangkan untuk durasi yang lebih singkat dan cerita pengguna dirancang sesuai prioritas dan diambil pada perencanaan sprint. Ini memastikan bahwa setiap pengiriman sprint, persyaratan pelanggan terpenuhi. Jika tidak, persyaratan dicatat dan direncanakan serta diambil untuk sprint.
Organisasi
Organisasi dengan bantuan Scrum dan Scrum master dapat fokus pada upaya yang diperlukan untuk pengembangan cerita pengguna sehingga mengurangi beban kerja yang berlebihan dan menghindari pengerjaan ulang jika ada. Ini juga membantu dalam mempertahankan peningkatan efisiensi tim pengembangan dan kepuasan pelanggan. Pendekatan ini juga membantu meningkatkan potensi pasar.
Manajer Produk
Tanggung jawab utama manajer produk adalah memastikan bahwa kualitas produk tetap terjaga. Dengan bantuan Scrum Masters, memfasilitasi pekerjaan, mengumpulkan respons cepat, dan menyerap perubahan jika ada menjadi mudah. Manajer produk juga memverifikasi bahwa produk yang dirancang selaras dengan kebutuhan pelanggan di setiap sprint.
Tim pengembangan
Dengan sifat waktu yang terbatas dan menjaga sprint untuk durasi waktu yang lebih singkat, tim pengembangan menjadi antusias untuk melihat bahwa pekerjaan direfleksikan dan disampaikan dengan baik. Produk yang berfungsi meningkatkan setiap level setelah setiap iterasi atau lebih tepatnya kita dapat menyebutnya sebagai "sprint". Kisah pengguna yang dirancang untuk setiap sprint menjadi prioritas pelanggan yang menambahkan nilai lebih pada iterasi.
Kesimpulan
Scrum adalah kerangka kerja yang efisien di mana Anda dapat mengembangkan perangkat lunak dalam kerja tim. Ini sepenuhnya dirancang dengan prinsip gesit. ScrumMaster ada untuk membantu dan bekerja sama dengan tim Scrum dengan segala cara yang memungkinkan. Dia bertindak seperti pelatih pribadi yang membantu Anda tetap pada rencana yang dirancang dan melakukan semua aktivitas sesuai rencana. Kewenangan ScrumMaster tidak boleh melampaui prosesnya. Dia harus mampu mengelola setiap situasi.
Dalam bab ini, kita akan memahami proses ilmu data dan terminologi yang diperlukan untuk memahami proses tersebut.
"Ilmu data adalah perpaduan antara antarmuka data, pengembangan algoritme, dan teknologi untuk memecahkan masalah kompleks analitis".
Ilmu data adalah bidang interdisipliner yang mencakup metode, proses, dan sistem ilmiah dengan kategori yang termasuk di dalamnya sebagai pembelajaran Mesin, pengetahuan matematika dan statistik dengan penelitian tradisional. Ini juga mencakup kombinasi keterampilan peretasan dengan keahlian substantif. Ilmu data mengambil prinsip-prinsip dari matematika, statistik, ilmu informasi, dan ilmu komputer, penggalian data, dan analisis prediktif.
Peran berbeda yang menjadi bagian dari tim ilmu data disebutkan di bawah ini -
Pelanggan
Pelanggan adalah orang-orang yang menggunakan produk tersebut. Minat mereka menentukan keberhasilan proyek dan umpan balik mereka sangat berharga dalam ilmu data.
Pengembangan Bisnis
Tim ilmu data ini merekrut pelanggan awal, baik secara langsung atau melalui pembuatan halaman arahan dan promosi. Tim pengembangan bisnis memberikan nilai produk.
Manajer Produk
Manajer produk menyadari pentingnya menciptakan produk terbaik, yang berharga di pasar.
Desainer interaksi
Mereka fokus pada interaksi desain di sekitar model data sehingga pengguna menemukan nilai yang sesuai.
Ilmuwan data
Ilmu data mengeksplorasi dan mengubah data dengan cara baru untuk membuat dan menerbitkan fitur baru. Ilmuwan ini juga menggabungkan data dari berbagai sumber untuk menciptakan nilai baru. Mereka memainkan peran penting dalam menciptakan visualisasi dengan peneliti, insinyur, dan pengembang web.
Peneliti
Sesuai dengan namanya, peneliti terlibat dalam kegiatan penelitian. Mereka memecahkan masalah rumit, yang tidak dapat dilakukan oleh data scientist. Masalah ini melibatkan fokus yang intens dan waktu pembelajaran mesin dan modul statistik.
Beradaptasi dengan Perubahan
Semua anggota tim ilmu data diharuskan beradaptasi dengan perubahan baru dan bekerja berdasarkan persyaratan. Beberapa perubahan harus dilakukan untuk mengadopsi metodologi agile dengan ilmu data, yang disebutkan sebagai berikut -
Memilih generalis daripada spesialis.
Preferensi tim kecil daripada tim besar.
Menggunakan alat dan platform tingkat tinggi.
Pembagian pekerjaan menengah secara terus menerus dan berulang.
Note
Dalam tim ilmu data Agile, tim kecil generalis menggunakan alat tingkat tinggi yang dapat diskalakan dan menyempurnakan data melalui iterasi ke dalam status nilai yang semakin tinggi.
Pertimbangkan contoh-contoh berikut terkait pekerjaan anggota tim data science -
Desainer mengirimkan CSS.
Pengembang web membangun seluruh aplikasi, memahami pengalaman pengguna, dan desain antarmuka.
Ilmu data harus bekerja pada penelitian dan membangun layanan web termasuk aplikasi web.
Peneliti bekerja dalam basis kode, yang menunjukkan hasil yang menjelaskan hasil antara.
Manajer produk mencoba mengidentifikasi dan memahami kekurangan di semua bidang terkait.
Dalam bab ini, kita akan belajar tentang berbagai alat Agile dan pemasangannya. Tumpukan pengembangan dari metodologi agile mencakup sekumpulan komponen berikut -
Acara
Peristiwa adalah kejadian yang terjadi atau dicatat bersama dengan fitur dan cap waktunya.
Suatu peristiwa dapat datang dalam berbagai bentuk seperti server, sensor, transaksi atau tindakan keuangan, yang dilakukan oleh pengguna kami dalam aplikasi kami. Dalam tutorial lengkap ini, kami akan menggunakan file JSON yang akan memfasilitasi pertukaran data di antara berbagai alat dan bahasa.
Kolektor
Kolektor adalah agregator acara. Mereka mengumpulkan peristiwa secara sistematis untuk menyimpan dan mengumpulkan data besar yang mengantri untuk ditindaklanjuti oleh pekerja waktu nyata.
Dokumen yang didistribusikan
Dokumen-dokumen ini termasuk multinode (banyak node) yang menyimpan dokumen dalam format tertentu. Kami akan fokus pada MongoDB dalam tutorial ini.
Server aplikasi web
Server aplikasi web mengaktifkan data sebagai JSON melalui klien melalui visualisasi, dengan overhead minimal. Artinya, server aplikasi web membantu menguji dan menyebarkan proyek yang dibuat dengan metodologi tangkas.
Browser Modern
Ini memungkinkan browser atau aplikasi modern untuk menyajikan data sebagai alat interaktif bagi pengguna kami.
Pengaturan Lingkungan Lokal
Untuk mengelola kumpulan data, kami akan fokus pada kerangka kerja Anaconda python yang mencakup alat untuk mengelola file excel, csv, dan banyak lagi. Dasbor kerangka Anaconda setelah dipasang seperti yang ditunjukkan di bawah ini. Ini juga disebut "Anaconda Navigator" -
Navigator menyertakan "framework Jupyter" yang merupakan sistem notebook yang membantu mengelola kumpulan data. Setelah Anda meluncurkan kerangka kerja, itu akan dihosting di browser seperti yang disebutkan di bawah ini -
Pada bab ini, kita akan fokus pada perbedaan antara data terstruktur, semi terstruktur, dan tidak terstruktur.
Data terstruktur
Data terstruktur menyangkut data yang disimpan dalam format SQL dalam tabel dengan baris dan kolom. Ini mencakup kunci relasional, yang dipetakan ke dalam bidang yang telah dirancang sebelumnya. Data terstruktur digunakan dalam skala yang lebih besar.
Data terstruktur hanya mewakili 5 hingga 10 persen dari seluruh data informatika.
Data semi terstruktur
Data sem terstruktur mencakup data yang tidak berada dalam database relasional. Mereka menyertakan beberapa properti organisasi yang membuatnya lebih mudah untuk dianalisis. Ini mencakup proses yang sama untuk menyimpannya dalam database relasional. Contoh database semi terstruktur adalah file CSV, dokumen XML dan JSON. Database NoSQL dianggap semi-terstruktur.
Data tidak terstruktur
Data tidak terstruktur mewakili 80 persen data. Ini sering kali menyertakan konten teks dan multimedia. Contoh terbaik dari data tidak terstruktur termasuk file audio, presentasi, dan halaman web. Contoh data tidak terstruktur yang dihasilkan mesin adalah citra satelit, data ilmiah, foto dan video, data radar dan sonar.
Struktur piramida di atas secara khusus berfokus pada jumlah data dan rasio penyebarannya.
Data kuasi terstruktur muncul sebagai jenis antara data tidak terstruktur dan semi terstruktur. Dalam tutorial ini, kita akan fokus pada data semi-terstruktur, yang bermanfaat untuk metodologi tangkas dan penelitian ilmu data.
Data semi terstruktur tidak memiliki model data formal tetapi memiliki pola dan struktur yang jelas terlihat sendiri yang dikembangkan melalui analisisnya.
Fokus lengkap dari tutorial ini adalah mengikuti metodologi tangkas dengan jumlah langkah yang lebih sedikit dan dengan penerapan alat yang lebih berguna. Untuk memahami hal ini, penting untuk mengetahui perbedaan antara database SQL dan NoSQL.
Sebagian besar pengguna mengetahui database SQL, dan memiliki pengetahuan yang baik tentang MySQL, Oracle, atau database SQL lainnya. Selama beberapa tahun terakhir, database NoSQL diadopsi secara luas untuk menyelesaikan berbagai masalah bisnis dan persyaratan proyek.
Tabel berikut menunjukkan perbedaan antara database SQL dan NoSQL -
SQL | NoSQL |
---|---|
Database SQL terutama disebut sistem Manajemen Database Relasional (RDBMS). | Database NoSQL juga disebut database berorientasi dokumen. Ini non-relasional dan terdistribusi. |
Database berbasis SQL mencakup struktur tabel dengan baris dan kolom. Kumpulan tabel dan struktur skema lainnya disebut database. | Database NoSQL memasukkan dokumen sebagai struktur utama dan penyertaan dokumen disebut koleksi. |
Database SQL menyertakan skema yang telah ditentukan sebelumnya. | Database NoSQL memiliki data dinamis dan menyertakan data tidak terstruktur. |
Database SQL dapat diskalakan secara vertikal. | Database NoSQL dapat diskalakan secara horizontal. |
Database SQL cocok untuk lingkungan kueri yang kompleks. | NoSQL tidak memiliki antarmuka standar untuk pengembangan kueri yang kompleks. |
Database SQL tidak layak untuk penyimpanan data hierarki. | Database NoSQL lebih cocok untuk penyimpanan data hierarki. |
Database SQL paling cocok untuk transaksi berat dalam aplikasi yang ditentukan. | Database NoSQL masih dianggap tidak dapat dibandingkan dalam beban tinggi untuk aplikasi transaksional yang kompleks. |
Database SQL memberikan dukungan yang sangat baik untuk vendor mereka. | Database NoSQL masih mengandalkan dukungan komunitas. Hanya beberapa ahli yang tersedia untuk penyiapan dan diterapkan untuk penerapan NoSQL skala besar. |
Database SQL berfokus pada properti ACID - Atom, Konsistensi, Isolasi, dan Daya Tahan. | Database NoSQL berfokus pada properti CAP - Konsistensi, Ketersediaan, dan Toleransi partisi. |
Basis data SQL dapat diklasifikasikan sebagai sumber terbuka atau sumber tertutup berdasarkan vendor yang memilihnya. | Database NoSQL diklasifikasikan berdasarkan jenis penyimpanannya. Database NoSQL adalah open source secara default. |
Mengapa NoSQL untuk agile?
Perbandingan yang disebutkan di atas menunjukkan bahwa database dokumen NoSQL sepenuhnya mendukung pengembangan tangkas. Ini tanpa skema dan tidak sepenuhnya fokus pada pemodelan data. Sebaliknya, NoSQL menolak aplikasi dan layanan dan dengan demikian pengembang mendapatkan gagasan yang lebih baik tentang bagaimana data dapat dimodelkan. NoSQL mendefinisikan model data sebagai model aplikasi.
Instalasi MongoDB
Sepanjang tutorial ini, kami akan lebih fokus pada contoh MongoDB karena dianggap sebagai "skema NoSQL" terbaik.
Ada kalanya data tidak tersedia dalam format relasional dan kami perlu menjaganya tetap transaksional dengan bantuan database NoSQL.
Pada bab ini, kita akan fokus pada aliran data NoSQL. Kami juga akan mempelajari cara kerjanya dengan kombinasi agile dan ilmu data.
Salah satu alasan utama untuk menggunakan NoSQL dengan gesit adalah untuk meningkatkan kecepatan dengan persaingan pasar. Alasan berikut menunjukkan bagaimana NoSQL paling cocok untuk metodologi perangkat lunak tangkas -
Lebih Sedikit Hambatan
Mengubah model, yang saat ini terjadi melalui aliran tengah memiliki beberapa biaya nyata bahkan dalam kasus pengembangan yang gesit. Dengan NoSQL, pengguna bekerja dengan data agregat daripada membuang-buang waktu dalam menormalkan data. Poin utamanya adalah menyelesaikan sesuatu dan bekerja dengan tujuan membuat model data yang sempurna.
Peningkatan Skalabilitas
Setiap kali sebuah organisasi membuat produk, ia lebih fokus pada skalabilitasnya. NoSQL selalu dikenal dengan skalabilitasnya tetapi berfungsi lebih baik bila dirancang dengan skalabilitas horizontal.
Kemampuan untuk memanfaatkan data
NoSQL adalah model data tanpa skema yang memungkinkan pengguna untuk dengan mudah menggunakan volume data, yang mencakup beberapa parameter variabilitas dan kecepatan. Saat mempertimbangkan pilihan teknologi, Anda harus selalu mempertimbangkan salah satu teknologi, yang memanfaatkan data ke skala yang lebih besar.
Aliran data dari NoSQL
Mari kita pertimbangkan contoh berikut di mana, kami telah menunjukkan bagaimana model data difokuskan pada pembuatan skema RDBMS.
Berikut adalah persyaratan skema yang berbeda -
Identifikasi Pengguna harus dicantumkan.
Setiap pengguna harus memiliki setidaknya satu keahlian.
Detail pengalaman setiap pengguna harus dijaga dengan baik.
Tabel pengguna dinormalisasi dengan 3 tabel terpisah -
Users
Keterampilan pengguna
Pengalaman pengguna
Kompleksitas meningkat saat melakukan kueri database dan konsumsi waktu dicatat dengan peningkatan normalisasi yang tidak baik untuk metodologi Agile. Skema yang sama dapat dirancang dengan database NoSQL seperti yang disebutkan di bawah ini -
NoSQL mempertahankan struktur dalam format JSON, yang strukturnya ringan. Dengan JSON, aplikasi dapat menyimpan objek dengan data bersarang sebagai dokumen tunggal.
Dalam bab ini, kita akan fokus pada struktur JSON, yang merupakan bagian dari "metodologi Agile". MongoDB adalah struktur data NoSQL yang banyak digunakan dan beroperasi dengan mudah untuk mengumpulkan dan menampilkan catatan.
Langkah 1
Langkah ini melibatkan pembuatan koneksi dengan MongoDB untuk membuat koleksi dan model data yang ditentukan. Yang perlu Anda jalankan hanyalah perintah "mongod" untuk memulai koneksi dan perintah mongo untuk menghubungkan ke terminal yang ditentukan.
Langkah 2
Buat database baru untuk membuat record dalam format JSON. Untuk saat ini, kami sedang membuat database dummy bernama "mydb".
>use mydb
switched to db mydb
>db
mydb
>show dbs
local 0.78125GB
test 0.23012GB
>db.user.insert({"name":"Agile Data Science"})
>show dbs
local 0.78125GB
mydb 0.23012GB
test 0.23012GB
LANGKAH 3
Membuat koleksi wajib untuk mendapatkan daftar rekaman. Fitur ini bermanfaat untuk penelitian dan keluaran ilmu data.
>use test
switched to db test
>db.createCollection("mycollection")
{ "ok" : 1 }
>show collections
mycollection
system.indexes
>db.createCollection("mycol", { capped : true, autoIndexId : true, size :
6142800, max : 10000 } )
{ "ok" : 1 }
>db.agiledatascience.insert({"name" : "demoname"})
>show collections
mycol
mycollection
system.indexes
demoname
Visualisasi data memainkan peran yang sangat penting dalam ilmu data. Kita dapat menganggap visualisasi data sebagai modul ilmu data. Ilmu Data mencakup lebih dari sekadar membangun model prediktif. Ini mencakup penjelasan model dan menggunakannya untuk memahami data dan membuat keputusan. Visualisasi data merupakan bagian integral dari penyajian data dengan cara yang paling meyakinkan.
Dari sudut pandang ilmu data, visualisasi data merupakan fitur highlight yang menunjukkan perubahan dan tren.
Pertimbangkan panduan berikut untuk visualisasi data yang efektif -
Data posisi sepanjang skala umum.
Penggunaan palang lebih efektif dibandingkan dengan lingkaran dan persegi.
Warna yang tepat harus digunakan untuk plot pencar.
Gunakan diagram lingkaran untuk memperlihatkan proporsi.
Visualisasi sunburst lebih efektif untuk plot hierarki.
Agile membutuhkan bahasa skrip sederhana untuk visualisasi data dan dengan kolaborasi ilmu data, "Python" adalah bahasa yang disarankan untuk visualisasi data.
Contoh 1
Contoh berikut menunjukkan visualisasi data PDB yang dihitung dalam tahun-tahun tertentu. “Matplotlib” adalah library terbaik untuk visualisasi data dengan Python. Instalasi perpustakaan ini ditunjukkan di bawah -
Pertimbangkan kode berikut untuk memahami ini -
import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]
# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')
# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()
Keluaran
Kode di atas menghasilkan output berikut -
Ada banyak cara untuk menyesuaikan bagan dengan label sumbu, gaya garis, dan penanda titik. Mari fokus pada contoh berikutnya yang menunjukkan visualisasi data yang lebih baik. Hasil ini dapat digunakan untuk hasil yang lebih baik.
Contoh 2
import datetime
import random
import matplotlib.pyplot as plt
# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]
# plot
plt.plot(x,y)
# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()
Keluaran
Kode di atas menghasilkan output berikut -
Pengayaan data mengacu pada berbagai proses yang digunakan untuk menyempurnakan, menyempurnakan, dan meningkatkan data mentah. Ini mengacu pada transformasi data yang berguna (data mentah menjadi informasi yang berguna). Proses pengayaan data berfokus pada menjadikan data sebagai aset data yang berharga untuk bisnis atau perusahaan modern.
Proses pengayaan data yang paling umum mencakup koreksi kesalahan ejaan atau kesalahan ketik dalam database melalui penggunaan algoritme keputusan tertentu. Alat pengayaan data menambahkan informasi yang berguna ke tabel data sederhana.
Pertimbangkan kode berikut untuk koreksi ejaan kata -
import re
from collections import Counter
def words(text): return re.findall(r'\w+', text.lower())
WORDS = Counter(words(open('big.txt').read()))
def P(word, N=sum(WORDS.values())):
"Probabilities of words"
return WORDS[word] / N
def correction(word):
"Spelling correction of word"
return max(candidates(word), key=P)
def candidates(word):
"Generate possible spelling corrections for word."
return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])
def known(words):
"The subset of `words` that appear in the dictionary of WORDS."
return set(w for w in words if w in WORDS)
def edits1(word):
"All edits that are one edit away from `word`."
letters = 'abcdefghijklmnopqrstuvwxyz'
splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
deletes = [L + R[1:] for L, R in splits if R]
transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
replaces = [L + c + R[1:] for L, R in splits if R for c in letters]
inserts = [L + c + R for L, R in splits for c in letters]
return set(deletes + transposes + replaces + inserts)
def edits2(word):
"All edits that are two edits away from `word`."
return (e2 for e1 in edits1(word) for e2 in edits1(e1))
print(correction('speling'))
print(correction('korrectud'))
Dalam program ini, kita akan mencocokkan dengan “big.txt” yang menyertakan kata-kata yang dikoreksi. Kata cocok dengan kata yang disertakan dalam file teks dan mencetak hasil yang sesuai.
Keluaran
Kode di atas akan menghasilkan output berikut -
Dalam bab ini, kita akan belajar tentang pembuatan laporan, yang merupakan modul penting dari metodologi agile. Halaman grafik sprint tangkas yang dibuat dengan visualisasi menjadi laporan lengkap. Dengan laporan, grafik menjadi interaktif, halaman statis menjadi dinamis dan data terkait jaringan. Karakteristik tahap laporan piramida nilai data ditunjukkan di bawah ini -
Kami akan lebih menekankan pada pembuatan file csv, yang dapat digunakan sebagai laporan untuk analisis data science, dan menarik kesimpulan. Meskipun agile berfokus pada dokumentasi yang lebih sedikit, membuat laporan untuk menyebutkan kemajuan pengembangan produk selalu dipertimbangkan.
import csv
#----------------------------------------------------------------------
def csv_writer(data, path):
"""
Write data to a CSV file path
"""
with open(path, "wb") as csv_file:
writer = csv.writer(csv_file, delimiter=',')
for line in data:
writer.writerow(line)
#----------------------------------------------------------------------
if __name__ == "__main__":
data = ["first_name,last_name,city".split(","),
"Tyrese,Hirthe,Strackeport".split(","),
"Jules,Dicki,Lake Nickolasville".split(","),
"Dedric,Medhurst,Stiedemannberg".split(",")
]
path = "output.csv"
csv_writer(data, path)
Kode di atas akan membantu Anda menghasilkan "file csv" seperti yang ditunjukkan di bawah ini -
Mari kita pertimbangkan manfaat laporan csv (nilai dipisahkan koma) berikut -
- Ramah manusia dan mudah diedit secara manual.
- Ini sederhana untuk diterapkan dan diurai.
- CSV dapat diproses di semua aplikasi.
- Ini lebih kecil dan lebih cepat untuk ditangani.
- CSV mengikuti format standar.
- Ini memberikan skema langsung untuk ilmuwan data.
Dalam bab ini, kita akan mempelajari peran prediksi dalam ilmu data tangkas. Laporan interaktif memperlihatkan berbagai aspek data. Prediksi membentuk lapisan keempat dari sprint tangkas.
Saat membuat prediksi, kami selalu mengacu pada data masa lalu dan menggunakannya sebagai kesimpulan untuk iterasi di masa mendatang. Dalam proses lengkap ini, kami mentransisikan data dari pemrosesan batch data historis ke data waktu nyata tentang masa depan.
Peran prediksi meliputi:
Prediksi membantu dalam peramalan. Beberapa perkiraan didasarkan pada kesimpulan statistik. Beberapa prediksi didasarkan pada pendapat para pakar.
Inferensi statistik terlibat dengan semua jenis prediksi.
Terkadang prakiraan akurat, terkadang prakiraan tidak akurat.
Analisis Prediktif
Analisis prediktif mencakup berbagai teknik statistik dari pemodelan prediktif, pembelajaran mesin, dan penggalian data yang menganalisis fakta terkini dan historis untuk membuat prediksi tentang peristiwa yang akan datang dan tidak diketahui.
Analisis prediktif membutuhkan data pelatihan. Data yang dilatih mencakup fitur independen dan dependen. Fitur dependen adalah nilai yang coba diprediksi oleh pengguna. Fitur independen adalah fitur yang menjelaskan hal-hal yang ingin kita prediksi berdasarkan fitur dependen.
Studi tentang fitur disebut rekayasa fitur; ini penting untuk membuat prediksi. Visualisasi data dan analisis data eksplorasi adalah bagian dari rekayasa fitur; ini membentuk intiAgile data science.
Membuat Prediksi
Ada dua cara untuk membuat prediksi dalam ilmu data agile -
Regression
Classification
Membangun regresi atau klasifikasi sepenuhnya bergantung pada persyaratan bisnis dan analisisnya. Prediksi variabel kontinu mengarah ke model regresi dan prediksi variabel kategori mengarah ke model klasifikasi.
Regresi
Regresi mempertimbangkan contoh yang terdiri dari fitur dan dengan demikian, menghasilkan keluaran numerik.
Klasifikasi
Klasifikasi mengambil masukan dan menghasilkan klasifikasi kategoris.
Note - Contoh kumpulan data yang menentukan input ke prediksi statistik dan yang memungkinkan mesin untuk belajar disebut "data pelatihan".
Pada bab ini, kita akan mempelajari tentang aplikasi fitur ekstraksi dengan PySpark dalam Agile Data Science.
Sekilas Spark
Apache Spark dapat didefinisikan sebagai kerangka kerja pemrosesan waktu nyata yang cepat. Itu melakukan perhitungan untuk menganalisis data secara real time. Apache Spark diperkenalkan sebagai sistem pemrosesan aliran secara real-time dan juga dapat menangani pemrosesan batch. Apache Spark mendukung kueri interaktif dan algoritme iteratif.
Spark ditulis dalam “bahasa pemrograman Scala”.
PySpark dapat dianggap sebagai kombinasi Python dengan Spark. PySpark menawarkan shell PySpark, yang menautkan Python API ke inti Spark dan menginisialisasi konteks Spark. Sebagian besar ilmuwan data menggunakan PySpark untuk fitur pelacakan seperti yang dibahas di bab sebelumnya.
Dalam contoh ini, kami akan fokus pada transformasi untuk membangun kumpulan data yang disebut hitungan dan menyimpannya ke file tertentu.
text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")
Menggunakan PySpark, pengguna dapat bekerja dengan RDD dalam bahasa pemrograman python. Pustaka bawaan, yang mencakup dasar-dasar dokumen dan komponen Berdasarkan Data, membantu dalam hal ini.
Regresi Logistik mengacu pada algoritma pembelajaran mesin yang digunakan untuk memprediksi probabilitas variabel dependen kategoris. Dalam regresi logistik, variabel terikat adalah variabel biner, yang terdiri dari data yang diberi kode 1 (nilai Boolean benar dan salah).
Pada bab ini, kami akan fokus pada pengembangan model regresi dengan Python menggunakan variabel kontinu. Contoh model regresi linier akan fokus pada eksplorasi data dari file CSV.
Tujuan klasifikasi adalah untuk memprediksi apakah klien akan berlangganan (1/0) ke deposito berjangka.
import pandas as pd
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt
plt.rc("font", size=14)
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split
import seaborn as sns
sns.set(style="white")
sns.set(style="whitegrid", color_codes=True)
data = pd.read_csv('bank.csv', header=0)
data = data.dropna()
print(data.shape)
print(list(data.columns))
Ikuti langkah-langkah berikut untuk menerapkan kode di atas di Anaconda Navigator dengan "Jupyter Notebook" -
Step 1 - Luncurkan Notebook Jupyter dengan Anaconda Navigator.
Step 2 - Unggah file csv untuk mendapatkan keluaran model regresi secara sistematis.
Step 3 - Buat file baru dan jalankan baris kode yang disebutkan di atas untuk mendapatkan output yang diinginkan.
Dalam contoh ini, kita akan belajar cara membuat dan menerapkan model prediksi yang membantu dalam prediksi harga rumah menggunakan skrip python. Kerangka kerja penting yang digunakan untuk penerapan sistem prediktif mencakup Anaconda dan "Notebook Jupyter".
Ikuti langkah-langkah ini untuk menerapkan sistem prediktif -
Step 1 - Terapkan kode berikut untuk mengonversi nilai dari file csv ke nilai terkait.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import mpl_toolkits
%matplotlib inline
data = pd.read_csv("kc_house_data.csv")
data.head()
Kode di atas menghasilkan output berikut -
Step 2 - Jalankan fungsi gambarkan untuk mendapatkan tipe data yang termasuk dalam atribut file csv.
data.describe()
Step 3 - Kami dapat menghapus nilai terkait berdasarkan penerapan model prediktif yang kami buat.
train1 = data.drop(['id', 'price'],axis=1)
train1.head()
Step 4- Anda dapat memvisualisasikan data sesuai catatan. Data tersebut dapat digunakan untuk analisis data science dan output kertas putih.
data.floors.value_counts().plot(kind='bar')
Library machine learning yang juga disebut "SparkML" atau "MLLib" terdiri dari algoritme pembelajaran umum, termasuk klasifikasi, regresi, pengelompokan, dan pemfilteran kolaboratif.
Mengapa mempelajari SparkML untuk Agile?
Spark menjadi platform de-facto untuk membangun algoritme dan aplikasi pembelajaran mesin. Pengembang mengerjakan Spark untuk mengimplementasikan algoritme mesin dengan cara yang dapat diskalakan dan ringkas dalam kerangka kerja Spark. Kita akan mempelajari konsep Pembelajaran mesin, utilitas, dan algoritmanya dengan kerangka kerja ini. Agile selalu memilih kerangka kerja, yang memberikan hasil yang singkat dan cepat.
Algoritma ML
Algoritme ML mencakup algoritme pembelajaran umum seperti klasifikasi, regresi, pengelompokan, dan pemfilteran kolaboratif.
fitur
Ini mencakup ekstraksi fitur, transformasi, pengurangan dimensi, dan pemilihan.
Saluran pipa
Pipelines menyediakan alat untuk membangun, mengevaluasi, dan menyesuaikan pipeline machine-learning.
Algoritma Populer
Berikut adalah beberapa algoritma populer -
Statistik Dasar
Regression
Classification
Sistem Rekomendasi
Clustering
Pengurangan Dimensi
Ekstraksi Fitur
Optimization
Sistem Rekomendasi
Sistem rekomendasi adalah subkelas dari sistem pemfilteran informasi yang mencari prediksi "peringkat" dan "preferensi" yang disarankan pengguna untuk item tertentu.
Sistem rekomendasi mencakup berbagai sistem penyaringan, yang digunakan sebagai berikut -
Pemfilteran Kolaboratif
Ini termasuk membangun model berdasarkan perilaku masa lalu serta keputusan serupa yang dibuat oleh pengguna lain. Model pemfilteran khusus ini digunakan untuk memprediksi item yang diminati pengguna.
Pemfilteran Berbasis Konten
Ini mencakup pemfilteran karakteristik diskrit suatu item untuk merekomendasikan dan menambahkan item baru dengan properti serupa.
Pada bab-bab selanjutnya, kami akan fokus pada penggunaan sistem rekomendasi untuk memecahkan masalah tertentu dan meningkatkan kinerja prediksi dari sudut pandang metodologi tangkas.
Dalam bab ini, kami akan fokus pada memperbaiki masalah prediksi dengan bantuan skenario tertentu.
Pertimbangkan bahwa perusahaan ingin mengotomatiskan detail kelayakan pinjaman sesuai dengan detail pelanggan yang diberikan melalui formulir aplikasi online. Rincian termasuk nama nasabah, jenis kelamin, status perkawinan, jumlah pinjaman dan rincian wajib lainnya.
Detailnya dicatat dalam file CSV seperti yang ditunjukkan di bawah ini -
Jalankan kode berikut untuk mengevaluasi masalah prediksi -
import pandas as pd
from sklearn import ensemble
import numpy as np
from scipy.stats import mode
from sklearn import preprocessing,model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
#loading the dataset
data=pd.read_csv('train.csv',index_col='Loan_ID')
def num_missing(x):
return sum(x.isnull())
#imputing the the missing values from the data
data['Gender'].fillna(mode(list(data['Gender'])).mode[0], inplace=True)
data['Married'].fillna(mode(list(data['Married'])).mode[0], inplace=True)
data['Self_Employed'].fillna(mode(list(data['Self_Employed'])).mode[0], inplace=True)
# print (data.apply(num_missing, axis=0))
# #imputing mean for the missing value
data['LoanAmount'].fillna(data['LoanAmount'].mean(), inplace=True)
mapping={'0':0,'1':1,'2':2,'3+':3}
data = data.replace({'Dependents':mapping})
data['Dependents'].fillna(data['Dependents'].mean(), inplace=True)
data['Loan_Amount_Term'].fillna(method='ffill',inplace=True)
data['Credit_History'].fillna(method='ffill',inplace=True)
print (data.apply(num_missing,axis=0))
#converting the cateogorical data to numbers using the label encoder
var_mod = ['Gender','Married','Education','Self_Employed','Property_Area','Loan_Status']
le = LabelEncoder()
for i in var_mod:
le.fit(list(data[i].values))
data[i] = le.transform(list(data[i]))
#Train test split
x=['Gender','Married','Education','Self_Employed','Property_Area','LoanAmount', 'Loan_Amount_Term','Credit_History','Dependents']
y=['Loan_Status']
print(data[x])
X_train,X_test,y_train,y_test=model_selection.train_test_split(data[x],data[y], test_size=0.2)
#
# #Random forest classifier
# clf=ensemble.RandomForestClassifier(n_estimators=100,
criterion='gini',max_depth=3,max_features='auto',n_jobs=-1)
clf=ensemble.RandomForestClassifier(n_estimators=200,max_features=3,min_samples
_split=5,oob_score=True,n_jobs=-1,criterion='entropy')
clf.fit(X_train,y_train)
accuracy=clf.score(X_test,y_test)
print(accuracy)
Keluaran
Kode di atas menghasilkan keluaran sebagai berikut.
Pada bab ini, kita akan fokus pada pembuatan model yang membantu dalam memprediksi kinerja siswa dengan sejumlah atribut yang disertakan di dalamnya. Fokusnya adalah menampilkan hasil kegagalan siswa dalam suatu ujian.
Proses
Nilai target penilaian adalah G3. Nilai-nilai ini dapat digabungkan dan selanjutnya diklasifikasikan sebagai kegagalan dan kesuksesan. Jika nilai G3 lebih besar dari atau sama dengan 10, maka siswa tersebut dinyatakan lulus ujian.
Contoh
Pertimbangkan contoh berikut di mana kode dieksekusi untuk memprediksi kinerja jika siswa -
import pandas as pd
""" Read data file as DataFrame """
df = pd.read_csv("student-mat.csv", sep=";")
""" Import ML helpers """
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.svm import LinearSVC # Support Vector Machine Classifier model
""" Split Data into Training and Testing Sets """
def split_data(X, Y):
return train_test_split(X, Y, test_size=0.2, random_state=17)
""" Confusion Matrix """
def confuse(y_true, y_pred):
cm = confusion_matrix(y_true=y_true, y_pred=y_pred)
# print("\nConfusion Matrix: \n", cm)
fpr(cm)
ffr(cm)
""" False Pass Rate """
def fpr(confusion_matrix):
fp = confusion_matrix[0][1]
tf = confusion_matrix[0][0]
rate = float(fp) / (fp + tf)
print("False Pass Rate: ", rate)
""" False Fail Rate """
def ffr(confusion_matrix):
ff = confusion_matrix[1][0]
tp = confusion_matrix[1][1]
rate = float(ff) / (ff + tp)
print("False Fail Rate: ", rate)
return rate
""" Train Model and Print Score """
def train_and_score(X, y):
X_train, X_test, y_train, y_test = split_data(X, y)
clf = Pipeline([
('reduce_dim', SelectKBest(chi2, k=2)),
('train', LinearSVC(C=100))
])
scores = cross_val_score(clf, X_train, y_train, cv=5, n_jobs=2)
print("Mean Model Accuracy:", np.array(scores).mean())
clf.fit(X_train, y_train)
confuse(y_test, clf.predict(X_test))
print()
""" Main Program """
def main():
print("\nStudent Performance Prediction")
# For each feature, encode to categorical values
class_le = LabelEncoder()
for column in df[["school", "sex", "address", "famsize", "Pstatus", "Mjob",
"Fjob", "reason", "guardian", "schoolsup", "famsup", "paid", "activities",
"nursery", "higher", "internet", "romantic"]].columns:
df[column] = class_le.fit_transform(df[column].values)
# Encode G1, G2, G3 as pass or fail binary values
for i, row in df.iterrows():
if row["G1"] >= 10:
df["G1"][i] = 1
else:
df["G1"][i] = 0
if row["G2"] >= 10:
df["G2"][i] = 1
else:
df["G2"][i] = 0
if row["G3"] >= 10:
df["G3"][i] = 1
else:
df["G3"][i] = 0
# Target values are G3
y = df.pop("G3")
# Feature set is remaining features
X = df
print("\n\nModel Accuracy Knowing G1 & G2 Scores")
print("=====================================")
train_and_score(X, y)
# Remove grade report 2
X.drop(["G2"], axis = 1, inplace=True)
print("\n\nModel Accuracy Knowing Only G1 Score")
print("=====================================")
train_and_score(X, y)
# Remove grade report 1
X.drop(["G1"], axis=1, inplace=True)
print("\n\nModel Accuracy Without Knowing Scores")
print("=====================================")
train_and_score(X, y)
main()
Keluaran
Kode di atas menghasilkan output seperti yang ditunjukkan di bawah ini
Prediksi diperlakukan dengan mengacu hanya pada satu variabel. Dengan mengacu pada satu variabel, maka prediksi kinerja siswa adalah seperti di bawah ini -
Metodologi tangkas membantu organisasi menyesuaikan perubahan, bersaing di pasar, dan membangun produk berkualitas tinggi. Telah diamati bahwa organisasi menjadi dewasa dengan metodologi tangkas, dengan peningkatan perubahan persyaratan dari klien. Mengompilasi dan menyinkronkan data dengan tim organisasi yang gesit sangat penting dalam menggulung data di seluruh portofolio yang diperlukan.
Buat rencana yang lebih baik
Kinerja gesit standar hanya bergantung pada rencana. Skema data yang teratur memberdayakan produktivitas, kualitas, dan daya tanggap dari kemajuan organisasi. Tingkat konsistensi data dipertahankan dengan skenario historis dan real time.
Pertimbangkan diagram berikut untuk memahami siklus eksperimen sains data -
Ilmu data melibatkan analisis persyaratan diikuti dengan pembuatan algoritme berdasarkan hal yang sama. Setelah algoritme dirancang bersama dengan penyiapan lingkungan, pengguna dapat membuat eksperimen dan mengumpulkan data untuk analisis yang lebih baik.
Ideologi ini menghitung sprint terakhir dari agile, yang disebut “tindakan”.
Actionsmelibatkan semua tugas wajib untuk sprint terakhir atau tingkat metodologi tangkas. Jalur fase sains data (sehubungan dengan siklus hidup) dapat dipertahankan dengan kartu cerita sebagai item tindakan.
Analisis Prediktif dan Big data
Masa depan perencanaan sepenuhnya terletak pada penyesuaian laporan data dengan data yang dikumpulkan dari analisis. Ini juga akan mencakup manipulasi dengan analisis data besar. Dengan bantuan data besar, potongan informasi yang terpisah dapat dianalisis, secara efektif dengan mengiris dan memotong metrik organisasi. Analisis selalu dianggap sebagai solusi yang lebih baik.
Ada berbagai metodologi yang digunakan dalam proses pengembangan tangkas. Metodologi ini juga dapat digunakan untuk proses penelitian ilmu data.
Diagram alir yang diberikan di bawah ini menunjukkan metodologi yang berbeda -
Scrum
Dalam istilah pengembangan perangkat lunak, scrum berarti mengelola pekerjaan dengan tim kecil dan manajemen proyek tertentu untuk mengungkap kekuatan dan kelemahan proyek.
Metodologi kristal
Metodologi kristal mencakup teknik inovatif untuk manajemen dan pelaksanaan produk. Dengan metode ini, tim dapat melakukan tugas serupa dengan cara berbeda. Keluarga kristal adalah salah satu metodologi termudah untuk diterapkan.
Metode Pengembangan Perangkat Lunak Dinamis
Kerangka kerja pengiriman ini terutama digunakan untuk mengimplementasikan sistem pengetahuan saat ini dalam metodologi perangkat lunak.
Pengembangan yang didorong masa depan
Fokus dari siklus hidup pengembangan ini adalah fitur-fitur yang terlibat dalam proyek. Ia bekerja paling baik untuk pemodelan objek domain, pengembangan kode dan fitur untuk kepemilikan.
Pengembangan Software Lean
Pemrograman Ekstrim
Pemrograman ekstrim adalah metodologi pengembangan perangkat lunak yang unik, yang berfokus pada peningkatan kualitas perangkat lunak. Ini menjadi efektif ketika pelanggan tidak yakin tentang fungsionalitas proyek apa pun.
Metodologi tangkas berakar dalam aliran ilmu data dan dianggap sebagai metodologi perangkat lunak yang penting. Dengan pengorganisasian mandiri yang gesit, tim lintas fungsi dapat bekerja sama secara efektif. Seperti disebutkan, ada enam kategori utama pengembangan agile dan masing-masing dapat dialirkan dengan ilmu data sesuai kebutuhan. Ilmu data melibatkan proses berulang untuk wawasan statistik. Agile membantu memecah modul ilmu data dan membantu dalam memproses iterasi dan sprint secara efektif.
Proses Agile Data Science adalah cara yang luar biasa untuk memahami bagaimana dan mengapa modul data science diimplementasikan. Ini memecahkan masalah dengan cara yang kreatif.