Agile Data Science - Pemrosesan Data di Agile
Pada bab ini, kita akan fokus pada perbedaan antara data terstruktur, semi terstruktur, dan tidak terstruktur.
Data terstruktur
Data terstruktur menyangkut data yang disimpan dalam format SQL dalam tabel dengan baris dan kolom. Ini mencakup kunci relasional, yang dipetakan ke dalam bidang yang telah dirancang sebelumnya. Data terstruktur digunakan dalam skala yang lebih besar.
Data terstruktur hanya mewakili 5 hingga 10 persen dari seluruh data informatika.
Data semi terstruktur
Data sem terstruktur mencakup data yang tidak berada dalam database relasional. Mereka menyertakan beberapa properti organisasi yang membuatnya lebih mudah untuk dianalisis. Ini mencakup proses yang sama untuk menyimpannya dalam database relasional. Contoh database semi terstruktur adalah file CSV, dokumen XML dan JSON. Database NoSQL dianggap semi-terstruktur.
Data tidak terstruktur
Data tidak terstruktur mewakili 80 persen data. Ini sering kali menyertakan konten teks dan multimedia. Contoh terbaik dari data tidak terstruktur termasuk file audio, presentasi, dan halaman web. Contoh data tidak terstruktur yang dihasilkan mesin adalah citra satelit, data ilmiah, foto dan video, data radar dan sonar.
Struktur piramida di atas secara khusus berfokus pada jumlah data dan rasio penyebarannya.
Data kuasi terstruktur muncul sebagai jenis antara data tidak terstruktur dan semi terstruktur. Dalam tutorial ini, kita akan fokus pada data semi-terstruktur, yang bermanfaat untuk metodologi tangkas dan penelitian ilmu data.
Data semi terstruktur tidak memiliki model data formal tetapi memiliki pola dan struktur yang jelas terlihat sendiri yang dikembangkan melalui analisisnya.