Çevik Veri Bilimi - Çevik Veri İşleme
Bu bölümde, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriler arasındaki farka odaklanacağız.
Yapılandırılmış veriler
Yapılandırılmış veriler, satırlar ve sütunlar içeren bir tabloda SQL biçiminde depolanan verilerle ilgilidir. Önceden tasarlanmış alanlarla eşleştirilen ilişkisel bir anahtar içerir. Yapılandırılmış veriler daha büyük ölçekte kullanılır.
Yapılandırılmış veriler, tüm bilişim verilerinin yalnızca yüzde 5 ila 10'unu temsil ediyor.
Yarı yapılandırılmış veriler
Yarı yapılandırılmış veriler, ilişkisel veritabanında bulunmayan verileri içerir. Analiz etmeyi kolaylaştıran bazı organizasyon özelliklerini içerirler. İlişkisel veritabanında saklamak için aynı işlemi içerir. Yarı yapılandırılmış veritabanı örnekleri CSV dosyaları, XML ve JSON belgeleridir. NoSQL veritabanları yarı yapılandırılmış olarak kabul edilir.
Yapılandırılmamış veriler
Yapılandırılmamış veriler, verilerin yüzde 80'ini temsil eder. Genellikle metin ve multimedya içeriği içerir. Yapılandırılmamış verilerin en iyi örnekleri arasında ses dosyaları, sunumlar ve web sayfaları bulunur. Makine tarafından üretilen yapılandırılmamış verilerin örnekleri, uydu görüntüleri, bilimsel veriler, fotoğraflar ve videolar, radar ve sonar verileridir.
Yukarıdaki piramit yapısı, özellikle veri miktarına ve dağıtıldığı orana odaklanır.
Yarı yapılandırılmış veriler, yapılandırılmamış ve yarı yapılandırılmış veriler arasında bir tür olarak görünür. Bu eğitimde, çevik metodoloji ve veri bilimi araştırmaları için faydalı olan yarı yapılandırılmış verilere odaklanacağız.
Yarı yapılandırılmış verilerin resmi bir veri modeli yoktur, ancak analizi ile geliştirilen belirgin, kendi kendini tanımlayan bir model ve yapıya sahiptir.