Python - Memproses Data Tidak Terstruktur
Data yang sudah ada dalam format baris dan kolom atau yang dapat dengan mudah diubah menjadi baris dan kolom agar nantinya dapat masuk dengan baik ke dalam database dikenal sebagai data terstruktur. Contohnya adalah file CSV, TXT, XLS, dll. File ini memiliki pemisah dan lebar tetap atau variabel di mana nilai yang hilang direpresentasikan sebagai kosong di antara pemisah. Namun terkadang kami mendapatkan data yang garisnya tidak memiliki lebar tetap, atau hanya berupa file HTML, gambar, atau pdf. Data semacam itu dikenal sebagai data tidak terstruktur. Sementara file HTML dapat ditangani dengan memproses tag HTML, umpan dari twitter atau dokumen teks biasa dari umpan berita tanpa pembatas tidak memiliki tag untuk ditangani. Dalam skenario seperti itu kami menggunakan fungsi bawaan yang berbeda dari berbagai pustaka python untuk memproses file.
Membaca Data
Dalam contoh di bawah ini kami mengambil file teks dan membaca file yang memisahkan setiap baris di dalamnya. Selanjutnya kita dapat membagi output menjadi baris dan kata lebih lanjut. File asli adalah file teks yang berisi beberapa paragraf yang menjelaskan bahasa python.
filename = 'path\input.txt'
with open(filename) as fn:
# Read each line
ln = fn.readline()
# Keep count of lines
lncnt = 1
while ln:
print("Line {}: {}".format(lncnt, ln.strip()))
ln = fn.readline()
lncnt += 1
Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.
Line 1: Python is an interpreted high-level programming language for general-purpose programming. Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, notably using significant whitespace. It provides constructs that enable clear programming on both small and large scales.
Line 2: Python features a dynamic type system and automatic memory management. It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library.
Line 3: Python interpreters are available for many operating systems. CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.
Menghitung Frekuensi Kata
Kita dapat menghitung frekuensi kata-kata dalam file tersebut menggunakan fungsi penghitung sebagai berikut.
from collections import Counter
with open(r'pathinput2.txt') as f:
p = Counter(f.read().split())
print(p)
Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.
Counter({'and': 3, 'Python': 3, 'that': 2, 'a': 2, 'programming': 2, 'code': 1, '1991,': 1, 'is': 1, 'programming.': 1, 'dynamic': 1, 'an': 1, 'design': 1, 'in': 1, 'high-level': 1, 'management.': 1, 'features': 1, 'readability,': 1, 'van': 1, 'both': 1, 'for': 1, 'Rossum': 1, 'system': 1, 'provides': 1, 'memory': 1, 'has': 1, 'type': 1, 'enable': 1, 'Created': 1, 'philosophy': 1, 'constructs': 1, 'emphasizes': 1, 'general-purpose': 1, 'notably': 1, 'released': 1, 'significant': 1, 'Guido': 1, 'using': 1, 'interpreted': 1, 'by': 1, 'on': 1, 'language': 1, 'whitespace.': 1, 'clear': 1, 'It': 1, 'large': 1, 'small': 1, 'automatic': 1, 'scales.': 1, 'first': 1})