Çevik Veri Bilimi - Veri Zenginleştirme
Veri zenginleştirme, ham verileri geliştirmek, iyileştirmek ve iyileştirmek için kullanılan bir dizi süreci ifade eder. Yararlı veri dönüşümünü ifade eder (ham verilerden yararlı bilgilere). Veri zenginleştirme süreci, verileri modern işletme veya kuruluş için değerli bir veri varlığı yapmaya odaklanır.
En yaygın veri zenginleştirme süreci, belirli karar algoritmaları kullanılarak veri tabanındaki yazım hatalarının veya yazım hatalarının düzeltilmesini içerir. Veri zenginleştirme araçları, basit veri tablolarına faydalı bilgiler ekler.
Kelimelerin yazım düzeltmesi için aşağıdaki kodu göz önünde bulundurun -
import re
from collections import Counter
def words(text): return re.findall(r'\w+', text.lower())
WORDS = Counter(words(open('big.txt').read()))
def P(word, N=sum(WORDS.values())):
"Probabilities of words"
return WORDS[word] / N
def correction(word):
"Spelling correction of word"
return max(candidates(word), key=P)
def candidates(word):
"Generate possible spelling corrections for word."
return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])
def known(words):
"The subset of `words` that appear in the dictionary of WORDS."
return set(w for w in words if w in WORDS)
def edits1(word):
"All edits that are one edit away from `word`."
letters = 'abcdefghijklmnopqrstuvwxyz'
splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
deletes = [L + R[1:] for L, R in splits if R]
transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
replaces = [L + c + R[1:] for L, R in splits if R for c in letters]
inserts = [L + c + R for L, R in splits for c in letters]
return set(deletes + transposes + replaces + inserts)
def edits2(word):
"All edits that are two edits away from `word`."
return (e2 for e1 in edits1(word) for e2 in edits1(e1))
print(correction('speling'))
print(correction('korrectud'))
Bu programda, düzeltilmiş kelimeleri içeren "big.txt" ile eşleşeceğiz. Sözcükler, metin dosyasında bulunan sözcüklerle eşleşir ve uygun sonuçları buna göre yazdırır.
Çıktı
Yukarıdaki kod aşağıdaki çıktıyı üretecektir -