Python - Munging tekstowy
Ogólnie rzecz biorąc, mungowanie oznacza sprzątanie wszystkiego, co nieuporządkowane, poprzez ich przekształcanie. W naszym przypadku zobaczymy, jak możemy przekształcić tekst, aby uzyskać wynik, który da nam pożądane zmiany w danych. Na prostym poziomie chodzi tylko o przekształcenie tekstu, z którym mamy do czynienia.
Przykład
W poniższym przykładzie planujemy przetasować, a następnie zmienić kolejność wszystkich liter w zdaniu z wyjątkiem pierwszej i ostatniej, aby uzyskać możliwe alternatywne słowa, które mogą zostać wygenerowane jako błędnie napisane słowo podczas pisania przez człowieka. Ta zmiana pomaga nam
import random
import re
def replace(t):
inner_word = list(t.group(2))
random.shuffle(inner_word)
return t.group(1) + "".join(inner_word) + t.group(3)
text = "Hello, You should reach the finish line."
print re.sub(r"(\w)(\w+)(\w)", replace, text)
print re.sub(r"(\w)(\w+)(\w)", replace, text)
Po uruchomieniu powyższego programu otrzymujemy następujące dane wyjściowe -
Hlleo, You slouhd raech the fsiinh lnie.
Hlleo, You suolhd raceh the fniish line.
Tutaj możesz zobaczyć, jak pomieszane są słowa, z wyjątkiem pierwszej i ostatniej litery. Przyjmując statystyczne podejście do błędnej pisowni, możemy zdecydować, jakie są najczęściej błędnie pisane słowa i podać dla nich poprawną pisownię.