Python - Munging tekstowy

Ogólnie rzecz biorąc, mungowanie oznacza sprzątanie wszystkiego, co nieuporządkowane, poprzez ich przekształcanie. W naszym przypadku zobaczymy, jak możemy przekształcić tekst, aby uzyskać wynik, który da nam pożądane zmiany w danych. Na prostym poziomie chodzi tylko o przekształcenie tekstu, z którym mamy do czynienia.

Przykład

W poniższym przykładzie planujemy przetasować, a następnie zmienić kolejność wszystkich liter w zdaniu z wyjątkiem pierwszej i ostatniej, aby uzyskać możliwe alternatywne słowa, które mogą zostać wygenerowane jako błędnie napisane słowo podczas pisania przez człowieka. Ta zmiana pomaga nam

import random
import re
def replace(t):
    inner_word = list(t.group(2))
    random.shuffle(inner_word)
    return t.group(1) + "".join(inner_word) + t.group(3)
text = "Hello, You should reach the finish line."
print re.sub(r"(\w)(\w+)(\w)", replace, text)
print re.sub(r"(\w)(\w+)(\w)", replace, text)

Po uruchomieniu powyższego programu otrzymujemy następujące dane wyjściowe -

Hlleo, You slouhd raech the fsiinh lnie.
Hlleo, You suolhd raceh the fniish line.

Tutaj możesz zobaczyć, jak pomieszane są słowa, z wyjątkiem pierwszej i ostatniej litery. Przyjmując statystyczne podejście do błędnej pisowni, możemy zdecydować, jakie są najczęściej błędnie pisane słowa i podać dla nich poprawną pisownię.