Python - Text Munging
Munging nói chung có nghĩa là dọn dẹp mọi thứ lộn xộn bằng cách biến đổi chúng. Trong trường hợp của chúng tôi, chúng tôi sẽ xem cách chúng tôi có thể chuyển đổi văn bản để nhận được một số kết quả mang lại cho chúng tôi một số thay đổi mong muốn đối với dữ liệu. Ở mức độ đơn giản, nó chỉ là chuyển đổi văn bản mà chúng ta đang xử lý.
Thí dụ
Trong ví dụ dưới đây, chúng tôi dự định xáo trộn và sau đó sắp xếp lại tất cả các chữ cái của một câu ngoại trừ chữ cái đầu tiên và chữ cái cuối cùng để có được các từ thay thế khả dĩ có thể được tạo ra như một từ viết sai chính tả trong quá trình viết của con người. Sự sắp xếp lại này giúp chúng tôi
import random
import re
def replace(t):
inner_word = list(t.group(2))
random.shuffle(inner_word)
return t.group(1) + "".join(inner_word) + t.group(3)
text = "Hello, You should reach the finish line."
print re.sub(r"(\w)(\w+)(\w)", replace, text)
print re.sub(r"(\w)(\w+)(\w)", replace, text)
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
Hlleo, You slouhd raech the fsiinh lnie.
Hlleo, You suolhd raceh the fniish line.
Ở đây bạn có thể thấy các từ bị lộn xộn như thế nào ngoại trừ các chữ cái đầu tiên và cuối cùng. Bằng cách sử dụng phương pháp thống kê đối với chính tả sai, chúng tôi có thể quyết định đâu là những từ viết sai chính tả phổ biến và cung cấp cách viết đúng cho chúng.