Python - Kiểm tra chính tả
Kiểm tra chính tả là một yêu cầu cơ bản trong bất kỳ quá trình xử lý hoặc phân tích văn bản nào. Gói trănpyspellchecker cung cấp cho chúng tôi tính năng này để tìm các từ có thể đã bị viết sai chính tả và cũng đề xuất các sửa chữa có thể có.
Đầu tiên, chúng ta cần cài đặt gói bắt buộc bằng lệnh sau trong môi trường python của chúng ta.
pip install pyspellchecker
Bây giờ chúng ta xem bên dưới cách gói được sử dụng để chỉ ra những từ sai chính tả cũng như đưa ra một số gợi ý về những từ có thể đúng.
from spellchecker import SpellChecker
spell = SpellChecker()
# find those words that may be misspelled
misspelled = spell.unknown(['let', 'us', 'wlak','on','the','groun'])
for word in misspelled:
# Get the one `most likely` answer
print(spell.correction(word))
# Get a list of `likely` options
print(spell.candidates(word))
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
group
{'group', 'ground', 'groan', 'grout', 'grown', 'groin'}
walk
{'flak', 'weak', 'walk'}
Trường hợp nhạy cảm
Nếu chúng ta sử dụng Let thay cho let thì đây sẽ trở thành một so sánh phân biệt chữ hoa chữ thường của từ với các từ được so khớp gần nhất trong từ điển và kết quả bây giờ sẽ khác.
from spellchecker import SpellChecker
spell = SpellChecker()
# find those words that may be misspelled
misspelled = spell.unknown(['Let', 'us', 'wlak','on','the','groun'])
for word in misspelled:
# Get the one `most likely` answer
print(spell.correction(word))
# Get a list of `likely` options
print(spell.candidates(word))
Khi chúng tôi chạy chương trình trên, chúng tôi nhận được kết quả sau:
group
{'groin', 'ground', 'groan', 'group', 'grown', 'grout'}
walk
{'walk', 'flak', 'weak'}
get
{'aet', 'ret', 'get', 'cet', 'bet', 'vet', 'pet', 'wet', 'let', 'yet', 'det', 'het', 'set', 'et', 'jet', 'tet', 'met', 'fet', 'net'}