Hiện tại khi xây dựng hệ thống máy học nếu xây dựng bộ từ điển với cáctừ đơn sẽ làm quá trình truy xuất tập tin nhiều và có khi không thể liệtkê được hết tất cả các từ đơn của tiếng việt vì vậy đoạn mã nhỏ gọn này cóthể giúp chúng ta sẽ nhận diện được chữ quốc ngữ mà không cần phải truyxuất từ trong từ điển.
Tài liệu tham khảo từ tập tinchu-quoc-ngu.md
được trích xuất ngắn gọnphần kiểm tra tính đúng đắn của một từ nhập vào, hiện tại chưa kiểm trachính xác được hoàn toàn nếu như có các đưa dữ liệu vào kiểutelex
nhưtooi nosi (nois) đoofng baof cos nghe rox howm
hoặc kiểuvni
như sauto6i no1i d9o6ng2 ...
cho nên để tính đúng đắn thì cần xử lý việc nàytrước khi kiểm tra.
Cú pháp sử dụngisVNESE(word)
hàm này sẽ trả vềTrue
hoặcFalse
ví dụ
isVNESE('đồ')# TrueisVNESE('mi')# TrueisVNESE('là')# TrueisVNESE('đồ')# TrueisVNESE('mi')# TrueisVNESE('phá')# TrueisVNESE('ba')# TrueisVNESE('mi')# TrueisVNESE('về')# TrueisVNESE('là')# TrueisVNESE('ba')# TrueisVNESE('mi')# TrueisVNESE('la')# TrueisVNESE('olala')# FalseisVNESE('.')# True
Ngoài ra chúng ta cũng cónhập nhằng khi lẫn lộn từ chung với tiếng anhví dụ như từto
(đến)to
(to lớn) "welcometo
vietnam"<>
"caoto
đẹp choai"
Để xử lý việc này chúng ta sẽ sử dụng từ lân cận của nó để xác định.