Thư viện tách từ tiếng Việt bằng Python 2

Mới tìm được một thư viện tách từ tiếng Việt cực ngon viết bằng python2 với độ chính xác kinh khủng, dành cho anh em nào đang nhập môn xử lý ngôn ngữ tự nhiên. Có cả tài liệu + thuật toán đầy đủ để anh em nghiên cứu. Ngoài ra còn kèm theo bộ data từ điển tiếng Việt cùng toàn bộ tên người và tỉnh thành tại Việt Nam

* Cho anh em nào chưa biết: tách câu là một vấn đề bắt buộc và cơ bản nhất để có thể xử lý tiếng Việt, trong tiếng anh nó phân cách từ bằng dấu cách nhưng tiếng Việt dấu cách nó lại để tách các âm tiết, ví dụ từ đất + nước đứng riêng sẽ là 2 tư khác nhau nhưng ghép chung lại thì nó lại mang nghĩa khác, thư viện này sẽ tự tìm các từ ghép để chúng ta xử lý câu văn dễ hơn

Link: https://github.com/roy-a/Roy_VnTokenizer