So sánh độ giống nhau giữa 2 chuỗi ký tự với Fuzzywuzzy trong Python

Hôm nay tình cờ rảnh việc lang thang Facebook thì 1 ông bạn post 1 library của C# về so sánh độ giống nhau giữa 2 chuỗi ký tự

https://fuzzystring.codeplex.com/

Keyword sử dụng để search Google “Fuzzy string”, vì không rành C# lắm nên quyết định tìm library cho Python, cuối cùng cũng có ^^

https://github.com/seatgeek/fuzzywuzzy

Cách sử dụng lib này cũng khá dễ dàng

Việc so sánh độ giống nhau giữa các chuỗi ký tự khá hữu ích trong việc crawl nhiều data từ nhiều website khác nhau, lúc đó việc so sánh để xếp chung data vào cùng 1 category khá là quan trọng, tránh trùng lặp dữ liệu. Một ví dụ thực tiễn về fuzzy string matching đó là các website thu thập dữ liệu về giá của sản phẩm, hoặc thu thập coupon …