Tự động submit sitemap lên Google

Đoạn code PHP nhỏ sau đây giúp bạn có thể tự động submit sitemap XML lên Google mà không cần phải thực hiện bằng tay, nếu cần submit sitemap 5 phút/lần hoặc theo 1 thời gian quy định sẵn bạn có thể sử dụng chức năng cronjob trên Linux để tùy biến thêm

 

Lấy tweets từ Twitter sử dụng Python Selenium

Selenium là công cụ khá quen thuộc được sử dụng trong việc test các sản phẩm web hoặc có thể làm công cụ để tự động hóa các thao tác trên website. Selenium hỗ trợ rất nhiều ngôn ngữ lập trình (như Java, C#, Python, Ruby, PHP, Perl, Javascript) cũng như hỗ trợ rất nhiều trình duyệt web (như Firefox, Opera, Chrome, Microsoft Edge, Safari …)

Trong bài viết này, chúng ta sẽ sử dụng Python Selenium để lấy các dữ liệu tweet từ trang web Twitter. Quy trình hoạt động của nó sẽ như sau:

– Mở trình duyệt web (ở đây tôi sử dụng Firefox) để vào trang Twitter search advanced
– Điền vào các tiêu chí để tìm kiếm tweet như: từ ngày, đến ngày, hashtag, …. (Bạn có thể tham khảo form tìm kiếm của Twitter tại đây => https://twitter.com/search-advanced)
– Submit form tìm kiếm, sau đó scroll màn hình web cho đến khi không còn tweet nào được load tiếp nữa.
– Bóc tách HTML từ trang web Twitter và lưu danh sách các tweets vào file .txt hoặc .html

Đoạn code dưới đây sẽ thực hiện các bước trên, do trong code đã comment khá kỹ nên tôi sẽ không giải thích thêm nữa. 😀  . Một số library Python quan trọng được sử dụng trong code là:

Lxml để bóc tách HTML
Selenium để điều khiển web browser từ Python

How to Rank a Website Without Using Backlinks

Numerous articles have been written on SEO and its practices, including the ones on BHW SEO strategies. However, it’s imperative that one has to understand every small detail surrounding the SEO strategy for making their website rank good.

We’ve all heard the Google’s drumbeat saying, marketers around the world should stop focusing on building links. It’s pretty much accepted that you should avoid manipulative link building to rank higher in search results. This is because external link isn’t important in Google’s ranking algorithms and link building can be safely ignored.

Here are a few ways that could help you get a good ranking for your website in the search results:

Ways to rank without backlinks:

There are several ways to rank a website without the use of backlinks. Here are a few popular SEO strategies without involving backlinks:

  • Focus on zero competition words: Sometimes, you might find certain keywords that are too weak to be found on a search result. Use such keywords along with their exact matching domains for optimizing your articles. This will surely put your website on Google’s front page. However, it‘s rare to find such weak keywords that have zero competition in the world of SEO.
  • Use keywords with good search volume: When there is no weak keyword in your domain, the next best option is to look for a keyword that has a minimum of 500-1000 searches in a month. Once done, optimize for this keyword and see where your website ranks on Google’s search page. One thing to note is the focus shifts from competition to volume.
  • Come up with unbelievable content: There are a lot of websites on the internet with impeccable content and SEO friendly articles. However, these sites often don’t feature in the top of a Google search result. But, you also need to know that creating exemplary content is not something that can be done on a daily basis, especially when the goal is to rank the website without using backlinks.
  • Ancient domains bring in more traffic: Are ancient domains still a good thing, or just something of the past? The answer is yes! Ancient domains continue to gain traffic till this day. In case you come across an old domain and use it further as a niche website, there’s a possibility of ranking high because you get more visitors.
  • Make use of country codes in domains: If you have a country code in your domain, it will definitely help your site rank well in that targeted country. This methods works extremely well for reaching out to a targeted geographical location.

A step-by-step guide to SEO without backlinks:

All the above mentioned ways have been combined to form a strategy that would essentially allow a website, or any website for that matter, to rank well without the use of backlinks. If you’re new to SEO, these steps might help you work your way through ranking your website:

  • Search for a keyword that gets at least 1k search volume for a month. This particular keyword can be used in your article. This volume is low enough to keep things from getting too competitive, but also ensures that you get significant traffic on the website.
  • The next step is to pick a domain that you have already registered, or go for one that has been abandoned and registered for a long time period of at least a year. Here, the strategy is to simply make the website rank without using any backlinks.
  • Next, create at least 20 high-quality articles, each of at least 500 – 1000 words, focused on comparatively similar keywords. The main goal here is to create some exceptional content, without going overboard on any other fronts.

You would probably need to follow these “Page On-Level Factors”:

  • Always remember, the title tag is a webpage’s second most important content, next to a keyword.
  • H1 tags are mostly “second title tags” that send another relevancy signal to Google.
  • Keyword density is something that helps Google to determine the topic of a web page. But, don’t go overboard because it might affect your websites safety.
  • Each image on the web page sends the search engines, like Google, important relevancy signals through their file name, alt text, title, description, and caption

Once you are familiar with all these ways and methods, you can start working your way through your own SEO and make your page rank well without any backlinks. Now it’s time for you to try out all these methods and make your website a star in Google’s eyes!

Một số kinh nghiệm xử lý text bằng Linux command

1/ Merge all to single file

2/Trích keyword chứa từ cụ thể Ex: “car”

3/ Lấy keyword có chứa từ “car” dài 4 kí tự trở lên

Thư viện tách từ tiếng Việt bằng Python 2

Mới tìm được một thư viện tách từ tiếng Việt cực ngon viết bằng python2 với độ chính xác kinh khủng, dành cho anh em nào đang nhập môn xử lý ngôn ngữ tự nhiên. Có cả tài liệu + thuật toán đầy đủ để anh em nghiên cứu. Ngoài ra còn kèm theo bộ data từ điển tiếng Việt cùng toàn bộ tên người và tỉnh thành tại Việt Nam

* Cho anh em nào chưa biết: tách câu là một vấn đề bắt buộc và cơ bản nhất để có thể xử lý tiếng Việt, trong tiếng anh nó phân cách từ bằng dấu cách nhưng tiếng Việt dấu cách nó lại để tách các âm tiết, ví dụ từ đất + nước đứng riêng sẽ là 2 tư khác nhau nhưng ghép chung lại thì nó lại mang nghĩa khác, thư viện này sẽ tự tìm các từ ghép để chúng ta xử lý câu văn dễ hơn

Link: https://github.com/roy-a/Roy_VnTokenizer

So sánh độ giống nhau giữa 2 chuỗi ký tự với Fuzzywuzzy trong Python

Hôm nay tình cờ rảnh việc lang thang Facebook thì 1 ông bạn post 1 library của C# về so sánh độ giống nhau giữa 2 chuỗi ký tự

https://fuzzystring.codeplex.com/

Keyword sử dụng để search Google “Fuzzy string”, vì không rành C# lắm nên quyết định tìm library cho Python, cuối cùng cũng có ^^

https://github.com/seatgeek/fuzzywuzzy

Cách sử dụng lib này cũng khá dễ dàng

Việc so sánh độ giống nhau giữa các chuỗi ký tự khá hữu ích trong việc crawl nhiều data từ nhiều website khác nhau, lúc đó việc so sánh để xếp chung data vào cùng 1 category khá là quan trọng, tránh trùng lặp dữ liệu. Một ví dụ thực tiễn về fuzzy string matching đó là các website thu thập dữ liệu về giá của sản phẩm, hoặc thu thập coupon …

Chuyển UTF-8 khi bị sai encode

Mình có nhiều chuỗi bao gồm đủ thể loại gồm có encode Windows-1252, umlauts, accents, … Ví dụ như sau:

– アデレード㠮é…åŠ›çš„ã ªä¸˜é™µåœ°å¸¯ã «ä½ ç½®ã —ã ¦, ブラックウッドãƒ

– Räksmörgås

– Das Eszett oder Scharfes S (ß) repräsentiert den stimmlosen Klang.

– Desinfektionslösungstücher für Flächen

Giờ mình cần chuyển về UTF-8 của character tương ứng, ví dụ:

– å thành a
– ß thành S
– ö thành o
– ü thành u

Hiện tại mình đang code như này nhưng có 1 vài ký tự vẫn không chuyển được mà bị mất hoặc thành dấu hỏi chấm (?).

Vậy câu hỏi là: có cách nào làm được triệt để và chính xác không các cụ?

Chắc ai đó sẽ cần: