File Robots.txt là gì? Cách tối ưu Robots.txt để Google thích thú

File Robots.txt là một file điều hướng công cụ lập chỉ mục tìm kiếm trên các công cụ tìm kiếm như Google, Bing, Coccoc, Yahoo… nhằm cho phép  hoặc không cho phép đánh chỉ mục một đường dẫn (URL) cụ thể hoặc một tệp, một folder bất kỳ. Đối với công cụ tìm kiếm Google thì file robots.txt là không bắt buột.

Khi các bot tìm kiếm dữ liệu để thu thập (crawl) thì đầu tiên nó sẽ đến file robots.txt để đọc trước, xem thử trong file này cho phép nó có thể lập chỉ mục những dữ liệu nào, và những dữ liệu nào không được đánh chỉ mục. Điều này hết sức quan trọng cho chúng ta khi điều hướng, hoặc website đang xây dựng chưa hoàn thiện không muốn bot vào đánh chỉ mục, hoặc có tài liệu nào liên quan bản quyền không được phép crawl thì có thể sử dụng file này để cấm nhé.

Kiểm tra file Robots.txt

File robots.txt được đặt nằm ngang với file index.php tức là nằm ở thư mục chính thường là public_html, nếu các bạn muốn kiểm tra thì có thể nhập vào đường dẫn sau:

https://thegioicontent.com/robots.txt

Nếu có hiện nội dung thì có nghĩa là nó tồn tại, còn nếu không thì các bạn nên tạo một file robots.txt đúng chuẩn để website có thêm tiêu chí tối ưu khi SEO nhé.

Các lệnh trong robots.txt cần nắm

  • User-agent: Tên loại bot
  • Allow: Cho phép lập chỉ mục (Crawl)
  • Disallow: Không cho phép lập chỉ mục
  • Sitemap: Điều hướng bot tới nơi chứa sơ đồ trang web
  • Dấu “*” có nghĩa là đại diện cho chuỗi ký tự

Đối với mã nguồn wordpress thì file robots.txt chuẩn sẽ có nội dung như sau

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /search?q=*
Disallow: *?replytocom
Disallow: */attachment/*
Disallow: /images/

Allow: /*.js$
Allow: /*.css$

Sitemap: https://thegioicontent.com/sitemap_index.xml

Một số ví dụ về robots.txt

Câu lệnh sau có nghĩa là chọn tất cả các bot

User-agent: *

Câu lệnh này là chặn lập chỉ mục đối với thư mục wp-admin

Disallow: /wp-admin/

Câu lệnh này là chặn tất cả các đường dẫn (URL) có dạng https://lukhucthanh/search?q=* dấu * là đại diện các ký tự.

Disallow: /search?q=*

Câu lệnh sau điều hướng cho bot truy cập vào file sitemap_index.xml

Sitemap: https://thegioicontent.com/sitemap_index.xml

Để chặn tất cả các file có phần mở rộng là .pdf thì các bạn có thể dụng lệnh sau

Disallow: *.pdf

Câu lệnh này cấm tất cả các bot lập chỉ mục (Crawl) khi chúng ta đang xây dựng website

User-agent: *

Disallow:/

Để chặn một bot cụ thể thì các bạn sử dụng lệnh sau

User-agent: AhrefsBot

Disallow: /

Có thể thay tên bot AhrefsBot thành một tên bot bất kỳ khác

Lưu ý khi dùng Robots.txt

Khi các bạn biên tập file robots.txt có thể sử dụng bằng chương trình notepad và lưu lại với tên robots.txt nhé, một lưu ý nhỏ là phải lưu với bảng mã là utf-8 các bạn nhé, vì bot chỉ đọc được các ký tự ở bộ mã này thôi, nếu sử dụng mã Unicode thì sẽ hiển thị ra các ký tự không đúng với mong muốn.

Vậy là các bạn đã biết được cách làm sao để sử dụng cũng như là hiểu rõ về công cụ của file robots.txt rồi, hi vọng các bạn có thể thực hiện một cách chính xác và an toàn hơn.

File Robots.txt là gì? Cách tối ưu Robots.txt để Google thích thú
5 (100%) 1 vote

Leave a Reply

Your email address will not be published. Required fields are marked *