Cấu trúc bài viết:
Robots.txt là gì?
Robots.txt là một dạng file text chứa các câu lệnh giúp điều hướng bots tìm kiếm của các công cụ tìm kiếm, hướng dẫn chúng được và không được phép index những nội dung nào trên website.
Vì sao bạn nên sử dụng robots.txt?
Một trang web, blog sinh ra rất nhiều trang đích, tuy nhiên, có khá nhiều trang đích không cần thiết phải xuất hiện trên các công cụ tìm kiếm. Chẳng hạn với Blogspot, mục archive (Lưu trữ) là gần như không cần thiết phải xuất hiện trên Google, vì chẳng ai tìm cả.Ngoài ra, Blogspot sinh ra khá nhiều link khác nhau, như cùng 1 label Blogspot, chúng ta có các đường link trông như sau:
Những đường link này cùng 1 trang đích như lại được index 2 lần, tức sẽ bị lỗi trùng lặp thẻ tiêu đề và mô tả (Cùng 1 tiêu đề và mô tả những có nhiều trang đích khác nhau). Trong khi thẻ canonical thì không thể giải quyết được lỗi này. Chính vì vậy, chỉ có chặn index những đường link không cần thiết thì mới giải quyết được vấn đề./label/Blogspot
/label/Blogspot?max-results=20
…
Lúc này, robots.txt là công cụ hiệu quả để giúp bạn lọc đi những nội dung không cần thiết phải được Google index như đã nói ở trên.
Cấu trúc robots.txt chuẩn nhất cho Blogspot
Cấu trúc chuẩn nhất cho robots.txt ở bài viết này của Học Blogspot được thiết kế để loại bỏ hầu hết những nội dung không cần thiết phải index trên Google của Blogspot như: các trang 2,3,4…; mục lưu trữ; mục tìm kiếm. Cũng như khai báo sitemap để Google index blog nhanh hơn.Cấu trúc robots.txt chuẩn như sau:
Ở đây, Học Blogspot sẽ giải thích cho các bạn từng dòng cần thiết:User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /
Disallow: *max-results=*
Disallow: *archive.html
Disallow: *?m=0
Sitemap: https://www.hocblogspot.com/feeds/posts/default?orderby=UPDATED
Sitemap: https://www.hocblogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
- Allow: / - Tức là cho phép bots có thể index nội dung trên trang web.
- Disallow: *max-results=* - Chặn không cho bots index đường dẫn chứa cụm từ max-results=, đây là đường dẫn sinh ra khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
- Disallow: *archive.html - Chặn không có bots index các trang lưu trữ, tác dụng mấy trang này không nhiều mà lại làm xấu sitemap của Blogspot.
- Disallow: *?m=0 – Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
- 2 mục sitemap – Khai báo sitemap cho bots crawl toàn bộ trang web, 2 sitemap ở trên đều được tạo ra từ RSS Feedburner. Vì vậy, để sử dụng được nó, các bạn nhớ tham khảo bài viết tạo RSS/Feedburner này nhé. Nhớ thay đường dẫn lại cho đúng blog của bạn nhé.
Hướng dẫn thêm robots.txt vào Blogspot
Blogspot có sẵn vị trí để bạn chèn robots.txt, chỉ cần thêm đoạn robots.txt chuẩn ở trên theo hướng dẫn này vào là OK.- Truy cập trang quản trị Blogspot ở địa chỉ: https://www.blogger.com
- Tiếp tục vào
Cài đặt
, vào Tùy chọn tìm kiếm
và thêm đoạn text robots.txt trên vào mục Robots.txt
:Sau đó lưu lại.
Bạn có thể kiểm tra xem file robots.txt đã hoạt động hay chưa bằng cách kiểm tra ở đây: https://www.hocblogspot.com/robots.txt
Như vậy là bài viết đã cho các bạn biết robots.txt là gì, một file robots.txt chuẩn cho Blogspot ra sao và làm thế nào để thêm robots.txt vào Blogspot. Hy vọng các bạn sẽ không gặp khó khăn khi thực hiện. Có vấn đề gì thì bình luận bên dưới nhé.
Post a Comment
Post a Comment