Gần đây, mình nghe một số định nghĩa về “thu thập ngân sách”. Với bài viết này, mình sẽ làm rõ Thu thập dữ liệu là gì cho Googlebot?
Đầu tiên, mình muốn nhấn mạnh rằng ngân sách thu thập dữ liệu, như được mô tả dưới đây, không phải là điều mà hầu hết các nhà xuất bản phải lo lắng. Nếu các trang mới có xu hướng được thu thập thông tin vào cùng ngày chúng được xuất bản, thì thu thập ngân sách không phải là thứ mà các nhà quản trị web cần tập trung vào. Tương tự, nếu một trang web có ít hơn vài nghìn URL, phần lớn thời gian nó sẽ được thu thập hiệu quả.
Chẳng hạn, ưu tiên thu thập thông tin gì, khi nào và bao nhiêu tài nguyên mà máy chủ lưu trữ trang web có thể phân bổ để thu thập thông tin là quan trọng hơn đối với các trang web lớn hơn hoặc các trang tự động tạo các trang dựa trên tham số URL chẳng hạn.
Thu thập thông tin giới hạn tốc độ
Googlebot được thiết kế để trở thành một công cụ tốt của website. Thu thập thông tin là ưu tiên chính của nó, trong khi đảm bảo rằng nó không làm giảm trải nghiệm của người dùng truy cập trang web. Mình gọi đây là “giới hạn tốc độ thu thập dữ liệu”, giới hạn tốc độ tìm nạp tối đa cho một trang web nhất định.
Nói một cách đơn giản, điều này thể hiện số lượng kết nối song song đồng thời Googlebot có thể sử dụng để thu thập dữ liệu trang web, cũng như thời gian nó phải chờ giữa các lần tìm nạp. Tốc độ thu thập dữ liệu có thể tăng và giảm dựa trên một số yếu tố:
- Thu thập dữ liệu về sức khỏe: nếu trang web phản hồi thực sự nhanh chóng trong một thời gian, giới hạn sẽ tăng lên, có nghĩa là có thể sử dụng nhiều kết nối hơn để thu thập dữ liệu. Nếu trang web chậm lại hoặc phản hồi với lỗi máy chủ, giới hạn sẽ giảm và Googlebot thu thập dữ liệu ít hơn.
- Giới hạn được đặt trong Search Console : chủ sở hữu trang web có thể giảm việc thu thập dữ liệu trang web của Googlebot. Lưu ý rằng đặt giới hạn cao hơn sẽ không tự động tăng thu thập thông tin.
Thu thập dữ liệu nhu cầu
Ngay cả khi không đạt đến giới hạn tốc độ thu thập thông tin, nếu không có nhu cầu lập chỉ mục, sẽ có hoạt động thấp từ Googlebot. Hai yếu tố đóng vai trò quan trọng trong việc xác định nhu cầu thu thập dữ liệu là:
- Mức độ phổ biến: Các URL phổ biến hơn trên Internet có xu hướng được thu thập thường xuyên hơn để giữ cho chúng tươi hơn trong chỉ mục của Google
- Tính ổn định: hệ thống của Google cố gắng ngăn URL trở nên cũ kỹ trong chỉ mục.
Ngoài ra, các sự kiện trên toàn trang web như di chuyển trang web có thể kích hoạt sự gia tăng nhu cầu thu thập dữ liệu để giới thiệu lại nội dung theo các URL mới.
Lấy tỷ lệ thu thập dữ liệu và thu thập nhu cầu cùng nhau, Google xác định ngân sách thu thập thông tin là số lượng URL Googlebot có thể và muốn thu thập dữ liệu.
Các yếu tố ảnh hưởng đến ngân sách thu thập dữ liệu
Việc có nhiều URL có giá trị gia tăng thấp có thể ảnh hưởng tiêu cực đến việc thu thập dữ liệu và lập chỉ mục của trang web. Mình thấy rằng các URL có giá trị gia tăng thấp rơi vào các danh mục này, theo thứ tự quan trọng:
- Điều hướng mặt và định danh phiên
- Nội dung trùng lặp tại chỗ
- Trang lỗi mềm
- Trang bị hack
- Không gian vô hạn và proxy
- Chất lượng thấp và nội dung spam
Việc lãng phí tài nguyên máy chủ trên các trang như thế này sẽ rút hoạt động thu thập dữ liệu từ các trang thực sự có giá trị, điều này có thể gây ra sự chậm trễ đáng kể trong việc khám phá nội dung tuyệt vời trên trang web.
Câu hỏi hàng đầu
Thu thập thông tin là điểm vào cho các trang web vào kết quả tìm kiếm của Google. Thu thập thông tin hiệu quả của một trang web giúp lập chỉ mục trong Tìm kiếm của Google.
H: Tốc độ trang web có ảnh hưởng đến ngân sách thu thập dữ liệu của tôi không? Làm thế nào về lỗi?
Trả lời: Làm cho trang web nhanh hơn cải thiện trải nghiệm của người dùng đồng thời tăng tốc độ thu thập dữ liệu. Đối với Googlebot, một trang web tốc độ là dấu hiệu của các máy chủ khỏe mạnh, vì vậy nó có thể nhận được nhiều nội dung hơn trên cùng một số kết nối. Mặt khác, một số lượng đáng kể các lỗi 5xx hoặc thời gian chờ kết nối báo hiệu ngược lại và thu thập thông tin chậm lại.
Chúng tôi khuyên bạn nên chú ý đến báo cáo Lỗi thu thập dữ liệu trong Search Console và giữ số lượng lỗi máy chủ ở mức thấp.
Q: Thu thập thông tin là một yếu tố xếp hạng?
A:Tốc độ thu thập dữ liệu tăng sẽ không nhất thiết dẫn đến vị trí tốt hơn trong kết quả Tìm kiếm. Google sử dụng hàng trăm tín hiệu để xếp hạng kết quả và trong khi thu thập thông tin là cần thiết để có kết quả, đó không phải là tín hiệu xếp hạng.
H: Các URL thay thế và nội dung được nhúng có được tính trong ngân sách thu thập dữ liệu không?
Trả lời: Nói chung, mọi URL mà Googlebot thu thập dữ liệu sẽ được tính vào ngân sách thu thập dữ liệu của trang web. Các URL thay thế, như AMP hoặc hreflang, cũng như nội dung được nhúng, chẳng hạn như CSS và JavaScript, có thể phải được thu thập thông tin và sẽ tiêu tốn ngân sách thu thập dữ liệu của trang web. Tương tự, chuỗi chuyển hướng dài có thể có tác động tiêu cực đến việc thu thập thông tin.
H: Tôi có thể kiểm soát Googlebot bằng chỉ thị “thu thập thông tin chậm trễ” không?
A: Các robot “thu thập thông tin chậm trễ” không chuẩn.
Q: Chỉ thị nofollow có ảnh hưởng đến ngân sách thu thập dữ liệu không?
A: Nó phụ thuộc. Bất kỳ URL nào được thu thập đều ảnh hưởng đến ngân sách thu thập thông tin, vì vậy ngay cả khi trang của bạn đánh dấu URL là nofollow, nó vẫn có thể được thu thập nếu một trang khác trên trang web của bạn hoặc bất kỳ trang nào trên web, không gắn nhãn liên kết là nofollow.
Tâm Trần dịch – ATPSOFTWARE