Vì sao Google không index trang của bạn

Bạn vừa xuất bản một trang mới. Bạn chờ vài ngày, rồi tìm trên Google bằng cú pháp site: để kiểm tra. Trang không xuất hiện. Một tuần trôi qua, vẫn không có gì. Search Console hiển thị URL đó với một trạng thái không phải "Đã lập chỉ mục" — kèm theo một nhãn như "Đã thu thập dữ liệu - hiện chưa được lập chỉ mục" hay "Đã phát hiện - hiện chưa được lập chỉ mục", đọc lên nghe như một chẩn đoán viết bằng ngôn ngữ bạn không hiểu.

Lỗi không được lập chỉ mục (index) là một trong những vấn đề khó chịu nhất trong SEO, vì nó hoàn toàn im lặng. Một trang xếp hạng kém thì ít nhất vẫn tồn tại trong kết quả tìm kiếm; một trang không được index thì với Google là không tồn tại. Không có chất lượng nội dung, nghiên cứu từ khoá hay xây liên kết nào cứu được một trang chưa bao giờ lọt vào chỉ mục. Bài viết này là hướng dẫn từng bước để biến câu than thở mơ hồ "Google không index trang của tôi" thành một chẩn đoán chính xác — và mỗi chẩn đoán đều có cách xử lý đi kèm.

Ba "cánh cổng" mà mỗi trang phải vượt qua

Để chẩn đoán được vấn đề index, bạn cần một mô hình về cách một trang lọt vào Google. Có ba cánh cổng tuần tự, và một trang đang gặp lỗi thì luôn kẹt ở đúng một cổng.

Cổng thứ nhất là phát hiện. Google phải biết URL đó tồn tại. Google phát hiện URL bằng cách đi theo liên kết và bằng cách đọc sitemap. Một trang Google chưa từng phát hiện thì không thể được thu thập hay lập chỉ mục — nó vô hình.

Cổng thứ hai là thu thập dữ liệu (crawl). Khi đã biết URL, Googlebot phải tải trang về — gửi yêu cầu và đọc nội dung. Một trang đã được phát hiện nhưng chưa được thu thập thì Google biết là có, nhưng chưa đọc.

Cổng thứ ba là lập chỉ mục. Sau khi thu thập, Google đánh giá trang và quyết định có lưu vào chỉ mục và đưa ra xếp hạng hay không. Một trang đã được thu thập nhưng chưa được index nghĩa là Google đã đọc và phán xét nó chưa đáng giữ — hoặc đã bị bảo thẳng là phải đứng ngoài.

Mọi lỗi index đều là một thất bại tại một trong ba cổng này. Báo cáo "Trang" trong Search Console cho bạn biết là cổng nào, nếu bạn biết cách đọc nhãn. Hãy xác định cổng trước; cách sửa sẽ theo sau.

Lỗi tại cổng một: trang chưa bao giờ được phát hiện

Nếu Search Console hoàn toàn không có dữ liệu về một URL — nó không xuất hiện trong báo cáo Trang, và công cụ Kiểm tra URL báo "URL không có trên Google" mà không có lịch sử thu thập — thì trang đã thất bại ở cổng phát hiện. Google đơn giản là không biết nó tồn tại.

Nguyên nhân phổ biến nhất là không có liên kết nào trỏ tới trang. Google tìm trang chủ yếu bằng cách đi theo liên kết từ những trang nó đã biết. Một trang không có liên kết nội bộ nào trỏ tới — một trang mồ côi — thì không có lối nào để Googlebot đi vào. Bạn đã xuất bản nó nhưng không kết nối nó với bất cứ thứ gì. Cách sửa là tạo liên kết tới nó: từ menu điều hướng, từ các bài viết liên quan, từ trang chuyên mục. Một trang quan trọng phải tiếp cận được từ phần còn lại của website. Hướng dẫn của chúng tôi về chiến lược liên kết nội bộ giải thích cách dựng hệ thống liên kết để không trang nào bị bỏ rơi.

Một nguyên nhân liên quan là trang không nằm trong sitemap. Sitemap XML là một kênh trực tiếp để báo cho Google biết URL nào tồn tại. Nếu một trang mới không nằm trong sitemap — vì sitemap tĩnh, hiếm khi được tạo lại, hoặc đơn giản là bị lỗi — bạn đã bỏ đi một trong những con đường phát hiện chính. Hãy đảm bảo sitemap được tạo tự động, chứa mọi URL chuẩn cần index, và đã được gửi trong Search Console.

Việc phát hiện cũng có thể chỉ chậm chứ không hẳn thất bại. Một website mới hoàn toàn, ít liên kết, sẽ được thu thập một cách thận trọng; Google có thể mất nhiều ngày đến vài tuần mới tìm thấy trang mới. Cách xử lý là kiên nhẫn cộng với các nền tảng phát hiện ở trên. Bạn cũng có thể dùng nút "Yêu cầu lập chỉ mục" trong công cụ Kiểm tra URL để thúc một trang quan trọng — nhưng đó là một lời nhắc, không phải lời hứa.

Lỗi tại cổng hai: đã phát hiện nhưng chưa thu thập

Nhãn trong Search Console: "Đã phát hiện - hiện chưa được lập chỉ mục." Đây là một mô tả chính xác — Google biết URL tồn tại nhưng chưa thu thập nó. Trang đang nằm trong hàng đợi.

Trên một website nhỏ hoặc vừa, nhãn này xuất hiện ở vài trang thường chỉ là tạm thời; Google rồi sẽ tới. Khi nó xuất hiện ở nhiều trang, hoặc kéo dài hàng tuần, nó chỉ ra một trong hai vấn đề gốc.

Vấn đề thứ nhất là ưu tiên thu thập. Google đã quyết định những trang này chưa đủ quan trọng để thu thập ngay. Đây là một tín hiệu về giá trị: những trang nằm sâu trong cấu trúc site, ít liên kết nội bộ, hoặc trên một website có độ uy tín thấp sẽ bị xếp ưu tiên thấp. Cách sửa là nâng độ quan trọng biểu kiến của chúng — liên kết nội bộ tốt hơn từ các trang nổi bật, cấu trúc site phẳng hơn, và cải thiện chất lượng tổng thể của website để Google coi các URL của nó là đáng tải về.

Vấn đề thứ hai, trên các website rất lớn, là giới hạn ngân sách thu thập — lượng crawl của Googlebot bị dàn mỏng trên quá nhiều URL. Nếu website của bạn có hàng trăm nghìn trang và nhiều trang nằm ở trạng thái "Đã phát hiện - hiện chưa được lập chỉ mục", thì ngân sách thu thập là một mối lo thật, và cách xử lý là giảm bớt số URL ít giá trị để crawl chảy về những trang quan trọng. Nhưng với phần lớn website, nhãn này là tín hiệu về giá trị, không phải về ngân sách.

Mọi lỗi index đều là thất bại tại một trong ba cổng. Nhãn trong Search Console cho biết cổng nào — và cổng đó cho biết cách sửa.

Lỗi tại cổng ba: đã thu thập nhưng chưa lập chỉ mục

Cổng này có nhiều nhãn khác nhau, và chúng cần được phân biệt rõ vì ý nghĩa rất khác nhau.

"Đã thu thập dữ liệu - hiện chưa được lập chỉ mục"

Google đã tải trang về, đã đọc, và quyết định không index. Đây là nhãn nản lòng nhất vì nó là một phán xét về chất lượng. Google đang nói: chúng tôi đã xem trang này, và hiện nó chưa đáng có một chỗ trong chỉ mục.

Nguyên nhân thường là chất lượng và tính độc đáo. Trang có thể mỏng — quá ít nội dung thực chất để thoả mãn truy vấn nó nhắm tới. Có thể gần trùng lặp — quá giống các trang khác trên site bạn hoặc trên web, không mang lại gì khác biệt. Có thể ít giá trị theo đánh giá của Google — một trang tag, một trang chuyên mục mỏng, một trang sinh tự động không có thực chất. Chất lượng tổng thể của site cũng tính vào: trên một website Google coi là kém, mỗi trang riêng lẻ phải vượt một ngưỡng cao hơn.

Cách sửa không mang tính kỹ thuật, mà mang tính biên tập. Hãy làm cho trang thực sự đáng được index: sâu hơn, có một góc nhìn riêng rõ ràng, thực sự hữu ích cho truy vấn nó nhắm tới. Nếu trang vốn ít giá trị về mặt cấu trúc và không thể làm cho đáng giá — một trang tag mỏng, một trang lọc rỗng — thì cách xử lý trung thực là gắn noindex hoặc xoá nó, thay vì cố ép index một thứ vốn không nên được index. Không phải URL nào cũng xứng đáng có chỗ trong chỉ mục.

"Bị loại trừ bởi thẻ 'noindex'"

Nhãn này mang tính cơ học và thường là vô tình. Trang chứa một chỉ thị noindex — trong thẻ meta robots hoặc trong tiêu đề HTTP — bảo thẳng Google đứng ngoài. Nếu một trang bạn muốn index lại hiện nhãn này, thì có thứ gì đó đang gắn noindex một cách không chủ ý. Nguyên nhân thường gặp: một cấu hình từ môi trường thử nghiệm bị đẩy lên môi trường thật, một công tắc trong CMS để sai trạng thái, một mẫu giao diện (template) hoặc plugin gắn noindex cho cả một chuyên mục. Cách sửa là tìm và gỡ chỉ thị đó. Dùng công cụ Kiểm tra URL để xác nhận Google đã thấy thay đổi, rồi yêu cầu lập chỉ mục.

"Bị chặn bởi robots.txt"

Trang bị chặn (Disallow) trong robots.txt nên Googlebot sẽ không thu thập nó. Hãy chú ý một cái bẫy tinh vi: một trang bị chặn bởi robots.txt vẫn có thể thỉnh thoảng xuất hiện trong kết quả dưới dạng một URL trơ không có mô tả, vì Google biết nó tồn tại qua liên kết nhưng không đọc được. Nếu bạn muốn một trang được index, nó không được bị chặn trong robots.txt. Và quan trọng — robots.txt và noindex xung đột với nhau: nếu một trang bị chặn trong robots.txt, Google không thu thập được nên không thấy được thẻ noindex trên đó. Để giữ một trang ngoài chỉ mục một cách chắc chắn, hãy cho phép thu thập và dùng noindex; để đưa một trang vào, đừng làm cả hai.

Các nhãn về "trùng lặp" và thẻ canonical

Các nhãn như "Trang trùng lặp, người dùng không chọn trang chính tắc" hay "Trang thay thế có thẻ chính tắc phù hợp" đều liên quan đến thẻ canonical. Google đã quyết định URL này là bản trùng lặp của một URL khác và đang index URL kia. Đôi khi điều đó là đúng và có chủ ý. Đôi khi đó là vấn đề: Google chọn một canonical bạn không muốn, thường vì liên kết nội bộ thiếu nhất quán hoặc thẻ canonical đặt sai. Cách sửa là làm cho tín hiệu canonical của bạn nhất quán và rõ ràng — một URL chuẩn duy nhất cho mỗi nội dung, liên kết nội bộ trỏ về nó, và thẻ canonical xác nhận nó.

Khoảng trống kết xuất: khi Google thấy một trang rỗng

Có một nguyên nhân cắt ngang cả ba cổng và đáng có một mục riêng vì rất dễ bỏ sót: khoảng trống kết xuất (render). Nếu trang của bạn dựa vào JavaScript để tải nội dung chính, Google phải kết xuất trang — chạy JavaScript — mới thấy được nội dung đó. Nếu kết xuất thất bại, bị trễ, hoặc nội dung phụ thuộc vào một thao tác mà Googlebot không thực hiện, Google có thể thu thập trang và chỉ thấy một cái vỏ gần như rỗng.

Hãy dùng tính năng "Xem trang đã thu thập" và "Kiểm tra URL trực tiếp" trong công cụ Kiểm tra URL để xem mã HTML đã kết xuất mà Google thực sự nhận được. Nếu nội dung chính thiếu trong đó, bạn có một vấn đề kết xuất. Cách sửa phụ thuộc vào nền tảng kỹ thuật của bạn — kết xuất phía máy chủ, tạo trang tĩnh, hoặc đảm bảo nội dung quan trọng nằm trong mã HTML ban đầu thay vì được nạp bằng script sau đó. Một trang có thể vượt qua cổng phát hiện và thu thập một cách hoàn hảo mà vẫn thất bại vì Google chưa bao giờ thấy được nội dung khiến nó đáng index.

Một trình tự chẩn đoán bạn có thể làm theo

Hãy đặt mọi thứ vào một trình tự. Bắt đầu bằng việc Kiểm tra URL với chính URL đang gặp lỗi. Nếu Google không có dữ liệu nào về nó, bạn đang ở cổng một — sửa việc phát hiện bằng liên kết nội bộ và sitemap. Nếu trạng thái là "Đã phát hiện - hiện chưa được lập chỉ mục", bạn đang ở cổng hai — nâng độ quan trọng biểu kiến của trang, và trên một site rất lớn thì xét tới ngân sách thu thập. Nếu trạng thái liên quan đến thẻ noindex hoặc bị chặn bởi robots.txt, bạn có một lỗi loại trừ cơ học — tìm và gỡ chỉ thị đó. Nếu trạng thái là "Đã thu thập dữ liệu - hiện chưa được lập chỉ mục", bạn có một phán xét về chất lượng — cải thiện trang một cách thực chất hoặc chấp nhận rằng nó không nên được index. Nếu là nhãn trùng lặp hay canonical, hãy sửa tín hiệu canonical. Và ở bất kỳ bước nào, dùng "Xem trang đã thu thập" để xác nhận Google thực sự thấy nội dung của bạn.

Làm theo trình tự này, "Google không index trang của tôi" thôi là một điều bí ẩn và trở thành một chuỗi câu hỏi có/không, mỗi câu có một cách sửa đã biết. Sự bực bội của lỗi index gần như hoàn toàn đến từ việc bỏ qua khâu chẩn đoán mà đoán mò cách sửa.

Thói quen kỹ thuật giúp phòng lỗi index

Phòng bệnh hơn chữa bệnh. Một vài thói quen giữ cho website hiếm khi gặp lỗi index. Sau mỗi lần dựng lại site, di chuyển hệ thống, hay đổi template, hãy rà soát xem có thẻ noindex nào sót lại không — đây là thời điểm noindex hay bị bỏ quên nhất. Giữ sitemap được tạo tự động và chỉ chứa các URL chuẩn cần index. Duy trì cấu trúc site đủ phẳng để trang quan trọng nằm cách trang chủ vài cú nhấp chuột. Và định kỳ so sánh tập hợp trang bạn muốn được index với tập hợp trang Google thực sự đã index — chính phép so sánh này phát hiện ra mọi khoảng trống trước khi nó âm thầm lớn lên hàng tháng trời.

Vai trò của một AI agent SEO

Trình tự chẩn đoán ở trên đơn giản với một trang. Nó trở nên nặng nề trên một website hàng nghìn trang, nơi các lỗi index rải rác khắp nơi, báo cáo Trang gộp chúng thành các nhóm mà không nói rõ URL cụ thể nào quan trọng, và lỗi mới xuất hiện mỗi lần bạn xuất bản. Kiểm tra thủ công từng URL, đối chiếu với sitemap, soi từng thẻ noindex và từng thẻ canonical — đó đúng là loại việc được làm một lần khi audit rồi không bao giờ làm lại.

Đây là chẩn đoán lặp lại theo quy tắc, ở quy mô lớn — đúng thứ một AI agent SEO được sinh ra để làm. Orova có thể theo dõi trạng thái lập chỉ mục của bạn liên tục, nhóm các trang chưa index theo cổng mà chúng thất bại, gắn cờ các lỗi cơ học — thẻ noindex sót lại, trang bị chặn bởi robots.txt, trang thiếu trong sitemap, trang mồ côi — và làm nổi bật những trang thất bại vì chất lượng để bạn quyết định cải thiện hay loại bỏ. Phán đoán biên tập về việc một trang nên nói gì vẫn là của bạn; agent đảm bảo không trang nào âm thầm nằm ngoài chỉ mục mà bạn không biết lý do. Lập chỉ mục là cánh cổng đứng trước mọi nỗ lực SEO khác. Một trang không được index thì không phải là chậm — nó vắng mặt. Hãy xác định đúng cổng, áp dụng cách sửa tương ứng, và đưa các trang của bạn vào chỉ mục, nơi phần còn lại của công sức bạn cuối cùng mới được tính.