Cách để ChatGPT, Gemini, Perplexity trích dẫn website của bạn

Người dùng đang hỏi ChatGPT, Gemini và Perplexity những câu mà trước đây họ gõ vào Google. Khi một trong những công cụ này trả lời, nó thường dẫn vài nguồn — đôi khi ghi tên thương hiệu ngay trong câu, đôi khi gắn một liên kết nhỏ ở cuối đoạn. Câu hỏi mà mọi người làm marketing Việt nên đặt ra lúc này rất cụ thể: làm sao để website của bạn nằm trong số những nguồn được trích, thay vì đứng ngoài cuộc trong khi đối thủ được gọi tên?

Đây không phải một biến thể nhẹ của SEO. Cách một mô hình ngôn ngữ chọn nguồn để trích khác với cách Google xếp hạng mười liên kết xanh. Nhiều thứ vẫn trùng — nội dung tốt, website sạch về kỹ thuật, thương hiệu có uy tín — nhưng có một lớp yêu cầu mới nằm trên cùng: nội dung của bạn phải dễ trích, máy của các công cụ AI phải vào đọc được, và thực thể (entity) đại diện cho bạn phải đủ rõ để mô hình tin tưởng mà gọi tên.

Bài viết này là một playbook thực hành. Không lý thuyết suông, không hứa hẹn thứ chưa ai chứng minh. Mỗi mục là một việc bạn làm được ngay tuần này trên một website tiếng Việt, kèm cách kiểm tra xem nó đã chạy chưa.

Để được AI trích dẫn, hãy đáp thẳng câu hỏi trong một đoạn tự chứa ngay đầu nội dung, đặt số liệu kèm nguồn rõ, dựng uy tín thực thể nhất quán, và mở cho các bot AI vào đọc trang. Mô hình ưu tiên những đoạn ngắn, độc lập, trả lời đúng câu hỏi mà nó có thể trích nguyên văn — chứ không phải cả trang dài bạn bắt nó tự tóm tắt.

Vì sao "được AI trích dẫn" là một sân chơi riêng

Khi Google xếp hạng một trang, nó trả về liên kết và để người dùng tự bấm vào đọc. Bạn thắng nếu trang của bạn nằm trong top và tiêu đề đủ hấp dẫn để có người bấm. Khi một mô hình ngôn ngữ trả lời, cơ chế khác hẳn: nó đọc nhiều nguồn, tổng hợp thành một câu trả lời của riêng nó, rồi quyết định nguồn nào đáng nhắc tên. Người dùng đọc câu trả lời đó trước, và chỉ một phần nhỏ bấm vào nguồn.

Hệ quả là sân chơi đổi luật theo ba hướng. Thứ nhất, mô hình không trích cả trang — nó trích những đoạn trả lời gọn một câu hỏi cụ thể. Một bài 3.000 từ không có đoạn nào tự đứng được sẽ thua một câu trả lời rõ ràng dài 50 từ. Thứ hai, mô hình thiên về nguồn mà nó "tin" — tức là thực thể nó nhận ra, có dấu vết uy tín nhất quán trên nhiều nơi, không phải một website lạ chỉ tự khen mình. Thứ ba, nếu máy đọc nội dung của các công cụ AI không vào được trang của bạn, bạn đơn giản là vô hình với chúng, bất kể nội dung hay đến đâu.

Việc này có một cái tên đang dần phổ biến — GEO, tối ưu cho công cụ tạo sinh. Nếu bạn muốn nắm khái niệm nền và sự khác biệt căn bản giữa nó với SEO truyền thống trước khi đi vào kỹ thuật, hãy đọc bài GEO là gì và cách tối ưu cho công cụ AI. Phần còn lại của bài này tập trung vào việc tay chân: bạn gõ gì, sửa gì, kiểm tra gì để một trang cụ thể có cơ hội được trích.

Viết đoạn tự chứa: đơn vị mà mô hình thật sự trích

Đơn vị mà một mô hình ngôn ngữ trích không phải là website, không phải là bài, mà là đoạn. Cụ thể hơn: một đoạn văn ngắn trả lời trọn vẹn một câu hỏi mà không cần đọc đoạn nào khác. Trong các thử nghiệm nội bộ, những đoạn được trích lại nhiều nhất gần như luôn có cùng một hình dạng: một câu chốt khẳng định ở đầu, vài câu giải thích ngay sau, và không có đại từ mơ hồ kiểu "điều này", "như đã nói ở trên" buộc người đọc phải quay lại ngữ cảnh.

Hãy nghĩ theo cách này: nếu bạn copy một đoạn bất kỳ trong bài, dán nó ra một trang trắng, đưa cho người chưa đọc gì khác, họ có hiểu trọn nghĩa không? Nếu có, đó là một đoạn tự chứa và mô hình có thể trích nó an toàn. Nếu không, mô hình sẽ ngại trích vì nó không muốn dẫn ra một câu cụt nghĩa.

Công thức một đoạn dễ trích

Mỗi đoạn quan trọng trong bài nên theo nhịp ba phần. Mở bằng một câu chốt trả lời thẳng — đặt chủ thể và kết luận ngay câu đầu, không vòng vo dẫn nhập. Tiếp bằng phần giải thích ngắn nêu lý do hoặc cơ chế. Đóng bằng một chi tiết neo: một con số, một ví dụ, một ngoại lệ làm câu trả lời có sức nặng và đáng tin. Cấu trúc câu-chốt-trước này cũng chính là định dạng mà AI Overviews của Google thích đưa lên đầu; cách áp dụng riêng cho hộp trả lời của Google được nói kỹ trong bài tối ưu nội dung cho AI Overview của Google.

Một thói quen hỏng cần bỏ là viết kiểu "kể chuyện trì hoãn" — dẫn dắt ba câu rồi mới tới ý chính. Lối viết đó đọc mượt với người, nhưng với mô hình thì câu trả lời bị chôn ở giữa, khó cắt ra thành một trích dẫn sạch. Hãy đảo lại: ý chính lên trước, dẫn dắt (nếu cần) lùi xuống sau.

Dùng tiêu đề như một câu hỏi và đoạn ngay dưới như câu trả lời

Một mẫu rất hiệu quả là biến các h2 và h3 thành câu hỏi mà người dùng thật sự gõ — "được AI trích dẫn nghĩa là gì", "làm sao để Perplexity nhắc tên thương hiệu" — rồi để đoạn đầu tiên ngay dưới tiêu đề đó là một câu trả lời gọn 40–70 từ. Cặp tiêu-đề-câu-hỏi và đoạn-trả-lời này tạo ra những khối nội dung mà mô hình rất dễ ánh xạ vào câu hỏi của người dùng, vì nó khớp gần như một-một với cách người ta hỏi.

Sơ đồ so sánh đoạn văn khó trích kiểu kể chuyện trì hoãn với đoạn văn tự chứa có câu chốt đứng đầu mà ChatGPT, Gemini, Perplexity dễ trích dẫn — Cùng một ý, hai cách viết: đoạn bên trái chôn câu trả lời ở giữa nên khó cắt ra; đoạn bên phải đặt câu chốt lên đầu nên mô hình trích được nguyên văn.

Số liệu phải có nguồn — và phải gắn liền với câu nói

Mô hình ngôn ngữ thích những câu có dữ kiện cụ thể hơn những câu chung chung, nhưng nó cảnh giác với số liệu lửng lơ không ai chịu trách nhiệm. Một câu kiểu "70% doanh nghiệp tin rằng AI quan trọng" mà không kèm ai nói, năm nào, khảo sát bao nhiêu người — đó là loại số mà mô hình ngày càng ngại trích, vì nó không kiểm chứng được nguồn gốc.

Quy tắc thực hành rất đơn giản: mỗi khi bạn nêu một con số có thật, hãy gắn ngay nguồn của nó trong cùng câu hoặc câu liền kề — tên tổ chức công bố, năm, và nếu có thể là một liên kết. Cách viết "Theo báo cáo X năm 2025, tỷ lệ là Y" mạnh hơn nhiều lần so với một con số trần trụi, vì nó cho mô hình một sợi dây kiểm chứng. Khi mô hình tin được con số, nó sẵn sàng trích cả câu kèm tên bạn như nơi đã tổng hợp dữ kiện đó.

Có một cám dỗ cần tránh tuyệt đối ở đây: bịa số cho oai. Một con số nghe chính xác nhưng không có thật là rủi ro kép. Trước mắt nó làm hỏng uy tín với người đọc tinh ý; về lâu dài, khi các mô hình ngày càng giỏi đối chiếu chéo nhiều nguồn, một website hay đưa số không khớp với phần còn lại của internet sẽ bị hạ độ tin cậy. Nếu bạn không có số thật, hãy nói định tính trung thực — "thường thấy trong khoảng vài phần trăm", "phần lớn trường hợp" — thay vì phịa ra một con số đẹp.

Định nghĩa rõ và đặt đúng chỗ

Khi người dùng hỏi "X là gì", mô hình tìm một câu định nghĩa sạch để trích. Hãy tặng nó câu đó. Với mỗi thuật ngữ quan trọng trong lĩnh vực của bạn, viết một câu định nghĩa dạng "X là …" gọn gàng, đặt ngay khi thuật ngữ xuất hiện lần đầu, không bắt người đọc lội qua hai đoạn mới hiểu bạn đang nói gì. Một định nghĩa rõ ở đúng chỗ vừa giúp người đọc, vừa trở thành một ứng viên trích dẫn tự nhiên cho các câu hỏi dạng "là gì".

Uy tín thực thể và E-E-A-T: lý do mô hình dám gọi tên bạn

Mô hình không chỉ chọn đoạn nào hay nhất — nó còn cân nhắc nguồn nào đáng để gắn tên. Yếu tố quyết định ở đây là thực thể: con người, thương hiệu, hay tổ chức đứng sau nội dung. Mô hình trích thoải mái hơn từ một thực thể mà nó nhận diện được và thấy nhất quán trên nhiều nơi, so với một website ẩn danh chỉ tồn tại một mình.

Đây là chỗ bộ khung E-E-A-T — trải nghiệm, chuyên môn, thẩm quyền, độ tin cậy — chuyển từ một khẩu hiệu SEO mơ hồ thành việc làm cụ thể. Mô hình không "đọc" E-E-A-T như một điểm số; nó nhận tín hiệu từ dấu vết bạn để lại. Một bài có tên tác giả thật, có trang giới thiệu tác giả nêu rõ người đó là ai và làm gì, dẫn từ chính nội dung trải nghiệm thực tế — bài đó phát ra tín hiệu thẩm quyền mà một bài vô danh không có.

Việc cần làm để củng cố thực thể

Đặt tên tác giả thật và một trang giới thiệu tác giả. Nêu người đó là ai, kinh nghiệm gì, vì sao đáng tin trong chủ đề này. Liên kết bài về trang tác giả đó.
Giữ thông tin thương hiệu nhất quán ở mọi nơi. Tên doanh nghiệp, mô tả lĩnh vực, thông tin liên hệ trên website nên trùng khớp với những gì xuất hiện ở các hồ sơ khác của bạn trên internet. Sự nhất quán đó giúp mô hình ghép các mảnh lại thành một thực thể duy nhất thay vì vài bản rời rạc.
Dùng dữ liệu có cấu trúc khi hợp lý. Đánh dấu bài viết, tác giả, tổ chức bằng schema để máy đọc rõ ai viết gì, thuộc tổ chức nào. Đây là cách bạn nói trực tiếp với máy, không bắt nó đoán.
Để người khác xác nhận bạn. Được nhắc đến, dẫn lại, hay trích trên các nguồn khác bằng tiếng Việt là tín hiệu uy tín mạnh nhất — vì nó đến từ bên ngoài, không phải tự bạn nói.

Có một lý do sâu hơn để đầu tư vào việc được nhắc tên ở khắp nơi: trong thế giới AI, bản thân việc được trích đang trở thành một dạng thứ hạng mới. Càng nhiều nguồn đáng tin nhắc đến bạn, mô hình càng coi bạn là một thực thể có thẩm quyền đáng gọi tên. Logic này — vì sao "được nhắc đến" đang thay chỗ cho "được xếp hạng" — được phân tích kỹ trong bài trích dẫn là thứ hạng mới.

llms.txt: một chuẩn đề xuất, chưa phải lời hứa

Bạn có thể đã nghe về llms.txt — một tập tin văn bản đặt ở gốc website, nêu một bản đồ gọn những trang quan trọng nhất để các mô hình ngôn ngữ dễ hiểu nội dung cốt lõi của bạn. Ý tưởng tương tự robots.txt hay sitemap, nhưng nhắm vào mô hình AI thay vì bot tìm kiếm truyền thống.

Cần nói thẳng và trung thực: tính đến lúc này, llms.txt là một chuẩn được đề xuất, không phải một cam kết được mọi công cụ AI tuân theo. Không có gì bảo đảm ChatGPT, Gemini hay Perplexity sẽ đọc và hành động theo tập tin của bạn. Đừng để ai bán cho bạn ý tưởng rằng cứ thêm llms.txt là được AI trích nhiều hơn — chưa có bằng chứng vững cho điều đó.

Vậy có nên làm không? Quan điểm thực tế: chi phí tạo nó gần như bằng không, nó không gây hại, và nếu chuẩn này được chấp nhận rộng hơn trong tương lai thì bạn đã sẵn sàng. Hãy coi nó là một khoản đầu tư rẻ, đặt-rồi-quên, chứ không phải một đòn quyết định. Nội dung tự chứa, số liệu có nguồn, uy tín thực thể và việc mở cho bot vào đọc mới là phần mang lại kết quả ngay. llms.txt là phần thêm cho tương lai, làm với đúng kỳ vọng đó.

Mở cho bot AI vào đọc: bước kỹ thuật hay bị bỏ quên

Đây là sai lầm âm thầm phá hỏng mọi nỗ lực phía trên: bạn viết nội dung hoàn hảo, nhưng máy đọc nội dung của các công cụ AI bị website chặn ngoài cửa. Nếu bot không tải được trang, nó không có gì để trích — và bạn vô hình với chúng dù nội dung xuất sắc đến mấy.

Các công cụ AI dùng những user-agent thật để thu thập nội dung web, và đây là những cái tên có thật, không phải ví dụ bịa:

GPTBot — bot của OpenAI, liên quan tới hệ sinh thái ChatGPT.
ClaudeBot — bot của Anthropic, liên quan tới Claude.
PerplexityBot — bot của Perplexity.
Google-Extended — token mà Google dùng để kiểm soát việc nội dung của bạn có được dùng cho các sản phẩm AI tạo sinh của Google hay không.

Việc cần làm gồm hai bước. Thứ nhất, mở tập tin robots.txt của website và kiểm tra xem bạn có vô tình chặn những user-agent này không — nhiều website chặn do cấu hình mặc định hoặc do một plugin bảo mật, mà chủ website không hề biết. Nếu bạn muốn được AI trích, bạn phải cho phép các bot tương ứng vào đọc. Thứ hai, kiểm tra phía máy chủ và tường lửa: một số dịch vụ chống bot chặn các user-agent này ở tầng mạng, trước cả khi robots.txt có tiếng nói. Một trang web tiếng Việt chạy trên hạ tầng phổ biến rất hay dính bẫy này.

Đây là một quyết định kinh doanh, không thuần kỹ thuật. Có doanh nghiệp cố tình chặn một số bot AI vì lý do bản quyền nội dung — đó là lựa chọn hợp lệ. Nhưng nếu mục tiêu của bạn là được AI trích để tăng hiện diện thương hiệu, thì chặn bot là tự bắn vào chân. Hãy quyết định có ý thức, đừng để cấu hình mặc định quyết định thay bạn.

Danh sách kiểm tra năm bước để được AI trích dẫn: đoạn tự chứa, số liệu có nguồn, uy tín thực thể, mở robots.txt cho GPTBot ClaudeBot PerplexityBot Google-Extended, và llms.txt tùy chọn — Năm việc theo thứ tự ưu tiên. Bốn việc đầu tạo ra kết quả ngay; việc thứ năm là khoản đầu tư rẻ cho tương lai.

Kiểm tra xem bạn đã được trích chưa

Khác với thứ hạng Google, việc "được AI trích" khó đo bằng một bảng số gọn gàng, nhưng vẫn có cách theo dõi thực tế. Cách trực tiếp nhất là tự hỏi chính các công cụ đó những câu mà khách hàng của bạn sẽ hỏi, rồi xem câu trả lời có nhắc tên bạn, có dẫn link của bạn không. Hãy lập một danh sách 10–20 câu hỏi cốt lõi quanh sản phẩm và lĩnh vực, hỏi định kỳ trên ChatGPT, Gemini và Perplexity, ghi lại lần nào bạn xuất hiện.

Lưu ý quan trọng để khỏi tự lừa mình: câu trả lời của mô hình có yếu tố ngẫu nhiên, hỏi hai lần có thể ra hai kết quả hơi khác. Vì vậy đừng kết luận từ một lần hỏi. Hãy nhìn xu hướng theo thời gian — tỷ lệ lần được nhắc tăng hay giảm sau khi bạn cải thiện nội dung — thay vì một ảnh chụp khoảnh khắc. Một dấu hiệu gián tiếp khác đáng để ý: lưu lượng giới thiệu (referral) đến từ các tên miền của những công cụ AI, xem trong công cụ phân tích website của bạn. Lượng truy cập này thường nhỏ nhưng đang tăng dần, và nó là bằng chứng cứng rằng có người bấm từ một câu trả lời AI vào trang của bạn.

Một quy trình áp dụng được ngay trong tuần này

Gom tất cả lại thành một quy trình bạn chạy được trên một bài cụ thể, theo thứ tự ưu tiên từ việc cho kết quả nhanh nhất:

Mở cửa cho bot trước. Kiểm tra robots.txt và tường lửa, bảo đảm GPTBot, ClaudeBot, PerplexityBot, Google-Extended vào đọc được. Đây là việc một lần cho cả website và là điều kiện cần — không có nó thì mọi thứ khác vô nghĩa.
Viết một đoạn trả lời nhanh ngay đầu bài. Câu chốt đứng đầu, giải thích ngắn theo sau, trả lời thẳng câu hỏi chính. Đây là đoạn dễ được trích nhất trong cả bài.
Đổi tiêu đề thành câu hỏi, đoạn dưới thành câu trả lời tự chứa. Rà từng h2, h3 và viết lại đoạn ngay dưới sao cho nó tự đứng được khi tách rời.
Gắn nguồn cho mọi con số và viết định nghĩa rõ cho mọi thuật ngữ. Không số nào lửng lơ, không thuật ngữ nào chờ hai đoạn mới được giải nghĩa.
Củng cố thực thể. Tên tác giả thật, trang giới thiệu tác giả, thông tin thương hiệu nhất quán, schema cho bài và tác giả nếu làm được.
Thêm llms.txt như khoản đầu tư rẻ cho tương lai, với kỳ vọng đúng rằng nó chưa được cam kết tuân theo.
Đo và lặp. Hỏi các công cụ AI danh sách câu hỏi của bạn định kỳ, theo dõi xu hướng được nhắc tên, không kết luận vội từ một lần hỏi.

Điểm mấu chốt để ghi nhớ: bốn việc đầu tạo ra phần lớn kết quả. Mở cửa cho bot, viết đoạn tự chứa, gắn nguồn cho số liệu, và dựng uy tín thực thể — đó là cái lõi. Những thứ còn lại là tinh chỉnh. Đừng để llms.txt hay một mẹo kỹ thuật mới nào kéo bạn ra khỏi cái lõi đó.

Khi khối lượng vượt quá sức một đội nhỏ

Nếu đọc đến đây bạn thấy danh sách việc này nhân lên rất nhanh, bạn đã nhìn đúng vấn đề. Làm cho một bài thì dễ. Làm nhất quán cho hàng chục, hàng trăm trang — rà từng tiêu đề thành câu hỏi, viết lại từng đoạn cho tự chứa, gắn nguồn cho từng con số, kiểm tra định kỳ xem nội dung nào đang được trích nội dung nào không — đó là loại công việc có cấu trúc, lặp lại, dễ làm một đội marketing nhỏ kiệt sức trước khi thấy kết quả.

Đây chính là loại việc mà một AI agent làm SEO như Orova được sinh ra để gánh: phân tích nội dung theo từng đoạn để chỉ ra chỗ nào khó trích, đề xuất viết lại theo cấu trúc câu-chốt-trước, kiểm tra tính nhất quán của tín hiệu thực thể trên cả website, và theo dõi hiệu suất theo thời gian thay vì để bạn tự làm thủ công từng trang. Phán đoán về nội dung và uy tín vẫn là của bạn — agent loại bỏ phần khối lượng lặp đi lặp lại đã ngăn hầu hết các đội triển khai những nguyên tắc trong bài này ở quy mô lớn. Hãy bắt đầu từ một bài, làm đúng cái lõi bốn việc, rồi mở rộng khi bạn thấy nó hiệu quả.

Làm sao để ChatGPT, Gemini và Perplexity trích dẫn bạn

Vì sao "được AI trích dẫn" là một sân chơi riêng

Viết đoạn tự chứa: đơn vị mà mô hình thật sự trích

Công thức một đoạn dễ trích

Dùng tiêu đề như một câu hỏi và đoạn ngay dưới như câu trả lời

Số liệu phải có nguồn — và phải gắn liền với câu nói

Định nghĩa rõ và đặt đúng chỗ

Uy tín thực thể và E-E-A-T: lý do mô hình dám gọi tên bạn

Việc cần làm để củng cố thực thể

llms.txt: một chuẩn đề xuất, chưa phải lời hứa

Mở cho bot AI vào đọc: bước kỹ thuật hay bị bỏ quên

Kiểm tra xem bạn đã được trích chưa

Một quy trình áp dụng được ngay trong tuần này

Khi khối lượng vượt quá sức một đội nhỏ

Để AI Agent lo SEO cho bạn

Vì sao "được AI trích dẫn" là một sân chơi riêng

Viết đoạn tự chứa: đơn vị mà mô hình thật sự trích

Công thức một đoạn dễ trích

Dùng tiêu đề như một câu hỏi và đoạn ngay dưới như câu trả lời

Số liệu phải có nguồn — và phải gắn liền với câu nói

Định nghĩa rõ và đặt đúng chỗ

Uy tín thực thể và E-E-A-T: lý do mô hình dám gọi tên bạn

Việc cần làm để củng cố thực thể

llms.txt: một chuẩn đề xuất, chưa phải lời hứa

Mở cho bot AI vào đọc: bước kỹ thuật hay bị bỏ quên

Kiểm tra xem bạn đã được trích chưa

Một quy trình áp dụng được ngay trong tuần này

Khi khối lượng vượt quá sức một đội nhỏ

Để AI Agent lo SEO cho bạn

Bài liên quan