File llms.txt là gì và website Việt có cần không?

Khoảng một năm trở lại đây, trong các nhóm SEO Việt Nam bắt đầu xuất hiện một câu hỏi lặp đi lặp lại: "website mình đã có file llms.txt chưa?". Có người khẳng định đây là chuẩn mới bắt buộc của kỷ nguyên AI, không làm ngay thì mất hết cơ hội xuất hiện trên ChatGPT. Có agency đã đưa "triển khai llms.txt" vào báo giá dịch vụ như một hạng mục riêng. Ngược lại, cũng có những bạn làm kỹ thuật khẳng định chắc nịch rằng đây chỉ là trào lưu, thêm vào cũng chẳng để làm gì.

Điều đáng nói là cả hai phía thường tranh luận mà chưa nắm đúng bản chất của file này: nó do ai đề xuất, nó được thiết kế để giải quyết vấn đề gì, và quan trọng nhất — các công cụ AI lớn như Google, OpenAI, Anthropic hay Perplexity hiện có thực sự đọc nó hay không. Khi thiếu mấy dữ kiện nền đó, mọi lời khuyên "nên làm ngay" hay "khỏi cần làm" đều chỉ là cảm tính.

Bài viết này dành cho chủ website và người làm marketing tại Việt Nam: giải thích llms.txt là gì bằng ngôn ngữ dễ hiểu, nói thẳng sự thật về mức độ chấp nhận của các công cụ AI lớn, phân tích website Việt có cần hay không và cần ở mức độ nào, kèm hướng dẫn tạo file đúng cách nếu bạn quyết định làm. Tinh thần xuyên suốt: trung thực với bằng chứng, không thổi phồng, không dìm hàng.

llms.txt là một file văn bản dạng markdown đặt ở thư mục gốc website, do cộng đồng đề xuất năm 2024, nhằm tóm tắt nội dung quan trọng của site cho các mô hình AI đọc. Đây mới là chuẩn đề xuất: chưa có công cụ AI lớn nào — Google, OpenAI, Anthropic hay Perplexity — cam kết sử dụng. Website Việt có thể làm vì chi phí thấp, nhưng không nên ưu tiên trước các việc quan trọng hơn.

llms.txt là gì và ra đời từ đâu

llms.txt là một đề xuất do Jeremy Howard — đồng sáng lập công ty nghiên cứu AI Answer.AI, một nhân vật có uy tín lâu năm trong cộng đồng machine learning — đưa ra vào tháng 9 năm 2024. Ý tưởng xuất phát từ một quan sát rất thực tế: các mô hình ngôn ngữ lớn (LLM) ngày càng hay phải đọc trực tiếp các trang web để trả lời câu hỏi của người dùng, nhưng trang web hiện đại lại được xây cho trình duyệt và con người, không phải cho máy.

Hãy hình dung một trang bài viết điển hình của website Việt Nam: phần nội dung thật sự có khi chỉ vài trăm đến vài nghìn chữ, nhưng bao quanh nó là menu điều hướng, banner quảng cáo, khối bài viết liên quan, footer dài dằng dặc, popup thu thập Zalo/email, mã JavaScript theo dõi. Khi một AI phải đọc trang đó trong vài giây để trả lời người dùng, nó tốn phần lớn "ngân sách đọc" (context window) vào những thứ rác đó thay vì vào nội dung. Đôi khi nó còn trích nhầm — ai từng thấy AI quote nguyên văn dòng "Chấp nhận cookie để tiếp tục" như thể đó là nội dung bài viết thì hiểu vấn đề.

Giải pháp mà llms.txt đề xuất rất đơn giản: website tự cung cấp một bản tóm tắt sạch, không rác, đặt tại địa chỉ cố định tenmiencuaban.com/llms.txt. File viết bằng markdown — định dạng văn bản thuần mà cả người và máy đều đọc dễ — với cấu trúc quy ước như sau: một dòng tiêu đề H1 ghi tên website hay doanh nghiệp; một đoạn blockquote tóm tắt ngắn gọn website nói về cái gì; sau đó là các mục H2 chứa danh sách link đến những trang quan trọng nhất, mỗi link kèm một câu mô tả; cuối cùng có thể thêm mục "Optional" cho các link phụ, để AI nào ít thời gian có thể bỏ qua.

Đề xuất còn có phần mở rộng: file llms-full.txt gom toàn bộ nội dung quan trọng của site vào một tài liệu văn bản lớn duy nhất, và quy ước thêm đuôi .md vào URL từng trang để lấy bản markdown sạch của trang đó. Có thể hiểu nôm na: llms.txt là mục lục có chọn lọc, còn llms-full.txt là cả cuốn sách bản chữ thuần.

Phân biệt cho đúng: llms.txt không phải robots.txt, không phải sitemap

Đây là chỗ nhiều người Việt nhầm nhất, nên cần tách bạch rõ ràng ba file thường bị gọi chung là "mấy file kỹ thuật ở thư mục gốc".

robots.txt là file phân quyền: nó nói với các bot rằng được phép hay không được phép thu thập trang nào. Các bot AI lớn — GPTBot của OpenAI, ClaudeBot của Anthropic, PerplexityBot — về nguyên tắc tuân thủ file này. Muốn chặn hay cho phép AI thu thập nội dung, bạn làm việc với robots.txt, không phải llms.txt. (Các bot này là ai, vào site bạn để làm gì, chặn cái nào mất cái gì — chúng tôi đã có bài hướng dẫn nhận diện đầy đủ các AI crawler riêng.)

sitemap.xml là bản kê khai đầy đủ mọi URL trên site cho công cụ tìm kiếm, càng đủ càng tốt, máy đọc chứ người không đọc. Google đã cam kết đọc sitemap từ gần hai mươi năm nay — đó là lý do ai cũng làm.

llms.txt không cấp quyền cũng không kê khai. Nó là một bản giới thiệu có chọn lọc — giống brochure công ty hơn là sổ đỏ hay danh bạ. Nó không chặn được AI nào, không bảo vệ được nội dung nào, và ngược lại cũng không "mở cửa" thêm cho AI nào cả: bot vẫn đọc HTML của bạn bình thường dù có hay không có file này. Nó chỉ là một lời mời: "nếu bạn là AI và muốn hiểu nhanh site này, đọc bản tóm tắt này cho đỡ mất công".

Sơ đồ phân biệt ba file ở thư mục gốc website: robots.txt phân quyền cho bot, sitemap.xml kê khai toàn bộ URL cho công cụ tìm kiếm, llms.txt là bản tóm tắt chọn lọc đề xuất cho AI đọc nhưng chưa công cụ lớn nào cam kết dùng

Sự thật quan trọng nhất: chưa công cụ AI lớn nào cam kết đọc nó

Đây là đoạn mà mọi người bán dịch vụ llms.txt thường nói lướt qua, nhưng nó là dữ kiện quyết định mọi lời khuyên phía sau, nên cần nói thẳng và đầy đủ.

Tính đến giữa năm 2026: Google chưa dùng llms.txt — không cho Search, không cho AI Overviews, không cho Gemini. Đại diện Google là John Mueller còn công khai so sánh file này với thẻ meta keywords — thứ metadata tự khai mà công cụ tìm kiếm đã học cách bỏ qua từ hàng chục năm trước vì ai cũng nhồi nhét. OpenAI chưa công bố ChatGPT hay các crawler của họ đọc file này. Anthropic có tự đăng llms.txt cho trang tài liệu của chính họ — nghĩa là họ thấy định dạng này tiện cho tài liệu của mình — nhưng chưa hề cam kết bot của họ sẽ đọc file đó trên website của bạn. Perplexity cũng chưa công bố gì. Nhiều người làm SEO trên thế giới đã phân tích log máy chủ và ghi nhận: các bot AI hầu như không tự động request file llms.txt.

Tóm lại một câu: phía đăng file thì đông, phía đọc file thì im lặng. Hàng nghìn website đã có llms.txt, nhưng chưa có bằng chứng công khai nào cho thấy các công cụ AI lớn tiêu thụ nó. Vì vậy, mọi lời quảng cáo kiểu "có llms.txt sẽ được ChatGPT trích dẫn nhiều hơn" hay "không có llms.txt sẽ biến mất khỏi AI Overview" đều đi trước bằng chứng. Ai nói với bạn như vậy, bạn có quyền hỏi lại: "công cụ nào đã cam kết đọc, anh/chị cho em xin nguồn".

Vì sao các công cụ lớn ngần ngại? Lý do dễ đoán nhất nằm ở bài học meta keywords: llms.txt là nội dung tự khai, không qua kiểm chứng. Website hoàn toàn có thể viết trong llms.txt những điều khác xa nội dung thật — nhồi từ khóa, tự nhận "số 1 Việt Nam", dẫn link đến trang nói chuyện khác. Một khi công cụ AI ưu tiên đọc file tự khai, file đó sẽ bị lạm dụng ngay lập tức, và các công cụ đã mất hai mươi lăm năm học cách tin vào nội dung tự trích xuất hơn là tin lời tự giới thiệu. Có thể tương lai họ sẽ chấp nhận đánh đổi để tiết kiệm chi phí đọc trang, có thể sẽ có cơ chế kiểm chứng kèm theo — nhưng đó là chuyện tương lai, chưa phải hiện tại.

Vậy website Việt có cần làm không? Trả lời theo từng nhóm

Với dữ kiện trên, câu trả lời đúng không phải "có" hay "không" chung chung, mà tùy bạn thuộc nhóm nào.

Nhóm nên làm: website tài liệu, sản phẩm công nghệ, SaaS

Nếu bạn có trang tài liệu hướng dẫn (docs), sản phẩm phần mềm, API cho lập trình viên — llms.txt đáng làm ngay, vì có một nhóm người dùng thật đang hưởng lợi hôm nay: những người dùng AI có chủ đích. Lập trình viên Việt Nam giờ thường xuyên dán link tài liệu vào trợ lý AI và yêu cầu đọc; các AI agent được con người chỉ định "vào site này tìm hiểu" cũng ngày càng nhiều, và nhiều framework agent có thói quen kiểm tra llms.txt trước. Khi đó, file tóm tắt sạch sẽ của bạn được đọc thật, giúp AI nắm đúng sản phẩm thay vì tự mò qua menu. Lợi ích này không phụ thuộc việc Google hay OpenAI có cam kết hay không.

Nhóm làm cũng được: website nội dung, doanh nghiệp vừa và nhỏ

Với blog, website doanh nghiệp, trang dịch vụ thông thường — llms.txt là tấm vé số giá rẻ. Chi phí thật sự chỉ là một buổi làm việc; rủi ro gần như bằng không; lợi ích hiện tại gần như bằng không; lợi ích tương lai là dấu hỏi. Nếu đội của bạn đã làm xong những việc quan trọng hơn (nói ngay bên dưới) và còn dư một buổi chiều, cứ làm — như mua bảo hiểm giá vài chục nghìn. Nhưng đừng để nó chen vào trước bất kỳ việc nào có bằng chứng hiệu quả, và tuyệt đối đừng trả tiền triệu cho dịch vụ "triển khai chuẩn llms.txt" như một hạng mục lớn.

Nhóm chưa cần nghĩ tới: website đang yếu nền tảng

Nếu website của bạn còn chậm, nội dung mỏng, cấu trúc heading lộn xộn, chưa có schema, bài viết chưa trả lời thẳng câu hỏi người dùng — llms.txt là việc cuối cùng nên nghĩ tới. Lý do đơn giản: thứ các AI engine thực sự đọc hôm nay là HTML của bạn, và nếu HTML đó khó đọc thì một file tóm tắt không cứu được. Sửa cái máy đang chạy trước khi gắn thêm phụ kiện cho cái máy chưa ai bật.

Những việc nên làm trước llms.txt — vì chúng có bằng chứng

Đây là phần quan trọng nhất với website Việt, vì nó trả lời câu hỏi "vậy muốn xuất hiện trên AI thì làm gì?". Khác với llms.txt, những việc dưới đây tác động đến cơ chế mà các công cụ AI đã và đang dùng thật.

Một — nội dung trả lời thẳng. AI Overviews của Google và các answer engine lấy câu trả lời theo từng đoạn văn. Mỗi bài viết nên có đoạn trả lời trực tiếp 40–60 chữ ngay sau mở bài, heading đặt theo câu hỏi thật của người Việt, mỗi mục đi thẳng vào ý chính ở câu đầu. Cách viết này chúng tôi đã hướng dẫn chi tiết trong bài tối ưu nội dung cho AI Overview của Google.

Hai — HTML sạch và nội dung nằm trong HTML. Nội dung chính phải có sẵn trong mã nguồn trang, không phụ thuộc JavaScript render sau; heading đúng thứ bậc; phần thân bài tách bạch khỏi menu, quảng cáo, widget. Đây chính là vấn đề mà llms.txt muốn giải quyết — nhưng giải ở gốc thì mọi bot đều hưởng, kể cả Googlebot.

Ba — schema markup. Dữ liệu có cấu trúc là loại "metadata tự khai" hiếm hoi mà công cụ tìm kiếm đã cam kết đọc — tương phản hoàn toàn với llms.txt. Organization, Article, FAQ, Product: làm đúng và đủ.

Bốn — hiểu cuộc chơi AI search một cách hệ thống. Việc được AI nhắc tên và trích dẫn có cả một hệ phương pháp — từ cấu trúc nội dung, củng cố thực thể thương hiệu, đến hiện diện trên các nguồn bên thứ ba mà AI tin tưởng. Toàn bộ khung này nằm trong cẩm nang Generative Engine Optimization (GEO) của chúng tôi; còn nếu bạn mới bắt đầu tìm hiểu vì sao kết quả AI của Google lại quan trọng với thị trường Việt, hãy đọc trước bài AI Overview là gì và vì sao website Việt cần quan tâm.

Làm xong bốn việc đó, bạn đã phủ hơn chín phần mười những gì một website Việt có thể chủ động làm cho khả năng hiển thị trên AI. Lúc ấy llms.txt mới đến lượt — như một nét hoàn thiện, không phải nền móng.

Bảng ưu tiên cho website Việt: làm trước gồm nội dung trả lời thẳng, HTML sạch, schema markup, chiến lược GEO có bằng chứng; làm sau là llms.txt một buổi chiều, chuẩn đề xuất chưa engine lớn nào cam kết đọc

Hướng dẫn tạo llms.txt đúng cách (nếu bạn quyết định làm)

Với những ai đã cân nhắc và quyết định dành một buổi chiều, đây là cách làm chuẩn, tránh các lỗi phổ biến.

Bước 1 — chọn lọc, đừng liệt kê. Mở danh sách toàn bộ trang trên site và chọn ra 10–30 trang định nghĩa doanh nghiệp của bạn: trang giới thiệu, trang sản phẩm/dịch vụ chính, bảng giá, các bài viết trụ cột, trang liên hệ. Toàn bộ giá trị của llms.txt nằm ở sự chọn lọc — đổ cả sitemap vào là phá hỏng đúng cái ý tưởng của file.

Bước 2 — viết phần tóm tắt như thể nó sẽ bị trích nguyên văn. Đoạn blockquote đầu file nên là 2–3 câu khẳng định trần trụi: bạn là ai, phục vụ ai, cung cấp cái gì. Viết bằng ngôn ngữ mà nếu một AI đọc nguyên văn cho khách hàng nghe, bạn vẫn thấy chính xác và không ngượng. Bỏ hết "hàng đầu", "số 1", "uy tín nhất" — mô hình AI ngày càng biết chiết khấu các từ tự phong, và tệ hơn, có thể bỏ qua cả đoạn vì coi đó là quảng cáo.

Bước 3 — mô tả mỗi link bằng một câu sự thật. Ví dụ: "Bảng giá: các gói dịch vụ và chi phí theo tháng" tốt hơn "Khám phá mức giá hấp dẫn không thể bỏ lỡ". Trang nào tiếng Việt ghi mô tả tiếng Việt, trang tiếng Anh ghi tiếng Anh — đúng ngôn ngữ của nội dung thật.

Bước 4 — đặt file và kiểm tra. Lưu thành file văn bản thuần tên llms.txt, upload vào thư mục gốc sao cho truy cập được tại tenmien.com/llms.txt, trả về dạng text. WordPress có thể upload qua trình quản lý file của hosting; website code tay thì đặt cạnh robots.txt. Mở bằng trình duyệt kiểm tra hiển thị đúng, không bị chuyển hướng, không bị lỗi font tiếng Việt (file nên lưu UTF-8).

Bước 5 — gắn lịch bảo trì. Đây là bước hay bị bỏ và là rủi ro thật duy nhất của llms.txt: file lỗi thời còn tệ hơn không có file. Đổi bảng giá, đổi tên sản phẩm, gỡ trang cũ — phải sửa llms.txt theo, vì kịch bản duy nhất file này được đọc chính là kịch bản bạn cần nó chính xác. Một AI đọc bản tự giới thiệu cũ ba năm rồi thuật lại cho khách hàng của bạn — đó là tự mình tung tin sai về mình. Thêm một dòng "rà soát llms.txt" vào checklist hàng quý của website là đủ.

Trả lời nhanh các câu hỏi thường gặp

Có llms.txt thì thứ hạng Google có tăng không? Không. Google không đọc file này, nên nó không phải yếu tố xếp hạng, không ảnh hưởng SEO truyền thống theo bất kỳ hướng nào.

Có llms.txt thì ChatGPT sẽ trích dẫn site mình nhiều hơn? Chưa có bằng chứng. Việc được trích dẫn phụ thuộc nội dung có truy xuất được, có trả lời thẳng, có được nguồn khác xác nhận hay không — không phụ thuộc file này.

llms.txt có chặn được AI lấy nội dung của mình không? Hoàn toàn không. Muốn quản lý quyền truy cập của bot AI, dùng robots.txt và các công cụ chặn ở tầng CDN/máy chủ — và bản thân việc chặn hay mở cũng là một quyết định kinh doanh cần cân nhắc kỹ chứ không nên làm theo phong trào.

Website thuần tiếng Việt có thiệt thòi gì với llms.txt không? Không có gì đặc thù: định dạng là markdown thuần, tiếng Việt hiển thị bình thường nếu lưu UTF-8. Vấn đề của website Việt không nằm ở ngôn ngữ của file, mà ở việc phần lớn site Việt còn chưa làm xong các nền tảng quan trọng hơn.

Nếu sau này các engine lớn công bố hỗ trợ thì sao? Thì bạn làm trong một buổi chiều, như mọi người khác, và không hề muộn — vì lợi thế khi đó thuộc về site có nội dung sạch và có cấu trúc, không thuộc về site nộp file sớm nhất. Đó cũng là lý do thứ tự ưu tiên trong bài này xếp nền tảng trước, llms.txt sau.

Kết: làm vì hiểu, đừng làm vì sợ

llms.txt là một ý tưởng hợp lý, chi phí thấp, xuất phát từ một vấn đề có thật — và hiện vẫn là chuẩn đề xuất chưa được công cụ AI lớn nào cam kết sử dụng. Website Việt không cần hoảng hốt chạy theo, cũng không cần dè bỉu. Câu trả lời trưởng thành là: hiểu đúng nó là gì, xếp nó đúng chỗ trong danh sách ưu tiên — sau nội dung trả lời thẳng, HTML sạch, schema và chiến lược GEO bài bản — rồi làm nó trong một buổi chiều khi đến lượt, với phần tóm tắt viết cẩn thận và lịch rà soát định kỳ. Đừng trả tiền cho nỗi sợ, và đừng để một file markdown nhỏ chiếm chỗ của những việc đang thực sự quyết định khả năng website bạn xuất hiện trước khách hàng trong kỷ nguyên AI.

Còn việc theo dõi xem các công cụ AI có bắt đầu đọc llms.txt không, bot nào đang vào site bạn, nội dung nào đang được AI trích dẫn — đó là loại công việc giám sát liên tục mà con người làm thủ công rất nhanh nản; Orova được xây để tự động hóa chính phần đó, theo dõi hiển thị của website bạn trên cả Google lẫn các công cụ AI và báo lại bằng số liệu thật, để các quyết định kiểu "có cần llms.txt không" luôn được trả lời bằng dữ liệu của chính bạn.