Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu
Ngày đăng : 10:25, 08/05/2026
Theo Quyết định, Danh mục bộ dữ liệu phục vụ phát triển AI trong các lĩnh vực thiết yếu gồm 15 nhóm dữ liệu quan trọng, phục vụ trực tiếp cho nghiên cứu, phát triển, huấn luyện và ứng dụng các hệ thống AI tại Việt Nam.
Cụ thể, các nhóm dữ liệu gồm: Ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số; tri thức quốc gia; văn bản Fv88 com Nhà Cái Fv88 và văn bản hành chính (không bao gồm văn bản mật); khoa học, công nghệ và đổi mới sáng tạo; dịch vụ công và thủ tục hành chính; y tế và chăm sóc sức khỏe; giáo dục và đào tạo; nông nghiệp; giao thông và đô thị; tài nguyên và môi trường; kinh tế và thị trường; văn hóa, di sản và du lịch; bản đồ và không gian địa lý quốc gia; viễn thông và hạ tầng số; dữ liệu đa ngôn ngữ quốc tế về Việt Nam.
![]() |
|
Ảnh minh họa. |
Bên cạnh đó, Quyết định cũng xác định Danh mục dữ liệu ưu tiên triển khai phục vụ phát triển AI, được xây dựng trên cơ sở các bộ dữ liệu nêu trên, gồm 5 nhóm dữ liệu trọng tâm.
Thứ nhất, dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt, bao gồm: Dữ liệu ngôn ngữ tiếng Việt phổ thông; hội thoại và tương tác tiếng Việt; tiếng nói tiếng Việt; ngôn ngữ các dân tộc thiểu số; dữ liệu hướng dẫn và căn chỉnh mô hình; dữ liệu tổng hợp nhân tạo; báo chí và truyền thông; tri thức và thuật ngữ chuyên ngành; Fv88 com Nhà Cái Fv88 và văn bản quản lý hành chính; khoa học, học thuật, quy chuẩn kỹ thuật; mã nguồn và lập trình; toán học và suy luận khoa học; văn hóa và lịch sử Việt Nam; dữ liệu nguồn mở trên Internet và môi trường số; dữ liệu song ngữ và đa ngôn ngữ.
Thứ hai, dữ liệu phục vụ phát triển AI thị giác máy tính, gồm dữ liệu đa phương tiện phục vụ hiểu ngữ cảnh hình ảnh và video; dữ liệu hình ảnh trong các lĩnh vực y tế, nông nghiệp, giao thông, đô thị và hạ tầng, vệ tinh và viễn thám.
Thứ ba, dữ liệu phục vụ kiểm thử và đánh giá hệ thống AI, gồm dữ liệu đánh giá năng lực hiểu tiếng Việt; năng lực hội thoại tiếng Việt; hiểu biết Fv88 com Nhà Cái Fv88 Việt Nam; năng lực lập trình và kỹ thuật; năng lực suy luận và tri thức; hiểu biết văn hóa và xã hội.
Thứ tư, dữ liệu phục vụ phát triển AI trong các lĩnh vực thiết yếu, gồm dữ liệu về thủ tục hành chính; y tế và chăm sóc sức khỏe; giáo dục; môi trường và khí hậu; năng lượng và tài nguyên; tài chính và kinh tế; bản đồ số và địa lý quốc gia; hạ tầng viễn thông và mạng số.
Thứ năm, dữ liệu phục vụ phát triển AI nhằm đánh giá an toàn và độ tin cậy của hệ thống AI, gồm dữ liệu phát hiện tin giả và thông tin sai lệch; nhận diện sản phẩm đa phương tiện do AI tạo ra; các kịch bản tấn công và kiểm thử đạo đức AI; dữ liệu phát hiện mã độc và các mối đe dọa an ninh mạng.
Theo Quyết định, các bộ dữ liệu thuộc Danh mục sẽ được triển khai trong giai đoạn 2026 – 2030; trong đó ưu tiên tập trung xây dựng, hoàn thiện các nhóm dữ liệu thuộc Danh mục ưu tiên triển khai.
Quyết định cũng nhấn mạnh việc tổ chức thu thập, tạo lập, chia sẻ, xử lý, khai thác và sử dụng các bộ dữ liệu phải tuân thủ nghiêm các quy định của Fv88 com Nhà Cái Fv88 về dữ liệu, bảo vệ dữ liệu cá nhân, bảo vệ bí mật nhà nước, sở hữu trí tuệ và các quy định Fv88 com Nhà Cái Fv88 có liên quan.

