CHLB ĐỨC – Nhiều tập đoàn lớn hiện nay đang đối mặt với một vấn đề chung: sở hữu lượng dữ liệu lớn, nhưng việc đưa ra các quyết định đáng tin cậy từ khối dữ liệu đó lại ngày càng khó khăn. Nguyên nhân không nằm ở công nghệ. Khả năng lưu trữ, năng lực tính toán, điện toán đám mây, các mô hình công nghệ trí tuệ nhân tạo (AI – artificial intelligence), tất cả đều đã có. Vấn đề thực sự nằm ngoài ranh giới công nghệ: ý nghĩa của dữ liệu đang bị thiếu hụt.
Mô hình AI dựa trên tác nhân (agent) chỉ trở nên đáng tin cậy khi được xây dựng trên nền tảng ngữ nghĩa thống nhất và cơ chế quản trị chặt chẽ, giúp doanh nghiệp đi từ dữ liệu rời rạc đến vận hành tự động an toàn, minh bạch.
Dữ liệu được tạo ra trong nhiều năm, trải rộng khắp các phòng ban chuyên môn, dự án và hệ thống khác nhau. Mỗi hệ thống đều có giá trị riêng, mỗi mô hình dữ liệu đều được tối ưu cục bộ. Điều còn thiếu là một bối cảnh chung: – Chính xác thì “tài sản” (asset) là gì? Và khái niệm này có giống nhau ở mọi nơi hay không? – Khi nào hai đối tượng được xem là giống nhau, tương tự nhau, hay chỉ tình cờ trùng tên? – Các góc nhìn kỹ thuật, tổ chức và chuyên môn có mối liên hệ với nhau như thế nào? – Những quy tắc nào đang được áp dụng ngầm, và chúng được ghi lại ở đâu?
Câu trả lời cho các câu hỏi này quyết định việc phân tích có thể tái lập (reproducible) (*) hay không, tự động hóa có khả thi hay không, và các hệ thống AI có thể vận hành một cách đáng tin cậy hay không. Đây chính là lúc ngữ nghĩa (semantics) phát huy vai trò. Ngữ nghĩa không đơn thuần là “một mô hình dữ liệu khác”, mà là việc làm rõ ý nghĩa, mô tả các khái niệm, mối quan hệ, quy tắc, bối cảnh và phạm vi hiệu lực của chúng. (*) Phân tích có thể tái lập: nghĩa là quy trình phân tích được thực hiện theo cách thức mà bất kỳ ai (hoặc chính người thực hiện ở một thời điểm khác) cũng có thể lặp lại toàn bộ các bước với cùng dữ liệu đầu vào và thu được kết quả tương tự. Điều này yêu cầu mọi thao tác, thuật toán và nguồn dữ liệu phải được ghi nhận đầy đủ, minh bạch và không phụ thuộc vào các bước xử lý thủ công khó theo dõi. Khả năng tái lập là nền tảng để đảm bảo tính nhất quán của kết quả, cho phép tự động hóa và giúp các hệ thống AI vận hành ổn định trên những quy trình phân tích rõ ràng.
Trong thực tế, mức độ thiếu hụt ngữ nghĩa tăng lên cùng với quy mô và mức độ quản lý, tuân thủ của tổ chức. Hệ quả là chi phí phát sinh cũng gia tăng, dưới dạng điều phối thủ công, logic đặc thù, các ngoại lệ và sự bất định.
Vì sao các kiến trúc dữ liệu truyền thống không còn đủ khả năng đáp ứng nhu cầu nữa Nhiều doanh nghiệp đã phản ứng bằng cách xây dựng kho dữ liệu (data warehouse) (1), hồ dữ liệu (data lake) (2), mạng lưới dữ liệu (data mesh), danh mục dữ liệu hay hệ thống quản lý siêu dữ liệu (metadata). Đây đều là những bước đi quan trọng. Tuy nhiên, chúng chỉ giải quyết một phần vấn đề, bởi các kiến trúc truyền thống chủ yếu trả lời những câu hỏi sau: – Dữ liệu nằm ở đâu? – Ai được phép sử dụng dữ liệu? – Dữ liệu được cấu trúc như thế nào? (1) Data warehouse: chứa dữ liệu đã được cấu trúc (dạng bảng, hàng, cột như excel). (2) Data lake: chứa tất cả các loại dữ liệu bao gồm thô, chưa cấu trúc (văn bản, hình ảnh, video) và có cấu trúc.
Trong khi đó, chúng chưa trả lời đầy đủ các câu hỏi cốt lõi hơn: – Dữ liệu có ý nghĩa gì? – Chúng liên quan với nhau như thế nào về mặt nội dung? – Những quy tắc ngầm (*) nào đang được áp dụng, và chúng có nhất quán hay không? (*) Quy tắc ngầm: là những quy ước hoặc logic nghiệp vụ mà con người tự hiểu khi làm việc với dữ liệu nhưng không được mô tả rõ ràng trong hệ thống. Nếu không được ghi nhận dưới dạng quy tắc chính thức, máy tính, workflow tự động hay các mô hình AI sẽ không thể nhận biết và áp dụng chúng, dẫn đến phân tích thiếu nhất quán và khó tự động hóa.
Điều này trở thành rào cản lớn, đặc biệt đối với phân tích nâng cao, tự động hóa và công nghệ AI. Một mô hình ngôn ngữ lớn (LLM – large language model) hay một tác nhân AI (AI agent) (1) có thể rất giỏi trong việc đọc văn bản, lập kế hoạch và sử dụng công cụ. Nhưng nếu không có ngữ nghĩa được mô tả rõ ràng, độ tin cậy sẽ không được đảm bảo. Nói cách khác, không có tầng ngữ nghĩa (semantic layer) (2), công nghệ AI có thể ấn tượng nhưng không bền vững. (1) AI agent: là một chương trình phần mềm cụ thể được cung cấp các công cụ và mục tiêu để thực hiện nhiệm vụ. Cách hoạt động: thường hoạt động theo yêu cầu của con người, AI agent dùng công cụ để làm việc đó. (2) Semantic layer: đây là một “cuốn từ điển” nằm giữa dữ liệu thô và công nghệ AI. Nó giúp chuyển hóa những con số khô khan thành những khái niệm kinh doanh mà công nghệ AI có thể hiểu đúng 100%.
Tầng ngữ nghĩa – lớp còn thiếu Tầng ngữ nghĩa là một lớp trung tâm trong các kiến trúc dữ liệu và công nghệ AI hiện đại. Không phải dưới dạng một “mô hình tổng thể” cứng nhắc, mà là một hệ thống ngữ nghĩa sống động, bao gồm: – Các hệ thống tri thức, phân loại, từ vựng – Đồ thị tri thức (knowledge graph) (*) – Các quy tắc và điều kiện – Tham chiếu đến các tiêu chuẩn và quy phạm – Liên kết giữa dữ liệu có cấu trúc và phi cấu trúc (*) Knowledge graph: chính là “bộ não” giúp công nghệ AI kết nối các thông tin rời rạc thành một mạng lưới hiểu biết có ý nghĩa. Ví dụ: nếu một cơ sở dữ liệu truyền thống là một bảng tính excel khô khan, thì đồ thị tri thức là một mạng lưới các mối quan hệ giống như cách con người tư duy.
Điểm then chốt là tầng ngữ nghĩa kết nối tri thức của con người với khả năng xử lý của máy móc. Nó đóng vai trò là cầu nối giữa chuyên môn và công nghệ thông tin, giữa tài liệu và cơ sở dữ liệu, giữa quy tắc và ngoại lệ, cũng như giữa quá khứ (các hệ thống hiện hữu) và tương lai (tự động hóa).
Tuy nhiên, đây cũng chính là nơi nhiều tổ chức chạm tới giới hạn của mình. Bởi ngữ nghĩa thường phức tạp để mô hình hóa, khó duy trì tính nhất quán, phụ thuộc nhiều vào từng lĩnh vực chuyên môn và trong lịch sử thường được ghi chép không đầy đủ. Đây là lúc agentic AI (*) xuất hiện. (*) Agentic AI: là một hệ thống có tính tự chủ cao, nơi công nghệ AI không chỉ phản hồi mà còn có khả năng tự suy luận, lập kế hoạch đa bước và tự sửa lỗi mà không cần sự can thiệp liên tục của con người. Cách hoạt động: 1. Lập kế hoạch, tự chia mục tiêu lớn thành các bước nhỏ. 2. Thực hiện, sử dụng các AI agent nhỏ hơn để làm việc. 3. Phê bình: tự kiểm tra xem kết quả có đúng không, nếu sai thì làm lại.
Agentic AI liên quan gì đến ngữ nghĩa? Agentic AI thường được nhắc đến với các đặc tính như tính tự chủ, khả năng lập kế hoạch và sử dụng công cụ. Tuy nhiên, công ty Alexander Thamm (của CHLB Đức) đã nhìn thấy giá trị cốt lõi của agentic AI ở một khía cạnh khác: khả năng mở rộng công việc ngữ nghĩa. Cụ thể: – Các tác nhân có thể phân tích một khối lượng lớn tài liệu và trích xuất các thuật ngữ – Chúng có thể so sánh các cấu trúc dữ liệu, nhận diện mẫu và chỉ ra sự không nhất quán – Chúng có thể đề xuất các lớp, mối quan hệ và ánh xạ (mappings) – Chúng có thể kiểm tra mô hình dữ liệu hiện có theo các quy tắc và phát hiện sai lệch – Chúng có thể mô phỏng tác động của những thay đổi trong ngữ nghĩa.
Điều quan trọng cần nhấn mạnh là các tác nhân AI không thay thế các quyết định của chuyên gia. Thay vào đó, chúng đảm nhận những công việc mà con người khó mở rộng quy mô: phân tích hàng loạt, kiểm tra sơ bộ (mất nhiều thời gian) và rà soát tính nhất quán một cách thường xuyên.
Nhờ vậy, con người có thể chuyển trọng tâm từ lao động thủ công sang đánh giá chuyên môn, quản trị và đảm bảo chất lượng.
Tầng ngữ nghĩa của tương lai mang tính tác nhân Theo quan điểm của một số nhà nghiên cứu, một nguyên tắc kiến trúc mới đang hình thành: tầng ngữ nghĩa của tương lai sẽ là một “agent mesh” (tạm dịch là ‘mạng lưới tác nhân’). Lý do rất rõ ràng, bởi ngữ nghĩa không phải là một cấu trúc tĩnh. Thuật ngữ thay đổi, tiêu chuẩn phát triển, tổ chức tái cấu trúc, hệ thống mới liên tục được bổ sung và loại bỏ. Một đồ thị tri thức tĩnh không thể phản ánh được tính động này.
Thay vào đó, cần có sự tương tác của các tác nhân chuyên biệt: tác nhân giám sát mô hình và phân loại dữ liệu mới, tác nhân kiểm tra quy tắc và phát hiện mâu thuẫn, tác nhân đưa ra các đề xuất có thể hiểu và kiểm chứng được. Chỉ một hệ thống sống, dựa trên tác nhân như vậy mới có thể duy trì ngữ nghĩa trong tổ chức luôn cập nhật, nhất quán và có thể sử dụng lâu dài.
Điều này biến tầng ngữ nghĩa từ bị động thành chủ động, từ chỉ mô tả sang kiểm tra, và từ tĩnh sang tiến hóa. Đó là lý do vì sao agentic AI và ngữ nghĩa không thể tách rời nhau.
Quản trị là ưu tiên hàng đầu – nếu không, mọi thứ sẽ không thể mở rộng Có một yếu tố mang tính quyết định nhưng thường bị đánh giá thấp: quản trị (governance). Các tác nhân làm việc với ngữ nghĩa sẽ đi sâu vào nền tảng tri thức của doanh nghiệp, và nếu không có định hướng rõ ràng, rủi ro có thể nhanh chóng xuất hiện. Từ kinh nghiệm cho thấy, quản trị phải đi trước tự chủ. Vai trò, cơ chế phê duyệt và các rào cản chất lượng cần được xác định rõ ràng; “human-in-the-loop” (*) không phải là tùy chọn, mà là yêu cầu bắt buộc. Đồng thời, mọi quyết định phải luôn có thể giải thích và kiểm toán. (*) Human-in-the-loop: là một mô hình tương tác mà ở đó con người trực tiếp tham gia vào vòng lặp quyết định của công nghệ AI. Thay vì để AI tự chạy hoàn toàn từ đầu đến cuối (tự trị hoàn toàn), con người sẽ xuất hiện ở các điểm mấu chốt để kiểm tra, phê duyệt hoặc điều chỉnh.
Chỉ khi đáp ứng những điều kiện này, niềm tin thực sự mới có thể được xây dựng, cả trong nội bộ lẫn bên ngoài tổ chức.
Kết luận Nhiều doanh nghiệp đang tự hỏi làm thế nào để tích hợp công nghệ AI vào tổ chức một cách hiệu quả, an toàn và có khả năng mở rộng. Câu trả lời của chúng tôi rất rõ ràng: không có ngữ nghĩa thì không thể có AI bền vững, và không có tác nhân thì không thể có ngữ nghĩa có khả năng mở rộng. agentic AI và tầng ngữ nghĩa không phải là hai xu hướng tách biệt, cũng như hai mặt của một đồng xu.
Việc kết hợp hai yếu tố này sẽ tạo ra tự động hóa vững chắc, các quyết định có khả năng truy xuất nguồn gốc và một nền tảng tri thức cùng phát triển song hành với sự lớn mạnh của doanh nghiệp.
Đó chính là điều doanh nghiệp đang theo đuổi.
Giới thiệu tác giả
Tiến sĩ Andreas Kyek
Tiến sĩ Andreas Kyek là chuyên gia về khoa học dữ liệu và công nghệ AI với hơn 25 năm kinh nghiệm trong phát triển sản phẩm và quy trình dựa trên dữ liệu. Với nền tảng vật lý học và kinh nghiệm đảm nhiệm các vị trí lãnh đạo (trong đó tập đoàn Infineon), ông kết hợp chiều sâu công nghệ với năng lực triển khai chiến lược. Hiện ông Kyek là chuyên gia khoa học dữ liệu cấp cao và trưởng bộ phận tư vấn tại công ty Alexander Thamm, tập trung phát triển các hệ thống agentic AI, kiến trúc đa tác nhân, mô hình tri thức ngữ nghĩa và RAG (retrieval-augmented generation, tạm dịch: ‘tạo phản hồi tăng cường tra cứu’) trong các môi trường công nghiệp phức tạp, đồng thời dẫn dắt nhiều sáng kiến dữ liệu/ công nghệ AI quy mô lớn trong các lĩnh vực công nghiệp, năng lượng, giao thông và hạ tầng.
Để xem các tin bài khác về “Trí tuệ nhân tạo”, hãy nhấn vào đây.
Nguồn: Hannover Messe