Robot hình người: Khoảng cách giữa công nghệ và thực tế hiện nay (Phần 1)

Tháng Sáu 24 07:00 2026

Cánh tay, khớp nối, hệ thống truyền động cùng nhiều bộ phận khác của robot đều là những thành tựu kỹ thuật đã được phát triển trong suốt nhiều thập kỷ, và giờ đây chúng sắp tạo nên một bước nhảy vọt khổng lồ. Trong những năm gần đây, robot hình người đã có những bước phát triển vượt bậc và được xem là một lĩnh vực đầy tiềm năng. 

Mặc dù robot hình người vẫn chưa đạt được mức “trưởng thành về công nghệ” theo nghĩa có thể triển khai đại trà, ổn định và hiệu quả về chi phí trong môi trường thực tế, phía sau công nghệ này là một kỳ vọng mang tính cách mạng: Robot hình người vận hành bằng công nghệ trí tuệ nhân tạo (AI) có thể một ngày nào đó thay đổi hoàn toàn thị trường lao động.

Trong bài viết lần này, ban biên tập technologyMAG chia sẻ video của kênh Bloomberg Originals, nói về tiềm năng và thực tế của robot hình người.

Phần 1 của bài viết chia sẻ về nền tảng công nghệ phía sau robot hình người và lý do vì sao lĩnh vực này bùng nổ mạnh mẽ nhờ AI.


Để xem và hiểu đầy đủ nội dung của video (bằng tiếng Anh), Quý độc giả vui lòng tham khảo nội dung của bài viết. Để xem video ở chế độ toàn màn hình (full-screen), vui lòng nhấn vào khung [ ] tại góc phải phía dưới của video hoặc nhấn phím F.

Công nghệ robot hình người hiện nay
Mối quan tâm đối với robot hình người đã tồn tại từ rất lâu. Điều thay đổi hiện nay là công nghệ đã bắt đầu đủ khả thi để thương mại hóa, và các công ty đã nhìn thấy khả năng xây dựng những mô hình kinh doanh thực sự xung quanh lĩnh vực này. AI rõ ràng đóng vai trò trung tâm trong sự thay đổi đó. Mục tiêu là “AI vật lý” – tức đưa trí tuệ nhân tạo chuyên biệt vào bên trong một cơ thể vật lý được trang bị cảm biến, pin và các bộ truyền động cơ học.

Những bộ truyền động này cực kỳ đắt đỏ và có độ phức tạp công nghệ rất cao, nhưng chúng là yếu tố cốt lõi giúp robot hình người có thể chuyển động. Nếu thành công, đây có thể trở thành một bước chuyển đổi mang tính nền tảng, giúp thị trường robot hình người đạt quy mô hàng nghìn tỷ USD vào năm 2050.

Tuy nhiên, để những dự báo khổng lồ đó trở thành hiện thực, robot hình người sẽ phải làm được nhiều hơn là biểu diễn hay thực hiện các động tác nhảy múa. Giá trị thực sự của chúng sẽ nằm ở khả năng làm việc trong gia đình, bệnh viện, nhà máy và đặc biệt là các cơ sở sản xuất công nghiệp. Những người thực sự làm việc với robot hiểu rõ mức độ khó khăn của điều này. Có rất nhiều thứ mà một số nhà nghiên cứu gọi là “humanoid hype” – cơn sốt robot hình người – phần lớn được thúc đẩy bởi các nhân vật có ảnh hưởng lớn trong ngành công nghệ. Nhưng sự cường điệu không thể xây dựng chuỗi cung ứng, cũng không thể tái cấu trúc thị trường lao động toàn cầu. Để làm được điều đó, robot hình người phải chứng minh rằng chúng thực sự có thể làm việc.

Neo và khái niệm AI vật lý
Một ví dụ điển hình là Neo – robot hình người do công ty 1X phát triển. Đây là startup robot được thành lập bởi Bernt Børnic. Trong một buổi trình diễn được ghi hình năm 2025, Neo vẫn cần đến sự hỗ trợ của con người và được điều khiển từ xa.

Trong buổi trình diễn, Neo đã có thể tương tác và trò chuyện với con người. Børnic cho biết robot được trình diễn là phiên bản gamma của Neo – phiên bản được dùng để thử nghiệm trong nhà của nhân viên công ty. Đây cũng là mẫu robot đang giúp ông giặt quần áo và là phiên bản kỹ thuật cuối cùng trước khi bước sang giai đoạn sản xuất thương mại. Phiên bản tiếp theo sẽ là mẫu robot đầu tiên được đưa vào nhà khách hàng.

Theo Børnic, toàn bộ hành vi của Neo đều được điều khiển bằng AI. Robot tiếp nhận hình ảnh, dữ liệu lực, phản hồi xúc giác và nhiều loại thông tin khác từ môi trường xung quanh. Toàn bộ dữ liệu này được xử lý thông qua một mạng nơ-ron lớn, sau đó tạo ra các lệnh điều khiển động cơ, từ mô-men xoắn cho tới lực tác động cụ thể. Điều đó cho phép Neo thực hiện mọi thứ từ giữ thăng bằng, đi bộ cho tới thao tác với đồ vật.

Không giống robot truyền thống được lập trình để thực hiện một nhiệm vụ cố định theo cùng một cách lặp đi lặp lại, các robot sử dụng AI, về lý thuyết, có thể học hỏi theo thời gian và thích nghi với các môi trường không thể dự đoán trước.

Khái niệm này thường được gọi là “AI vật lý”. Ngoài robot hình người, nhóm này còn bao gồm các robot trí tuệ tổng quát khác và xe tự lái. Nói đơn giản, đây là những hệ thống sử dụng động cơ, cảm biến, camera và mô hình AI để hiểu thế giới vật lý xung quanh chúng.

Các nhà nghiên cứu và doanh nghiệp nhận thấy mối tương quan rất rõ ràng giữa lượng dữ liệu có sẵn với số lượng nhiệm vụ robot có thể thực hiện thành công. Đây cũng là cách AI thay đổi ngành robot học: thay vì phải viết mã riêng cho từng tác vụ, giờ đây các hệ thống ngày càng được huấn luyện bằng dữ liệu.

Cơn sốt AI và cuộc đua robot hình người
Công ty 1X chỉ là một trong rất nhiều công ty robot hình người xuất hiện trong những năm gần đây. Nguyên nhân của cơn sốt này chỉ gói gọn trong hai chữ: AI.

Trong vài năm qua, AI đã chứng kiến làn sóng đầu tư và phát triển bùng nổ. Nhiều công ty tận dụng thời điểm này để phát triển các công nghệ liên quan, bao gồm robot. Đến năm 2025, lĩnh vực robot hình người đã trở nên cực kỳ đông đúc với hàng tỷ USD vốn đầu tư và nhiều công ty đạt mức định giá khổng lồ trên toàn cầu.

Các nhà đầu tư đặt cược mạnh tay bởi những nhân vật có ảnh hưởng lớn trong ngành công nghệ liên tục quảng bá tiềm năng của robot hình người. Một trong số đó là CEO Nvidia Jensen Huang. Ông nhấn mạnh rằng robot hình người cần “AI vật lý” để vận hành bộ não của chúng, và Nvidia có các chip phù hợp để đặt trực tiếp bên trong robot.

Nvidia cũng cung cấp phần mềm và hiện gần như thống trị thị trường GPU AI được sử dụng trong các trung tâm dữ liệu để huấn luyện mô hình ngôn ngữ lớn và nhiều hệ thống AI khác. Vì các mô hình robot hình người và mô hình AI thế giới thực được huấn luyện bằng công nghệ tương tự AI tạo sinh, Nvidia đang nắm giữ vị thế cực kỳ mạnh trong lĩnh vực này. Công ty cũng đã công bố các mối hợp tác sâu rộng với những doanh nghiệp robot như Boston Dynamics.

Ngoài Nvidia, các công ty AI và công nghệ lớn khác như OpenAI, Google và Tesla cũng đang đặt cược mạnh vào việc đưa AI ra khỏi màn hình máy tính để tiến vào thế giới vật lý. Elon Musk là người liên tục nhắc tới robot hình người. CEO của Tesla cho rằng mọi người rồi sẽ cần và sở hữu một robot như vậy.

Những dự báo của Musk thậm chí còn táo bạo hơn nữa. Ông từng tuyên bố Optimus – robot hình người của Tesla, có thể trở thành sản phẩm mang về 30 nghìn tỷ USD doanh thu mỗi năm. Với những con số như vậy, sự cường điệu là điều không thể tránh khỏi.

Robot hình người ngày càng xuất hiện nhiều trong quảng cáo, hội nghị công nghệ và vô số video trực tuyến. Đôi khi chúng được trình diễn trực tiếp, nhưng cũng thường được nối dây hỗ trợ hoặc hoạt động trong môi trường kiểm soát chặt chẽ. Vì vậy, công chúng vừa được chứng kiến những bước tiến thật sự, vừa thấy rõ rằng công nghệ này vẫn chưa hoàn thiện.

ChatGPT không đồng nghĩa với robot thông minh
Giáo sư Ken Goldberg tại trường đại học UC Berkeley (University of California, Berkeley) đã nghiên cứu robot trong thời gian rất dài. Ông làm việc tại Auto Lab – phòng thí nghiệm tự động hóa của trường, nơi sinh viên nghiên cứu nhiều dự án robot khác nhau, bao gồm robot hai tay.

Goldberg cho rằng sự bùng nổ quan tâm tới robot gần đây phần lớn xuất phát từ thành công của ChatGPT, thứ tạo ra một bước chuyển đổi lớn trong ngành AI. Điều đó khiến nhiều người bắt đầu đặt câu hỏi: “Khoảnh khắc bùng nổ của robot sẽ là gì?”

Tuy nhiên, mô hình ngôn ngữ lớn (LLM) như ChatGPT thực chất “thông minh kiểu sách vở” hơn là “thông minh kiểu robot”. ChatGPT hoạt động bằng cách đọc một chuỗi từ rồi dự đoán chuỗi từ phù hợp tiếp theo. Nó chủ yếu dựa trên ngôn ngữ, sử dụng kho dữ liệu khổng lồ gồm văn bản, hình ảnh và video từ internet.

Robot thì phải giải quyết một bài toán khác hoàn toàn. Robot không tạo ra từ ngữ mà phải tạo ra chuyển động. Nó cần xử lý chuỗi hình ảnh, video và dữ liệu cảm biến, sau đó chuyển chúng thành các lệnh chuyển động cho tay, chân hoặc bàn tay robot.

Để làm được điều đó, robot cần lượng dữ liệu khổng lồ. Với robot hình người, dữ liệu là yếu tố sống còn. Nếu không có dữ liệu, hệ thống AI sẽ không biết gì cả. Nếu muốn robot gấp quần áo, công ty phải có lượng thông tin cực lớn về cách con người gấp quần áo. Robot cần học cách nhặt vải, cách sử dụng các ngón tay khớp nối cực kỳ phức tạp, cách giữ đồ vật mà không bóp hỏng chúng và cách nhận biết các quy luật trong tương tác vật lý.

Khoảng trống dữ liệu robot
Robot học hỏi từ trải nghiệm. Nhưng vấn đề lớn là gần như không có nhiều dữ liệu trải nghiệm vật lý được ghi lại. Goldberg gọi đây là “robot data gap” – khoảng trống dữ liệu robot.

Con người chưa thu thập đủ dữ liệu kết hợp giữa chuyển động robot với dữ liệu hình ảnh mà camera của robot ghi lại. Khoảng trống này vừa là thách thức vừa là cơ hội cho các công ty theo đuổi AI vật lý. Càng có nhiều dữ liệu, AI càng hoạt động tốt hơn, vì vậy các công ty đang chạy đua xây dựng thư viện dữ liệu huấn luyện từ cả dữ liệu thật lẫn dữ liệu tổng hợp nhân tạo.

Một phương pháp là mô phỏng – tạo ra các môi trường ảo để robot học cách di chuyển bên trong đó. Ưu điểm của mô phỏng là khả năng mở rộng. Hàng nghìn robot có thể học trong hàng nghìn thế giới ảo cùng lúc. Tuy nhiên, thế giới và robot ảo thường không thể phản ánh đầy đủ độ phức tạp của môi trường thực tế.

Một phương pháp khác là tận dụng video ngoài đời thực. Internet có lượng video khổng lồ ghi lại con người thao tác với đồ vật, nhưng việc trích xuất cấu trúc không gian 3 chiều từ video 2 chiều vẫn cực kỳ khó khăn.

Phương án thứ ba là teleoperation (điều khiển từ xa). Trong mô hình này, con người sử dụng kính VR và các thiết bị điều khiển để vận hành robot từ xa, biến robot thành một “con rối” cực kỳ đắt đỏ. Khi người điều khiển thao tác robot, hệ thống sẽ ghi lại cả hình ảnh lẫn chuyển động để tạo dữ liệu huấn luyện.

Teleoperation từng bị chỉ trích vì được sử dụng trong các buổi trình diễn nhằm tạo sự chú ý và thu hút vốn đầu tư, nhưng nó vẫn là công cụ huấn luyện rất hiệu quả. Thậm chí hiện nay đã có cả những nhóm người chuyên làm công việc điều khiển robot từ xa để tạo dữ liệu.

Ngoài teleoperation còn có khái niệm flywheel (bánh đà dữ liệu). Khi robot làm việc, nó liên tục thu thập dữ liệu từ hình ảnh và chuyển động của chính mình. Dữ liệu đó được lọc và dùng để huấn luyện mô hình lớn hơn. Theo thời gian, mô hình mới sẽ tốt hơn mô hình cũ, tạo thành vòng lặp cải tiến liên tục.

World Model và tham vọng đưa robot ra thế giới thực
Tại trụ sở 1X, các nhóm kỹ sư đang thiết kế, chế tạo và huấn luyện nguyên mẫu robot hình người. Neo được định hướng là robot dành cho gia đình, vì vậy mọi bộ phận của nó đều được thiết kế để tạo cảm giác thân thiện và phù hợp với không gian sống. Đó là lý do robot sử dụng lớp phủ mềm và vật liệu vải quanh khuôn mặt.

Ban đầu, 1X kết hợp nhiều phương pháp huấn luyện như teleoperation và sự can thiệp của con người. Nhưng sau đó công ty chuyển dần sang sử dụng World Model (mô hình thế giới) để huấn luyện và vận hành robot.

World model tạo ra hình dung về hành động mà robot nên thực hiện bằng cách khai thác thư viện hình ảnh và video khổng lồ, tương tự các công cụ AI tạo video. Sau đó robot sẽ thực hiện hành động ngoài đời thật, và hệ thống học từ kết quả đó để cải thiện các dự đoán trong tương lai. Quá trình này tương tự cơ chế flywheel.

Mục tiêu cuối cùng của tất cả các mô hình và dữ liệu này là đưa robot ra khỏi phòng thí nghiệm và bước vào thế giới thực để tiếp tục học hỏi từ trải nghiệm thật.

Để xem các tin bài khác về “Robot hình người”, hãy nhấn vào đây.

 

Nguồn: Bloomberg Originals

Bình luận hay chia sẻ thông tin