Root NationTin tứcTin tức CNTTHình AI trình diễn những kỹ năng mới của robot AI hình người

Hình AI trình diễn những kỹ năng mới của robot AI hình người

-

Sự phát triển của robot hình người đã diễn ra với tốc độ chậm trong suốt hai thập kỷ qua, nhưng gần đây chúng ta ngày càng chứng kiến ​​nhiều đột phá hơn trong lĩnh vực này. Như chúng tôi đã viết gần đây, một robot AI đã được giới thiệu tại MWC 2024 ameca, và một sự phát triển khác, Đơn Vị H1, đã phá kỷ lục tốc độ của các robot hình người. Và giờ đây, một kết quả ngoạn mục của sự hợp tác giữa các công ty Hình AI và OpenAI đã xuất hiện trên Internet - một đoạn video tuyệt đẹp về một robot hình người hiện có thể trò chuyện với con người.

Hình AI và OpenAI giới thiệu robot hình người mới tích hợp AI

Startup Hình AI đã phát hành một video cho thấy robot Hình 01 đang làm việc với Mô hình Ngôn ngữ Hình ảnh (VLM) mới. Trong đó, Hình 01 đang đứng ở một chiếc bàn trên đó có một cái đĩa, một quả táo và một cái cốc. Có một máy sấy ở bên trái. Và đối với câu hỏi của một người, robot nhìn thấy gì trước mặt, anh ta trả lời bằng cách mô tả chi tiết mọi thứ đang nằm trên bàn.

Sau đó, người đàn ông hỏi liệu anh ta có thể ăn gì không, và robot trả lời: "Tất nhiên rồi", rồi với một chuyển động khéo léo uyển chuyển, anh ta lấy quả táo và đưa cho người đàn ông. Sau đó là một màn trình diễn ấn tượng khác - một người đàn ông đổ rác vụn từ giỏ trước Hình 01 và yêu cầu robot giải thích lý do tại sao anh ta làm điều này, đồng thời thu gom rác vào giỏ. Và anh ấy giải thích "suy nghĩ" của mình trong khi bỏ tờ giấy lại vào thùng rác. Robot nói: “Vì vậy, tôi đã đưa cho bạn một quả táo vì đó là món ăn duy nhất mà tôi có thể tặng cho bạn”.

Đại diện công ty giải thích rằng Hình 01 sử dụng mô hình đa phương thức được đào tạo trước OpenAI, VLM, để hiểu hình ảnh và văn bản, đồng thời dựa vào lời nhắc bằng giọng nói để tạo ra phản hồi. Điều này khác với GPT-4 của OpenAI, vốn tập trung vào các lời nhắc bằng văn bản.

Nó cũng sử dụng cái mà công ty gọi là "các thao tác bằng tay ở mức độ thấp đã học được". Hệ thống điều phối hiệu chỉnh hình ảnh chính xác (xuống mức pixel) bằng mạng thần kinh để điều khiển chuyển động. “Các mạng này nhận hình ảnh ở tần số 10 Hz và tạo ra các hành động 24-DOF (tư thế cổ tay và góc khớp ngón tay) ở tần số 200 Hz,” Hình AI cho biết trong một tuyên bố.

Công ty tuyên bố rằng mọi hành vi trong video đều dựa trên quá trình học hỏi của hệ thống, vì vậy không có ai đứng đằng sau giật dây Hình 01. Tất nhiên, có một sắc thái - không biết robot đã trải qua quy trình này bao nhiêu lần. Có lẽ đây là lần thứ một trăm, điều này giải thích cho những chuyển động chính xác của anh ta. Nhưng trong mọi trường hợp, thành tích này có vẻ ngoạn mục và có phần tuyệt vời.

Đọc thêm:

Dzherelotechradar
Đăng ký
Thông báo về
khách sạn

0 Nhận xét
Bài đánh giá được nhúng
Xem tất cả các bình luận