Microsoft Kosmos-1 mở đường cho AI ở cấp độ con người

Vào đầu tuần này, các nhà nghiên cứu từ Microsoft đã trình bày Kosmos-1, một mô hình trí tuệ nhân tạo đa phương thức có thể phân tích hình ảnh cho nội dung, giải các câu đố trực quan, thực hiện nhận dạng văn bản trực quan, thực hiện các bài kiểm tra IQ trực quan và hiểu hướng dẫn ngôn ngữ tự nhiên. Theo các nhà nghiên cứu, những mô hình AI như vậy là bước đầu tiên hướng tới việc tạo ra trí tuệ nhân tạo tổng hợp (AI) có thể thực hiện các nhiệm vụ chung ở cấp độ con người. Nghĩa là, công nghệ này sẽ có thể thay thế con người trong bất kỳ nhiệm vụ trí tuệ nào. Và đây chính là mục tiêu đã nêu của OpenAI, đối tác kinh doanh chủ chốt Microsoft trong lĩnh vực trí tuệ nhân tạo.

Trong trường hợp này, Kosmos-1 hoàn toàn là sự phát triển cá nhân của công ty Microsoft. Các nhà nghiên cứu gọi sáng tạo của họ là "mô hình ngôn ngữ rộng đa phương thức" (MLLM) vì nguồn gốc của nó nằm ở việc xử lý ngôn ngữ tự nhiên chỉ có văn bản như LLM, chẳng hạn như ChatGPT. Để mô hình có thể chấp nhận hình ảnh đầu vào, trước tiên các nhà nghiên cứu phải chuyển đổi hình ảnh thành một chuỗi mã thông báo đặc biệt (chủ yếu là văn bản) mà LLM có thể hiểu được.

Kosmos-1 đã được đào tạo trên cơ sở dữ liệu từ Internet, bao gồm các đoạn trích từ The Pile (tài nguyên văn bản tiếng Anh 800 GB) và Common Crawl. Sau đó, mô hình đã được thử nghiệm với một số bài kiểm tra về khả năng hiểu giọng nói, tạo giọng nói, phân loại văn bản mà không nhận dạng ký tự quang học, chú thích hình ảnh, trả lời câu hỏi trực quan, trả lời câu hỏi trên trang web và phân loại hình ảnh bằng bản địa hóa. Dựa theo Microsoft, Kosmos-1 vượt trội hơn các mẫu hiện tại trong nhiều thử nghiệm này.

Đặc biệt thú vị là bài kiểm tra Raven's Progressive Reasoning, đo lường chỉ số IQ trực quan bằng cách trình bày một chuỗi các hình và yêu cầu đối tượng hoàn thành chuỗi đó. Kosmos-1 có thể đưa ra câu trả lời đúng trong 22% trường hợp.

Những bước đầu tiên này, với sự tối ưu hóa trong tương lai, có thể mang lại kết quả quan trọng hơn nữa, cho phép các mô hình AI nhận thức và tác động đến bất kỳ hình thức phương tiện nào, giúp mở rộng đáng kể khả năng của các trợ lý nhân tạo.

Đọc thêm:

Dzherelocông nghệ

Đăng ký

0 Nhận xét

Bài đánh giá được nhúng

Xem tất cả các bình luận

Các bài báo khác

Microsoft đã trình bày một cách tiếp cận đa phương thức mở đường cho AI ở cấp độ con người

Những ý kiến gần đây

Microsoft đã trình bày một cách tiếp cận đa phương thức mở đường cho AI ở cấp độ con người

Những ý kiến ​​gần đây

Những ý kiến gần đây