Phi-3-mini là một bước đột phá Microsoft trong lĩnh vực trí tuệ nhân tạo?

Mô hình trí tuệ nhân tạo Phi của Microsoft - nhỏ, rẻ và không bị “ảo giác”. Đây là những gì họ nói về mô hình ngôn ngữ mới, được dự đoán sẽ có một tương lai tuyệt vời.

GPT hoàn toàn tuyệt vời, nhưng đồng thời, nó cực kỳ đắt và không thể hoàn hảo cho tất cả mọi người. Vì những lý do này và nhiều lý do khác Microsoft đang thử nghiệm các mô hình AI nhỏ hơn nhiều. Người ta nói rằng Phi-3-mini thậm chí có thể khiến công việc của các kỹ sư OpenAI phải xấu hổ.

Cũng thú vị: Bóng bán dẫn của tương lai: Kỷ nguyên mới của chip đang chờ chúng ta

NỘI DUNG

1. ChatGPT không phải là thuốc chữa bách bệnh

2. Những gì được biết về Microsoft Phi

3. Làm thế nào để sử dụng Phi-3-mini?

4. Microsoft Phi sẽ thay thế các mô hình loại ChatGPT?

5. Phi-3 từ Microsoft chỉ hiểu tiếng Anh

ChatGPT không phải là thuốc chữa bách bệnh

ChatGPT là một phát minh được tài trợ, quản lý và cải tiến Microsoft. Thực ra nó không thuộc về Microsoftvà công ty OpenAI, công ty Microsoft không sở hữu (cô ấy là nhà đầu tư hàng đầu, mặc dù không phải là nhà đầu tư lớn nhất). Mô hình ngôn ngữ GPT đã đưa ra Microsoft một lợi thế khổng lồ so với các tập đoàn công nghệ lớn còn lại hiện đang gấp rút bắt kịp. Tuy nhiên, có rất nhiều vấn đề với GPT, trong đó có nhiều vấn đề chưa thể giải quyết được.

Trước hết, đây là một mô hình ngôn ngữ rất tốn tài nguyên. Định hướng web Microsoft Copilot hoặc ChatGPT của OpenAI tạo ra chi phí vận hành rất cao cho Microsoft. Đây là tính năng không chỉ của GPT mà còn của tất cả các mô hình ngôn ngữ chính. Ngoài ra, GPT, giống như các đối thủ cạnh tranh, dễ bị "ảo giác", tức là nó có thể tạo ra phản hồi cho các truy vấn chứa thông tin sai lệch hoặc gây hiểu nhầm. Một mô hình như vậy càng hấp thụ nhiều dữ liệu thì nó càng có xu hướng tạo ra nội dung tương tự. Vì vậy, ảo giác và tuyên bố sai sự thật không phải là chuyện hoang đường được rút ra từ ngón tay kỹ thuật số. Người dùng thường lưu ý rằng các mô hình ngôn ngữ lớn thường mắc lỗi, đưa ra dữ liệu không chính xác và hoạt động dựa trên những sự kiện không tồn tại.

Cả hai vấn đề đều rất nghiêm trọng, đó là lý do tại sao OpenAI, Microsoft, Meta, Google và những người khác đang nỗ lực phát triển không chỉ công nghệ Mô hình ngôn ngữ lớn mà còn cả Mô hình ngôn ngữ nhỏ, trên thực tế có thể tạo ra kết quả tốt hơn nhiều.

Trợ lý kế toán kỹ thuật số không cần biết nhiều về vật lý lượng tử. Nó có thể nhỏ hơn và ít phức tạp hơn nhiều (và do đó rẻ hơn), và chỉ đào tạo dựa trên dữ liệu cần thiết cho mục đích của nó, về mặt lý thuyết sẽ ít gây ảo giác hơn. Mặc dù, điều này nói dễ hơn làm. Công nghệ GenAI vẫn là một dự án CNTT hoang dã. Và mặc dù công việc đang tiến triển với tốc độ chưa từng có, nhưng trên thực tế vẫn khó tạo ra những đột phá về các vấn đề cơ bản. Nhưng công ty Microsoft gần đây đã công bố một bước đột phá như vậy. Chúng ta đang nói về một mô hình ngôn ngữ nhỏ Microsoft Phi.

Cũng thú vị: Đài Loan, Trung Quốc và Mỹ đang tranh giành quyền thống trị công nghệ như thế nào: cuộc đại chiến chip

Những gì được biết về Microsoft Phi

Trước hết, cần lưu ý rằng thử nghiệm được tiến hành mà không có sự tham gia của công ty OpenAI. Tức là sự phát triển của các kỹ sư Microsoft.

- Quảng cáo -

Mô hình Microsoft Phi là một loạt các mô hình ngôn ngữ nhỏ (SLM) đạt được kết quả vượt trội trong nhiều bài kiểm tra khác nhau. Mô hình đầu tiên, Phi-1, có 1,3 tỷ tham số và đạt được kết quả mã hóa Python tốt nhất trong số các SLM hiện có.

Sau đó, các nhà phát triển tập trung vào việc hiểu và tư duy ngôn ngữ, tạo ra mô hình Phi-1.5, cũng có 1,3 tỷ tham số và cho thấy hiệu suất tương đương với các mô hình có tham số gấp lần.

Phi-2 là mô hình 2,7 tỷ tham số thể hiện khả năng suy luận và hiểu ngôn ngữ vượt trội, hoạt động ngang hàng với các mô hình cơ sở tốt nhất với 13 tỷ tham số. Phi-2 nổi bật so với các mô hình khác nhờ những cải tiến trong đào tạo mở rộng quy mô mô hình và quản lý dữ liệu.

Nó có sẵn trong danh mục mô hình Azure AI Studio, tạo điều kiện thuận lợi cho việc nghiên cứu và phát triển trong lĩnh vực mô hình ngôn ngữ. Phi-2 được phóng vào tháng 2023 năm 2. Các nhà phát triển đảm bảo rằng nó hoạt động tốt như Mistral hoặc llama 3 từ Meta. Và Phi- thậm chí còn hoạt động tốt hơn phiên bản trước.

Tuy nhiên, mẫu Phi-3 vừa được công bố lại hoàn toàn mới về chất lượng. Ít nhất đó là những gì bạn có thể đánh giá từ thông tin được cung cấp Microsoft. Theo công ty, theo các chỉ số của tất cả các điểm chuẩn đã biết, Phi-3 hoạt động tốt hơn bất kỳ mẫu máy nào khác có kích thước tương tự, bao gồm phân tích ngôn ngữ, công việc lập trình hoặc công việc toán học.

Phi-3-mini, phiên bản nhỏ nhất của mẫu này, vừa được cung cấp cho tất cả các bên quan tâm. Tức là nó đã có sẵn từ ngày 23 tháng 3. Phi-3,8-mini có tỷ thông số và theo số đo Microsoft, hiệu quả gấp đôi so với bất kỳ mẫu nào khác có cùng kích thước. Nó có thể được tìm thấy trong danh mục các mô hình AI của dịch vụ đám mây Microsoft Azure, nền tảng mô hình học máy Ôm Mặt và Ollama, một khuôn khổ để chạy các mô hình trên máy tính cục bộ.

Như anh ấy tuyên bố Microsoft, Phi-3-mini không cần chip mạnh Nvidia. Mô hình có thể hoạt động trên chip máy tính thông thường. Hoặc phù hợp ngay cả trên điện thoại không được kết nối với Internet.

Ít năng lượng hơn cũng có nghĩa là các mô hình sẽ không chính xác. Phi-3 sẽ không phù hợp với bác sĩ hay kế toán thuế nhưng sẽ giúp ích trong những công việc đơn giản hơn. Ví dụ: để nhắm mục tiêu quảng cáo hoặc tóm tắt các bài đánh giá trên Internet.

Vì các mô hình nhỏ hơn yêu cầu xử lý ít hơn nên chúng sẽ rẻ hơn cho các công ty tư nhân sử dụng. Nghĩa là, trong Microsoft sẽ có nhiều khách hàng muốn đưa AI vào công việc của họ hơn nhưng lại cho rằng nó quá đắt. Tuy nhiên, vẫn chưa rõ chúng sẽ có giá bao nhiêu.

Hiện vẫn chưa biết khi nào các mô hình vừa và nhỏ sẽ xuất hiện. Nhưng cái sau sẽ mạnh hơn và đắt hơn. Mặc dù người ta đã biết rằng Phi-3-small sẽ có 7 tỷ thông số và Phi-3-medium sẽ có tới 14 tỷ thông số.

- Quảng cáo -

Đọc thêm:

Làm thế nào để sử dụng Phi-3-mini?

GPT-4 Turbo yêu cầu chip AI mạnh mẽ nhưng vẫn rất đắt tiền. Mô hình giọng nói nhỏ Phi-3 có thể hoạt động ngoại tuyến, không cần đám mây, thậm chí với chip trên điện thoại di động.

Phi-3 không phải là sản phẩm dành cho người dùng cuối mà là công nghệ mà các nhà phát triển có thể sử dụng và triển khai trong các ứng dụng của họ - cả dựa trên đám mây, nghĩa là được định vị từ xa và những công nghệ hoạt động cục bộ và ngoại tuyến. Nó được kỳ vọng sẽ hoạt động trơn tru với các thiết bị và linh kiện của chúng, chẳng hạn như điện thoại di động, ô tô và hệ thống thông tin giải trí hoặc thậm chí là cảm biến IoT. Trong một số trường hợp, công nghệ này có thể là vô giá.

Microsoft thậm chí còn đưa ra ví dụ cụ thể để chúng ta không phải căng thẳng trí tưởng tượng. Hãy tưởng tượng một người nông dân đang kiểm tra cây trồng của mình và thấy các dấu hiệu bệnh trên lá, thân và cành. Ở xa cột buồm viễn thông, anh chỉ cần lấy điện thoại ra, chụp ảnh hư hỏng, đưa vào ứng dụng sử dụng công nghệ Phi-3 - người mẫu sẽ phân tích ảnh nhanh chóng và offline và đưa ra lời khuyên về làm thế nào chính xác để chống lại căn bệnh này.

Như anh ấy giải thích Microsoft, chìa khóa thành công của GPT là mang lại lượng dữ liệu khổng lồ cho hoạt động đào tạo. Với các tập dữ liệu lớn như vậy, chất lượng dữ liệu cao là điều không cần bàn cãi. Trong khi đó, khi đào tạo mô hình Phi, cách tiếp cận hoàn toàn trái ngược của OpenAI lại được sử dụng. Thay vì nhồi nhét thông tin vào mô hình, trọng tâm là học hỏi từng bước và kỹ lưỡng.

Thay vì sử dụng dữ liệu Internet thô, các nhà nghiên cứu Microsoft đã tạo ra bộ dữ liệu TinyStories, tạo ra hàng triệu câu chuyện "em bé" thu nhỏ. Những câu chuyện này được sử dụng để đào tạo các mô hình ngôn ngữ rất nhỏ. Sau đó, các nhà nghiên cứu đã tiến xa hơn bằng cách tạo ra tập dữ liệu CodeTextbook, sử dụng dữ liệu có sẵn công khai, được lựa chọn cẩn thận và được lọc theo giá trị giáo dục và chất lượng nội dung. Dữ liệu này sau đó được lọc nhiều lần và đưa trở lại mô hình ngôn ngữ lớn (LLM) để tổng hợp thêm.

Tất cả điều này giúp tạo ra một mảng dữ liệu đủ để huấn luyện SLM có khả năng cao hơn. Ngoài ra, cách tiếp cận đa cấp để quản lý và giảm thiểu rủi ro đã được sử dụng trong quá trình phát triển mô hình Phi-3, bao gồm đánh giá, thử nghiệm và điều chỉnh thủ công. Kết quả là, như ông tuyên bố Microsoft, các nhà phát triển sử dụng dòng mô hình Phi-3 có thể tận dụng bộ công cụ có sẵn trong Azure AI để xây dựng các ứng dụng an toàn và đáng tin cậy hơn.

Đọc thêm: Dịch chuyển từ quan điểm khoa học và tương lai của nó

Microsoft Phi sẽ thay thế các mô hình loại ChatGPT?

Không có gì. Các mô hình ngôn ngữ nhỏ (SLM), ngay cả khi được đào tạo trên dữ liệu chất lượng cao, vẫn có những hạn chế và không được thiết kế để học sâu. Các mô hình ngôn ngữ lớn (LLM) vượt trội hơn SLM trong lý luận phức tạp do kích thước và sức mạnh tính toán của chúng. LLM đang và sẽ tiếp tục đặc biệt hữu ích trong các lĩnh vực như khám phá ma túy, nơi người ta phải tìm kiếm trong bộ sưu tập khổng lồ các bài báo khoa học và phân tích các mô hình phức tạp. Mặt khác, SLM có thể được sử dụng cho các tác vụ đơn giản hơn, chẳng hạn như tóm tắt các điểm chính của một tài liệu văn bản dài, tạo nội dung hoặc hỗ trợ các chatbot dịch vụ khách hàng.

MicrosoftCô cho biết, đã sử dụng các bộ mô hình kết hợp nội bộ, trong đó LLM dẫn đầu, chuyển hướng một số truy vấn nhất định yêu cầu ít sức mạnh tính toán hơn đến SLM trong khi nó tự xử lý các truy vấn khác phức tạp hơn. Phi được định vị để tính toán trên các thiết bị mà không cần sử dụng đám mây. Tuy nhiên, vẫn sẽ có khoảng cách giữa các mô hình ngôn ngữ nhỏ và mức độ thông minh có thể đạt được với các mô hình lớn trên đám mây. Khoảng cách này, nhờ sự phát triển liên tục của LLM, khó có thể sớm biến mất.

Phi-3 vẫn chưa được các bên độc lập bên ngoài xác minh. Microsoft đôi khi nói về hiệu quả hoặc hiệu quả sử dụng năng lượng cao hơn khoảng 25 lần trong những trường hợp cực đoan so với đối thủ cạnh tranh, điều này nghe có vẻ khá tuyệt vời. Mặc dù, mặt khác, người ta không thể quên rằng những năm tháng này đã trôi qua Microsoft đã giúp chúng tôi loại bỏ thực tế rằng họ rõ ràng là người đi đầu trong đổi mới CNTT và có lẽ đó là lý do tại sao chúng tôi không thực sự tin vào điều đó. Các chương trình dựa trên AI phản hồi ngay lập tức và chạy ngoại tuyến thay vì tạo ra? Đây sẽ là một đỉnh cao xứng đáng của cuộc cách mạng hiện nay. Thật không may, có một vấn đề quan trọng.

Đọc thêm: Tất cả về chip thần giao cách cảm Neuralink: nó là gì và hoạt động như thế nào

Phi-3 từ Microsoft chỉ hiểu tiếng Anh

Phi-3 không ngấu nghiến hàng loạt petabyte được ném vào nó. Việc đào tạo mô hình một cách cẩn thận và tỉ mỉ có một vấn đề nhỏ. Phi-3 đã được đào tạo thông tin bằng tiếng Anh và chưa biết thêm ngôn ngữ nào khác. Không chỉ tiếng Ukraina, mà cả tiếng Đức, tiếng Tây Ban Nha, tiếng Pháp hay tiếng Trung Quốc. Tất nhiên, điều này làm giảm đáng kể sức hấp dẫn của nó đối với hầu hết người dùng trên toàn thế giới.

Nhưng trong Microsoft đảm bảo rằng công việc phát triển và cải tiến nó đang được tiến hành. Mặc dù bạn không nên tự lừa dối mình rằng thị trường Ukraine là ưu tiên hàng đầu của bất kỳ tập đoàn lớn nào. Vì vậy, chúng ta sẽ phải chờ rất lâu để được hỗ trợ bằng tiếng Ukraina. Nhưng thực tế này chưa bao giờ ngăn cản được những người đam mê và những người muốn theo kịp sự tiến bộ.

Đọc thêm:

Thêm từ tác giả

Đăng ký

0 Nhận xét

Bài đánh giá được nhúng

Xem tất cả các bình luận

Các bài báo khác