OpenAI giới thiệu AI Voice Engine

OpenAI cung cấp quyền truy cập hạn chế vào nền tảng chuyển văn bản thành giọng nói mà nó đã phát triển có tên Voice Engine, nền tảng này có thể tạo ra giọng nói tổng hợp dựa trên đoạn clip dài 15 giây giọng nói của ai đó. Giọng nói do AI tạo ra có thể đọc lời nhắc văn bản theo lệnh bằng cùng ngôn ngữ với người thông báo hoặc bằng một số ngôn ngữ khác. OpenAI cho biết trong một tuyên bố: “Những triển khai nhỏ này giúp định hình cách tiếp cận, sự đảm bảo và suy nghĩ của chúng tôi về cách sử dụng Voice Engine cho mục đích tốt trong các ngành khác nhau”. trong blog.

Trong số các công ty đã có được quyền truy cập có công ty công nghệ giáo dục Age of Learning, nền tảng kể chuyện bằng hình ảnh HeyGen, nhà phát triển phần mềm chăm sóc sức khỏe Dimagi, nhà sáng tạo ứng dụng giao tiếp AI Livox và hệ thống chăm sóc sức khỏe Lifespan.

OpenAI cho biết họ đã bắt đầu phát triển Voice Engine vào cuối năm 2022 và công nghệ này đã hỗ trợ các giọng nói được cài đặt sẵn cho API chuyển văn bản thành giọng nói và chức năng đọc to của ChatGPT. Trong một cuộc phỏng vấn với TechCrunch, Jeff Harris, thành viên nhóm phát triển Voice Engine tại OpenAI, cho biết mô hình này đã được đào tạo về “sự kết hợp giữa dữ liệu được cấp phép và có sẵn công khai”. OpenAI nói với ấn phẩm rằng mô hình này sẽ chỉ dành cho khoảng 10 nhà phát triển.

AI chuyển văn bản thành âm thanh là một lĩnh vực AI sáng tạo đang tiếp tục phát triển. Trong khi hầu hết tập trung vào âm thanh nhạc cụ hoặc tự nhiên, một số ít hơn lại tập trung vào việc tạo giọng nói, một phần là do các vấn đề mà OpenAI đề cập. Chúng bao gồm các công ty như Podcastle và ElevenLabs, cung cấp công nghệ và công cụ để nhân bản giọng nói AI, điều mà Vergecast đã khám phá vào năm ngoái.

Đồng thời, chính phủ Mỹ đang cố gắng hạn chế việc sử dụng trái đạo đức công nghệ giọng nói AI. Tháng trước, Ủy ban Truyền thông Liên bang đã cấm các cuộc gọi tự động sử dụng giọng nói AI sau khi mọi người nhận được các cuộc gọi spam từ giọng nói AI nhân bản của Tổng thống Joe Biden.

Theo OpenAI, các đối tác của nó đã đồng ý với chính sách sử dụng nêu rõ họ sẽ không sử dụng Voice Generation để mạo danh cá nhân hoặc tổ chức mà không có sự đồng ý của họ. Nó cũng yêu cầu các đối tác phải có được "sự đồng ý rõ ràng và có hiểu biết" của người nói ban đầu, không tạo ra cách để người dùng cá nhân tạo ra giọng nói của riêng họ và thông báo cho người nghe rằng giọng nói đó được tạo ra bởi trí tuệ nhân tạo. OpenAI cũng thêm hình mờ vào các clip âm thanh để theo dõi nguồn gốc của chúng và chủ động kiểm soát việc sử dụng âm thanh.

OpenAI đã đề xuất một số bước mà họ tin rằng có thể hạn chế rủi ro liên quan đến các công cụ như vậy, bao gồm loại bỏ dần xác thực giọng nói khi truy cập tài khoản ngân hàng, chính sách bảo vệ việc sử dụng giọng nói của con người trong AI, nâng cao nhận thức về hàng giả AI và phát triển tính năng theo dõi nội dung do AI tạo ra. hệ thống.

Đọc thêm:

Dzherelotheverge

Đăng ký

1 Bình luận

Những cái mới hơn

Những cái cũ hơn Phổ biến nhất

Bài đánh giá được nhúng

Xem tất cả các bình luận

pavlo

1 tháng trước

- Tên con chó của bạn là gì?

1

0

Hồi đáp

Các bài báo khác

AI nhân bản giọng nói mới của OpenAI chỉ cần mẫu 15 giây để hoạt động

Những ý kiến gần đây

AI nhân bản giọng nói mới của OpenAI chỉ cần mẫu 15 giây để hoạt động

Những ý kiến ​​gần đây

Những ý kiến gần đây