AI mới Microsoft bắt chước giọng nói của bất kỳ người nào từ mẫu âm thanh 3 giây

10/01/2023 13:35

Vào thứ năm, các nhà nghiên cứu Microsoft đã công bố một mô hình trí tuệ nhân tạo (AI) mới có tên VALL-E có thể bắt chước chính xác giọng nói của con người khi được cung cấp mẫu âm thanh dài ba giây. Sau khi học được một giọng nói cụ thể, VALL-E có thể tổng hợp âm thanh của người đó nói bất cứ điều gì trong khi vẫn giữ được giọng điệu cảm xúc của người nói.

Các tác giả của nó gợi ý rằng VALL-E có thể được sử dụng để chuyển văn bản thành giọng nói, chỉnh sửa giọng nói chất lượng cao, trong đó bản ghi âm của một người có thể được chỉnh sửa và thay đổi từ bản phiên âm văn bản (làm cho họ nói những điều mà ban đầu họ không nói) và để tạo nội dung âm thanh kết hợp với các mô hình AI tổng quát khác như GPT-3.

Microsoft gọi VALL-E là "Mô hình ngôn ngữ Codec thần kinh" và nó dựa trên công nghệ có tên EnCodec mà Meta đã công bố vào tháng 2022 năm . Không giống như các phương pháp chuyển văn bản thành giọng nói khác thường tổng hợp giọng nói bằng cách điều khiển dạng sóng, VALL-E tạo ra âm thanh riêng biệt mã codec từ lời nhắc văn bản và âm thanh. Về cơ bản, nó phân tích âm thanh của một người, chia thông tin đó thành các thành phần riêng biệt (được gọi là "mã thông báo") nhờ EnCodec và sử dụng dữ liệu đào tạo để khớp với những gì nó "biết" về giọng nói đó sẽ như thế nào nếu nó nói các cụm từ khác bên ngoài của mẫu ba giây.

Microsoft đã đào tạo khả năng tổng hợp giọng nói của VALL-E trên thư viện âm thanh do Meta biên soạn có tên LibriLight. Nó chứa 60 giờ phát sóng bằng tiếng Anh từ hơn 7 người thông báo, hầu hết được lấy từ sách nói LibriVox có sẵn công khai.

Ngoài việc giữ nguyên âm sắc giọng nói và giai điệu cảm xúc của người phát thanh, VALL-E còn có thể mô phỏng “môi trường âm thanh” của mẫu âm thanh. Ví dụ: nếu mẫu được lấy từ cuộc trò chuyện qua điện thoại, đầu ra âm thanh tổng hợp sẽ mô phỏng các đặc tính âm thanh và tần số của cuộc trò chuyện qua điện thoại. Ngoài ra mẫu Microsoft chứng minh rằng VALL-E có thể tạo ra các biến thể âm sắc của giọng hát.

Có lẽ do khả năng của VALL-E có thể tạo điều kiện cho gian lận và lừa đảo, Microsoft chưa cung cấp mã VALL-E để người khác thử nghiệm nên chúng tôi sẽ không thể kiểm tra khả năng của nó. Các nhà nghiên cứu dường như nhận thức được tác hại xã hội tiềm ẩn mà công nghệ này có thể mang lại. Trong phần kết của bài viết, họ viết:

“Bởi vì VALL-E có thể tổng hợp giọng nói để bảo toàn danh tính của người nói, nên nó có thể tiềm ẩn rủi ro lạm dụng mô hình, chẳng hạn như nhận dạng giọng nói giả mạo hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, một mô hình nhận dạng sẽ được xây dựng để phân biệt xem một đoạn âm thanh có được tổng hợp bằng VALL-E hay không."

Bạn có thể giúp Ukraine chiến đấu chống lại những kẻ xâm lược Nga. Cách tốt nhất để làm điều này là quyên góp quỹ cho Các lực lượng vũ trang của Ukraine thông qua Cuộc sống tiết kiệm hoặc thông qua trang chính thức NBU.

Đọc thêm:

Chia sẻ

Julia Alexandrova

Người bán cà phê. Nhiếp ảnh gia. Tôi viết về khoa học và không gian. Tôi nghĩ còn quá sớm để chúng ta gặp người ngoài hành tinh. Tôi theo dõi sự phát triển của người máy, đề phòng ...

Bài viết tiếp theo Văn phòng vận chuyển hàng hóa Nova Post đầu tiên được mở tại Warsaw »

bài báo trước « OPPO đợt giảm giá ngày lễ tiếp tục cho đến ngày 22 tháng

Bình luận

tags: MicrosoftTin tứcTrí tuệ nhân tạo

10/01/2023 13:35

AI mới Microsoft bắt chước giọng nói của bất kỳ người nào từ mẫu âm thanh 3 giây

Bình luận

Các bài báo tương tự