AI mới Microsoft có thể bắt chước giọng nói của bất kỳ người nào

Vào thứ năm, các nhà nghiên cứu Microsoft đã công bố một mô hình trí tuệ nhân tạo (AI) mới có tên VALL-E có thể bắt chước chính xác giọng nói của con người khi được cung cấp mẫu âm thanh dài ba giây. Sau khi học được một giọng nói cụ thể, VALL-E có thể tổng hợp âm thanh của người đó nói bất cứ điều gì trong khi vẫn giữ được giọng điệu cảm xúc của người nói.

Các tác giả của nó gợi ý rằng VALL-E có thể được sử dụng để chuyển văn bản thành giọng nói, chỉnh sửa giọng nói chất lượng cao, trong đó bản ghi âm của một người có thể được chỉnh sửa và thay đổi từ bản phiên âm văn bản (làm cho họ nói những điều mà ban đầu họ không nói) và để tạo nội dung âm thanh kết hợp với các mô hình AI tổng quát khác như GPT-3.

Microsoft AI VALL-E

Microsoft gọi VALL-E là "Mô hình ngôn ngữ Codec thần kinh" và nó dựa trên công nghệ có tên EnCodec mà Meta đã công bố vào tháng 2022 năm . Không giống như các phương pháp chuyển văn bản thành giọng nói khác thường tổng hợp giọng nói bằng cách điều khiển dạng sóng, VALL-E tạo ra âm thanh riêng biệt mã codec từ lời nhắc văn bản và âm thanh. Về cơ bản, nó phân tích âm thanh của một người, chia thông tin đó thành các thành phần riêng biệt (được gọi là "mã thông báo") nhờ EnCodec và sử dụng dữ liệu đào tạo để khớp với những gì nó "biết" về giọng nói đó sẽ như thế nào nếu nó nói các cụm từ khác bên ngoài của mẫu ba giây.

Microsoft đã đào tạo khả năng tổng hợp giọng nói của VALL-E trên thư viện âm thanh do Meta biên soạn có tên LibriLight. Nó chứa 60 giờ phát sóng bằng tiếng Anh từ hơn 7 người thông báo, hầu hết được lấy từ sách nói LibriVox có sẵn công khai.

Ngoài việc giữ nguyên âm sắc giọng nói và giai điệu cảm xúc của người phát thanh, VALL-E còn có thể mô phỏng “môi trường âm thanh” của mẫu âm thanh. Ví dụ: nếu mẫu được lấy từ cuộc trò chuyện qua điện thoại, đầu ra âm thanh tổng hợp sẽ mô phỏng các đặc tính âm thanh và tần số của cuộc trò chuyện qua điện thoại. Ngoài ra mẫu Microsoft chứng minh rằng VALL-E có thể tạo ra các biến thể âm sắc của giọng hát.

Microsoft AI VALL-E

Có lẽ do khả năng của VALL-E có thể tạo điều kiện cho gian lận và lừa đảo, Microsoft chưa cung cấp mã VALL-E để người khác thử nghiệm nên chúng tôi sẽ không thể kiểm tra khả năng của nó. Các nhà nghiên cứu dường như nhận thức được tác hại xã hội tiềm ẩn mà công nghệ này có thể mang lại. Trong phần kết của bài viết, họ viết:

“Bởi vì VALL-E có thể tổng hợp giọng nói để bảo toàn danh tính của người nói, nên nó có thể tiềm ẩn rủi ro lạm dụng mô hình, chẳng hạn như nhận dạng giọng nói giả mạo hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, một mô hình nhận dạng sẽ được xây dựng để phân biệt xem một đoạn âm thanh có được tổng hợp bằng VALL-E hay không."

Bạn có thể giúp Ukraine chiến đấu chống lại những kẻ xâm lược Nga. Cách tốt nhất để làm điều này là quyên góp quỹ cho Các lực lượng vũ trang của Ukraine thông qua Cuộc sống tiết kiệm hoặc thông qua trang chính thức NBU.

Đọc thêm:

Dzherelocông nghệ

Đăng ký

0 Nhận xét

Bài đánh giá được nhúng

Xem tất cả các bình luận

Các bài báo khác

AI mới Microsoft bắt chước giọng nói của bất kỳ người nào từ mẫu âm thanh 3 giây

Những ý kiến gần đây

AI mới Microsoft bắt chước giọng nói của bất kỳ người nào từ mẫu âm thanh 3 giây

Những ý kiến ​​gần đây

Những ý kiến gần đây