Trình tạo hình ảnh AI được dạy để tạo nhạc

Âm nhạc do trí tuệ nhân tạo (AI) tạo ra đã trở thành hiện thực. Các công cụ AI hiện có thể tạo nhạc mà không cần gì ngoài lời nhắc văn bản và kết quả vượt quá mọi mong đợi.

Tuy nhiên, điều này không có nghĩa là các công cụ AI có thể trực tiếp tạo ra âm nhạc. Thay vào đó, âm nhạc đi qua các trình tạo hình ảnh AI để tạo ra các phổ của âm nhạc. Sau đó, bạn có thể chuyển đổi các quang phổ này thành các đoạn âm thanh. Điều này có nghĩa là âm nhạc do AI tạo ra sẽ thay thế âm nhạc do con người tạo ra trong tương lai?

AI dựa trên hình ảnh dạy các thuật toán máy tính để nhận dạng hình ảnh của các địa điểm và đồ vật. Sau đó, các thuật toán được sử dụng để tái tạo các hình ảnh tương tự nhưng độc đáo. DALL-E và Khuếch tán ổn định là những ví dụ điển hình. Hiện tại, bạn có thể làm cho các chương trình này hiển thị bất kỳ thứ gì bạn muốn. Tất cả thông qua văn bản!

Vì vậy, công cụ AI có thể tạo ra quang phổ được gọi là Riffusion. Đây là dự án AI mới nhất và về bản chất, nó là một trình tạo hình ảnh từ văn bản dựa trên sự khuếch tán ổn định (Stable Diffusion). Nhưng làm thế nào mà anh ấy trở nên có khả năng tạo ra âm nhạc?

Đằng sau Riffusion là người máy Heik Martiros và nhà phát triển phần mềm Seth Forsgren. Họ muốn kiểm tra xem các chương trình AI hiện đại có thể hoạt động trong lĩnh vực âm thanh hay không. Do đó, bắt đầu hành trình tạo ra âm nhạc của Riffusion. Forsgren nói về công nghệ như thế này: “Hake và tôi chơi cùng nhau trong một ban nhạc nhỏ, và chúng tôi bắt đầu dự án chỉ vì chúng tôi yêu âm nhạc. Sau khi nhìn thấy kết quả tuyệt vời của Khuếch tán ổn định để tạo hình ảnh, chúng tôi đã tự hỏi mình sẽ như thế nào khi sử dụng phương pháp khuếch tán để tạo ra âm nhạc?

Để tìm hiểu, một nhóm gồm hai người đã đào tạo Khuếch tán ổn định mã nguồn mở trên các hình ảnh quang phổ. Chúng được kết hợp với văn bản. Sau đó, chương trình có thể tạo phổ âm nhạc dựa trên những manh mối nhất định.

Lúc đầu, họ không biết liệu kiến trúc mô hình Khuếch tán ổn định có thể tạo ra một hình ảnh phổ với độ chính xác đủ để chuyển đổi thành âm thanh hay không, nhưng hóa ra nó có thể làm được điều đó và hơn thế nữa. Martiros và Forsgren đã công bố kết quả của họ trên trang web chính thức của Riffusion. Lúc đầu, nó là một dự án sở thích. Nhưng bây giờ khách truy cập có thể thêm mẹo văn bản của riêng họ. Điều này sẽ buộc Riffusion tạo ra một quang phổ. Sau đó, khách truy cập có thể sử dụng nó dưới dạng một đoạn âm thanh và phát trên trang web.

Kết quả ở giai đoạn này có thể không có chất lượng rất cao. Nhưng nó chắc chắn không tệ như bạn nghĩ.

Riffusion cũng có thể cố gắng phát các bài hát bao gồm rap theo phong cách của Eminem và K-Pop. Nhưng chức năng tạo lời bài hát không tốt lắm. Thay vì văn bản, bạn sẽ nghe thấy tiếng người vô nghĩa du dương. Nhưng điều thú vị nhất là sự vô nghĩa này vẫn phù hợp với giai điệu của bài hát.

Công nghệ này vẫn chưa sẵn sàng để thay thế âm nhạc do con người tạo ra. Nhưng dự án đã cho chúng ta thấy rằng các thuật toán xử lý hình ảnh AI vẫn có tiềm năng lớn. Chẳng mấy chốc nó có thể trở thành trợ lý cho các tác giả âm nhạc. Có lẽ để có được một số cảm hứng để viết một bài hát.

Bạn có thể giúp Ukraine chiến đấu chống lại những kẻ xâm lược Nga. Cách tốt nhất để làm điều này là quyên góp quỹ cho Các lực lượng vũ trang của Ukraine thông qua Cuộc sống tiết kiệm hoặc thông qua trang chính thức NBU.

Cũng thú vị:

Dzherelogizchina

Đăng ký

0 Nhận xét

Bài đánh giá được nhúng

Xem tất cả các bình luận

Các bài báo khác

Trình tạo hình ảnh AI được dạy để tạo nhạc

Những ý kiến ​​gần đây

Những ý kiến gần đây