Первое моя старая теория что нейросеть Sonauto это просто модифицированная нейросеть stable audio оказалось не правдой .Автор ответил мне что это не так что он сам сделал эту нейросеть и т д.Вторая теория новая:Перед вами видео с музыкальной композиции от нейросети stable audio 1.0 .Так вот там есть хоть и искаженный но голос.И даже он сочетается с музыкой .Так вот моя теория заключается в том что если модифицировать stable audio tools что добавить доп условие это текст песни, то возможно нейросеть будет воспроизводить возможно кривоватый но голос с осмысленным текстом.Текст песни можно получить с помощью модели whisper-large . Поместить можно эту модель в конфиг файле ,и там же немного настроить там.А более сложное это найти скрипт то ли тренировки то ли другой и модифицировать что бы была доп условие это текст песни.
Первая новость:Мне не удалось обучить музыкальную модель из-за ошибок в консоли и из-за того, что не удалось найти нужную версию Clap (фигня, которая описывает музыку).Вторая новость это моя теория насчёт stable audio tools
Next up
@Magic_4df5 глазами нейросетями
В крации там я уже без понятия то ли я ошибся в размерах датасета то ли автор что то наколдовал .Но примерно вышло файлов музыки на 5000-6000
Короче я почти разобрался с нейросетью по генерации музыки.Осталось понять что делать с подписями для музыки и что такое кондиционеры(это связано с нейросетями ,а не с бытовой техникой)
Как вы знаете я главный на гж нейросетевой dungeon master пытаюсь сделать свою говно нейронку из этой https://github.com/Stability-AI/stable-audio-tools и вот просто знайте настолько мало легальных датасетов с музыкой и подписями к ней что мне придётся использовать.Дальше в артикле
RIDDLE.
Мои предсказания по поводу "Какие открытые нейросети выйдут или уже будут доступны в начале 2025 году?"
Если вы хотите создать свою собственную муз.нейросеть но туториалов по transformer нету?То как за основу берите stable audio tools https://github.com/Stability-AI/stable-audio-tools?tab=MIT-1-ov-… это уже готовая нейросеть с открытым исходным кодом и вы можете модифицировать для своих задач
no pain no gain
Хотите рофл? Я нашёл датасет музыки с 7000 композиций с статусом общественным достоянием .И так же я потихоньку разбераюсь с stable audio tools .и надеюсь я сегодня буду обучать свою первую музыкальную модельку
0 comments