Еман я тупой.Я сейчас сижу и думаю а почему же датасет с музыкой на 40 Гб ,где 7000 композиций начинает загружать уже 50 Гб.Так ВОТ это 40 Гб музыки + 7000 песен .
Next up
Победа,я наконец нашёл идеальные модели для описания изображений.Они при стандартных промтах пишут не плохо и быстро (модели Qwen2-VL-2B-Instruct и OpenGVLab_InternVL2-2B).Для лучшего качества надо сделать всего лишь свой промт
Датасет осталось немного улучшить и он готов
Завтра должна начаться тренировка модели ,но наверное она начнётся в субботу потому что я не могу доделать датасет из за того что я сегодня не был весь день дома ну и завтра пол дня
Тут я над одной масштабной нейросетью работаю.Если получится то это значительно облегчит жизнь разработчикам Лунтиков x .Артикль
Пиздец
На пути к мультилоре по "Лунтик и его друзья" .В данном посте будет вся информация о модели ,её характеристики и т д
Можно уже считать что датасет в плане картинок полностью готов.Я за вечер разобрал все спрайты и мне максимум из общего объёма добавить 10 спрайтов и немножко ещё удалить.Завтра будет самое сложное ,подписи
Ещё одна маленькая победа,осталось только найти идеальную модель для описания
Описание датасета стартовало .Подписи будут довольно подробными .Качество их будет максимально хорошее
Если кому-то интересно сколько сейчас весит необработанный датасет то вот.Примерно после удаления ненужных изображений он будет весить где-то 300-500 мб
0 comments