LLM (Large language model) - модель для генерации текста,чаще всего основано на архитектуре "Трансофрмер" .
VLM (Vision language models)- тоже самое что и LLM но умеет анализировать изображение (или видео) ,отвечать вопросы об нём и т д.
Fine-tuning-дообучение модели на своих данных,при тренировке изменяется вся модель (веса).
LORA (Low-rank adaptation ) - тоже самое что и Fine-tuning но на тренировки изменяется только часть модели,так оно обучается быстрее и дешевле .
MultiLora - тоже самое что и лора только для нескольких объектов.Требует точных подписей для понимания контекста
DIT - одна из типов диффузии которая контролируется с помощью Трансформера ,что позволяет улучшить качество генерации.Подходит для видео,аудио,картинок
Трансформер - одна из самых популярных архитектур для LLM моделей. Работает при генерации примерно так :если очень простыми словами то она предсказывает каждый токен(символ)за раз .Во время генерации он смотрит на написанное что бы предсказать следующие слово и добавляет в текст пока не закончит последовательность
Диффузия - Одна из архитектуру которую используют для генерации изображений .кратко расскажу как она работает во время генерации ,модель берёт чистый шум гауса и удаляет из него шум что бы получить изображение которое следует по промту
GGUF - формат хранений LLM,VLM и других тектовых моделей.Он разработан для оптимизированн для быстрой загрузки и сохранения моделей.В нынешнее время так же используется для моделей генерации изрбражений
FLUX - линейка крутых открытых моделей для генерации картинок
Stable diffusion - линейка открытых моделей для генерации картинок
Датасет - набор данных
ComfyUI - многофункциональный веб интерфейс для запуска нейросетей.Функционад можно расширять с помощью кастомных год
Stable Diffusion WebUI- веб интерфейс больше предназначенный для генерации изображений .Есть расширения но они только для мелких вещей.Основан на gradio
4 comments