ByteDance открыла исходники Lance — одна модель делает картинки, видео и редактирует их
ByteDance выложила Lance — мультимодальную модель на 3 миллиарда параметров под Apache 2.0. Понимает и генерирует картинки и видео, редактирует одним промптом, работает локально на одной карте с 40 ГБ видеопамяти. Лучшие баллы среди унифицированных моделей по GenEval, VBench и GEdit-Bench.
🔴 ByteDance открыла исходники Lance — одна модель делает картинки, видео и редактирует их
Раньше для генерации изображений брали одну модель, для видео — другую, для редактирования — третью. Китайская лаборатория собрала всё в одну, выложила под открытой лицензией и поставила топ-1 в публичных бенчмарках.
На прошлой неделе ByteDance выложила Lance — мультимодальную модель на 3 миллиарда активных параметров, лицензия Apache 2.0, веса на Hugging Face. Lance умеет описывать и рассуждать про картинки и видео, генерирует их по тексту, редактирует одним промптом. На публичных бенчмарках — лучший балл среди унифицированных моделей: GenEval 0,90, VBench 85,11, GEdit-Bench 7,30.
Запустить можно локально — нужна одна графическая карта с 40 ГБ видеопамяти. Для российских команд это означает сдвиг порога входа в мультимодальный AI: не подписка на закрытый API в долларах, а железо, которое уже стоит в офисе. Когда китайские лаборатории отдают бесплатно то, что у западных — закрытый платный продукт, конкуренция переходит из плоскости «у кого больше денег» в плоскость «у кого быстрее руки».
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
#нейросети #LLM #модели #мультимодальность #Китай #ИИ #технологии #AravanaAI
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.