Как запустить Llama 4 Scout на своем компьютере

Llama 4 Scout -- новейшая мультимодальная модель Meta с 10 миллионами токенов контекста. Запускается локально через Ollama. Пошаговая инструкция для Windows, Mac и Linux.

·7 мин

Что это и для кого

Llama 4 -- это четвертое поколение открытых языковых моделей от Meta, выпущенное в апреле 2026 года. Это первая open-weight модель Meta с нативной мультимодальностью: она обрабатывает и текст, и изображения в одном интерфейсе без дополнительных плагинов. На момент выпуска Llama 4 стала самой широко развернутой открытой AI-моделью в мире по данным Ollama. Обе версии -- Scout и Maverick -- доступны для скачивания и локального запуска без каких-либо лицензионных ограничений для коммерческого использования в большинстве случаев.

Семейство Llama 4 включает два варианта. Scout -- 17 миллиардов активных параметров (109 миллиардов всего, архитектура MoE) с контекстным окном до 10 миллионов токенов. Maverick -- также 17 миллиардов активных параметров, но 400 миллиардов суммарно, что дает более высокое качество ценой большего потребления ресурсов. Для домашнего использования реалистичен Scout: он запускается на одной видеокарте.

Архитектура Mixture of Experts (MoE) -- ключевое нововведение Llama 4. При каждом запросе активируется только часть параметров (около 17 миллиардов из 109), что делает Scout значительно эффективнее традиционных плотных моделей. Вы получаете качество 100+ миллиардной модели при вычислительной нагрузке 17-миллиардной. Именно поэтому Scout запускается на относительно доступном железе.

Для кого подходит Llama 4 Scout. Разработчикам, которым нужна мощная мультимодальная модель без ежемесячных подписок. Исследователям, работающим с конфиденциальными данными, которые нельзя отправлять в облако. Всем, кто хочет AI-ассистента, работающего полностью офлайн. Пользователям с большими объемами обработки -- при локальном запуске нет лимитов на количество запросов. Энтузиастам AI, которые хотят изучать и модифицировать открытую модель. Компаниям, которым критична полная конфиденциальность -- все данные обрабатываются локально и никуда не передаются.

Контекстное окно 10 миллионов токенов у Scout -- это революционный показатель среди open-source моделей. Для сравнения: Claude Opus 4.7 имеет контекст 200 тысяч токенов, GPT-5 -- около 1 миллиона. Llama 4 Scout теоретически может обработать целые кодовые базы, длинные юридические документы или несколько книг за один запрос. На практике работа с очень длинными контекстами требует соответствующего объема памяти.

Что нужно для запуска

Прежде чем устанавливать Llama 4 Scout, убедитесь, что ваше железо соответствует минимальным требованиям. Это самый важный шаг -- недостаточная видеопамять означает, что модель просто не запустится или будет работать неприемлемо медленно.

Для запуска через Ollama в квантизованном формате Q4_K_M (оптимальный баланс качества и размера) Scout занимает около 55-65 гигабайт. Это означает, что для GPU-ускорения нужна видеокарта с 64+ гигабайтами видеопамяти (профессиональные карты уровня NVIDIA A100) или связка из двух карт по 32 гигабайта.

Для Apple Silicon (Mac с чипами M2/M3/M4): используется унифицированная память, которая делится между CPU и GPU. Для Scout в Q4_K_M нужно около 65 гигабайт унифицированной памяти -- это Mac с 96 гигабайтами (конфигурации M2/M3/M4 Max и Ultra). На Mac с 64 гигабайтами Scout запустится, но медленнее. Mac с 32 гигабайтами памяти не подходит для Scout -- используйте более легкую модель.

Оптимизированные версии для более доступного железа. Команда Unsloth выпустила динамически квантизованную версию Scout с глубиной квантизации 1,78 бит, которая занимает около 24 гигабайт и запускается на одной RTX 4090 или Mac M3 Pro с 36 гигабайтами. Качество немного снижено, но для большинства задач разница несущественна. Поищите unsloth/Llama-4-Scout-GGUF на Hugging Face.

Операционная система: macOS 12 или новее, Ubuntu 20.04+ / другой Linux, Windows 10/11. Для Windows рекомендуется использовать WSL2 (Windows Subsystem for Linux) для лучшей совместимости.

Первый запуск через Ollama

Ollama -- самый простой способ запустить Llama 4 Scout локально. Это инструмент управления локальными AI-моделями с удобным CLI и автоматической квантизацией. Установить Ollama можно командой: curl -fsSL https://ollama.com/install.sh | sh на Linux и macOS. На Windows скачайте установщик с сайта ollama.com.

После установки Ollama запустите Scout одной командой: ollama run llama4:scout. Если модель ещё не скачана, Ollama автоматически загрузит её -- это займет значительное время в зависимости от скорости интернета (файл весит несколько десятков гигабайт). Индикатор прогресса покажет текущий статус загрузки.

После загрузки вы попадаете в интерактивный чат прямо в терминале. Напишите запрос и нажмите Enter. Первый ответ будет немного медленнее (модель загружается в память), последующие -- быстрее. Скорость генерации зависит от железа: на RTX 4090 -- около 10-15 токенов в секунду, на Apple M4 Max -- 20-30 токенов в секунду.

Для работы с изображениями через Ollama введите в чате путь к файлу изображения: /path/to/image.jpg или перетащите файл в терминал. Затем задайте вопрос. Scout может описать содержимое изображения, ответить на вопросы о нем, извлечь текст или проанализировать графики.

Запуск через API. Ollama автоматически запускает локальный сервер на порту 11434, совместимый с форматом OpenAI API. Это означает, что любой инструмент, работающий с OpenAI (Open WebUI, Continue для VS Code, LibreChat), будет работать и с локальным Scout без изменений. Укажите base_url=http://localhost:11434/v1 и model=llama4:scout в настройках клиента.

Open WebUI для удобного графического интерфейса. Если терминал неудобен -- установите Open WebUI: docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main. После запуска откройте браузер по адресу localhost:3000 и получите полноценный ChatGPT-подобный интерфейс для своей локальной Llama 4. Open WebUI поддерживает загрузку изображений, управление историей чатов, переключение между моделями и даже базовые RAG-функции -- поиск по загруженным документам.

Ключевые фишки Llama 4

Нативная мультимодальность. Llama 4 -- первая open-weight модель Meta, обученная на тексте и изображениях одновременно, а не дообученная на отдельном модуле видения. Это дает более глубокое понимание связи между визуальным и текстовым содержимым. Модель понимает инфографику, диаграммы, скриншоты интерфейсов, рукописные заметки и обычные фотографии.

10 миллионов токенов контекста у Scout. Это самое большое контекстное окно среди всех open-source моделей на момент выпуска. Практическое применение: загрузить всю кодовую базу среднего проекта и задавать вопросы о ней, анализировать месячную историю переписки, обрабатывать многотомные юридические документы без разбивки на части.

Архитектура MoE (Mixture of Experts). При 109 миллиардах параметров Scout активирует только 17 миллиардов при каждом запросе. Это делает модель в 5-6 раз экономичнее по вычислительным ресурсам по сравнению с традиционной плотной моделью того же размера. Пользователи с ограниченным железом получают качество большой модели по цене маленькой.

Открытая лицензия для коммерческого использования. Meta выпускает Llama 4 под кастомной открытой лицензией, разрешающей коммерческое использование компаниям с менее чем 700 миллионами пользователей. Для большинства организаций это означает свободное использование в продуктах без лицензионных отчислений и договоров.

Широкая экосистема инструментов. Благодаря огромной популярности Llama, поддержку Llama 4 добавили практически все инструменты работы с локальными моделями: Ollama, LM Studio, Jan AI, llama.cpp, vLLM. Вы найдете подробные инструкции, сообщество и готовые решения для любой задачи.

Поддержка в облачных API. Llama 4 Scout и Maverick доступны через Groq, Together AI, Fireworks AI и другие провайдеры для облачного использования. Это позволяет протестировать модель без установки, а затем перейти на локальный запуск когда захотите полной приватности или снижения затрат. Groq в частности предлагает чрезвычайно высокую скорость генерации -- более 500 токенов в секунду для Scout -- что может быть полезно для приложений с требованиями к низкой задержке.

Цены и ограничения

Локальный запуск через Ollama: бесплатно. Вы платите только за электричество -- примерно 5-15 Вт дополнительной нагрузки при генерации текста на современных GPU и Apple Silicon. Нет лимитов на количество запросов, нет подписок, нет зависимости от доступности серверов.

Облачный вариант через Groq (на момент написания): около 0,11 доллара за 1 миллион входящих токенов и 0,34 доллара за 1 миллион исходящих для Scout. Groq предоставляет исключительно быструю генерацию за счет специализированных чипов -- скорость может превышать 500 токенов в секунду, что значительно быстрее локального запуска на обычном железе.

Требования к хранилищу. Модель Scout в формате GGUF Q4_K_M занимает около 55-65 гигабайт на диске. Убедитесь, что у вас достаточно свободного места перед началом загрузки. При использовании нескольких квантизованных версий потребность в дисковом пространстве может превысить 100 гигабайт.

Ограничения квантизации. При уменьшении точности весов (квантизация) для уменьшения размера модели неизбежно снижается качество ответов. Q4_K_M -- хороший компромисс для большинства задач. Если качество критично -- используйте менее агрессивную квантизацию Q6_K или Q8_0, но они требуют значительно большего объема памяти.

Скорость генерации зависит от железа. На бюджетных GPU (RTX 3060 с 12 гигабайтами) Scout запустится только в урезанном формате и будет генерировать 2-5 токенов в секунду -- медленно для интерактивной работы. Для комфортной скорости нужна видеокарта с 24+ гигабайтами или Mac с Apple Silicon M3 Pro и выше.

Нужен ли VPN из России

Локальный запуск Llama 4 через Ollama не требует никаких внешних подключений -- модель работает полностью на вашем компьютере. VPN не нужен. Интернет нужен только для первоначальной загрузки модели с серверов Ollama, которые доступны из России без ограничений.

Сайт ollama.com доступен в России. Ollama распространяется как свободное программное обеспечение, и никаких региональных ограничений на скачивание нет. Загрузка Scout занимает от 1 до нескольких часов в зависимости от скорости вашего интернета -- рекомендуется использовать проводное соединение.

Облачные варианты Llama 4 через Groq, Together AI или Fireworks могут требовать VPN, так как они не принимают российские карты и могут ограничивать доступ из России. Но основной смысл Llama 4 -- именно локальный запуск без зависимости от зарубежных сервисов.

Meta.ai (официальный веб-интерфейс для Llama 4) недоступен в России -- для него потребуется VPN и аккаунт с иностранным номером телефона. Но этот вариант не обязателен: Ollama предоставляет более гибкий и полноценный способ работы с моделью локально, без каких-либо ограничений со стороны Meta.

Итог по VPN: если вы планируете использовать Llama 4 Scout только локально через Ollama -- VPN не нужен вообще. Скачайте Ollama, скачайте модель, запустите. Всё работает офлайн. Это делает Llama 4 Scout одним из самых удобных вариантов для пользователей из России, которым нужен мощный AI без зависимости от зарубежных сервисов и без необходимости обходить блокировки.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Как начать пользоваться Sora 2: генерация видео от OpenAI

Sora 2 -- AI-видеогенератор от OpenAI с синхронным звуком, видео до 25 секунд и разрешением 1080p. Пошаговый гайд для начинающих.

·7 мин

Как установить OpenCode: open-source AI-агент для кода в терминале

OpenCode -- самый популярный open-source AI-агент для программирования в терминале. 147 тысяч звезд на GitHub, поддержка 75+ моделей и бесплатное использование.

·7 мин

Как начать пользоваться GLM-5: китайский фронтирный AI от Z.ai

GLM-5 от Zhipu AI -- первая публично торгуемая AI-модель Китая: 745 миллиардов параметров, MIT-лицензия и цены в 5 раз ниже, чем у Claude. Пошаговый гайд.

·7 мин