Как запустить Phi-4-mini на своём компьютере: быстрая локальная AI от Microsoft

Пошаговый гайд по Microsoft Phi-4-mini -- компактной локальной модели с 128K контекстом, которая работает даже на слабом железе через Ollama.

·7 мин

Что это и для кого

Phi-4-mini -- это небольшая языковая модель от Microsoft с 3.8 миллиарда параметров, выпущенная в начале 2026 года. Несмотря на компактный размер, она превосходит многие модели вдвое большего размера на стандартных бенчмарках: MMLU 73% против 65% у Llama 3.2 3B, MATH 62% против 48%, HumanEval для кода 72%. Это результат целенаправленного обучения на высококачественных синтетических данных с акцентом на рассуждение, математику и многоязычность.

Ключевая характеристика Phi-4-mini -- это контекстное окно в 128 000 токенов при размере модели около 2.2 гигабайта. Для сравнения: большинство локальных моделей похожего размера имеют контекст 8-32К токенов. Большой контекст означает что модель может работать с длинными документами, большими фрагментами кода или расширенными разговорами без потери информации.

Phi-4-mini подходит для нескольких категорий пользователей. Разработчики которые хотят встроить ИИ в свои приложения и использовать function calling -- структурированные ответы в формате JSON для вызова функций. Пользователи с ограниченным железом: модель работает на 4 гигабайтах оперативной памяти или видеопамяти и на компьютерах без дискретной видеокарты. Те кто ценит приватность и хочет держать все данные локально без передачи в облако. Студенты и исследователи которые изучают работу малых языковых моделей. Компании которые хотят развернуть ИИ на внутренних серверах без внешних API и соответствующих рисков утечки данных.

Сравнение с похожими моделями поможет понять когда выбирать Phi-4-mini. Llama 3.2 3B -- близкий конкурент от Meta, немного уступает по бенчмаркам но имеет более широкое сообщество и больше туториалов. Gemma 4 от Google -- более мощная (26B параметров, но активирует только 4B), нужна больше видеопамяти. Qwen 2.5 3B -- хороший вариант если нужна сильная поддержка китайского языка. Phi-4-mini выигрывает по соотношению размер/производительность на английском и математике, и по размеру контекстного окна.

Phi-4-mini -- один из самых быстрых моделей в Ollama на современном железе: ожидайте 200-350 токенов в секунду на GPU и 30-80 токенов в секунду на процессоре без видеокарты. Это означает плавный разговор в реальном времени даже на CPU.

Как установить

Для запуска Phi-4-mini используем Ollama -- самый простой способ запускать локальные модели без настройки окружения Python или управления зависимостями.

Шаг 1. Установите Ollama. Перейдите на ollama.com и скачайте установщик для своей операционной системы. На macOS это .dmg файл, на Windows .exe установщик, на Linux однострочная команда через curl. После установки Ollama запустится как системный сервис в фоне. На Mac иконка Ollama появится в строке меню.

Шаг 2. Скачайте и запустите Phi-4-mini. Откройте терминал и выполните команду: ollama run phi4-mini. Ollama автоматически скачает модель (около 2.2 гигабайта) и сразу откроет интерактивный чат. Скачивание происходит один раз, последующие запуски мгновенные.

Шаг 3. Начните диалог. Введите сообщение в терминале и нажмите Enter. Модель ответит. Для выхода из чата напечатайте /bye или нажмите Ctrl+D.

Если предпочитаете графический интерфейс вместо терминала, установите Open WebUI. Это веб-интерфейс для Ollama внешне похожий на ChatGPT: история чатов, загрузка файлов, выбор модели из списка установленных. Установка через Docker займет около 5 минут, подробные инструкции есть на github.com/open-webui/open-webui. После запуска откройте браузер и перейдите на localhost:3000.

Альтернативно можно использовать LM Studio -- оно имеет встроенный графический интерфейс и поиск моделей с Hugging Face. Скачайте LM Studio с lmstudio.ai, найдите phi-4-mini в поиске, нажмите Download и после загрузки нажмите Load model для запуска. В разделе AI Chat можно начать разговор сразу. LM Studio также предоставляет встроенный сервер совместимый с OpenAI API -- удобно для разработчиков.

Jan AI -- еще один вариант с открытым кодом, который не требует Docker и устанавливается как обычное настольное приложение. Скачайте с jan.ai, откройте, найдите phi4-mini в каталоге моделей и установите одним кликом.

Первый запуск -- что попробовать

После установки попробуйте несколько типов задач чтобы понять сильные стороны модели.

Рассуждение и логика. Задайте задачу требующую пошагового размышления: У Маши в 2 раза больше яблок чем у Пети. Вместе у них 18 яблок. Сколько яблок у каждого из них? Phi-4-mini хорошо справляется с такими задачами и показывает ход рассуждений.

Написание и редактирование кода. Напишите короткую функцию: напиши функцию на Python которая принимает список чисел и возвращает только чётные числа отсортированные по убыванию. Phi-4-mini показывает высокие результаты на бенчмарках кода и дает чистые, рабочие решения.

Function calling -- уникальная возможность для разработчиков. Phi-4-mini поддерживает структурированные ответы в формате JSON для вызова функций. Это позволяет использовать модель как мозг агентных систем где модель решает какую функцию вызвать с какими параметрами. Эта возможность редка среди малых моделей такого размера.

Работа с длинным контекстом. Откопируйте большой фрагмент текста, например несколько страниц статьи или длинный код, и попросите модель ответить на вопросы по нему. 128К контекст позволяет загружать целые небольшие книги или крупные кодовые файлы.

Многоязычность. Phi-4-mini обучена на данных на 23 языках включая русский. Качество русскоязычных ответов заметно лучше чем у большинства моделей похожего размера -- можно вести диалог на русском без переключения на английский.

Для проверки скорости на своём железе запустите тест: дайте длинный промпт и засеките время. На MacBook Pro M2 Pro ожидайте 50-80 токенов в секунду. На Windows ПК с GPU Nvidia RTX 3070 или лучше -- 200+ токенов в секунду.

Полезная команда для разработчиков: ollama list показывает все установленные модели, ollama ps показывает что сейчас запущено, ollama rm phi4-mini удаляет модель если она больше не нужна. Ollama также предоставляет REST API на localhost:11434 -- можно отправлять POST-запросы к /api/chat в формате совместимом с OpenAI API. Это означает что любой код написанный для OpenAI будет работать с Phi-4-mini просто изменив base_url на локальный адрес.

Ключевые фишки

Рекордный контекст для своего размера. 128 000 токенов в модели 3.8B параметров -- это технически значимое достижение. До Phi-4-mini получить такой контекст в локальной модели можно было только от моделей значительно большего размера. Это открывает задачи с длинными документами, большими кодовыми базами и расширенными разговорными агентами на слабом железе.

Function calling из коробки. Phi-4-mini поддерживает структурированный вывод для вызова функций -- то что раньше было только у проприетарных API. Вы можете описать набор инструментов (функций) на которые модель может ссылаться, и модель будет возвращать структурированные JSON-ответы с именем функции и параметрами. Это базис для построения локальных агентных систем.

Скорость. На современном железе Phi-4-mini один из самых быстрых вариантов в своей нише. 200-350 токенов в секунду на GPU превращают взаимодействие с локальной моделью в полностью интерактивный опыт -- без заметных задержек между токенами.

Работа на CPU без GPU. Если у вас нет дискретной видеокарты, Phi-4-mini все равно запустится на процессоре. На современных процессорах Intel Core i7 или AMD Ryzen 7 скорость составит 30-50 токенов в секунду -- достаточно для комфортного использования. Требования к оперативной памяти: минимум 4 гигабайта, рекомендуется 8.

Открытые веса и коммерческое использование. Phi-4-mini распространяется под лицензией MIT -- одной из самых разрешительных. Это означает что вы можете использовать модель в коммерческих продуктах, модифицировать её, встраивать в свои приложения без роялти и ограничений. Полный контроль над данными -- никакая информация не уходит на сервера Microsoft или Ollama.

Интеграция с экосистемой инструментов. Phi-4-mini работает с Ollama, LM Studio, Jan AI, llama.cpp и другими популярными инструментами для локальных моделей. Через Ollama модель доступна через стандартный OpenAI-совместимый API на localhost:11434, что позволяет использовать её в любом коде написанном для OpenAI API -- просто изменив базовый URL.

Цены и ограничения

Phi-4-mini полностью бесплатна. Нет подписки, нет платы за токены, нет ограничений на количество запросов. Единственные затраты -- это время на скачивание (около 2.2 гигабайта) и электроэнергия для работы компьютера.

Требования к оборудованию на момент написания материала. Минимальная конфигурация: любой современный процессор (Intel 8-го поколения и новее, AMD Ryzen 3000 и новее), 4 гигабайта оперативной памяти, 3 гигабайта свободного места на диске. Рекомендуемая для комфортного использования: 8 гигабайт оперативной памяти или GPU с 4+ гигабайтами видеопамяти.

Ограничения которые важно понимать. Phi-4-mini с 3.8 миллиарда параметров уступает большим моделям вроде Llama 3.1 70B или Claude Sonnet на сложных аналитических задачах, длинных нарративных текстах и задачах требующих широких энциклопедических знаний. Для простых и средних задач разница незаметна, но на задачах высокой сложности большие модели выигрывают.

Русскоязычные тексты генерируются хуже чем англоязычные -- это типично для малых моделей. Качество вполне приемлемое для большинства задач, но для профессионального контента на русском может потребоваться редактура.

Модель не имеет доступа к интернету и актуальной информации -- знания ограничены датой обучения. Для задач требующих свежих данных используйте облачные модели с поиском.

Нужен ли VPN из России

VPN не нужен вообще. Phi-4-mini работает полностью локально на вашем компьютере -- нет никакого облачного сервиса к которому нужно подключаться. Единственное сетевое взаимодействие -- это первоначальное скачивание модели через Ollama или LM Studio.

Сайт ollama.com доступен из России без VPN. Скачивание самого Ollama и модели проходит без ограничений. Аналогично lmstudio.ai открывается напрямую.

После установки Phi-4-mini работает полностью офлайн. Можно отключить интернет и модель продолжит работать точно так же. Это делает её идеальным выбором для чувствительных задач: анализ корпоративных документов, работа с персональными данными, использование в зонах с ограниченным интернетом.

Это принципиальное преимущество локальных моделей: нет зависимости от серверов компании, нет риска блокировок, нет отправки данных в облако, нет ограничений со стороны платежных систем. Один раз скачал -- работает всегда.

Phi-4-mini хранится в домашней директории пользователя в папке .ollama/models. Если нужно перенести модель на другой компьютер без повторного скачивания, можно скопировать эту директорию напрямую. Это удобно для установки на компьютеры с медленным интернетом или в корпоративной среде где доступ к ollama.com может быть ограничен.

Для корпоративных пользователей стоит отметить что Ollama можно установить на сервере Linux и предоставить к нему доступ всей команде через локальную сеть. Один сервер с GPU обслуживает множество пользователей -- это экономичнее чем платить за API-запросы для каждого сотрудника. Microsoft также предоставляет Phi-4-mini через Azure AI Foundry и GitHub Models если предпочитаете облачное развертывание с корпоративными гарантиями SLA.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Как начать пользоваться Google Gemini: пошаговая инструкция для всех устройств

Google Gemini — AI-ассистент, встроенный в экосистему Google. Работает в браузере, на телефоне и внутри Gmail, Docs и YouTube. Показываем, как начать.

·3 мин·Выбор редакции

Как начать пользоваться Lovable AI: создайте полноценное приложение без кода

Пошаговый гайд по Lovable AI -- no-code конструктору, который генерирует full-stack приложения по текстовому описанию.

·7 мин

Как начать пользоваться Meta Muse Spark: первая модель от Meta Superintelligence Labs

Пошаговый гайд по Meta Muse Spark -- новой мультимодальной reasoning-модели от Meta, доступной через meta.ai и приложение Meta AI.

·7 мин