Как запустить Phi-4-mini на своём компьютере: быстрая локальная AI от Microsoft

Пошаговый гайд по Microsoft Phi-4-mini -- компактной локальной модели с 128K контекстом, которая работает даже на слабом железе через Ollama.

·7 мин

Обновления Microsoft Phi-4 Mini (2026)

Function calling теперь поддерживается Phi-4 Mini: инструментальное использование модели для создания агентов. Phi-4 Mini может вызывать функции (веб-поиск, калькулятор, база данных) в стандартном OpenAI tool_calls формате. Для edge-агентов на устройствах с 4-8 ГБ RAM это открывает возможности ранее доступные только большим моделям.

Phi-4 Mini доступен на Azure AI Foundry и GitHub Models (бесплатно): попробуйте через playground без локальной установки. Через Ollama: ollama pull phi4-mini. Через llama.cpp: модель в формате GGUF на Hugging Face (microsoft/Phi-4-mini-GGUF). На 4 ГБ VRAM - полное fp16 без квантизации.

Phi-4 Mini Reasoning: специализированная версия для задач с chain-of-thought рассуждением при размере 3.8B параметров. Превосходит Llama 3.2-3B на математических и логических задачах в 2-3x. Особенно полезен для edge deployment где важна точность при минимальных ресурсах.

Практические применения Phi-4 Mini: устройства IoT с Neural Processing Unit, мобильные приложения с offline AI (Core ML на iOS, ONNX Runtime на Android), Raspberry Pi 5 (8 ГБ RAM), Windows Copilot+ PC с NPU. Microsoft optimizations для Windows ARM через DirectML backend в ONNX Runtime.

Что это и для кого

Phi-4-mini -- это небольшая языковая модель от Microsoft с 3.8 миллиарда параметров, выпущенная 3 февраля 2026 года. Несмотря на компактный размер, она превосходит многие модели вдвое большего размера на стандартных бенчмарках: MMLU 73% против 65% у Llama 3.2 3B, MATH 62% против 48%, HumanEval для кода 72%. Это результат целенаправленного обучения на высококачественных синтетических данных с акцентом на рассуждение, математику и многоязычность.

Ключевая характеристика Phi-4-mini -- это контекстное окно в 128 000 токенов при размере модели около 2.2 гигабайта. Для сравнения: большинство локальных моделей похожего размера имеют контекст 8-32К токенов. Большой контекст означает что модель может работать с длинными документами, большими фрагментами кода или расширенными разговорами без потери информации.

Phi-4-mini подходит для нескольких категорий пользователей. Разработчики которые хотят встроить ИИ в свои приложения и использовать function calling -- структурированные ответы в формате JSON для вызова функций. Пользователи с ограниченным железом: модель работает на 4 гигабайтах оперативной памяти или видеопамяти и на компьютерах без дискретной видеокарты. Те кто ценит приватность и хочет держать все данные локально без передачи в облако. Студенты и исследователи которые изучают работу малых языковых моделей. Компании которые хотят развернуть ИИ на внутренних серверах без внешних API и соответствующих рисков утечки данных.

Сравнение с похожими моделями поможет понять когда выбирать Phi-4-mini. Llama 3.2 3B -- близкий конкурент от Meta, немного уступает по бенчмаркам но имеет более широкое сообщество и больше туториалов. Gemma 4 от Google -- более мощная (26B параметров, но активирует только 4B), нужна больше видеопамяти. Qwen 2.5 3B -- хороший вариант если нужна сильная поддержка китайского языка. Phi-4-mini выигрывает по соотношению размер/производительность на английском и математике, и по размеру контекстного окна.

Phi-4-mini -- один из самых быстрых моделей в Ollama на современном железе: ожидайте 200-350 токенов в секунду на GPU и 30-80 токенов в секунду на процессоре без видеокарты. Это означает плавный разговор в реальном времени даже на CPU.

Как установить

Для запуска Phi-4-mini используем Ollama -- самый простой способ запускать локальные модели без настройки окружения Python или управления зависимостями.

Шаг 1. Установите Ollama. Перейдите на ollama.com и скачайте установщик для своей операционной системы. На macOS это .dmg файл, на Windows .exe установщик, на Linux однострочная команда через curl. После установки Ollama запустится как системный сервис в фоне. На Mac иконка Ollama появится в строке меню.

Шаг 2. Скачайте и запустите Phi-4-mini. Откройте терминал и выполните команду: ollama run phi4-mini. Ollama автоматически скачает модель (около 2.2 гигабайта) и сразу откроет интерактивный чат. Скачивание происходит один раз, последующие запуски мгновенные.

Шаг 3. Начните диалог. Введите сообщение в терминале и нажмите Enter. Модель ответит. Для выхода из чата напечатайте /bye или нажмите Ctrl+D.

Если предпочитаете графический интерфейс вместо терминала, установите Open WebUI. Это веб-интерфейс для Ollama внешне похожий на ChatGPT: история чатов, загрузка файлов, выбор модели из списка установленных. Установка через Docker займет около 5 минут, подробные инструкции есть на github.com/open-webui/open-webui. После запуска откройте браузер и перейдите на localhost:3000.

Альтернативно можно использовать LM Studio -- оно имеет встроенный графический интерфейс и поиск моделей с Hugging Face. Скачайте LM Studio с lmstudio.ai, найдите phi-4-mini в поиске, нажмите Download и после загрузки нажмите Load model для запуска. В разделе AI Chat можно начать разговор сразу. LM Studio также предоставляет встроенный сервер совместимый с OpenAI API -- удобно для разработчиков.

Jan AI -- еще один вариант с открытым кодом, который не требует Docker и устанавливается как обычное настольное приложение. Скачайте с jan.ai, откройте, найдите phi4-mini в каталоге моделей и установите одним кликом.

Первый запуск -- что попробовать

После установки попробуйте несколько типов задач чтобы понять сильные стороны модели.

Рассуждение и логика. Задайте задачу требующую пошагового размышления: У Маши в 2 раза больше яблок чем у Пети. Вместе у них 18 яблок. Сколько яблок у каждого из них? Phi-4-mini хорошо справляется с такими задачами и показывает ход рассуждений.

Написание и редактирование кода. Напишите короткую функцию: напиши функцию на Python которая принимает список чисел и возвращает только чётные числа отсортированные по убыванию. Phi-4-mini показывает высокие результаты на бенчмарках кода и дает чистые, рабочие решения.

Function calling -- уникальная возможность для разработчиков. Phi-4-mini поддерживает структурированные ответы в формате JSON для вызова функций. Это позволяет использовать модель как мозг агентных систем где модель решает какую функцию вызвать с какими параметрами. Эта возможность редка среди малых моделей такого размера.

Работа с длинным контекстом. Откопируйте большой фрагмент текста, например несколько страниц статьи или длинный код, и попросите модель ответить на вопросы по нему. 128К контекст позволяет загружать целые небольшие книги или крупные кодовые файлы.

Многоязычность. Phi-4-mini обучена на данных на 23 языках включая русский. Качество русскоязычных ответов заметно лучше чем у большинства моделей похожего размера -- можно вести диалог на русском без переключения на английский.

Для проверки скорости на своём железе запустите тест: дайте длинный промпт и засеките время. На MacBook Pro M2 Pro ожидайте 50-80 токенов в секунду. На Windows ПК с GPU Nvidia RTX 3070 или лучше -- 200+ токенов в секунду.

Полезная команда для разработчиков: ollama list показывает все установленные модели, ollama ps показывает что сейчас запущено, ollama rm phi4-mini удаляет модель если она больше не нужна. Ollama также предоставляет REST API на localhost:11434 -- можно отправлять POST-запросы к /api/chat в формате совместимом с OpenAI API. Это означает что любой код написанный для OpenAI будет работать с Phi-4-mini просто изменив base_url на локальный адрес.

Ключевые фишки

Рекордный контекст для своего размера. 128 000 токенов в модели 3.8B параметров -- это технически значимое достижение. До Phi-4-mini получить такой контекст в локальной модели можно было только от моделей значительно большего размера. Это открывает задачи с длинными документами, большими кодовыми базами и расширенными разговорными агентами на слабом железе.

Function calling из коробки. Phi-4-mini поддерживает структурированный вывод для вызова функций -- то что раньше было только у проприетарных API. Вы можете описать набор инструментов (функций) на которые модель может ссылаться, и модель будет возвращать структурированные JSON-ответы с именем функции и параметрами. Это базис для построения локальных агентных систем.

Скорость. На современном железе Phi-4-mini один из самых быстрых вариантов в своей нише. 200-350 токенов в секунду на GPU превращают взаимодействие с локальной моделью в полностью интерактивный опыт -- без заметных задержек между токенами.

Работа на CPU без GPU. Если у вас нет дискретной видеокарты, Phi-4-mini все равно запустится на процессоре. На современных процессорах Intel Core i7 или AMD Ryzen 7 скорость составит 30-50 токенов в секунду -- достаточно для комфортного использования. Требования к оперативной памяти: минимум 4 гигабайта, рекомендуется 8.

Открытые веса и коммерческое использование. Phi-4-mini распространяется под лицензией MIT -- одной из самых разрешительных. Это означает что вы можете использовать модель в коммерческих продуктах, модифицировать её, встраивать в свои приложения без роялти и ограничений. Полный контроль над данными -- никакая информация не уходит на сервера Microsoft или Ollama.

Интеграция с экосистемой инструментов. Phi-4-mini работает с Ollama, LM Studio, Jan AI, llama.cpp и другими популярными инструментами для локальных моделей. Через Ollama модель доступна через стандартный OpenAI-совместимый API на localhost:11434, что позволяет использовать её в любом коде написанном для OpenAI API -- просто изменив базовый URL.

Цены и ограничения

Phi-4-mini полностью бесплатна. Нет подписки, нет платы за токены, нет ограничений на количество запросов. Единственные затраты -- это время на скачивание (около 2.2 гигабайта) и электроэнергия для работы компьютера.

Требования к оборудованию на момент написания материала. Минимальная конфигурация: любой современный процессор (Intel 8-го поколения и новее, AMD Ryzen 3000 и новее), 4 гигабайта оперативной памяти, 3 гигабайта свободного места на диске. Рекомендуемая для комфортного использования: 8 гигабайт оперативной памяти или GPU с 4+ гигабайтами видеопамяти.

Ограничения которые важно понимать. Phi-4-mini с 3.8 миллиарда параметров уступает большим моделям вроде Llama 3.1 70B или Claude Sonnet на сложных аналитических задачах, длинных нарративных текстах и задачах требующих широких энциклопедических знаний. Для простых и средних задач разница незаметна, но на задачах высокой сложности большие модели выигрывают.

Русскоязычные тексты генерируются хуже чем англоязычные -- это типично для малых моделей. Качество вполне приемлемое для большинства задач, но для профессионального контента на русском может потребоваться редактура.

Модель не имеет доступа к интернету и актуальной информации -- знания ограничены датой обучения. Для задач требующих свежих данных используйте облачные модели с поиском.

Нужен ли VPN из России

VPN не нужен вообще. Phi-4-mini работает полностью локально на вашем компьютере -- нет никакого облачного сервиса к которому нужно подключаться. Единственное сетевое взаимодействие -- это первоначальное скачивание модели через Ollama или LM Studio.

Сайт ollama.com доступен из России без VPN. Скачивание самого Ollama и модели проходит без ограничений. Аналогично lmstudio.ai открывается напрямую.

После установки Phi-4-mini работает полностью офлайн. Можно отключить интернет и модель продолжит работать точно так же. Это делает её идеальным выбором для чувствительных задач: анализ корпоративных документов, работа с персональными данными, использование в зонах с ограниченным интернетом.

Это принципиальное преимущество локальных моделей: нет зависимости от серверов компании, нет риска блокировок, нет отправки данных в облако, нет ограничений со стороны платежных систем. Один раз скачал -- работает всегда.

Phi-4-mini хранится в домашней директории пользователя в папке .ollama/models. Если нужно перенести модель на другой компьютер без повторного скачивания, можно скопировать эту директорию напрямую. Это удобно для установки на компьютеры с медленным интернетом или в корпоративной среде где доступ к ollama.com может быть ограничен.

Для корпоративных пользователей стоит отметить что Ollama можно установить на сервере Linux и предоставить к нему доступ всей команде через локальную сеть. Один сервер с GPU обслуживает множество пользователей -- это экономичнее чем платить за API-запросы для каждого сотрудника. Microsoft также предоставляет Phi-4-mini через Azure AI Foundry и GitHub Models если предпочитаете облачное развертывание с корпоративными гарантиями SLA.

Phi-4-mini-flash-reasoning -- гибридная архитектура: Это отдельная модель с гибридной архитектурой (не стандартный Phi-4 Mini Reasoning). Ключевые характеристики по сравнению со стандартным режимом рассуждения: в 10 раз выше пропускная способность, в 2-3 раза меньше задержка при аналогичном качестве. Оптимизирована для edge-устройств и мобильных сценариев. Доступна на: Azure AI Foundry, NVIDIA API Catalog, HuggingFace (microsoft/Phi-4-mini-flash-reasoning). Рекомендована для production-задач рассуждения где важна скорость.

Phi-4-multimodal (5.6B параметров) расширяет серию Phi до работы с текстом, изображениями и аудио в одном запросе. Модель понимает диаграммы, графики и фотографии, может транскрибировать аудио и отвечать на вопросы о содержимом мультимедиа. Доступна в Ollama: ollama pull phi4-multimodal. При компактном размере 5.6B подходит для запуска на потребительском оборудовании с 8+ ГБ RAM.

Phi-4-Reasoning-Vision-15B (март 2026) -- мультимодальная модель рассуждений, объединяющая возможности Phi-4-Reasoning с визуальным энкодером SigLIP-2. Подходит для анализа сложных графиков, схем, технических чертежей с цепочкой рассуждений. Запуск: ollama run phi4-reasoning-vision.

Семейство Phi-4 (2026): Phi-4-mini (3.8B, базовая), Phi-4-mini-reasoning (3.8B, математика и рассуждения), Phi-4-multimodal (5.6B, текст+изображения+аудио), Phi-4-reasoning (14B, только текст, углублённые рассуждения), Phi-4-Reasoning-Vision-15B (15B, текст+изображения с рассуждениями, SigLIP-2). Все модели с открытыми весами под лицензией MIT.

Уточнение характеристик: Phi-4-multimodal имеет 5.6 миллиарда параметров. Phi-4-reasoning - 14 миллиардов параметров (только текст). Phi-4-Reasoning-Vision - 15 миллиардов параметров (поддерживает изображения). Все модели семейства Phi-4 обучены на словаре из 200K токенов для улучшенной поддержки многоязычных задач.

Phi-4-mini-reasoning (2026): Microsoft добавила в семейство Phi-4 специализированную модель для математики и рассуждений: 3,8 млрд параметров, оптимизирована для компактных устройств. Установка через Ollama: ollama pull phi4-mini-reasoning. Подходит для задач, где нужна точность рассуждений при ограниченных ресурсах.

Версия Ollama для Phi-4 Mini (уточнение): Команда ollama pull phi4-mini работает начиная с Ollama v0.2.0 и выше. Актуальная версия Ollama на момент написания: v0.30.8 (12 июня 2026). Если используете старую версию Ollama и тег phi4-mini не найден -- обновите Ollama командой ollama update (macOS/Linux) или скачайте установщик с ollama.com. Phi-4-mini была выпущена 3 февраля 2026 года и доступна в Ollama с момента выхода.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Как начать пользоваться Vidu: AI-генератор видео из текста и фото

Полный гайд по Vidu -- китайскому AI-сервису для создания видео. Бесплатный тариф, три режима генерации: из текста, из фото и по референсу. Никакой установки -- работает в браузере.

·7 мин

Как начать пользоваться Cline: автономный AI-агент для кода прямо в VS Code

Полный гайд по Cline -- open-source AI-агенту для VS Code с 5 миллионами установок. Работает с любой моделью, редактирует файлы, выполняет команды в терминале, открывает браузер. Apache 2.0, bring-your-own-key.

·7 мин

Как начать пользоваться CodeRabbit: AI-ревью кода прямо в GitHub и GitLab

Гайд по CodeRabbit -- самому популярному AI-инструменту для автоматического ревью кода. 2 миллиона репозиториев, поддержка GitHub, GitLab, Azure DevOps и Bitbucket. Бесплатно для open-source проектов.

·7 мин