Как запустить Phi-4-mini на своём компьютере: быстрая локальная AI от Microsoft
Пошаговый гайд по Microsoft Phi-4-mini -- компактной локальной модели с 128K контекстом, которая работает даже на слабом железе через Ollama.
Обновления Microsoft Phi-4 Mini (2026)
Function calling теперь поддерживается Phi-4 Mini: инструментальное использование модели для создания агентов. Phi-4 Mini может вызывать функции (веб-поиск, калькулятор, база данных) в стандартном OpenAI tool_calls формате. Для edge-агентов на устройствах с 4-8 ГБ RAM это открывает возможности ранее доступные только большим моделям.
Phi-4 Mini доступен на Azure AI Foundry и GitHub Models (бесплатно): попробуйте через playground без локальной установки. Через Ollama: ollama pull phi4-mini. Через llama.cpp: модель в формате GGUF на Hugging Face (microsoft/Phi-4-mini-GGUF). На 4 ГБ VRAM - полное fp16 без квантизации.
Phi-4 Mini Reasoning: специализированная версия для задач с chain-of-thought рассуждением при размере 3.8B параметров. Превосходит Llama 3.2-3B на математических и логических задачах в 2-3x. Особенно полезен для edge deployment где важна точность при минимальных ресурсах.
Практические применения Phi-4 Mini: устройства IoT с Neural Processing Unit, мобильные приложения с offline AI (Core ML на iOS, ONNX Runtime на Android), Raspberry Pi 5 (8 ГБ RAM), Windows Copilot+ PC с NPU. Microsoft optimizations для Windows ARM через DirectML backend в ONNX Runtime.
Что это и для кого
Phi-4-mini -- это небольшая языковая модель от Microsoft с 3.8 миллиарда параметров, выпущенная 3 февраля 2026 года. Несмотря на компактный размер, она превосходит многие модели вдвое большего размера на стандартных бенчмарках: MMLU 73% против 65% у Llama 3.2 3B, MATH 62% против 48%, HumanEval для кода 72%. Это результат целенаправленного обучения на высококачественных синтетических данных с акцентом на рассуждение, математику и многоязычность.
Ключевая характеристика Phi-4-mini -- это контекстное окно в 128 000 токенов при размере модели около 2.2 гигабайта. Для сравнения: большинство локальных моделей похожего размера имеют контекст 8-32К токенов. Большой контекст означает что модель может работать с длинными документами, большими фрагментами кода или расширенными разговорами без потери информации.
Phi-4-mini подходит для нескольких категорий пользователей. Разработчики которые хотят встроить ИИ в свои приложения и использовать function calling -- структурированные ответы в формате JSON для вызова функций. Пользователи с ограниченным железом: модель работает на 4 гигабайтах оперативной памяти или видеопамяти и на компьютерах без дискретной видеокарты. Те кто ценит приватность и хочет держать все данные локально без передачи в облако. Студенты и исследователи которые изучают работу малых языковых моделей. Компании которые хотят развернуть ИИ на внутренних серверах без внешних API и соответствующих рисков утечки данных.
Сравнение с похожими моделями поможет понять когда выбирать Phi-4-mini. Llama 3.2 3B -- близкий конкурент от Meta, немного уступает по бенчмаркам но имеет более широкое сообщество и больше туториалов. Gemma 4 от Google -- более мощная (26B параметров, но активирует только 4B), нужна больше видеопамяти. Qwen 2.5 3B -- хороший вариант если нужна сильная поддержка китайского языка. Phi-4-mini выигрывает по соотношению размер/производительность на английском и математике, и по размеру контекстного окна.
Phi-4-mini -- один из самых быстрых моделей в Ollama на современном железе: ожидайте 200-350 токенов в секунду на GPU и 30-80 токенов в секунду на процессоре без видеокарты. Это означает плавный разговор в реальном времени даже на CPU.
Как установить
Для запуска Phi-4-mini используем Ollama -- самый простой способ запускать локальные модели без настройки окружения Python или управления зависимостями.
Шаг 1. Установите Ollama. Перейдите на ollama.com и скачайте установщик для своей операционной системы. На macOS это .dmg файл, на Windows .exe установщик, на Linux однострочная команда через curl. После установки Ollama запустится как системный сервис в фоне. На Mac иконка Ollama появится в строке меню.
Шаг 2. Скачайте и запустите Phi-4-mini. Откройте терминал и выполните команду: ollama run phi4-mini. Ollama автоматически скачает модель (около 2.2 гигабайта) и сразу откроет интерактивный чат. Скачивание происходит один раз, последующие запуски мгновенные.
Шаг 3. Начните диалог. Введите сообщение в терминале и нажмите Enter. Модель ответит. Для выхода из чата напечатайте /bye или нажмите Ctrl+D.
Если предпочитаете графический интерфейс вместо терминала, установите Open WebUI. Это веб-интерфейс для Ollama внешне похожий на ChatGPT: история чатов, загрузка файлов, выбор модели из списка установленных. Установка через Docker займет около 5 минут, подробные инструкции есть на github.com/open-webui/open-webui. После запуска откройте браузер и перейдите на localhost:3000.
Альтернативно можно использовать LM Studio -- оно имеет встроенный графический интерфейс и поиск моделей с Hugging Face. Скачайте LM Studio с lmstudio.ai, найдите phi-4-mini в поиске, нажмите Download и после загрузки нажмите Load model для запуска. В разделе AI Chat можно начать разговор сразу. LM Studio также предоставляет встроенный сервер совместимый с OpenAI API -- удобно для разработчиков.
Jan AI -- еще один вариант с открытым кодом, который не требует Docker и устанавливается как обычное настольное приложение. Скачайте с jan.ai, откройте, найдите phi4-mini в каталоге моделей и установите одним кликом.
Первый запуск -- что попробовать
После установки попробуйте несколько типов задач чтобы понять сильные стороны модели.
Рассуждение и логика. Задайте задачу требующую пошагового размышления: У Маши в 2 раза больше яблок чем у Пети. Вместе у них 18 яблок. Сколько яблок у каждого из них? Phi-4-mini хорошо справляется с такими задачами и показывает ход рассуждений.
Написание и редактирование кода. Напишите короткую функцию: напиши функцию на Python которая принимает список чисел и возвращает только чётные числа отсортированные по убыванию. Phi-4-mini показывает высокие результаты на бенчмарках кода и дает чистые, рабочие решения.
Function calling -- уникальная возможность для разработчиков. Phi-4-mini поддерживает структурированные ответы в формате JSON для вызова функций. Это позволяет использовать модель как мозг агентных систем где модель решает какую функцию вызвать с какими параметрами. Эта возможность редка среди малых моделей такого размера.
Работа с длинным контекстом. Откопируйте большой фрагмент текста, например несколько страниц статьи или длинный код, и попросите модель ответить на вопросы по нему. 128К контекст позволяет загружать целые небольшие книги или крупные кодовые файлы.
Многоязычность. Phi-4-mini обучена на данных на 23 языках включая русский. Качество русскоязычных ответов заметно лучше чем у большинства моделей похожего размера -- можно вести диалог на русском без переключения на английский.
Для проверки скорости на своём железе запустите тест: дайте длинный промпт и засеките время. На MacBook Pro M2 Pro ожидайте 50-80 токенов в секунду. На Windows ПК с GPU Nvidia RTX 3070 или лучше -- 200+ токенов в секунду.
Полезная команда для разработчиков: ollama list показывает все установленные модели, ollama ps показывает что сейчас запущено, ollama rm phi4-mini удаляет модель если она больше не нужна. Ollama также предоставляет REST API на localhost:11434 -- можно отправлять POST-запросы к /api/chat в формате совместимом с OpenAI API. Это означает что любой код написанный для OpenAI будет работать с Phi-4-mini просто изменив base_url на локальный адрес.
Ключевые фишки
Рекордный контекст для своего размера. 128 000 токенов в модели 3.8B параметров -- это технически значимое достижение. До Phi-4-mini получить такой контекст в локальной модели можно было только от моделей значительно большего размера. Это открывает задачи с длинными документами, большими кодовыми базами и расширенными разговорными агентами на слабом железе.
Function calling из коробки. Phi-4-mini поддерживает структурированный вывод для вызова функций -- то что раньше было только у проприетарных API. Вы можете описать набор инструментов (функций) на которые модель может ссылаться, и модель будет возвращать структурированные JSON-ответы с именем функции и параметрами. Это базис для построения локальных агентных систем.
Скорость. На современном железе Phi-4-mini один из самых быстрых вариантов в своей нише. 200-350 токенов в секунду на GPU превращают взаимодействие с локальной моделью в полностью интерактивный опыт -- без заметных задержек между токенами.
Работа на CPU без GPU. Если у вас нет дискретной видеокарты, Phi-4-mini все равно запустится на процессоре. На современных процессорах Intel Core i7 или AMD Ryzen 7 скорость составит 30-50 токенов в секунду -- достаточно для комфортного использования. Требования к оперативной памяти: минимум 4 гигабайта, рекомендуется 8.
Открытые веса и коммерческое использование. Phi-4-mini распространяется под лицензией MIT -- одной из самых разрешительных. Это означает что вы можете использовать модель в коммерческих продуктах, модифицировать её, встраивать в свои приложения без роялти и ограничений. Полный контроль над данными -- никакая информация не уходит на сервера Microsoft или Ollama.
Интеграция с экосистемой инструментов. Phi-4-mini работает с Ollama, LM Studio, Jan AI, llama.cpp и другими популярными инструментами для локальных моделей. Через Ollama модель доступна через стандартный OpenAI-совместимый API на localhost:11434, что позволяет использовать её в любом коде написанном для OpenAI API -- просто изменив базовый URL.
Цены и ограничения
Phi-4-mini полностью бесплатна. Нет подписки, нет платы за токены, нет ограничений на количество запросов. Единственные затраты -- это время на скачивание (около 2.2 гигабайта) и электроэнергия для работы компьютера.
Требования к оборудованию на момент написания материала. Минимальная конфигурация: любой современный процессор (Intel 8-го поколения и новее, AMD Ryzen 3000 и новее), 4 гигабайта оперативной памяти, 3 гигабайта свободного места на диске. Рекомендуемая для комфортного использования: 8 гигабайт оперативной памяти или GPU с 4+ гигабайтами видеопамяти.
Ограничения которые важно понимать. Phi-4-mini с 3.8 миллиарда параметров уступает большим моделям вроде Llama 3.1 70B или Claude Sonnet на сложных аналитических задачах, длинных нарративных текстах и задачах требующих широких энциклопедических знаний. Для простых и средних задач разница незаметна, но на задачах высокой сложности большие модели выигрывают.
Русскоязычные тексты генерируются хуже чем англоязычные -- это типично для малых моделей. Качество вполне приемлемое для большинства задач, но для профессионального контента на русском может потребоваться редактура.
Модель не имеет доступа к интернету и актуальной информации -- знания ограничены датой обучения. Для задач требующих свежих данных используйте облачные модели с поиском.
Нужен ли VPN из России
VPN не нужен вообще. Phi-4-mini работает полностью локально на вашем компьютере -- нет никакого облачного сервиса к которому нужно подключаться. Единственное сетевое взаимодействие -- это первоначальное скачивание модели через Ollama или LM Studio.
Сайт ollama.com доступен из России без VPN. Скачивание самого Ollama и модели проходит без ограничений. Аналогично lmstudio.ai открывается напрямую.
После установки Phi-4-mini работает полностью офлайн. Можно отключить интернет и модель продолжит работать точно так же. Это делает её идеальным выбором для чувствительных задач: анализ корпоративных документов, работа с персональными данными, использование в зонах с ограниченным интернетом.
Это принципиальное преимущество локальных моделей: нет зависимости от серверов компании, нет риска блокировок, нет отправки данных в облако, нет ограничений со стороны платежных систем. Один раз скачал -- работает всегда.
Phi-4-mini хранится в домашней директории пользователя в папке .ollama/models. Если нужно перенести модель на другой компьютер без повторного скачивания, можно скопировать эту директорию напрямую. Это удобно для установки на компьютеры с медленным интернетом или в корпоративной среде где доступ к ollama.com может быть ограничен.
Для корпоративных пользователей стоит отметить что Ollama можно установить на сервере Linux и предоставить к нему доступ всей команде через локальную сеть. Один сервер с GPU обслуживает множество пользователей -- это экономичнее чем платить за API-запросы для каждого сотрудника. Microsoft также предоставляет Phi-4-mini через Azure AI Foundry и GitHub Models если предпочитаете облачное развертывание с корпоративными гарантиями SLA.
Phi-4-mini-flash-reasoning -- гибридная архитектура: Это отдельная модель с гибридной архитектурой (не стандартный Phi-4 Mini Reasoning). Ключевые характеристики по сравнению со стандартным режимом рассуждения: в 10 раз выше пропускная способность, в 2-3 раза меньше задержка при аналогичном качестве. Оптимизирована для edge-устройств и мобильных сценариев. Доступна на: Azure AI Foundry, NVIDIA API Catalog, HuggingFace (microsoft/Phi-4-mini-flash-reasoning). Рекомендована для production-задач рассуждения где важна скорость.
Phi-4-multimodal (5.6B параметров) расширяет серию Phi до работы с текстом, изображениями и аудио в одном запросе. Модель понимает диаграммы, графики и фотографии, может транскрибировать аудио и отвечать на вопросы о содержимом мультимедиа. Доступна в Ollama: ollama pull phi4-multimodal. При компактном размере 5.6B подходит для запуска на потребительском оборудовании с 8+ ГБ RAM.
Phi-4-Reasoning-Vision-15B (март 2026) -- мультимодальная модель рассуждений, объединяющая возможности Phi-4-Reasoning с визуальным энкодером SigLIP-2. Подходит для анализа сложных графиков, схем, технических чертежей с цепочкой рассуждений. Запуск: ollama run phi4-reasoning-vision.
Семейство Phi-4 (2026): Phi-4-mini (3.8B, базовая), Phi-4-mini-reasoning (3.8B, математика и рассуждения), Phi-4-multimodal (5.6B, текст+изображения+аудио), Phi-4-reasoning (14B, только текст, углублённые рассуждения), Phi-4-Reasoning-Vision-15B (15B, текст+изображения с рассуждениями, SigLIP-2). Все модели с открытыми весами под лицензией MIT.
Уточнение характеристик: Phi-4-multimodal имеет 5.6 миллиарда параметров. Phi-4-reasoning - 14 миллиардов параметров (только текст). Phi-4-Reasoning-Vision - 15 миллиардов параметров (поддерживает изображения). Все модели семейства Phi-4 обучены на словаре из 200K токенов для улучшенной поддержки многоязычных задач.
Phi-4-mini-reasoning (2026): Microsoft добавила в семейство Phi-4 специализированную модель для математики и рассуждений: 3,8 млрд параметров, оптимизирована для компактных устройств. Установка через Ollama: ollama pull phi4-mini-reasoning. Подходит для задач, где нужна точность рассуждений при ограниченных ресурсах.
Версия Ollama для Phi-4 Mini (уточнение): Команда ollama pull phi4-mini работает начиная с Ollama v0.2.0 и выше. Актуальная версия Ollama на момент написания: v0.30.8 (12 июня 2026). Если используете старую версию Ollama и тег phi4-mini не найден -- обновите Ollama командой ollama update (macOS/Linux) или скачайте установщик с ollama.com. Phi-4-mini была выпущена 3 февраля 2026 года и доступна в Ollama с момента выхода.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться Vidu: AI-генератор видео из текста и фото
Полный гайд по Vidu -- китайскому AI-сервису для создания видео. Бесплатный тариф, три режима генерации: из текста, из фото и по референсу. Никакой установки -- работает в браузере.
Как начать пользоваться Cline: автономный AI-агент для кода прямо в VS Code
Полный гайд по Cline -- open-source AI-агенту для VS Code с 5 миллионами установок. Работает с любой моделью, редактирует файлы, выполняет команды в терминале, открывает браузер. Apache 2.0, bring-your-own-key.
Как начать пользоваться CodeRabbit: AI-ревью кода прямо в GitHub и GitLab
Гайд по CodeRabbit -- самому популярному AI-инструменту для автоматического ревью кода. 2 миллиона репозиториев, поддержка GitHub, GitLab, Azure DevOps и Bitbucket. Бесплатно для open-source проектов.