Тег
benchmarks
2 материала
GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro: кто лучший в 2026 году
Три флагмана, десятки бенчмарков, ноль однозначных ответов. Разбираемся, какая модель реально лидирует — и почему ответ зависит от задачи.
·5 мин·Выбор редакции
Бенчмарки vs реальность: что на самом деле показывают тесты AI
SWE-bench, HumanEval, GPQA — бенчмарки определяют рейтинги моделей. Но насколько они отражают реальность? Разбираемся в проблемах AI-тестирования.
·4 мин·Выбор редакции
Другие теги
1XAI codingAI infrastructureAI safetyAI skills gapAI videoAMDAdobeAlibabaAmazonAnthropicAppleArmBaiduBoston DynamicsBryan JohnsonByteDanceCerebrasChinaClaudeCoreWeaveDLSSDario AmodeiDeepSeekEU AI ActFDAFigure AIGPTGPUGTC 2026GeminiGoogleGoogle DeepMindGroqHBMHuaweiHugging FaceIPOInsilico MedicineIntelJapanJeff BezosJensen HuangLLMLife BiosciencesM&AMcKinseyMeta AIMicrosoftMistralNVIDIAOpenAIPerplexityQualcommRetro BiosciencesSalesforceSamsungSoftbankTSMCTencentTeslaUS policyUiPathUnitreeWaymoanti-agingautonomous drivingcapexcobotsconsultingdronesedge AIeducationenergyenterprise AIexport controlsfintechgene therapyhealthcarehumanoidslayoffsmilitarymultimodal AIopen sourceproductivityreasoning modelsregulationsmall language modelssurgical roboticssynthetic dataventure capitalxAI