DeepSeek V4

DeepSeek наконец выпустил превью своей новой модели – прямой конкурент Claude, GPT и Gemini, только в open-source. Посмотрел в общем бенчмарки и отчет. Ну-у… Если бы вышла в начале года, — это был бы просто нереальный прорыв. Сейчас просто лучший опенсорс.

Сейчас у него в общем-то базовые архитектурные вещи на основе всех самых последних инноваций, так что добивать его дообучением и обходить топ-США модели китайцы смогут без проблем.

Выпустили 2 версии:

– V4-Pro – флагман, 1.6T параметров. Для сложного ризонинга, кодинга, агентных задач
– V4-Flash – младшая модель, 284B параметров. Быстрее, дешевле, но умнее многих старых гигантов

Основная фишка — контекст 1 миллион токенов. Ну то есть у многих уже такой контекст есть, но оно во-первых дорого, во-вторых медленно, в третьих — ненадежно. А Deepseek практически все эти проблемы решили:

– В 4 раза меньше вычислений на миллионном контексте vs DeepSeek-V3.2
– В 10 раз меньше памяти под KV-кэш
– Flash ещё экономнее: 10% вычислений и 7% памяти от предыдущей модели

Там огромная куча оптимизаций внутри, в том числе прям передний край науки.

Проще говоря – длинный контекст перестал быть премиум-фичей и стал рутиной. И все это в том числе на дешевых процессорах Huawei.

Три режима размышления:

– Non-think – быстрые ответы на простые вопросы, без лишних раздумий
– Think High – глубокий анализ для сложных задач и планирования
– Think Max – максимальное усилие, модель прописывает каждый шаг, тестирует все варианты, не ищет лёгких путей. Для агентных задач в Max теперь сохраняется вся история рассуждений между ходами – в V3.2 она выбрасывалась при каждом новом сообщении пользователя. Это важно для длинных сценариев, где агент накапливает контекст задачи. С миллионом контекста рабочим теперь это будет сильное преимущество на дальнейшем дообучении.

По бенчмаркам:

– Кодинг: на Codeforces рейтинг 3206 – 23-е место среди живых программистов мира, паритет с GPT-5.4. Впервые open-source модель догнала закрытый фронтир на соревновательном программировании
– Математика: HMMT 2026 – 95.2, IMOAnswerBench – 89.8, обходит большинство конкурентов
– Знания: SimpleQA Verified – 57.9 (Opus 4.6 – 46.2, но Gemini 3.1 Pro – 75.6, до него ещё не дотянули)
– Reasoning: отстают от GPT-5.4 и Gemini 3.1 Pro на 3-6 месяцев – но это всё равно близко к фронтиру
– Внутренний R&D-кодинг: 67% – между Sonnet 4.5 (47%) и Opus 4.5 (70%). Новые модельки не тестировали, но грубо говоря это базовая модель, которую фигачили год, дальше дотренировка будет гораздо проще и быстрее.

Плюс модель специально тренировали на реальных сценариях: анализ данных, отчёты, редактирование документов, поиск в интернете с итеративным использованием инструментов. На внутреннем тесте V4-Pro-Max обошёл Opus 4.6-Max на 63% задач – в основном за счёт того, что сам проактивно добавляет проверки и выдаёт связные нарративы вместо сухих буллетов.

Опрос 85 разработчиков самого DeepSeek: 52% готовы использовать V4-Pro как основную модель для кодинга, ещё 39% склоняются к «да». Меньше 9% сказали «нет». Ну такое себе сравнение все-таки.

Короче, главное тут не очередная строчка в таблице бенчмарков, а сдвиг в экономике длинного контекста.

Миллион токенов задёшево меняет правила для всех, кто строит агентов и работает с большими документами.

DeepSeek продолжает свою линию: берут лучшие идеи, собирают их вместе — и выпускают бесплатно то, за что OpenAI и Anthropic просят деньги. Это не прорыв уровня «обогнали всех», никто из окон кидаться не будет, но методичное сокращение разрыва – именно такое давление держит индустрию в тонусе и заставляет закрытые лабы шевелиться.

Плюс это ещё один голос в пользу тезиса, что архитектурные инновации (sparse attention, FP4-квантизация, hybrid KV-кэш) дают больше, чем просто наращивание параметров. V4-Flash на 13B активных параметров местами обходит модели в несколько раз крупнее.

Кажется, прав был Карпатый, что умная модель в итоге будет в 1B параметров и с доступом к базе данных.

Материал: https://t.me/cgevent/15500
Настоящий материал самостоятельно опубликован в нашем сообществе пользователем Proper на основании действующей редакции Пользовательского Соглашения. Если вы считаете, что такая публикация нарушает ваши авторские и/или смежные права, вам необходимо сообщить об этом администрации сайта на EMAIL abuse@newru.org с указанием адреса (URL) страницы, содержащей спорный материал. Нарушение будет в кратчайшие сроки устранено, виновные наказаны.

Читайте также:

4 Комментарий
старые
новые
Встроенные Обратные Связи
Все комментарии
ZIL.130
ZIL.130
16 дней назад

Прямая угроза лойерскому государству США и Запада в целом. Ибо лойерские задачи такие модели будут решать куда быстрее, точнее, а главное — ДЕШЕВЛЕ чем кубло кожаных лойеров.
А, ну — да: копипастеры-роялтидралы идут по холодку.

Hmm4
Hmm4
для  ZIL.130
15 дней назад

Лойеры — это про деньги, а не про задачи. Самостоятельный ИИ здесь не нужен никому из участников — ибо мешает правильно распределять финансы.

ZIL.130
ZIL.130
для  Hmm4
15 дней назад

Лойеры это тупо НАРОСТ посредников. Которые ещё и обеспечивают легализацию ВЗЯТОК.

Gena
Gena
для  ZIL.130
15 дней назад

Лоёры,да,тупой нарост,и замена этих захребетников на ИИ более чем желателен,как и замена 99% детупадов и всяких краснодарских судей…

comment image

Чтобы добавить комментарий, надо залогиниться.