Серия «Новости»

2

Вышла новая модель для оцифровки изображений Unlimited OCR

Серия Новости

У одноэтапных OCR-моделей с LLM-декодером при длинных выводах линейно растёт KV-кеш, замедляя генерацию и увеличивая расход памяти, в отличие от человека.

Unlimited OCR (https://huggingface.co/baidu/Unlimited-OCR) работает по-другому, заменяя все слои внимания декодера на предложенное референтное внимание со скользящим окном (R-SWA).

Базой выбрали DeepSeek OCR, включающий DeepEncoder с высокой компрессией и MoE-архитектуру с 3B параметров, из которых 0.5B активны.

Архитектура R-SWA даёт каждому токену видеть все референс-токены (визуальные и промт) и лишь последние n выходных токенов (по умолчанию 128), поэтому KV-кеш постоянен и визуальные признаки не "размываются", так как исключены из переходов состояний.

Сейчас истинно неограниченный парсинг упирается в длину входной обработки, хотя в будущем планируют удлинить контекст и встроить механизм динамической подгрузки этих данных. Притом R-SWA перспективно для ASR, перевода и других задач с длинным горизонтом.

В результате общая оценка набрала 93% на OmniDocBench v1.5 (+6% к базовому DeepSeek OCR). Была реализована возможность однопроходного парсинга десятков страниц документа при фиксированном KV-кеше и постоянной скорости декодирования, а при 6K токенов вывода скорость (TPS) на 35% выше, чем у DeepSeek OCR, за счёт устранения линейного роста затрат.

Показать полностью 2
0

Вышла новая модель LFM2.5-Embedding-350M и LFM2.5-ColBERT-350M

Серия Новости

Запущены первые двунаправленные модели LFM2.5-Embedding-350M (https://huggingface.co/LiquidAI/LFM2.5-Embedding-350M) и LFM2.5-ColBERT-350M (https://huggingface.co/LiquidAI/LFM2.5-ColBERT-350M) от Liquid AI на основе LFM2.5-350M-Base, предназначенные для быстрого мультиязычного и кросс‑язычного поиска (11 языков) в коротких контекстах, таких как каталоги, FAQ и техподдержка.

Версия Embedding создаёт один плотный вектор на документ, стремясь получить максимальную скорость при минимальном размере индекса, а версия ColBERT генерирует по одному вектору на токен, используя позднее взаимодействие (MaxSim) и обеспечивая повышенную способность к обобщению, хотя индекс становится больше.

Архитектуру модифицировали, и каузальную маску заменили на двунаправленную, что позволило каждому токену видеть левый и правый контекст. Короткие свёртки LFM2 сделали некаузальными (симметричное локальное смешивание). Из общего двунаправленного энкодера достают либо CLS‑пулинг (Embedding), либо токенные эмбеддинги (ColBERT).

На первой стадии обучения проходило крупномасштабное сопоставительное предобучение на английском. Затем следовала стадия мультиязычной и кросс‑язычной дистилляции с сильного учителя (все 11 языков). Конечной стадией была тонкая настройка на сложных негативных примерах. Для всего процесса потребовались данные, извлечённые из курируемых внутренних и открытых английских датасетов, LLM‑перевод запросов и документов, чтобы расширить мультиязычность.

В результате обе модели имеют лучшие в классе показатели с 350M параметров по всем 11 языкам (арабский, немецкий, английский, испанский, французский, итальянский, японский, корейский, норвежский, португальский и шведский), пройдя мультиязычный поиск NanoBEIR, где NanoBEIR English признан подходящим заменителем для полного BEIR (корреляция, сдвиг около 15%), и кросс‑язычные ответы на вопросы MKQA‑11.

Показать полностью 4
3

Представлен новый фреймворк MotionBricks от NVIDIA

Серия Новости

Презентован новый фреймворк MotionBricks (https://nvlabs.github.io/motionbricks/) для синтеза движений в реальном времени, единый для анимации и робототехники.

Существующие генеративные методы не масштабируются под требования продакшена (низкая скорость, нет тонкого контроля), а традиционные графы анимации чрезмерно трудоёмки.

Проблему смогли решить, применив модульное латентное нейросетевое ядро с multi-head токенизатором и прогрессивной генерацией (от траектории корня к позе), достигающей 15 000 FPS при задержке 2 мс. Его совместили с интерфейсом "умных примитивов" Smart Primitives (передвижение, взаимодействие с объектами), который преобразует команды пользователя в целевые ключевые кадры для ядра без файнтюнинга или тегов (zero-shot).

В результате получено качество уровня SOTA на датасетах до 350k клипов, подготовлено демо в UE5 с разнообразным передвижением, акробатикой и взаимодействием с объектами, а также осуществлено развёртывание на роботе Unitree G1 для полнотельного управления.

Показать полностью 3
1

Вышла новая модель FastContext-1.0

Серия Новости

Реализована новая модель FastContext-1.0 (https://huggingface.co/collections/microsoft/swe-fastcontext), обученная эффективно исследовать репозитории для программирующих агентов.

LLM-агенты сталкиваются с проблемой избыточного потребления токенов и засорения контекста при поиске релевантного кода в репозитории, поскольку обычно исследование и решение задачи выполняет одна модель.

Решением стал специализированный под-агент FastContext для разведки репозитория, отделённый от основного решающего агента, который вызывается по запросу, выполняет параллельные вызовы инструментов (Read, Glob, Grep) и возвращает компактный контекст с путями к файлам и диапазонами строк.

Исследовательские модели размером 4B-30B параметров обучались в два этапа. На первом этапе метод SFT (имитация) использовал траектории сильной модели для широкого поиска, сбора улик за несколько шагов и точного цитирования. На втором этапе пошёл метод RL с наградой, привязанной к релевантным строкам из эталонного патча.

В результате в составе Mini-SWE-Agent (бенчмарки SWE-bench Multilingual, Pro, SWE-QA) доля решённых задач повысилась до +5,5%, а расходы токенов основного агента сократились до 60% при минимальных накладных расходах на исследователя.

Показать полностью 4
0

Вышла новая модель VibeThinker-3B

Серия Новости

Озвучена новая модель VibeThinker-3B (https://huggingface.co/WeiboAI/VibeThinker-3B), показывающая, что компактная версия с 3 млрд параметров способна достичь уровня флагманских LLM на задачах с проверяемой логикой (математика, код, STEM).

Пайплайн развивали от "Спектра" к "Сигналу", проходя через SFT и двухэтапное обучение по учебному плану, когда сначала шло широкое покрытие предметов, а затем фокус на трудных длинноцепочечных рассуждениях с финальной дистилляцией, которая сохраняла разнообразие решений. Дальнейший RL представлял собой мультидоменное (математика, код, STEM) обучение с алгоритмом MGPO, единым длинным контекстом (64K) и этапом "Long2Short" для повышения эффективности токенов без потери точности. Отбором и интеграцией лучших траекторий из разных доменов занималась офлайн-самодистилляция. Instruct RL настраивал строгое следование инструкциям без ущерба для рассуждений.

Гипотеза параметрического сжатия-покрытия утверждает, что способности моделей можно разделить на два типа. Способности первого типа, называемые параметрически плотными (верифицируемые рассуждения), могут быть "сжаты" в компактное ядро, не требуя гигантского объёма памяти. Способности второго типа, известные как параметрически экспансивные (открытые знания, общая эрудиция), нуждаются в широком покрытии фактов и длинном хвосте, что приводит к разрыву на GPQA-Diamond (70.2).

В результате её математические умения составляют 94.3 на AIME26 (97.1 с тест-тайм стратегией CLR), 89.3 (95.4) на HMMT25, 80.2 при Pass@1 на LiveCodeBench v6 и 76.4 (80.6) на IMO-AnswerBench, а принятые 96.1% на LeetCode (с апреля по май 2026 года) решения на новых соревнованиях сравнимы с GPT-5.2 и Gemini 3 Flash. На верифицируемых бенчмарках она сопоставима или превосходит модели масштаба DeepSeek V3.2 (671B), Kimi K2.5 (1T) и Gemini 3 Pro, при этом сохраняя инструкционную управляемость (IFEval 93.4).

Показать полностью 2
0

Вышла новая модель GLM-5.2

Серия Новости

Появилась новая флагманская модель GLM-5.2 (https://huggingface.co/collections/zai-org/glm-52), наделённая контекстом 1M токенов с устойчивым качеством в реальных инженерных сценариях (кодинг-агенты) для выполнения длительных задач под лицензией MIT, без региональных ограничений.

Для баланса между точностью и задержкой или стоимостью продвинутое кодирование предлагает гибкий выбор уровня "усилий".

Улучшенная архитектура IndexShare повторно использует индексатор на каждые 4 слоя разреженного внимания, снижая FLOPs на токен в 2,9 раз при контексте 1M. Вместе с тем, обновлённый слой MTP для спекулятивного декодирования даёт прирост длины принимаемых токенов до 20%.

Методы RL для долгих задач и защиты от обхода инструкций перешли к критику на основе PPO для траекторий переменной длины со встроенным модулем обнаружения и блокировки читерских действий агента (с продолжением выполнения последовательности действий, без обрыва траектории).

Оптимизация KV-кэша, параллелизм и снижение накладных расходов CPU сильно повысили пропускную способность при увеличении длины контекста по сравнению с предшественником.

Инфраструктура задействовала фреймворк Slime для агентного RL, гибкое подключение систем вывода и эффективный OPD-тренинг, объединив более 10 экспертных моделей примерно за 2 дня.

В результате она лучшая открытая модель на длительных бенчмарках, добившись 74,4% на FrontierSWE (отставание от Opus 4.8 всего 1%, обходит GPT-5.5 и Opus 4.7), 34,3% на PostTrainBench (выше GPT-5.5 и Opus 4.7) и 13,0% на SWE-Marathon (уступает только серии Opus), а на стандартных бенчмарках мы видим сильнейшую опенсорс-модель, значительно превосходящую GLM-5.1 (81.0 против 63.5 на Terminal-Bench 2.1 и 62.1 против 58.4 на SWE-bench Pro), приближающуюся к закрытым лидерам.

Показать полностью 5
3

Вышла новая модель для синтеза речи ZONOS2

Серия Новости

Введена новая TTS-модель ZONOS2 (https://huggingface.co/Zyphra/ZONOS2) для работы в реальном времени с высокоточным клонированием голоса под лицензией Apache 2.0.

Его разреженный Mixture of Experts (MoE) обладает 8 млрд параметров и 900 млн активных, став первым открытым MoE TTS.

Гибкие настройки дают выбор между "стабильным" (чистый студийный звук) и "экспрессивным" (максимальная верность исходному голосу) режимами.

Обучение осуществлялось на более 6 млн часов аудио с трёхэтапной фильтрацией при постепенном ужесточении требований к согласованности транскриптов.

Текст подвергают токенизации в формате сырых UTF-8 байтов без фонемизации. Аудио преобразуют в токены кодека DAC (44.1 кГц), используя автогрессивный паттерн задержки.

Среди настроек есть цифровой отпечаток голоса (ECAPA-TDNN), скорость речи, качественные параметры (полоса, громкость, SNR).

Представленный эталон ZTTS1‑Eval показал чистые (FLEURS‑R) и "дикие" (VoxBlink2) выборки, метрики интонации и ритма (Allosaurus SR, Pitch, DS‑WED), схожесть диктора (ReDimNet) и качества (MSR‑UTMOS, Qwen3‑ASR).

В результате обеспечен 4-кратный прирост скорости против предыдущей версии и качество на уровне ведущих решений.

Показать полностью 2
2

Вышла новая модель для управления роботами Hy-Embodied-0.5-VLA

Серия Новости

Доступен новый полный стек Hy-Embodied-0.5-VLA (https://huggingface.co/tencent/Hy-Embodied-0.5-VLA-RoboTwin) для обучения роботов от сбора данных до реального внедрения.

Собственное устройство UMI с оптическим захватом движений накопило более 10 тыс. часов эгоцентричных демонстраций субмиллиметровой точности, и эти же траектории используются для пост-тренировки.

Базовую модель VLA на Hy-Embodied-0.5 (4B MoT) дополнили экспертом действий на сопоставлении потоков, компактным энкодером памяти (сжатие временной истории без роста числа токенов) и дельта‑чанковым представлением действий в системе координат захвата (отвязано от кинематики робота).

Предобучение и файнтюнинг потребовали 200K шагов на 10K-часовом UMI-корпусе, затем SFT по двум трекам, проводя адаптацию к тому же роботу (Track A) и кросс‑эмбодиментный перенос только по UMI-данным без телеоперации целевого робота (Track B).

RL пост-тренировка (FlowPRO) использовала офлайн RL без критика и модели вознаграждения, собирая пары предпочтений через вмешательство-откат с оператором, оптимизируя RPRO (плавная адаптация оптимизации предпочтений) с контрастной отменой градиентов, превращая неудачные прогоны в быстрое улучшение до почти 100% успешности.

Асинхронный конвейер позволил сделать одновременный вывод и исполнение, сглаживая чанки кубическими кривыми Безье для плавных переходов без резких изломов, переводя действия на разные платформы без изменения обученного интерфейса.

В результате продемонстрированы лучшие показатели 90,9% и 90,1% в чистом и рандомизированном режимах на RoboTwin 2.0, а также успешно прошло реальное исполнение на нескольких роботах, включая кросс‑эмбодиментный перенос на JAKA K1 и андроида Astribot S1. FlowPRO дало прирост до 99% успеха на сложных двуручных задачах.

Показать полностью 3
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества