Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Стэнфорд и Беркли предложили LLM-as-a-Verifier, одновременно обновив лидеров в рейтингах Terminal-Bench и SWE-Bench
ME News Новости, 14 апреля (UTC+8), по данным мониторинга 1M AI News, при обработке одного задания агентом ИИ для программирования многократное выполнение часто дает разные решения, среди которых могут быть как правильные, так и ошибочные. Если автоматически выбрать лучшее решение, общий уровень успеха может превысить результат однократного запуска. Вопрос в том, как выбрать: использование другого модели в качестве судьи для оценки (то есть LLM-as-a-Judge) — это сейчас основной подход, но оценка по уровню грубая, часто разные решения получают одинаковые оценки, что затрудняет определение лучшего.
Лаборатория искусственного интеллекта Стэнфордского университета и лаборатория Sky Computing из Беркли совместно с NVIDIA предложили LLM-as-a-Verifier, улучшая этот процесс отбора. Теперь не только смотрят на итоговую оценку судьи, но и читают распределение вероятностей по каждому уровню оценки модели, из которых вычисляют непрерывное значение награды. Также судью многократно повторяют оценку и берут среднее, чтобы устранить случайные отклонения, и разбивают общую оценку на три независимых измерения (соответствие требованиям задания, правильность формата вывода, наличие ошибок), которые проверяются отдельно. В эксперименте использовался Gemini 2.5 Flash в качестве проверяющего, точность однократной проверки составила 74,7%, у традиционного судьи — всего 57,0%; при повторении 16 раз Verifier достиг 77,4%, Judge — 70,2%. У традиционного судьи 26,5% случаев завершались ничьей, у Verifier при всех конфигурациях уровень ничьей равен 0%.
Практический эффект: на Terminal-Bench 2, запустив GPT-5.4 пять раз для одного задания, случайно выбранное решение имело успех 81,8%, после отбора с помощью Verifier он вырос до 86,4%. На SWE-Bench Verified, взяв по одному решению от Claude Opus 4.5, Claude Opus 4.6 и Gemini 3 Flash (всего 3 решения), после отбора результат увеличился с 76,1% до 77,8%. По состоянию на 9 апреля оба показателя были на первом месте. Этот фреймворк открыт для общего доступа. (Источник: BlockBeats)