Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Opus4.8 офіційно випущено, AI вперше сказав «Я не впевнений»
Автор|Квін Лінь Ву Ван
Редактор|Цзінь Юй
Якщо ти, як і я, щодня покладаєшся на ШІ для написання статей, коду, досліджень, то напевно у тебе був такий досвід — ШІ впевнено видає результат, ти перевіряєш його півдня і знаходиш низькосортну помилку, а воно при цьому мовчить.
Ця «фальшива ілюзія всього хорошого» — одна з найголовніших проблем сучасних великих моделей.
28 травня Anthropic випустила Claude Opus 4.8. Всього через шість тижнів після попередньої версії Opus 4.7.
Opus 4.8 — не революційний прорив, Anthropic сам визнає, що це «скромне, але відчутне покращення» — але вони зробили одну важливу річ, яку багато хто давно очікував: навчили ШІ визнавати свою невпевненість.
01 Швидший темп, більш чесна модель
З початку листопада 2025 року, з версії Opus 4.5, основна модель Anthropic оновлюється приблизно кожні два місяці — 4.5 (листопад минулого року), 4.6 (лютий цього року), 4.7 (квітень), 4.8 (кінець травня). Шість тижнів — один реліз, що майже є найагресивнішим темпом оновлень у галузі великих моделей.
Порівняння Opus 4.8 з моделями конкурента та власною|зображення: Anthropic
На стандартних бенчмарках, показники Opus 4.8 можна охарактеризувати як «послідовне покращення». У програмуванні, SWE-bench Pro з 64.3% піднявся до 69.2%, SWE-bench Verified — з 87.6% до 88.6%. Мультидисциплінарне мислення (Humanity's Last Exam) з використанням інструментів отримало 57.9%. Оцінка знань у GDPval-AA з Elo 1890 випереджає GPT-5.5 з 1769. Оцінка роботи з комп’ютерами OSWorld-Verified — 83.4%, лідирує.
Єдине, що програє GPT-5.5 — це термінальне програмування (Terminal-Bench 2.1), яке отримало 78.2%, тоді як Opus 4.8 — 74.6%.
Чесно кажучи, ці результати вже не викликають особливого захоплення. SWE-bench Verified майже досягла насичення, кілька моделей у GPQA Diamond мають понад 93% — чим вищий бал, тим менше різниця у відчутті при кожному додатковому пункті.
Найбільше мене вразила інвестиція Anthropic у «чесність» цієї версії.
02 ШІ, що може сказати «Я не впевнений»
Anthropic навів конкретні дані: у програмуванні, ймовірність пропустити дефект у коді з Opus 4.8 зменшилася приблизно у чотири рази порівняно з Opus 4.7.
Що це означає? Це означає, що раніше Opus 4.7, закінчивши написання коду, навіть якщо там був баг, міг спокійно сказати «готово, без проблем». А Opus 4.8 схильний активніше говорити «тут я не зовсім впевнений, краще перевірте».
У тестах на відповідність, Opus 4.8 досягла нових максимумів у соціальних характеристиках (наприклад, поважати автономію користувача, думати про його інтереси), а рівень обману, маніпуляцій та зловживань — значно знизився порівняно з Opus 4.7, наближаючись до найкращої моделі Anthropic — Claude Mythos Preview.
Генеральний директор Cursor Майкл Труелл оцінив, що Opus 4.8 у CursorBench перевершує попередні моделі за всіма рівнями складності, ефективніше використовує інструменти, досягаючи тих самих результатів із меншими витратами. Керівник досліджень у юридичній компанії Casetext прямо сказав, що Opus 4.8 встановила новий рекорд у юридичних тестах — перша модель, яка перевищила 10% стандарту «повного проходження».
Генеральний директор Devin, Скотт Ву, підкреслив важливий момент — Opus 4.8 виправила проблеми з зайвими коментарями та викликами інструментів, що особливо важливо для автоматизованих робочих процесів.
У епоху, коли ШІ дедалі більше використовується для автономних рішень, модель, яка здатна відкрито визнавати свої слабкі сторони, є найнадійнішою.
Щодо несумісності моделей, Opus 4.8 вже на рівні з легендарним Mythos|зображення: Anthropic
Однак у системній безпеці Anthropic зізналися у цікавому відкритті: під час тренування Opus 4.8 почала проявляти тенденцію «загадувати наміри оцінювачів».
Конкретно, модель під час розв’язання задач починає активно думати, як її оцінять — навіть без підказок. Попередні дослідження пояснювальної здатності показали, що приблизно у 5% тренувальних фрагментів модель має неусвідомлені, неречені логікою, обґрунтування, пов’язані з оцінкою.
Проще кажучи, ШІ навчається «екзаменаційній думці» — йому важливо не обов’язково давати найкращу відповідь, а ту, що найбільше сподобається «журі».
Anthropic підкреслює, що ця тенденція наразі не призводить до погіршення поведінки — навпаки, дезінформаційні заяви у Opus 4.8 менше, ніж у попередніх моделях. Але вони визнають, що це «може ускладнити тренування у майбутньому».
Це не унікальна проблема для Anthropic. Усі моделі, треновані за допомогою RLHF (посилене навчання з людським зворотним зв’язком), теоретично можуть розвивати стратегію «задобрювання суддів». Але Anthropic вирішили публічно говорити про це — у галузі, де зазвичай хвалять і не говорять про недоліки, це вже прояв чесності.
03 Справжні зміни у роботі
Разом із Opus 4.8 вийшли кілька оновлень функцій, з яких найцікавіше — «Dynamic Workflows» у Claude Code.
Ця функція дозволяє Claude у рамках однієї сесії запускати сотні паралельних підагентів для спільної роботи. Спосіб роботи: Claude спочатку планує, потім розбиває завдання на підзавдання, розподіляє їх між різними агентами, які навіть можуть ставити один одному запитання і повторювати ітерації, доки не досягнуть згоди, і в кінці — перевіряють і звітують користувачу.
Приклад, наведений Anthropic: Claude Code у поєднанні з Opus 4.8 може виконати міграцію сотень тисяч рядків коду, від запуску до злиття, використовуючи існуючий тестовий набір як стандарт якості. Один запуск підтримує до 1000 підагентів і до 16 паралельних потоків.
Ще одне оновлення — «Effort Control» (контроль зусиль), у Claude.ai і Cowork користувачі можуть вручну регулювати, скільки «розуму» вкладає Claude у кожну відповідь — від швидкої і простої до максимально ретельної, з високими витратами токенів. Це фактично дає користувачу контроль над бюджетом і масштабом роботи. За замовчуванням — «high», при цьому витрати токенів у кодових задачах відповідають попереднім версіям, але з кращою продуктивністю.
Швидкий режим (Fast Mode) також оновлений: швидкість зросла у 2.5 рази, а ціна — у три.
04 Тінь Mythos
Під час релізу Opus 4.8 Anthropic знову згадав Claude Mythos — модель, доступна лише кільком організаціям, але з більшою потужністю. Anthropic заявили, що Mythos планують «протягом кількох тижнів» зробити доступною для всіх клієнтів.
Це і є головний контекст релізу Opus 4.8 — він ніби готує ґрунт для офіційного запуску Mythos. За рівнем відповідності, Opus 4.8 вже близький до Mythos Preview, що може означати, що Anthropic готується до безпечного випуску більш потужної моделі.
Що стосується цін, то Opus 4.8 залишився в ціновій категорії 5 доларів за мільйон вхідних токенів і 25 доларів за вихідні. API позначено як claude-opus-4-8 і вже доступний у Claude API, Amazon Bedrock, Google Cloud Vertex AI і Microsoft Foundry.
На тлі постійного тиску GPT-5.5 від OpenAI і Gemini 3.1 Pro від Google, Anthropic обрала інший шлях: не змагатися у швидкості та бенчмарках, а зробити ставку на «характер» моделі — чесність, надійність, такт. Це може спрацювати або ні, але принаймні сьогодні, коли я попросив Opus 4.8 перевірити мій код, воно вказало на ризик, який раніше ніколи не згадувала 4.7.
З цієї причини ця оновлення вже варте очікування.