Anthropic офіційно запускає Claude Sonnet 5, оприлюднені бенчмарки показують, що його показники наблизилися до флагманського Opus 4.8, стандартна ціна API — $3 за вхід / $15 за вихід на мільйон токенів, що приблизно на 60% дешевше за Opus. (Передумова: Каліфорнія оголосила про співпрацю з Anthropic: державні органи можуть використовувати Claude за півціни) (Додатковий контекст: Кінець епохи високих цін на AI? П'ять структурних причин, чому токени обов'язково подешевшають) Дешевше на 60%, продуктивність лише трохи нижча — звучить як ідеальна бізнес-історія, але чи все так добре? Щойно Anthropic офіційно представив Claude Sonnet 5 і зробив його моделлю за замовчуванням для користувачів Free та Pro. Щодо ціноутворення: стандартна ціна API становить $3 за вхід / $15 за вихід на мільйон токенів (до 31 серпня діє пільговий період $2/$10), порівняно з $5/$25 флагманського Opus 4.8, що приблизно на 60% дешевше.

Бенчмарки наближаються до флагмана

Оприлюднені Anthropic цифри наведено нижче, але всі бенчмарки є власними оцінками компанії та ще не пройшли незалежну верифікацію: У SWE-bench Pro (агентські здібності до коду) Sonnet 5 показав 63.2%, попереднє покоління Sonnet 4.6 — 58.1%, флагманський Opus 4.8 — 69.2%. Terminal-Bench 2.1 робота в терміналі: Sonnet 5 — 80.4%, Opus 4.8 — 82.7%. Humanity’s Last Exam багатодисциплінарне міркування: Sonnet 5 з використанням інструментів досяг 57.4%, майже наздогнавши Opus 4.8 з 57.9%. GDPval-AA v2 знаннєва робота: Sonnet 5 набрав 1 618 балів, навіть випередивши Opus 4.8 з 1 615. Здібності до роботи з комп'ютером також покращилися: у тесті OSWorld-Verified Sonnet 5 показав 81.2%, попереднє покоління — 78.5%. Основне завдання цього бенчмарку — змусити модель реально керувати робочим столом у справжній операційній системі, виконуючи скріншоти, перетягування, передачу даних між додатками тощо, що наближається до складності реальних автоматизованих робочих процесів. Крім того, Sonnet 5 підтримує контекстне вікно до 1 мільйона токенів, а максимальний вихід становить 128k токенів. Це означає, що за один раз можна подати приблизно 750 романів тексту або пакет контрактів великого підприємства, дозволяючи моделі виконувати міжфайлове порівняння, узагальнення та прийняття рішень в одному діалозі без необхідності обробляти порціями. Така специфікація особливо підходить для тривалих агентських завдань, оскільки моделі не доводиться «забувати» попередній контекст.

Рахунок не обов'язково буде «дешевшим»

Sonnet 5 використовує оновлену версію токенізатора. Простими словами, токенізатор — це спосіб нарізки тексту на токени. Якщо змінюється спосіб нарізки, то для одного й того самого тексту кількість токенів буде різною, а отже, зміниться і рахунок. Anthropic зазначає, що для однакового вхідного тексту новий токенізатор може генерувати від 1.0 до 1.35 токенів залежно від вмісту. Компанія стверджує, що ціноутворення скориговано як «в основному нейтральне за витратами», але рекомендує високонавантаженим користувачам самостійно проводити бенчмарки, оскільки рахунок може не зменшитися, а навіть зрости. У сфері безпеки звіт Anthropic показує, що Sonnet 5 має меншу схильність до галюцинацій та улесливості порівняно з Sonnet 4.6, а також краще відхиляє шкідливі запити. Але порівняння безпеки є відносним: рівень небажаної поведінки у Sonnet 5 все ще вищий, ніж у потужнішого Opus 4.8, а також вищий, ніж у суворо обмеженої версії Claude Mythos Preview. У спільному з Mozilla оцінюванні розробки вразливості Firefox 147, Sonnet 5 не зміг створити робочу вразливість (0%), але частковий успіх становив 13.2%, що вище за 8.8% у Sonnet 4.6. Ці цифри все ще дуже далекі від 68.8% Opus 4.8, але Anthropic вже увімкнув захист кібербезпеки за замовчуванням.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
557,12K Популярність
#
StrategyBuybackSurges12%
180,24K Популярність
#
IsraelStrikesIranBTCPlunges
67,08K Популярність
#
PredictWorldCupShare20000U
517,26K Популярність
#
TrumpDisclosesOver100MBTCETH
3,83M Популярність

Закріплено

карта сайту

Claude Sonnet 5 вийшов: Anthropic заявляє, що багато характеристик наближаються до Opus, але вартість API на 60% дешевша.

Бенчмарки наближаються до флагмана

Рахунок не обов'язково буде «дешевшим»

Популярні теми

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Закріплено