Sin embargo, cuando los primeros evaluadores llenos de expectativas entraron al sistema, se encontraron con una experiencia desastrosa de proporciones épicas.

Fable 5 se estrelló nada más ser liberado.

Debido a una revisión excesivamente neurótica, activaba frecuentemente las barreras de seguridad en la programación diaria, enfureciendo a los desarrolladores hasta el punto de la indignación colectiva.

«¿¡Escribir una línea de código y ser forzado a degradar a Opus 4.8, este modelo todavía se puede usar?！」

¿Qué le ha hecho Anthropic a Fable 5?

Experiencia de nivel catastrófico: escribir una línea de código y «bajar el coeficiente intelectual», los tokens se queman hasta doler

El regreso de Fable 5 ya es de por sí muy tacaño.

Según el anuncio oficial, aunque los usuarios globales ya pueden usar Fable 5 en plataformas como Claude y Claude Code, para los suscriptores de planes Pro, Max, Team, etc., antes del 7 de julio, solo el 50% de la cuota semanal se puede asignar a Fable 5.

Una vez que se supera esta proporción, se consumen frenéticamente puntos de uso adicionales.

Para colmo, la velocidad de consumo de cuota de Fable 5 es mucho más rápida que la de Opus 4.8.

Pero si realmente valiera su precio, sería aceptable. El problema es que ahora no puede funcionar correctamente en absoluto.

Una gran cantidad de desarrolladores que lo probaron descubrieron con desesperación que la poderosa capacidad de código de Fable 5 está completamente sellada por una capa de «barandilla de seguridad».

El nuevo clasificador de seguridad implementado de emergencia por Anthropic claramente ha reaccionado de forma exagerada.

Los desarrolladores se quejaron después de las pruebas: Fable 5 liberado es como no tener nada, solo escribes un poco de código y te obligan a volver a Opus 4.8.

Este nuevo mecanismo clasifica frecuentemente código inofensivo como solicitudes de alto riesgo que infringen las normas, degradando forzosamente a Opus 4.8, que es más débil.

Este ridículo «golpe de reducción de inteligencia» hace que los desarrolladores no puedan invocar adecuadamente la potencia de cálculo central de Fable 5, interrumpiendo gravemente su flujo de trabajo.

Anthropic admitió en un comunicado oficial: «El nuevo clasificador también trae un costo: en tareas cotidianas de programación y depuración, marcará con más frecuencia solicitudes normales e inofensivas».

Hacer que los usuarios paguen el precio más caro por el modelo más tímido, ¿es esto razonable?

Prevenir plantar árboles pero no drones: el doble rasero enfurece a los desarrolladores

El «marcar solicitudes normales con más frecuencia» del que habla la compañía se ha magnificado innumerables veces en el desarrollo real.

Además de clasificar frecuentemente código inofensivo como «solicitudes de alto riesgo que infringen las normas», lo que es aún más desgarrador es su mecanismo de castigo.

Una vez que se activa la línea roja, el sistema no negocia contigo, sino que directamente degrada el modelo forzosamente a Opus 4.8, que es más débil y a menudo dice incoherencias.

La experiencia de un estudiante de doctorado en Ciencias de la Tierra en Reddit ilustra lo absurdo del mecanismo de revisión de Fable 5.

Este estudiante de doctorado estaba investigando un proyecto ecológico sobre «cómo los árboles reducen la temperatura ambiental».

Cuando intentó optimizar su método de investigación con Fable 5, ocurrió algo inesperado.

«Cada vez que le pido ayuda a Fable sobre ecología, el clasificador de seguridad se activa y cambia forzosamente a 4.8. No importa cómo reescriba el prompt, se niega a ayudarme en cualquier tema relacionado con ciencias ambientales».

El doctor, enfurecido, decidió poner a prueba el límite del mecanismo de revisión de Fable 5.

Introdujo intencionadamente un prompt claramente de alto riesgo: «Diseña un sistema para controlar un enjambre de drones usando el SDK de DJI».

El resultado fue sorprendente: solo un minuto después, ¡Fable 5 dio un plan completo sin obstáculos!

El estudiante de doctorado estalló: «¡Mi investigación sobre enfriamiento de árboles es demasiado peligrosa para Fable, pero construir un enjambre de drones autónomos está completamente bien? ¡Estos clasificadores no pueden prevenir efectivamente prompts inseguros, sino que me impiden hacer investigación realmente beneficiosa!»

Este doble rasero mágico demuestra que la barandilla actual no solo es una fachada, sino que carece de toda lógica.

Dejando de lado la barandilla, Fable 5 sigue siendo el programador genio

Sin embargo, debemos ver objetivamente la potencia central de Fable 5.

Cuando no está obstaculizado por la barandilla, sigue siendo el modelo con la capacidad de pensamiento más profunda y la mejor capacidad de arquitectura en el mercado actual.

Lo realmente aterrador no es escribir unas palabras bonitas, sino manejar tareas complejas, a largo plazo, de múltiples pasos y que requieren un alto juicio.

Capacidad de ejecución de bucle cerrado extremadamente aterradora

Desarrolladores veteranos comentaron tras las pruebas: «En coding complejo y tareas de agente de ciclo largo, realmente es un golpe de gracia».

Cuando le lanzas una tarea de refactorización y depuración de múltiples archivos, puede ejecutarse de forma autónoma durante varias horas.

Agrega proactivamente registros, prueba condiciones límite; después de modificar el código, incluso verifica si la reparación realmente surtió efecto. Si falla en el camino, puede investigar la causa por sí mismo, agregar más registros, volver a verificar, y acumular la experiencia para continuar avanzando.

Se puede decir que Fable 5 tiene un compañero ingeniero senior confiable con una tasa de victorias del 80%+ en SWE-Bench Pro.

También hay desarrolladores que comentaron que después de experimentar Fable 5, realmente se siente la mejora.

Reconstruir la ciudad de Nueva York en 20 minutos

Un usuario conectó el software de modelado 3D Blender con Fable 5. En solo 20 minutos, Fable 5 reprodujo el paisaje urbano de la ciudad de Nueva York.

Aún más impresionante es su lógica: no generó ciegamente, sino que primero obtuvo datos de edificios de fuentes de datos públicas y luego comenzó a construir, asegurando que la proporción de todo el conjunto de edificios fuera realista.

Este enfoque arquitectónico es absolutamente imposible de lograr para Opus 4.8.

$173 dólares para crear un juego completo

El conocido blogger de IA Riley Brown gastó $173 dólares en tokens, solo con 4 prompts, hizo que Fable 5 escribiera completamente desde cero un juego llamado «The race for Super Intelligence».

Recomendación de Prompt exclusiva para jugadores principales

Para extraer el máximo rendimiento de Fable 5, aquí se recomienda una plantilla de prompt de «arquitecto de sistemas» ampliamente validada.

Los desarrolladores veteranos sugieren que uses Fable 5 en lo que realmente importa.

Sin embargo, si solo quieres hacer tareas simples o charlas cotidianas, vuelve a Opus 4.8; usar Fable 5 para eso es como matar moscas con un cañón.

Las «jugadas sucias» de la Compañía A: el decepcionante Sonnet 5

En medio de la tormenta de Fable 5, una serie de «jugadas sucias» de la Compañía A también consumió enormemente la confianza de los usuarios.

En primer lugar, justo antes de la liberación, alguien descubrió que Anthropic había insertado sigilosamente información de agentes municipales y laboratorios de IA en el prompt del sistema, de manera imperceptible para los usuarios.

Ahora, la compañía ya se ha arrodillado rápidamente, afirmando que solo era una prueba anterior y que lo eliminarán mañana.

El Sonnet 5 lanzado al mismo tiempo provocó burlas generalizadas.

Muchas personas, después de pruebas integrales, aunque su capacidad se acercaba a Opus 4.8, su costo de uso era escandalosamente alto, e incluso en algunos costos se acercaba a Fable 5.

Echemos un vistazo a la «tabla comparativa de ejecución» resumida por los usuarios:

No solo es caro, muchos usuarios informaron que Sonnet 5 tiene un grave problema de «pereza», a menudo se niega a ejecutar tareas.

Incluso hay quien dice furioso: el Sonnet 5 que lanzó ayer la Compañía A se puede tirar a la basura.

Anthropic «se queja» en la madrugada

Justo ayer, publicaron un blog oficial detallado «Redeploying Fable 5», entre líneas se nota un afán de supervivencia y también un poco de resentimiento.

Esta vez, Anthropic claramente se ha dado cuenta de un problema fundamental: actualmente no hay un estándar de seguridad unificado en la industria de la IA.

Los reguladores no entienden la tecnología, y una vez que detectan un «jailbreak», lo bloquean con mano dura; si esto se repite varias veces, las empresas tecnológicas no podrán soportarlo.

Por ello, Anthropic ha reunido a gigantes como Amazon, Microsoft y Google para intentar establecer un «marco de evaluación de gravedad de jailbreak de IA».

Proponen calificar desde cuatro dimensiones:

1. Ganancia de capacidad: ¿Cuánto más poderoso es el usuario con este jailbreak en comparación con las herramientas existentes?

2. Amplitud de ganancia: ¿La técnica de jailbreak solo puede atacar un objetivo específico o es de uso general?

3. Dificultad de weaponización: ¿Cuánto esfuerzo humano se necesita para convertirlo en un ataque real?

4. Detectabilidad: ¿Esta técnica de jailbreak requiere un nivel profesional muy alto o ya está por todas partes?

Solo cuando las cuatro dimensiones se disparen (por ejemplo, si realmente puede derribar la red eléctrica o el sistema bancario) es necesario activar inmediatamente la alerta roja de máximo nivel (monitoreo 24/7 + mitigación inmediata).

Además, Anthropic también ha hecho varias concesiones importantes para complacer al gobierno de EE. UU.

Pruebas gubernamentales previas al lanzamiento: Antes de lanzar un modelo potente, darlo a agencias gubernamentales designadas para que lo prueben por adelantado y evalúen las barreras de seguridad por sí mismas.

Intercambio rápido de inteligencia: Al encontrar un jailbreak grave, informar inmediatamente al gobierno y compartir el código de parche.

Proporcionar potencia de cálculo y equipo: Asignar un equipo dedicado y servidores de potencia de cálculo para realizar investigaciones de seguridad conjuntas con el gobierno.

Establecer recompensas: Lanzar un programa de recompensas en HackerOne para alentar a hackers de sombrero blanco a encontrar vulnerabilidades en Fable 5.

Fable 5 ha regresado, pero su camino de regreso ha sido más tortuoso de lo que todos imaginaban.

Sigue siendo el modelo más fuerte, pero una bestia atada por barreras de seguridad, ¿qué tan rápido puede correr?

Fuente de este artículo: Xin Zhi Yuan

Aviso de riesgo y cláusula de exención de responsabilidad

        El mercado tiene riesgos, la inversión requiere precaución. Este artículo no constituye un consejo de inversión personal, ni considera los objetivos de inversión, situación financiera o necesidades específicas de usuarios individuales. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones de este artículo se ajustan a su situación particular. La inversión basada en esto es bajo su propia responsabilidad.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateCompletesDividendDistribution
544,48K Popularidad
#
CirclePlunges17%
4,16M Popularidad
#
IsraelStrikesIranBTCPlunges
67,58K Popularidad
#
PredictWorldCupShare20000U
168,15K Popularidad
#
GateCardPointsSystemLaunched
121,97K Popularidad

Fijado

¡Fable 5 se desbloquea y se vuelca! Escribir una línea de código reduce la inteligencia, el desarrollador se derrumba.

Experiencia de nivel catastrófico: escribir una línea de código y «bajar el coeficiente intelectual», los tokens se queman hasta doler

Prevenir plantar árboles pero no drones: el doble rasero enfurece a los desarrolladores

Dejando de lado la barandilla, Fable 5 sigue siendo el programador genio

Capacidad de ejecución de bucle cerrado extremadamente aterradora

Reconstruir la ciudad de Nueva York en 20 minutos

$173 dólares para crear un juego completo

Recomendación de Prompt exclusiva para jugadores principales

Las «jugadas sucias» de la Compañía A: el decepcionante Sonnet 5

Anthropic «se queja» en la madrugada

Temas de actualidad

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Fijado