En lo que respecta a la veracidad del contenido generado por modelos grandes, han proporcionado una interpretación oficial. Respecto a la frecuente mención de OpenAI y ChatGPT en las respuestas del modelo, DeepSeek explica que esto no es un diseño intencionado, sino que se debe a la situación objetiva de los datos de entrenamiento: en los corpus web existen de manera objetiva gran cantidad de contenido generado externamente, y cuando estos son incorporados en el entrenamiento del modelo base, producen un impacto indirecto pero medible. Este hallazgo es de gran importancia para entender las características de comportamiento y la dependencia de datos de los LLM.
Lo que merece más atención es su planificación para las capacidades futuras. La publicación aclara que «salida estructurada» y «uso de herramientas» son las principales direcciones de desarrollo para R2. La salida estructurada permite que el modelo organice la información en formatos específicos, mejorando su utilidad en aplicaciones prácticas; el uso de herramientas implica la capacidad del modelo para interactuar con sistemas externos, lo cual es crucial para ampliar los límites de las aplicaciones prácticas de los modelos de razonamiento. Estas direcciones de iteración tecnológica reflejan una tendencia de transición desde la generación de texto puro hacia modalidades múltiples y capacidades de interacción fuertes.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
16 me gusta
Recompensa
16
8
Republicar
Compartir
Comentar
0/400
SignatureLiquidator
· 01-10 17:22
Jaja, DeepSeek vuelve a hacer cosas en silencio, ni siquiera sabemos cuándo lanzarán una nueva versión.
Espera, ¿todavía están echando la culpa a los datos de entrenamiento? Hablando de la situación objetiva... Bueno, esa razón realmente suena convincente.
La salida estructurada y el uso de herramientas parecen prometedores, solo que tengo miedo de que sea solo una barra de progreso en papel.
Ver originalesResponder0
SatsStacking
· 01-10 09:19
嗯...los problemas de contaminación de datos se achacan de manera bastante directa, pero esta explicación realmente tiene fundamento
Salida estructurada + llamada a herramientas, eso es lo que todos los jugadores quieren, las conversaciones puras realmente ya no tienen competencia
La actualización de DeepSeek esta vez parece bastante sólida, sin ese tono exagerado
El tema de los datos de entrenamiento, en realidad, nadie puede evitarlo, mejor ser honestos que esconderlo y disimular
Si R2 realmente logra mejorar las capacidades de las herramientas, ese podría ser el momento realmente importante para prestar atención
La calidad del conjunto de datos realmente preocupa a toda la industria, que DeepSeek tenga la valentía de decirlo también muestra sinceridad
Esta actualización no trae muchas sorpresas, pero al menos es coherente y no engaña a la gente
Ver originalesResponder0
LightningWallet
· 01-09 12:25
Jaja, la actualización de DeepSeek tiene algo, salida estructurada + integración de herramientas, parece que realmente están guardando un gran movimiento
Lo de que los datos de entrenamiento afectan el comportamiento del modelo es correcto, esa pila de basura generada por IA en línea realmente puede contaminar
¿R2 llegará pronto? La multimodalidad es el futuro
Lo clave es si realmente será útil, no solo en papel y en apariencia
Ver originalesResponder0
SchrodingerWallet
· 01-08 07:45
Otra vez DeepSeek, discreto pero en progreso, realmente tienes mérito, ¿no podrías publicar una declaración para que sepamos?
En los datos de entrenamiento todo son sombras de ChatGPT... ahora está claro, decir algo suena como repetir a tu oponente.
Salida estructurada + uso de herramientas, suena como una preparación para la próxima generación de utilidad, ¿R2 va en serio?
El problema de la contaminación de datos, toda la comunidad no puede evitarlo, DeepSeek al decirlo en realidad parece honesto.
La ambición de R2 no es pequeña, pasa directamente de generación de texto a interacción multimodal, es un poco radical pero me gusta.
Este roadmap técnico revela bastante claramente, ¿está insinuando cuál es su límite?
El uso de herramientas es realmente clave, sin eso, incluso un LLM fuerte sería solo un adorno.
El documento V2 salió hace mucho y todavía no hay discusión, la popularidad realmente no es la esperada.
Ver originalesResponder0
MemeTokenGenius
· 01-08 07:41
Jaja, deepseek vuelve a hacer de las suyas en secreto, la parte de salida estructurada y uso de herramientas es realmente excelente.
Es bastante interesante que en los datos de entrenamiento haya rastros de ChatGPT, en realidad, es un problema del ADN de Internet.
¿Crees que R2 despegará directamente? Tengo un poco de expectativa.
Ver originalesResponder0
GasGuzzler
· 01-08 07:41
La toxicidad de los datos es un tema que realmente no se puede evitar; si el conjunto de entrenamiento está lleno de rastros de ChatGPT, es difícil decir que no tenga ningún impacto.
Sin embargo, la combinación de salida estructurada + llamadas a herramientas es la clave; parece que esa es la verdadera ruptura para la aplicación práctica.
DeepSeek vuelve a hacer su trabajo en secreto, con un nivel de discreción increíble... solo publica el artículo después de terminarlo.
Si las capacidades de las herramientas realmente se perfeccionan, eso sería lo que podría amenazar realmente el ecosistema de OpenAI.
Ver originalesResponder0
ForkPrince
· 01-08 07:29
嗯...datos de contaminación por fin alguien se atreve a decirlo claramente, no es un bug sino una característica jaja
La salida estructurada y la llamada a herramientas son enfoques confiables, si R2 realmente logra hacer esto sería increíble
DeepSeek tiene un toque de discreción que realmente impresiona, cada vez que publican un artículo lo hacen en secreto, mucho mejor que algunos que gritan todo el día
Los datos de entrenamiento están llenos de cosas de ChatGPT, no es de extrañar que el modelo siempre los mencione, no importa cuánto lo laves, no se puede cambiar eso
Si se mejora la capacidad de uso de herramientas, los modelos de razonamiento serán realmente útiles, ya me cansé del chat puro
Ver originalesResponder0
wrekt_but_learning
· 01-08 07:21
Los datos lo deciden todo, no es de extrañar que siempre mencionen a OpenAI... ¿Entonces, DeepSeek está insinuando que hay un problema con el conjunto de entrenamiento?
---
Salida estructurada + llamadas a herramientas, esa es la clave para abrir la puerta a la utilidad, la era de la generación de texto puro realmente está llegando a su fin
---
Espera, ellos hablan de "impacto indirecto pero medible"... ¿No es esto una forma de admitir que los modelos pueden ser sesgados por los datos de entrenamiento?
---
La hoja de ruta de R2 es interesante, parece que DeepSeek está siguiendo su propio camino, sin seguir la tendencia del razonamiento puro
---
Todos los datos de entrenamiento son contenido externo, ¿cómo puede esto garantizar la independencia...?
DeepSeek低调推出R1论文V2版本,披露了几项关键技术进展。
En lo que respecta a la veracidad del contenido generado por modelos grandes, han proporcionado una interpretación oficial. Respecto a la frecuente mención de OpenAI y ChatGPT en las respuestas del modelo, DeepSeek explica que esto no es un diseño intencionado, sino que se debe a la situación objetiva de los datos de entrenamiento: en los corpus web existen de manera objetiva gran cantidad de contenido generado externamente, y cuando estos son incorporados en el entrenamiento del modelo base, producen un impacto indirecto pero medible. Este hallazgo es de gran importancia para entender las características de comportamiento y la dependencia de datos de los LLM.
Lo que merece más atención es su planificación para las capacidades futuras. La publicación aclara que «salida estructurada» y «uso de herramientas» son las principales direcciones de desarrollo para R2. La salida estructurada permite que el modelo organice la información en formatos específicos, mejorando su utilidad en aplicaciones prácticas; el uso de herramientas implica la capacidad del modelo para interactuar con sistemas externos, lo cual es crucial para ampliar los límites de las aplicaciones prácticas de los modelos de razonamiento. Estas direcciones de iteración tecnológica reflejan una tendencia de transición desde la generación de texto puro hacia modalidades múltiples y capacidades de interacción fuertes.