La nueva carrera del oro de datos de la América Corporativa

2026-03-16 21:35:17

La era de los datos de entrenamiento de IA gratuitos ha terminado. Reddit $RDDT +5.77% cobra millones por acceso a la API. The New York Times demandó. Los editores están bloqueando los scrapers. Incluso si las empresas de IA aún pudieran absorber internet público, enfrentan un problema mayor: necesitan tipos de datos completamente diferentes para el próximo salto en capacidades.

Los grandes modelos de lenguaje se construyeron raspando texto e imágenes de la web. Pero a medida que los sistemas de IA avanzan más allá de los chatbots, necesitan datos de entrenamiento que nunca estuvieron disponibles públicamente en primer lugar. Datos que están bloqueados, dispersos o que aún no existen.

Están surgiendo nuevos mercados para desbloquear estas fuentes. Aquí hay tres.

Tu huella digital, monetizada

La mayoría piensa en datos personales como números de Seguro Social y registros de salud. Pero casi todo lo que haces en línea genera datos que las plataformas recopilan y usan — tu historial de escucha en Spotify $SPOT +1.54%, tus patrones de correo electrónico, los documentos que escribes en Google $GOOGL +1.09% Docs, tus conversaciones con ChatGPT.

Por ejemplo, cuando descargas tus datos de Instagram, la compañía no solo te da tus fotos. Obtienes todo lo que Instagram ha inferido sobre ti basado en tu comportamiento de navegación: cientos de puntos de datos que van desde etiquetas inocuas como “interesado en la naturaleza” hasta evaluaciones psicológicas como si tienes depresión.

Nada de esto es accesible para raspado público. Todo es legalmente tuyo.

“Si estacionas tu coche en un estacionamiento, el estacionamiento no es dueño de tu coche”, dice Anna Kazlauskas, CEO de Vana, una empresa que construye infraestructura para que las personas contribuyan con sus datos de plataformas a la capacitación de IA. El mismo principio se aplica a los datos: tú los posees, incluso si viven en el servidor de otra persona.

La escala es enorme. Una versión de Common Crawl, el conjunto de datos que entrenó a Llama 3 de Meta $META +2.33%, contiene aproximadamente 15 billones de palabras raspadas de internet público. Si 100 millones de personas contribuyeran con exportaciones de datos de solo cinco plataformas, eso generaría 450 billones de tokens, 30 veces más grande que cualquier conjunto de datos existente.

Este tipo de datos podría desbloquear IA personalizada que entienda tus gustos musicales, o modelos de salud entrenados con datos reales de sueño y fitness, todo lo cual es imposible con contenido web raspado. Kazlauskas dice que pagar a las personas por datos que solo ellas pueden proporcionar también podría transformar el debate más amplio sobre IA.

“Mucho del miedo en torno a la IA proviene de la falta de atribución adecuada y de la economía”, dice Kazlauskas. “Si enseñas a la IA cómo hacer tu trabajo, deberías ser el dueño real de ese modelo de IA.”

Mapeando el mundo físico

Los modelos de texto podrían entrenarse con datos raspados de la web. Pero la próxima generación de IA necesita información precisa y coherente sobre el mundo físico. Robots que navegan ciudades, vehículos autónomos y realidad aumentada necesitan mapas digitales de alta fidelidad para tomar decisiones.

El problema es que los datos aéreos existentes están fragmentados. Provienen de varios contratistas con diferentes sensores y precisiones, lo que hace casi imposible entrenar modelos geoespaciales confiables. La imaginería satelital, aunque cubre la mayor parte del planeta, carece de resolución. La capa de datos que necesitan las empresas de IA simplemente no existe aún.

Spexi intenta construirla usando trabajadores gig y drones. La compañía tiene más de 10,000 pilotos que realizan misiones estandarizadas a 80 metros de altura. En los últimos 18 meses, han cubierto más de 6 millones de acres en 300 ciudades de Norteamérica con una resolución superior a la de satélites o imágenes aéreas tradicionales, dice Bill Lakeland, CEO de Spexi.

Spexi trabaja con empresas como Niantic para entrenar grandes modelos geoespaciales para realidad aumentada y robótica. A diferencia de los modelos de lenguaje, estos necesitan actualizaciones constantes a medida que los edificios crecen y las carreteras cambian. Es una versión del mismo problema que afecta a ChatGPT y otros LLMs: cómo mantener los modelos actualizados sin volver a entrenarlos desde cero. El equipo de Lakeland trabaja en algoritmos para predecir cuándo y dónde son necesarias actualizaciones, pero sigue siendo un desafío de investigación sin resolver.

La segunda oportunidad del big data

Uno de los mayores fabricantes de PC del mundo ha estado recopilando datos de telemetría durante siete años. Nadie los había analizado. Cuando el equipo de Sachin Dharmapurikar en The Modern Data Company finalmente los examinó, descubrieron que dos de los 70 campos se habían recopilado incorrectamente todo ese tiempo.

La empresa de Dharmapurikar ayuda a las empresas a transformar datos heredados en conjuntos de datos estructurados y contextualizados, diseñados para preguntas comerciales específicas en lugar de almacenamiento general. Hace una década, las empresas comenzaron a rastrear todo y almacenarlo en la nube, asumiendo que recopilar datos eventualmente generaría insights. En cambio, creó paisajes de datos costosos, aislados y sin gestión.

Cuando ChatGPT explotó en popularidad, muchos ejecutivos pensaron que finalmente habían encontrado una solución fácil. Solo hay que alimentar todos esos datos almacenados en un LLM y ver cómo sucede la magia. Dharmapurikar llama a esto la “maldición de ChatGPT”.

La realidad es más compleja. Las empresas necesitan cuatro cosas: calidad de datos a escala, la capacidad de rastrear el linaje y explicar cómo se llegaron a las conclusiones, gobernanza para prevenir alucinaciones de IA, y metadatos semánticos que contextualicen los datos en términos comerciales. El valor de vida de un cliente minorista es diferente al de un cliente empresarial, por ejemplo. Sin ese contexto, los modelos inferirán incorrectamente.

Incluso cuando los datos existen, a menudo están atrapados. Los equipos de ventas, manufactura y web recopilan datos en silos, y transferirlos entre departamentos requiere burocracia y papeleo. La IA necesita información de toda la organización, pero la realidad son sistemas fragmentados que no se comunican entre sí.

Dharmapurikar dice que la industria finalmente está siendo realista. “Ahora la gente es más calculada, más racional y pragmática respecto a esto”, dice. “La realidad está imponiéndose en grande que no hay una solución fácil.”

📬 Suscríbete al Resumen Diario

Nuestro resumen gratuito, rápido y divertido sobre la economía global, entregado cada mañana de lunes a viernes.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.