En el desarrollo de la IA surgió un vector en el que la descentralización y el código abierto permiten salir de los marcos de las soluciones comerciales populares. Los LLM locales permiten trabajar con datos de forma privada, configurar el sistema de manera flexible para sus tareas y controlar por sí mismos el entorno de uso. Al mismo tiempo, lanzar tales modelos requiere entender las herramientas básicas — desde repositorios y pesos de modelos hasta entornos en la nube y características técnicas.

En el nuevo material de ForkLog, explicaremos cómo comenzar a familiarizarse con modelos de IA autónomos sin costos, qué recursos usar para principiantes y qué ofrecen los desarrolladores de soluciones de código abierto.

Primer contacto

Para desarrolladores de modelos de IA abiertos existen dos plataformas principales: GitHub y Hugging Face. La primera se usa tradicionalmente para publicar código fuente, documentación y scripts de instalación, la segunda se convirtió en un hub global para pesos de modelos, conjuntos de datos y soluciones ML listas para usar. En Hugging Face se publican cientos de miles de redes neuronales entrenadas, desde modelos de lenguaje pequeños para smartphones, generadores alternativos de contenido multimedia, hasta algoritmos especializados para científicos y entusiastas.

Elegir el modelo necesario ayuda con métricas de actividad de la comunidad. En GitHub, estas se representan por la cantidad de estrellas, la regularidad de actualizaciones (commits) y la velocidad en resolver problemas (issues).

Es importante verificar el origen del producto y la autenticidad del repositorio. Las compilaciones populares de código abierto a menudo se convierten en cebo para ciberdelincuentes, que distribuyen código malicioso disfrazado de herramientas de IA conocidas.

El siguiente paso para familiarizarse con modelos de IA locales es probar su funcionalidad en la práctica. Para usuarios sin hardware potente, existen plataformas en la nube gratuitas y condicionalmente gratuitas

La solución más popular es Google Colab, un entorno en la nube que da acceso a procesadores gráficos (GPU) directamente desde el navegador. La suscripción gratuita permite trabajar en un sistema con acelerador Nvidia Tesla T4 en promedio de dos a cuatro horas, dependiendo de la carga. Alternativas son Kaggle Notebooks y Hugging Face Spaces. La última permite interactuar con modelos a través de interfaces web listas, como Gradio o Streamlit.

También, al trabajar con soluciones federadas, hay que considerar el aspecto legal. Muchos proyectos populares están disponibles bajo licencias clásicas, como MIT o Apache 2.0, lo que permite usarlos incluso con fines comerciales con restricciones mínimas.

Pero también existen enfoques específicos. Meta distribuye sus modelos insignia bajo su propia licencia Llama 3.1 Community License, que requiere obtener permiso especial si la audiencia mensual del servicio supera los 700 millones de usuarios.

Las licencias copyleft estrictas, como la GNU General Public License, también se encuentran, obligando a abrir el código de todos los productos derivados.

Mi equivalente personal a ChatGPT

De la gran cantidad de LLM de propósito general autónomos (similares a ChatGPT o Gemini), elegir el modelo necesario ayuda con rankings independientes basados en pruebas ciegas y métricas de rendimiento como Open LLM Leaderboard y Chatbot Arena.

Tablero de control de LLM abiertos. Fuente: llm-stats. El estándar de oro del segmento se considera la familia de modelos Llama, desarrollada por Meta, y Qwen de Alibaba. Estos modelos funcionan bien con contextos largos, manejan consultas de múltiples pasos y son adecuados para tareas de codificación y programación. Gracias al marco abierto Ollama, su instalación se reduce a un solo comando.

Durante una prueba realizada para escribir este material, se logró lanzar el modelo qwen3.5:2b en una laptop sin tarjeta gráfica discreta basada en Core i7 con 8 GB de RAM y SSD, cerrando aplicaciones pesadas como mensajeros y navegadores.

Fuente: Ollama. «2b» significa 2 mil millones de parámetros. Cuanto mayor sea el valor, más conexiones complejas puede captar la red neuronal. Por ejemplo, el modelo 2b aprenderá gramática básica y comandos simples, mientras que 122b recordará hechos de física cuántica, detalles de documentos legales y aprenderá a planear tareas a diez pasos adelante.

Cada parámetro ocupa espacio físico en el disco duro y, lo más importante, en la memoria RAM. La versión 2b utilizó alrededor de 4-5 GB de RAM y fue la máxima para correr en esa máquina. Sin embargo, la respuesta a la consulta más simple «¡hola!» tardó casi tres minutos en generarse.

Captura de pantalla: ForkLog. Gradación aproximada de modelos:

0.5b-2b. Rápidos, pueden funcionar en laptops y smartphones antiguos. Ideales para tareas simples (enrutamiento de comandos, resúmenes básicos, autocompletado de líneas cortas de código). Propensos a alucinaciones en consultas complejas;
3b-4b. Balance entre velocidad y calidad. Buenos para dispositivos móviles, hogares inteligentes y tareas de automatización. Por ejemplo, pedirle al chatbot que apague la luz, encienda el aire acondicionado o levante la barrera;
7b-9b. Requieren unos 6–8 GB de RAM libre. Modelos potentes con comprensión de contexto y lógica profunda, adecuados para programación y manejo de textos extensos.

En un reciente estudio sobre codificación en Web3, Vladimir Sliper descubrió que en una máquina como un MacBook Air con 16 GB de RAM, funcionan qwen2.5-coder:7b, qwen3:8b, llama3.2:3b, deepseek-r1:8b. Modelos más potentes requieren inversión en una PC potente con tarjetas de video de alta gama o instalación en servidores alquilados.

Procesamiento privado de datos, impresión 3D y protección del usuario

Las opciones de interacción con modelos de IA abiertos dependen del nivel de preparación del usuario y del hardware. Existen proyectos empaquetados en instaladores fáciles (.EXE) o aplicaciones móviles listas para usar. Otros son repositorios abandonados en GitHub, donde la instalación se convierte en una lucha de horas contra conflictos de librerías obsoletas.

Las aplicaciones de IA hoy en día no solo se usan para generación de texto. Incluso un análisis superficial del ecosistema permite identificar decenas de herramientas especializadas para tareas específicas

Trabajo con video y 3D:

CogVideoX. Modelo abierto de Zhipu AI para generación de video a partir de descripción textual. Permite crear clips cortos realistas, tiene pesos abiertos y puede desplegarse en entornos como Jupyter o Colab si hay suficiente memoria de video;
DepthCrafter. Herramienta para extraer información de profundidad de campo de videos. Útil para especialistas en VFX y modelado 3D. Permite crear mapas de profundidad de alta precisión para cada cuadro de escenas dinámicas;
TRELLIS (Morfx 3D). Sistema avanzado para generación de assets 3D. Permite crear modelos tridimensionales de alta calidad a partir de imágenes o consultas textuales, optimizándolos para motores de juego.

Transformación de una foto de un tren en un objeto para procesamiento y impresión 3D usando la versión web del modelo Morfx 3D. Captura: ForkLog.Sonido y reconocimiento:

CosyVoice. Modelo multilingüe de síntesis de voz con soporte para clonación de voces. Permite generar audio realista, conservando entonación y emoción del hablante original;
Whisper-WebGPU. Implementación del modelo de reconocimiento de voz de OpenAI, reescrita para funcionar directamente en el navegador usando API WebGPU. Esto significa que la transcripción de audio se realiza localmente, garantizando privacidad total sin enviar archivos de audio a servidores externos;
BirdNET-Analyzer. Red neuronal del Instituto de Tecnología de Cornell para identificar especies de aves por su canto. A diferencia de la popular app Merlin Bird ID, que depende en gran medida del procesamiento en la nube, BirdNET-Analyzer ofrece control total del proceso de análisis localmente y puede usarse para procesar gigabytes de grabaciones de campo.

Fuente: BirdNET.Programación y protección del usuario:

Screenshot-to-Code. Utilidad para convertir una captura de pantalla de una página web o app móvil en código HTML, Tailwind o React limpio. Aunque a menudo funciona con APIs de pago (Claude, GPT-4), su arquitectura permite conectar modelos multimodales abiertos;
MinerU/Magic-PDF. Proyecto para extraer datos estructurados de PDFs. Reconoce texto, fórmulas matemáticas y tablas, transformando diseños complejos en formato Markdown;
Fawkes. Inserta cambios invisibles a simple vista en imágenes, dificultando que sistemas de reconocimiento facial identifiquen a la persona. Se carga localmente en PC mediante archivo .EXE y puede usarse para avatares en redes sociales;
Nightshade. «Envenena» píxeles de una imagen para confundir algoritmos de entrenamiento de IA si lo hacen sin permiso. Por ejemplo, una consulta «perro» generará una imagen de un gato.

Retrato del presidente de EE. UU. Donald Trump antes de usar Fawkes. Fuente: Biblioteca del Congreso de EE. UU. Después de procesar con algoritmos Fawkes. Captura: ForkLog.

Lucha contra las bibliotecas y primer éxito

Tras instalar modelos de IA con interfaces de usuario/experiencia de usuario comprensibles, fue necesario averiguar qué tan fácil sería desplegar un repositorio pesado en la nube, y además, gratis.

FLUX.1 de la startup Black Forest Labs — uno de los modelos de generación de imágenes más avanzados, compitiendo con Midjourney y Nano Banana corporativos. Con el hardware necesario, el software puede funcionar de forma autónoma sin conexión a internet y permite sortear la censura.

En la prueba se usó la versión gratuita más ligera de FLUX.1 Schnell. Para facilitar la interacción con soluciones abiertas, los desarrolladores crean frameworks específicos como Ollama. Para generación de imágenes, interfaces gráficas como ComfyUI y Forge son populares.

Durante los intentos de instalar la implementación de Forge — cagliostro-forge-colab — fue necesario dedicar toda una sesión de acceso a GPU en Google Colab. El problema fue un error clásico de novato: incompatibilidad de versiones de Python, entorno en la nube y el modelo mismo. En cuatro horas de codificación con la versión gratuita de Gemini 3 Flash, no se logró éxito.

Finalmente, se decidió abandonar la instalación del framework y desplegar directamente FLUX.1 en la siguiente sesión gratuita en otro día

En la práctica, es más cómodo usar Google Colab en fines de semana: en ese momento, la plataforma suele ofrecer acceso más prolongado

El modelo ocupó unos 34 GB en SSD en la nube. Pero todos los procesos relacionados con la instalación usaron en total unos 86 GB.

Recursos utilizados por la máquina en la nube Google Colab. Captura: ForkLog. En la primera fase, la versión FLUX.1 Schnell no tuvo suficiente memoria de video en la GPU Nvidia Tesla T4. La configuración no adaptada chocaba con los límites de GPU, hasta que tras varios experimentos con código, Gemini 3 Flash ayudó a hacer ajustes, usando carga y limpieza de memoria por etapas. Como resultado, de los 16 GB disponibles de memoria de video, en la generación se usaron unos 3 GB.

Captura: ForkLog. El proceso de crear una imagen tomó aproximadamente siete minutos. Considerando que es una versión gratuita del modelo abierto, el resultado fue sorprendente.

Imagen generada con FLUX.1 Schnell. Fuente: ForkLog. Al intentar varias veces generar una imagen del cantante de rock Marilyn Manson en estilo victoriano con un compañero, probablemente la versión Schnell no reconoció la referencia a una persona específica y solo reprodujo un patrón visual general.

Imagen generada del artista con la consulta «dibuja a Marilyn Manson en estilo victoriano» usando FLUX.1 Schnell. Fuente: ForkLog.## Complejos e increíbles

Las redes neuronales abiertas llevan mucho tiempo usándose no solo para generar textos e imágenes, sino también para tareas más específicas y poco comunes. Un ejemplo destacado de uso no convencional de arquitecturas de IA fue el modelo GameNGen, capaz de recrear en tiempo real el proceso de juego del clásico shooter DOOM.

Fuente: GameNGen/Github. GameNGen no simula el juego en el sentido habitual, sino que genera video secuencialmente: el modelo predice cómo debería verse el siguiente cuadro tras la acción del usuario (por ejemplo, movimiento o disparo). Debido a esto, los enemigos, objetos y cambios en la escena no se «calcular» con un motor, sino que se reproducen visualmente como el resultado más probable.

Entre los sistemas autónomos destaca el proyecto Voyager — un agente de IA para Minecraft. Explora el mundo del juego, obtiene recursos y se autoentrena continuamente.

La comunidad científica también adapta activamente IA abierta para sus necesidades, por ejemplo, usando algoritmos para descifrar historia. Así, investigadores de Tel Aviv y Múnich entrenaron un modelo Akkademia para traducir directamente cuneiforme acadio antiguo al inglés. Permite procesar miles de tablillas de arcilla dañadas, acelerando el trabajo de arqueólogos en decenas de veces.

No menos interesante es el proyecto MinD-Vis. Este sistema analiza datos de resonancia magnética funcional y trata de reconstruir imágenes que el sujeto observa durante el escaneo. Es decir, genera una interpretación de lo visto por la persona basada en patrones de actividad cerebral.

Este tipo de iniciativas demuestran que la inteligencia artificial se ha convertido en una herramienta universal para el conocimiento y la modelación de la realidad. La transición de API cerradas corporativas a código abierto crea una nueva paradigma en el desarrollo tecnológico. Hoy, cualquier investigador, desarrollador o entusiasta puede desplegar una infraestructura que hace unos años requería inversiones multimillonarias en granjas de servidores.

El desarrollo del ecosistema inevitablemente mejora la experiencia del usuario: en lugar de scripts complejos, aparecen interfaces intuitivas y entornos de despliegue automatizados. El uso de herramientas como Ollama y Forge demuestra que la privacidad, la ausencia de censura y el alto rendimiento pueden coexistir armónicamente en una misma solución de software. El futuro de la industria de IA hoy en gran medida depende de qué tan fuerte, escalable e independiente quede la comunidad de código abierto.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
TradfiTradingChallenge
256.25K Popularidad
#
PlatinumCardCreatorExclusive
66.6K Popularidad
#
IsraelStrikesIranBTCPlunges
48.62K Popularidad
#
#DailyPolymarketHotspot
1.03M Popularidad
#
GateSquarePizzaDay
1.72M Popularidad

Fijado

Desde lo más profundo, lo han codificado - ForkLog: criptomonedas, IA, singularidad, futuro

Primer contacto

Mi equivalente personal a ChatGPT

Procesamiento privado de datos, impresión 3D y protección del usuario

Lucha contra las bibliotecas y primer éxito

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado