Со дна навайбкодили - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

img-ddd2e1cfd0523174-4995440145895408# Зліз з дна

Гайд по запуску відкритих ІІ-моделей із глибини гітхаба

В розвитку ІІ винив вектор, у якому децентралізація і відкритий вихідний код дозволяють вийти за межі популярних комерційних рішень. Локальні LLM дозволяють працювати з даними приватно, гнучко налаштовувати систему під свої задачі і самостійно контролювати середовище використання. При цьому запуск таких моделей вимагає розуміння базових інструментів — від репозиторіїв і вагів моделей до хмарних середовищ і технічних характеристик.

У новому матеріалі ForkLog розповімо, як почати знайомство з автономними ІІ-моделями без затрат, які ресурси використовувати новачкам і що пропонують розробники OS-рішень.

Перше знайомство

Для розробників відкритих ІІ-моделей існує дві основні платформи — GitHub і Hugging Face. Перша традиційно використовується для публікації вихідного коду, документації і скриптів встановлення, друга стала глобальним хабом для ваг моделей, датасетів і готових ML-рішень. На Hugging Face публікуються сотні тисяч натренованих нейромереж, від мініатюрних мовних моделей для смартфона, альтернативних генераторів медіаконтенту до спеціалізованих алгоритмів для учених і ентузіастів.

Обрати потрібну модель допомагають метрики активності спільноти. На GitHub вони представлені кількістю зірок (stars), регулярністю оновлень (commits) і швидкістю вирішення проблем (issues).

Окремо важливо перевіряти походження продукту і автентичність репозиторію. Популярні OS-збірки регулярно стають приманкою для кіберзлочинців, що поширюють шкідливий код під виглядом відомих ІІ-інструментів.

Наступний етап знайомства з локальними ІІ-моделями — опробувати їх функціонал на практиці. Для користувачів без потужного заліза існують безкоштовні і умовно-безкоштовні хмарні платформи

Найпопулярніше рішення — Google Colab — хмарне середовище, що надає доступ до графічних процесорів (GPU) прямо з браузера. Безкоштовна підписка дозволяє працювати на системі з прискорювачем Nvidia Tesla T4 у середньому від двох до чотирьох годин залежно від навантаження. Альтернативами є Kaggle Notebooks і Hugging Face Spaces. Остання дозволяє взаємодіяти з моделями через готові веб-інтерфейси типу Gradio або Streamlit.

Також у роботі з федеративними рішеннями слід враховувати юридичний аспект. Багато популярних проектів доступні під класичними ліцензіями, наприклад MIT або Apache 2.0, що дозволяє використовувати їх у тому числі й у комерційних цілях з мінімальними обмеженнями.

Проте існують і специфічні підходи. Meta поширює свої флагманські моделі під власною ліцензією Llama 3.1 Community License, яка вимагає отримання спеціального дозволу, якщо місячна аудиторія сервісу перевищує 700 млн користувачів.

Строгі копілефтові ліцензії типу GNU General Public License також трапляються, зобов’язуючи відкривати код усіх похідних продуктів.

Мій особистий аналог ChatGPT

З величезної кількості автономних LLM загального призначення (аналогів ChatGPT або Gemini) допомагають обрати потрібну модель незалежні рейтинги на основі сліпого тестування і метрик продуктивності типу Open LLM Leaderboard і Chatbot Arena.

Дашборд відкритих LLM. Джерело: llm-stats.Золотим стандартом сегмента вважається сімейство моделей Llama розробника Meta і Qwen від Alibaba. Ці моделі добре працюють із довгим контекстом, справляються з багатоступеневими запитами і підходять для задач вайбкодингу і програмування. Завдяки відкритому фреймворку Ollama їх установка зводиться до однієї команди.

Під час тесту, проведеного для написання цього матеріалу, модель qwen3.5:2b вдалося запустити на ноутбуку без дискретної відеокарти на базі Core i7 з 8 ГБ RAM і SSD, закривши при цьому важкі додатки: месенджери і браузери.

Джерело: Ollama.«2b» означає 2 млрд параметрів. Чим вище значення, тим складніші зв’язки може уловити нейромережа. Наприклад, модель 2b вивчить базову граматику і прості команди, тоді як 122b запам’ятає факти з квантової фізики, тонкощі юридичних документів і навчиться планувати задачі на десять кроків уперед.

Кожен параметр займає фізичне місце на жорсткому диску і, найголовніше, в оперативній пам’яті. 2b використовувала близько 4-5 ГБ RAM і стала максимальною для запуску на такій машині. При цьому відповідь на найпростіший запит «привіт!» модель генерувала майже три хвилини.

Скріншот: ForkLog.Орієнтовна градація моделей:

  • 0.5b-2b. Швидкі, можуть працювати на старих ноутбуках і смартфонах. Ідеальні для простих задач (маршрутизація команд, базове саммари, автодоповнення коротких рядків коду). Схильні до галюцинацій на складних запитах;
  • 3b-4b. Баланс швидкості і якості. Добре підходять для мобільних пристроїв, розумного дому і задач автоматизації. Наприклад, чат-бота можна попросити зменшити світло в кімнаті, увімкнути кондиціонер або підняти шлагбаум;
  • 7b-9b. Вимагають близько 6–8 ГБ вільної оперативної пам’яті. Потужні моделі з розумінням контексту і глибокою логікою, підходять для програмування і роботи з великими текстами.

У своєму недавньому дослідженні вайбкодингу у Web3 Володимир Сліпер з’ясував, що на машину рівня MacBook Air з 16 ГБ RAM підійдуть qwen2.5-coder:7b, qwen3:8b, llama3.2:3b, deepseek-r1:8b. Моделі потужніші вимагають інвестицій у потужний ПК з хай-енд відеокартами або встановлення на орендованих серверах.

Приватна обробка даних, 3D-друк і захист користувача

Варіанти взаємодії з відкритими ІІ-моделями залежать від рівня підготовки користувача і апаратного забезпечення. Існують проекти, упаковані у зручні інсталятори (файли з розширенням .EXE) або мобільні додатки, що працюють «з коробки». Інші — це закинуті репозиторії на GitHub, де установка перетворюється на багатогодинну боротьбу з конфліктами застарілих бібліотек.

Прикладні ІІ-моделі сьогодні використовуються далеко не лише для генерації тексту. Навіть поверхневий аналіз екосистеми дозволяє виділити десятки спеціалізованих інструментів під конкретні задачі

Робота з відео і 3D:

  • CogVideoX. Відкрита модель від Zhipu AI для генерації відео за текстовим описом. Дає змогу створювати реалістичні короткі ролики, має відкриті ваги і може бути розгорнута у середовищах типу Jupyter або Colab за наявності достатньої об’ємної відеопам’яті;
  • DepthCrafter. Інструмент для витягання інформації про глибину різкості з відео. Корисний для фахівців з VFX і 3D-моделювання. Дає змогу створювати карти глибини високої точності для кожного кадру динамічної сцени;
  • TRELLIS (Morfx 3D). Передова система генерації 3D-об’єктів. Проект дозволяє створювати високоякісні тривимірні моделі з зображень або текстових запитів, оптимізуючи їх для використання у ігрових движках.

Перетворення фотографії поїзда в об’єкт для обробки і 3D-друку за допомогою веб-версії моделі Morfx 3D. Скриншот: ForkLog.Звук і розпізнавання:

  • CosyVoice. Мультимовна модель синтезу мови з підтримкою клонування голосу. Дає змогу генерувати реалістичний аудіоряд, зберігаючи інтонації і емоційну окраску вихідного спікера;
  • Whisper-WebGPU. Імплементація моделі розпізнавання мови від OpenAI, переписана для роботи безпосередньо у браузері з використанням API WebGPU. Це означає, що розшифровка аудіо відбувається локально, забезпечуючи повну приватність без передачі аудіофайлів на сторонні сервери;
  • BirdNET-Analyzer. Нейросеть від Університету Корнелла для визначення видів птахів за їхнім співом. На відміну від популярного додатку Merlin Bird ID, що значною мірою покладається на хмарну обробку для деяких функцій, BirdNET-Analyzer надає повний контроль над процесом аналізу локально і може використовуватися для масової обробки гігабайтів польових записів.

Джерело: BirdNET.Програмування і захист користувача:

  • Screenshot-to-Code. Утиліта для перетворення скріншота веб-сторінки або мобільного додатку у чистий HTML-, Tailwind- або React-код. Хоча часто проект працює у зв’язці з платними API (Claude, GPT-4), архітектура дозволяє підключати відкриті мультимодальні моделі;
  • MinerU/Magic-PDF. Проект для точного витягання структурованих даних з PDF-документів. Модель розпізнає текст, математичні формули і таблиці, перетворюючи складну верстку у формат Markdown;
  • Fawkes. Вносить невидимі для ока зміни у зображення, заважаючи системам розпізнавання облич ідентифікувати людину. Завантажується локально на ПК через файл з розширенням .EXE і може використовуватися для аватарів у соцмережах;
  • Nightshade. «Отруює» пікселі картинки для заплутування алгоритмів навчання ІІ-компаній, якщо вони це роблять без дозволу. Наприклад, на запит «собака» модель згенерує зображення кота.

Портрет президента США Дональда Трампа до використання Fawkes. Джерело: Бібліотека Конгресу США. Після обробки алгоритмами Fawkes. Скриншот: ForkLog.

Боротьба з бібліотеками і перший успіх

Після встановлення ІІ-моделей з зрозумілим UI/UX потрібно було з’ясувати, наскільки легко розгорнути важкий репозиторій у хмарі, причому безкоштовно.

FLUX.1 від стартапу Black Forest Labs — одна з передових моделей генерації зображень, що конкурує з корпоративними Midjourney і Nano Banana. За наявності необхідного обладнання софт може працювати автономно без доступу до інтернету і дозволяє обходити цензуру.

У тесті використовувалася найлегша безкоштовна версія FLUX.1 Schnell. Для зручності взаємодії з відкритими рішеннями розробники створюють цільові фреймворки типу Ollama. Для генерації зображень популярні графічні інтерфейси ComfyUI і Forge.

Під час спроб встановити імплементацію Forge — cagliostro-forge-colab — довелося витратити цілу сесію доступу до GPU від Google Colab. Проблема виявилася у класичній помилці новачка — несумісності версій Python, хмарного середовища і самої моделі. За чотири години вайбкодингу за допомогою безкоштовної версії Gemini 3 Flash успіху досягти не вдалося.

Врешті-решт довелося відмовитися від встановлення фреймворка і перейти безпосередньо до розгортання FLUX.1, але вже у наступну безкоштовну сесію в інший день

На практиці безкоштовний Google Colab зручніше використовувати у вихідні: у цей час платформа нерідко надає більш тривалий доступ

Модель зайняла близько 34 ГБ дискового простору хмарного SSD. Але всі супутні процеси встановлення в підсумку використали близько 86 ГБ.

Використовувані ресурси хмарної машини Google Colab. Скриншот: ForkLog.На першому етапі моделі FLUX.1 Schnell не вистачило відеопам’яті прискорювача Nvidia Tesla T4. Неадаптована конфігурація стикалася з лімітами GPU, поки після серії простих експериментів з кодом Gemini 3 Flash не допомогла внести правки, використовуючи поетапне завантаження і очищення пам’яті. В результаті з доступних 16 ГБ відеопам’яті під час генерації використовувалося близько 3 ГБ.

Скріншот: ForkLog.Процес створення одного зображення займав близько семи хвилин. Враховуючи, що це безкоштовна версія відкритої моделі, результат приємно здивував.

Згенероване зображення за допомогою FLUX.1 Schnell. Джерело: ForkLog. Під час кількох спроб згенерувати образ рок-зірки Мериліна Мэнсона у вікторіанському стилі з компаньйоном FLUX.1 Schnell, ймовірно, не розпізнала натяк на конкретну особу і відтворила лише узагальнений візуальний шаблон.

Згенероване зображення виконавця за запитом «намалюй Мериліна Мэнсона у вікторіанському стилі» за допомогою FLUX.1 Schnell. Джерело: ForkLog.## Складні і неймовірні

Відкриті нейросети давно використовуються не лише для генерації текстів і зображень, а й для більш вузьких і незвичних задач. Яскравим прикладом нестандартного застосування ІІ-архітектури стала модель GameNGen, здатна відтворювати ігровий процес класичного шутера DOOM у реальному часі.

Джерело: GameNGen/Github. GameNGen не симулює гру у звичному розумінні, а послідовно генерує відео: модель передбачає, як має виглядати наступний кадр після дії користувача (наприклад, рух або постріл). Через це вороги, об’єкти і зміни сцени не «просчитуються» движком, а візуально відтворюються як найбільш ймовірний результат.

Серед автономних систем виділяється проект Voyager — ІІ-агент для Minecraft. Він самостійно досліджує ігровий світ, добуває ресурси і безперервно навчається.

Наукове співтовариство також активно адаптує відкритий ІІ під свої потреби, наприклад, використовуючи алгоритми для розшифровки історії. Так, дослідники з Тель-Авівського і Мюнхенського університетів навчили модель Akkademia безпосередньо перекладати давньоаккадську клинопис на англійську. Вона дозволяє обробляти тисячі пошкоджених глиняних табличок, прискорюючи роботу археологів у десятки разів.

Не менш цікавий проект MinD-Vis. Ця система аналізує дані функціональної МРТ і намагається реконструювати зображення, які спостерігає випробовуваний під час сканування. Тобто генерує інтерпретацію побаченого людиною на основі патернів мозкової активності.

Подібні ініціативи доводять, що штучний інтелект перетворився у універсальний інструмент пізнання і моделювання реальності. Перехід ініціатив від закритих корпоративних API до відкритого вихідного коду формує цілком нову парадигму розвитку технологій. Сьогодні будь-який дослідник, розробник або ентузіаст має можливість розгорнути інфраструктуру, яка ще кілька років тому вимагала мільйонних інвестицій у серверні ферми.

Розвиток екосистеми неминуче супроводжується покращенням користувацького досвіду: на зміну складним скриптам приходять інтуїтивні інтерфейси і автоматизовані середовища розгортання. Використання інструментів типу Ollama і Forge демонструє, що приватність, відсутність цензури і висока продуктивність можуть гармонійно співіснувати у одному програмному рішенні. Майбутнє ІІ-індустрії сьогодні багато в чому залежить від того, наскільки сильною, масштабованою і незалежною залишиться відкрита екосистема.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено