Dari dasar mereka membuat kode - ForkLog: mata uang kripto, AI, singularitas, masa depan

img-ddd2e1cfd0523174-4995440145895408# Menyebalkan dari dasar

Panduan menjalankan model AI terbuka dari kedalaman GitHub

Dalam pengembangan AI muncul sebuah vektor di mana desentralisasi dan kode sumber terbuka memungkinkan keluar dari batas solusi komersial yang populer. LLM lokal memungkinkan bekerja dengan data secara privat, mengatur sistem secara fleksibel sesuai tugas, dan mengendalikan lingkungan penggunaan secara mandiri. Pada saat yang sama, peluncuran model seperti ini membutuhkan pemahaman alat dasar — dari repositori dan bobot model hingga lingkungan cloud dan karakteristik teknis.

Dalam materi baru ForkLog akan dibahas bagaimana memulai pengenalan dengan model AI otonom tanpa biaya, sumber daya apa yang digunakan pemula, dan apa yang ditawarkan pengembang solusi OS.

Pengenalan Pertama

Untuk pengembang model AI terbuka ada dua platform utama — GitHub dan Hugging Face. Yang pertama secara tradisional digunakan untuk publikasi kode sumber, dokumentasi, dan skrip instalasi, yang kedua menjadi pusat global untuk bobot model, dataset, dan solusi ML siap pakai. Di Hugging Face dipublikasikan ratusan ribu neural network yang telah dilatih, mulai dari model bahasa kecil untuk ponsel, generator konten media alternatif, hingga algoritma khusus untuk ilmuwan dan penggemar.

Memilih model yang diperlukan dibantu oleh metrik aktivitas komunitas. Di GitHub mereka ditampilkan melalui jumlah bintang (stars), frekuensi pembaruan (commits), dan kecepatan penyelesaian masalah (issues).

Penting juga untuk memeriksa asal produk dan keaslian repositori. Build OS yang populer sering menjadi umpan bagi penipu siber yang menyebarkan kode berbahaya dengan kedok alat AI terkenal.

Langkah berikutnya dalam pengenalan dengan model AI lokal — mencoba fungsi mereka secara langsung. Untuk pengguna tanpa perangkat keras kuat tersedia platform cloud gratis dan semi gratis

Solusi paling populer — Google Colab — lingkungan cloud yang menyediakan akses ke GPU langsung dari browser. Langganan gratis memungkinkan bekerja di sistem dengan akselerator Nvidia Tesla T4 selama rata-rata dua sampai empat jam tergantung beban. Alternatifnya adalah Kaggle Notebooks dan Hugging Face Spaces. Yang terakhir memungkinkan berinteraksi dengan model melalui antarmuka web siap pakai seperti Gradio atau Streamlit.

Selain itu, saat bekerja dengan solusi federatif, perlu memperhatikan aspek hukum. Banyak proyek populer tersedia di bawah lisensi klasik, seperti MIT atau Apache 2.0, yang memungkinkan penggunaannya termasuk untuk tujuan komersial dengan batasan minimal.

Namun, ada juga pendekatan khusus. Meta mendistribusikan model flagship mereka di bawah lisensi Llama 3.1 Community License, yang memerlukan izin khusus jika audiens layanan melebihi 700 juta pengguna per bulan.

Lisensi copyleft ketat seperti GNU General Public License juga ditemukan, yang mewajibkan membuka kode semua produk turunan.

Model ChatGPT Alternatif Saya

Dari banyak LLM umum (seperti ChatGPT atau Gemini) yang otonom, memilih model yang diperlukan dibantu oleh peringkat independen berdasarkan pengujian buta dan metrik performa seperti Open LLM Leaderboard dan Chatbot Arena.

Dasbor LLM terbuka. Sumber: llm-stats. Standar emas segmen ini adalah keluarga model Llama dari Meta dan Qwen dari Alibaba. Model ini bagus untuk konteks panjang, mampu menangani permintaan multi-langkah, dan cocok untuk tugas coding dan pemrograman. Berkat kerangka kerja terbuka Ollama, pemasangannya cukup satu perintah.

Selama pengujian yang dilakukan untuk penulisan materi ini, model qwen3.5:2b berhasil dijalankan di laptop tanpa GPU diskrit berbasis Core i7 dengan RAM 8 GB dan SSD, menutup aplikasi berat seperti messenger dan browser.

Sumber: Ollama. «2b» berarti 2 miliar parameter. Semakin tinggi nilainya, semakin kompleks hubungan yang bisa ditangkap neural network. Misalnya, model 2b akan mempelajari tata bahasa dasar dan perintah sederhana, sementara 122b akan mengingat fakta dari fisika kuantum, detail dokumen hukum, dan mampu merencanakan tugas sepuluh langkah ke depan.

Setiap parameter memakan ruang fisik di hard disk dan, yang paling penting, di RAM. 2b menggunakan sekitar 4-5 GB RAM dan menjadi batas maksimal untuk dijalankan di mesin seperti itu. Pada saat yang sama, jawaban untuk permintaan sederhana “halo!” hampir memakan waktu tiga menit.

Screenshot: ForkLog.Perkiraan klasifikasi model:

  • 0.5b-2b. Cepat, bisa dijalankan di laptop dan ponsel lama. Ideal untuk tugas sederhana (routing perintah, ringkasan dasar, auto-complete baris kode pendek). Cenderung berhalusinasi pada permintaan kompleks;
  • 3b-4b. Keseimbangan kecepatan dan kualitas. Baik untuk perangkat mobile, rumah pintar, dan otomatisasi tugas. Misalnya, chatbot bisa diminta untuk meredupkan lampu, menyalakan AC, atau membuka palang gerbang;
  • 7b-9b. Membutuhkan sekitar 6–8 GB RAM bebas. Model kuat dengan pemahaman konteks dan logika mendalam, cocok untuk pemrograman dan pengolahan teks besar.

Dalam studi terbaru tentang coding di Web3, Vladimir Sliper menemukan bahwa mesin level MacBook Air dengan RAM 16 GB cocok untuk qwen2.5-coder:7b, qwen3:8b, llama3.2:3b, deepseek-r1:8b. Model yang lebih kuat membutuhkan investasi ke PC bertenaga tinggi dengan GPU kelas atas atau instalasi di server sewaan.

Pemrosesan Data Pribadi, Percetakan 3D, dan Perlindungan Pengguna

Pilihan interaksi dengan model AI terbuka tergantung dari tingkat kesiapan pengguna dan perangkat keras. Ada proyek yang dikemas dalam installer praktis (.EXE) atau aplikasi mobile yang langsung siap pakai. Ada juga repositori GitHub yang terlantar, di mana instalasi berubah menjadi perjuangan berjam-jam melawan konflik perpustakaan usang.

Model AI aplikasi saat ini digunakan tidak hanya untuk generasi teks. Bahkan analisis ekosistem secara dangkal memungkinkan mengidentifikasi puluhan alat khusus untuk tugas tertentu

Pengolahan video dan 3D:

  • CogVideoX. Model terbuka dari Zhipu AI untuk menghasilkan video dari deskripsi teks. Membuat video pendek realistis, bobot terbuka, dan dapat dijalankan di lingkungan seperti Jupyter atau Colab jika ada cukup memori video;
  • DepthCrafter. Alat untuk mengekstrak informasi kedalaman fokus dari video. Berguna untuk spesialis VFX dan pemodelan 3D. Membuat peta kedalaman akurat untuk setiap frame dari adegan dinamis;
  • TRELLIS (Morfx 3D). Sistem generasi aset 3D canggih. Membuat model 3D berkualitas tinggi dari gambar atau permintaan teks, dioptimalkan untuk digunakan di mesin game.

Transformasi foto kereta menjadi objek untuk pengolahan dan percetakan 3D menggunakan versi web dari model Morfx 3D. Screenshot: ForkLog.Suara dan pengenalan:

  • CosyVoice. Model sintesis suara multibahasa dengan dukungan kloning suara. Menghasilkan audio realistis dengan intonasi dan nuansa emosional dari pembicara asli;
  • Whisper-WebGPU. Implementasi model pengenalan suara dari OpenAI, ditulis ulang agar berjalan langsung di browser menggunakan API WebGPU. Artinya, transkripsi audio dilakukan secara lokal, menjamin privasi penuh tanpa mengirim file audio ke server pihak ketiga;
  • BirdNET-Analyzer. Neural network dari Universitas Cornell untuk mengidentifikasi burung berdasarkan nyanyiannya. Berbeda dari aplikasi Merlin Bird ID yang bergantung pada pemrosesan cloud untuk beberapa fungsi, BirdNET-Analyzer memberikan kontrol penuh atas proses analisis secara lokal dan bisa digunakan untuk pemrosesan massal rekaman lapangan.

Sumber: BirdNET.Pemrograman dan perlindungan pengguna:

  • Screenshot-to-Code. Utilitas untuk mengubah screenshot halaman web atau aplikasi mobile menjadi kode HTML, Tailwind, atau React bersih. Meski sering bekerja dengan API berbayar (Claude, GPT-4), arsitekturnya memungkinkan integrasi model multimodal terbuka;
  • MinerU/Magic-PDF. Proyek untuk mengekstrak data terstruktur dari dokumen PDF secara akurat. Model mengenali teks, rumus matematika, dan tabel, mengubah tata letak kompleks menjadi format Markdown;
  • Fawkes. Mengubah gambar dengan modifikasi tak terlihat mata, mengganggu sistem pengenalan wajah agar tidak mengenali orang. Diinstal secara lokal di PC melalui file .EXE dan bisa digunakan untuk avatar di media sosial;
  • Nightshade. “Membunuh” piksel gambar untuk mengacaukan algoritma pelatihan AI jika dilakukan tanpa izin. Misalnya, permintaan “anjing” akan menghasilkan gambar kucing oleh model.

Potret Presiden AS Donald Trump sebelum menggunakan Fawkes. Sumber: Perpustakaan Kongres AS. Setelah diproses algoritma Fawkes. Screenshot: ForkLog.

Perlawanan terhadap perpustakaan dan keberhasilan pertama

Setelah menginstal model AI dengan UI/UX yang jelas, perlu diketahui seberapa mudah meng-deploy repositori berat di cloud secara gratis.

FLUX.1 dari startup Black Forest Labs — salah satu model generasi gambar terdepan, bersaing dengan Midjourney dan Nano Banana dari perusahaan besar. Dengan perangkat keras yang diperlukan, perangkat lunak bisa berjalan mandiri tanpa akses internet dan menghindari sensor.

Dalam pengujian digunakan versi gratis paling ringan FLUX.1 Schnell. Untuk kemudahan interaksi dengan solusi terbuka, pengembang membuat kerangka kerja seperti Ollama. Antarmuka grafis ComfyUI dan Forge populer untuk generasi gambar.

Selama percobaan menginstal implementasi Forge — cagliostro-forge-colab — harus menghabiskan satu sesi akses GPU dari Google Colab. Masalahnya adalah kesalahan klasik pemula — ketidakcocokan versi Python, lingkungan cloud, dan model itu sendiri. Dalam empat jam coding dengan versi gratis Gemini 3 Flash, keberhasilan tidak tercapai.

Akhirnya, harus berhenti dari instalasi kerangka kerja dan langsung meng-deploy FLUX.1, tetapi di sesi gratis berikutnya di hari lain

Secara praktis, Google Colab gratis lebih nyaman digunakan saat akhir pekan: saat itu platform sering memberi akses lebih lama

Model memakan sekitar 34 GB ruang SSD cloud. Tapi semua proses terkait instalasi akhirnya menggunakan sekitar 86 GB.

Sumber daya yang digunakan oleh mesin cloud Google Colab. Screenshot: ForkLog. Pada tahap awal, model FLUX.1 Schnell kehabisan memori video dari GPU Nvidia Tesla T4. Konfigurasi yang tidak disesuaikan terbatas oleh batasan GPU, sampai setelah serangkaian eksperimen sederhana dengan kode Gemini 3 Flash membantu melakukan modifikasi, menggunakan pemuatan bertahap dan pembersihan memori. Akibatnya, dari 16 GB memori video yang tersedia, sekitar 3 GB digunakan selama proses generasi.

Screenshot: ForkLog.Proses pembuatan satu gambar memakan waktu sekitar tujuh menit. Mengingat ini versi gratis dari model terbuka, hasilnya cukup mengesankan.

Gambar yang dihasilkan dengan FLUX.1 Schnell. Sumber: ForkLog. Saat beberapa kali mencoba menghasilkan gambar penyanyi rock Marilyn Manson dalam gaya viktoria, kemungkinan model tidak mengenali referensi ke orang tertentu dan hanya menghasilkan pola visual umum.

Gambar yang dihasilkan dari permintaan “gambar Marilyn Manson dalam gaya viktoria” menggunakan FLUX.1 Schnell. Sumber: ForkLog.## Sulit dan luar biasa

Neural network terbuka sudah lama digunakan tidak hanya untuk generasi teks dan gambar, tetapi juga untuk tugas yang lebih sempit dan tidak biasa. Contoh mencolok dari penggunaan tidak konvensional arsitektur AI adalah model GameNGen, yang mampu mereproduksi proses permainan shooter klasik DOOM secara real-time.

Sumber: GameNGen/Github. GameNGen tidak mensimulasikan permainan dalam arti biasa, tetapi secara berurutan menghasilkan video: model memprediksi bagaimana tampilan frame berikutnya setelah aksi pengguna (misalnya, gerakan atau tembakan). Karena itu, musuh, objek, dan perubahan scene tidak “dihitung” oleh engine, tetapi secara visual direproduksi sebagai hasil yang paling mungkin.

Di antara sistem otonom, menonjol proyek Voyager — agen AI untuk Minecraft. Ia secara mandiri menjelajahi dunia game, mengumpulkan sumber daya, dan terus belajar sendiri.

Komunitas ilmiah juga aktif mengadaptasi AI terbuka sesuai kebutuhan mereka, misalnya menggunakan algoritma untuk menguraikan sejarah. Seperti para peneliti dari Universitas Tel Aviv dan Munich yang melatih model Akkademia untuk langsung menerjemahkan aksad kuno ke bahasa Inggris. Model ini memungkinkan memproses ribuan tablet tanah liat yang rusak, mempercepat pekerjaan arkeolog puluhan kali lipat.

Tidak kalah menariknya adalah proyek MinD-Vis. Sistem ini menganalisis data MRI fungsional dan berusaha merekonstruksi gambar yang dilihat subjek saat pemindaian. Artinya, menghasilkan interpretasi dari apa yang dilihat manusia berdasarkan pola aktivitas otak.

Inisiatif semacam ini membuktikan bahwa kecerdasan buatan telah menjadi alat universal untuk pengetahuan dan pemodelan realitas. Peralihan dari API perusahaan tertutup ke kode sumber terbuka membentuk paradigma baru dalam pengembangan teknologi. Saat ini, setiap peneliti, pengembang, atau penggemar dapat mengatur infrastruktur yang beberapa tahun lalu membutuhkan investasi miliaran untuk server farm.

Perkembangan ekosistem pasti disertai peningkatan pengalaman pengguna: dari skrip rumit ke antarmuka intuitif dan lingkungan otomatisasi deployment. Penggunaan alat seperti Ollama dan Forge menunjukkan bahwa privasi, tanpa sensor, dan performa tinggi dapat bersinergi dalam satu solusi perangkat lunak. Masa depan industri AI sangat bergantung pada seberapa kuat, skalabel, dan independen ekosistem terbuka akan tetap.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan