Từ đáy của chúng tôi đã mã hóa - ForkLog: tiền điện tử, AI, siêu đặc, tương lai

img-ddd2e1cfd0523174-4995440145895408# Chết rồi, đã làm hỏng rồi

Hướng dẫn khởi chạy các mô hình AI mở từ kho GitHub sâu thẳm

Trong sự phát triển của AI đã xuất hiện một hướng đi, trong đó phân quyền và mã nguồn mở cho phép vượt ra ngoài các giải pháp thương mại phổ biến. Các LLM cục bộ cho phép làm việc với dữ liệu riêng tư, tùy chỉnh hệ thống linh hoạt theo nhiệm vụ của mình và tự kiểm soát môi trường sử dụng. Đồng thời, việc khởi chạy các mô hình này đòi hỏi hiểu biết về các công cụ cơ bản — từ kho lưu trữ và trọng số mô hình đến môi trường đám mây và đặc điểm kỹ thuật.

Trong bài viết mới này, ForkLog sẽ kể cách bắt đầu làm quen với các mô hình AI tự trị mà không tốn chi phí, các nguồn tài nguyên nào phù hợp cho người mới bắt đầu và các nhà phát triển giải pháp mã nguồn mở đang cung cấp gì.

Giao diện ban đầu

Đối với các nhà phát triển mô hình AI mở, có hai nền tảng chính — GitHub và Hugging Face. Cái thứ nhất truyền thống dùng để đăng tải mã nguồn, tài liệu và script cài đặt, còn cái thứ hai trở thành trung tâm toàn cầu cho trọng số mô hình, bộ dữ liệu và các giải pháp ML sẵn có. Trên Hugging Face có hàng trăm nghìn mạng neural đã huấn luyện, từ các mô hình ngôn ngữ nhỏ gọn cho điện thoại, các trình tạo nội dung media thay thế đến các thuật toán chuyên biệt dành cho nhà khoa học và người đam mê.

Việc chọn mô hình phù hợp dựa vào các chỉ số hoạt động của cộng đồng. Trên GitHub, chúng thể hiện qua số sao (stars), tần suất cập nhật (commits) và tốc độ xử lý vấn đề (issues).

Ngoài ra, cần kiểm tra nguồn gốc sản phẩm và tính xác thực của kho lưu trữ. Các bản OS phổ biến thường xuyên trở thành mồi nhử cho tội phạm mạng, phát tán mã độc dưới dạng các công cụ AI nổi tiếng.

Bước tiếp theo để làm quen với các mô hình AI cục bộ là thử nghiệm chức năng của chúng trên thực tế. Đối với người dùng không có phần cứng mạnh, có các nền tảng đám mây miễn phí hoặc bán miễn phí tạm thời như:

Giải pháp phổ biến nhất — Google Colab — môi trường đám mây cung cấp quyền truy cập vào GPU ngay trong trình duyệt. Gói miễn phí cho phép làm việc trên hệ thống có GPU Nvidia Tesla T4 trung bình từ hai đến bốn giờ tùy theo tải. Các lựa chọn thay thế là Kaggle Notebooks và Hugging Face Spaces. Cái cuối cùng cho phép tương tác với các mô hình qua các giao diện web sẵn có như Gradio hoặc Streamlit.

Ngoài ra, khi làm việc với các giải pháp liên kết phân tán, cần chú ý đến khía cạnh pháp lý. Nhiều dự án phổ biến được cấp phép theo các giấy phép cổ điển như MIT hoặc Apache 2.0, cho phép sử dụng cả trong mục đích thương mại với các hạn chế tối thiểu.

Tuy nhiên, cũng có các phương pháp đặc thù. Meta phân phối các mô hình flagship của mình theo giấy phép riêng Llama 3.1 Community License, yêu cầu xin phép đặc biệt nếu số lượng người dùng hàng tháng vượt quá 700 triệu.

Các giấy phép copyleft nghiêm ngặt như GNU General Public License cũng xuất hiện, bắt buộc phải mở mã nguồn của tất cả các sản phẩm dựa trên.

Mô hình ChatGPT cá nhân của tôi

Trong số hàng nghìn LLM đa năng (tương tự ChatGPT hoặc Gemini), việc chọn mô hình phù hợp giúp dựa vào các bảng xếp hạng độc lập dựa trên thử nghiệm mù và các chỉ số hiệu suất như Open LLM Leaderboard và Chatbot Arena.

Bảng điều khiển các LLM mở. Nguồn: llm-stats. Tiêu chuẩn vàng của phân khúc là dòng mô hình Llama của Meta và Qwen của Alibaba. Các mô hình này hoạt động tốt với ngữ cảnh dài, xử lý các yêu cầu nhiều bước và phù hợp cho các nhiệm vụ coding và lập trình. Nhờ framework mở Ollama, việc cài đặt chỉ cần một lệnh.

Trong thử nghiệm thực hiện để viết bài này, mô hình qwen3.5:2b đã chạy được trên laptop không có card đồ họa rời, dựa trên Core i7 với 8 GB RAM và SSD, đồng thời đóng các ứng dụng nặng như trình nhắn tin và trình duyệt.

Nguồn: Ollama. «2b» nghĩa là 2 tỷ tham số. Giá trị càng cao, mạng nơ-ron có thể nắm bắt các mối liên hệ phức tạp hơn. Ví dụ, mô hình 2b học được ngữ pháp cơ bản và các lệnh đơn giản, còn 122b có thể nhớ các facts về vật lý lượng tử, các chi tiết trong các tài liệu pháp lý và lên kế hoạch cho các nhiệm vụ mười bước trước.

Mỗi tham số chiếm không gian vật lý trên ổ cứng và quan trọng nhất, trong RAM. 2b sử dụng khoảng 4-5 GB RAM và là mức tối đa có thể chạy trên máy như vậy. Tuy nhiên, phản hồi cho yêu cầu đơn giản như «xin chào!» gần như mất tới ba phút.

Ảnh chụp màn hình: ForkLog. Phân loại ước lượng các mô hình:

  • 0.5b-2b. Nhanh, có thể chạy trên laptop cũ và điện thoại thông minh. Phù hợp cho các nhiệm vụ đơn giản (định tuyến lệnh, tóm tắt cơ bản, tự động hoàn thành đoạn mã ngắn). Dễ bị lỗi ảo tưởng khi xử lý các yêu cầu phức tạp;
  • 3b-4b. Cân bằng giữa tốc độ và chất lượng. Tốt cho thiết bị di động, nhà thông minh và tự động hóa. Ví dụ, chatbot có thể yêu cầu giảm ánh sáng, bật điều hòa hoặc nâng barie;
  • 7b-9b. Yêu cầu khoảng 6–8 GB RAM trống. Các mô hình mạnh mẽ với khả năng hiểu ngữ cảnh và logic sâu, phù hợp cho lập trình và xử lý văn bản lớn.

Trong nghiên cứu gần đây về coding trong Web3, Vladimir Sliper phát hiện rằng các mô hình như qwen2.5-coder:7b, qwen3:8b, llama3.2:3b, deepseek-r1:8b phù hợp cho máy MacBook Air 16 GB RAM. Các mô hình mạnh hơn cần đầu tư vào PC cao cấp với card đồ họa hàng đầu hoặc thuê máy chủ.

Xử lý dữ liệu riêng tư, in 3D và bảo vệ người dùng

Các tùy chọn tương tác với các mô hình AI mở phụ thuộc vào trình độ kỹ năng của người dùng và phần cứng. Có các dự án đóng gói sẵn trong các trình cài đặt tiện lợi (.EXE) hoặc ứng dụng di động «ngay lập tức». Các dự án khác là các kho GitHub bỏ hoang, cài đặt kéo dài nhiều giờ do xung đột thư viện cũ.

Các mô hình AI ứng dụng ngày nay không chỉ dùng để tạo nội dung văn bản. Ngay cả phân tích hệ sinh thái sơ bộ cũng cho thấy hàng chục công cụ chuyên biệt cho các nhiệm vụ cụ thể:

Làm việc với video và 3D:

  • CogVideoX. Mô hình mở của Zhipu AI để tạo video dựa trên mô tả bằng văn bản. Có thể tạo các clip ngắn chân thực, có trọng số mở, có thể triển khai trong môi trường như Jupyter hoặc Colab nếu có đủ VRAM;
  • DepthCrafter. Công cụ trích xuất thông tin độ sâu trường ảnh từ video. Hữu ích cho các chuyên gia VFX và mô hình 3D. Cho phép tạo bản đồ độ sâu chính xác cao cho từng khung hình của cảnh động;
  • TRELLIS (Morfx 3D). Hệ thống tạo mô hình 3D tiên tiến. Cho phép tạo các mô hình 3D chất lượng cao từ hình ảnh hoặc yêu cầu bằng văn bản, tối ưu cho các engine game.

Chuyển đổi hình ảnh tàu hỏa thành đối tượng để xử lý và in 3D bằng phiên bản web của Morfx 3D. Ảnh chụp: ForkLog.Âm thanh và nhận dạng:

  • CosyVoice. Mô hình tổng hợp giọng nói đa ngôn ngữ, hỗ trợ clone giọng nói. Tạo ra âm thanh chân thực, giữ nguyên ngữ điệu và cảm xúc của người nói gốc;
  • Whisper-WebGPU. Triển khai mô hình nhận dạng giọng nói của OpenAI, viết lại để chạy trực tiếp trong trình duyệt qua API WebGPU. Điều này có nghĩa là chuyển đổi âm thanh diễn ra cục bộ, đảm bảo quyền riêng tư hoàn toàn mà không gửi file âm thanh ra máy chủ bên ngoài;
  • BirdNET-Analyzer. Mạng nơ-ron của Đại học Cornell để xác định loài chim qua tiếng hót. Khác với ứng dụng Merlin Bird ID phổ biến, dựa nhiều vào xử lý đám mây, BirdNET-Analyzer cung cấp toàn quyền kiểm soát quá trình phân tích cục bộ và có thể xử lý hàng gigabyte ghi âm thực địa.

Nguồn: BirdNET.Lập trình và bảo vệ người dùng:

  • Screenshot-to-Code. Tiện ích chuyển ảnh chụp màn hình trang web hoặc ứng dụng di động thành mã HTML, Tailwind hoặc React sạch. Dù thường hoạt động cùng API trả phí (Claude, GPT-4), kiến trúc cho phép tích hợp các mô hình đa phương thức mở;
  • MinerU/Magic-PDF. Dự án trích xuất chính xác dữ liệu có cấu trúc từ PDF. Mô hình nhận dạng văn bản, công thức toán học và bảng biểu, chuyển đổi bố cục phức tạp sang Markdown;
  • Fawkes. Thay đổi hình ảnh không thể nhận biết bằng mắt, gây nhiễu hệ thống nhận dạng khuôn mặt để không thể xác định người. Tải về cục bộ qua file .EXE và dùng cho avatar mạng xã hội;
  • Nightshade. «Chất độc» các pixel của hình ảnh để làm rối loạn các thuật toán huấn luyện AI, nếu họ làm mà không có phép. Ví dụ, yêu cầu «chó» nhưng mô hình lại tạo ra hình ảnh con mèo.

Ảnh chân dung tổng thống Mỹ Donald Trump trước khi dùng Fawkes. Nguồn: Thư viện Quốc hội Mỹ. Sau xử lý bằng các thuật toán của Fawkes. Ảnh chụp: ForkLog.

Chiến đấu với thư viện và thành công ban đầu

Sau khi cài đặt các mô hình AI có giao diện người dùng thân thiện, cần xác định xem có dễ dàng triển khai kho lưu trữ nặng trong đám mây miễn phí hay không.

FLUX.1 của startup Black Forest Labs — một trong các mô hình tạo hình ảnh hàng đầu, cạnh tranh với Midjourney và Nano Banana của các tập đoàn. Với phần cứng phù hợp, phần mềm có thể hoạt động độc lập không cần internet và vượt qua kiểm duyệt.

Trong thử nghiệm, dùng phiên bản miễn phí nhẹ nhất của FLUX.1 Schnell. Để dễ dàng làm việc với các giải pháp mở, các nhà phát triển tạo ra các framework như Ollama. Các giao diện đồ họa như ComfyUI và Forge rất phổ biến để tạo hình ảnh.

Trong quá trình cài đặt Forge — cagliostro-forge-colab — phải dành một phiên truy cập GPU của Google Colab. Vấn đề là lỗi phổ biến của người mới — không phù hợp giữa các phiên bản Python, môi trường đám mây và mô hình. Trong bốn giờ thử nghiệm, không thể thành công với Gemini 3 Flash miễn phí.

Cuối cùng, phải bỏ qua cài đặt framework và chuyển sang triển khai trực tiếp FLUX.1, nhưng lần sau trong phiên miễn phí khác.

Trong thực tế, Google Colab miễn phí phù hợp hơn để dùng vào cuối tuần: thời điểm này, nền tảng thường cung cấp quyền truy cập lâu hơn.

Mô hình chiếm khoảng 34 GB dung lượng SSD đám mây. Tuy nhiên, toàn bộ quá trình cài đặt tiêu tốn khoảng 86 GB.

Nguồn lực của máy đám mây Google Colab đang dùng. Ảnh chụp: ForkLog. Ở giai đoạn đầu, mô hình FLUX.1 Schnell thiếu VRAM của Nvidia Tesla T4. Cấu hình chưa tối ưu bị giới hạn bởi GPU, cho đến khi thử nghiệm các đoạn mã đơn giản, Gemini 3 Flash giúp chỉnh sửa bằng cách tải từng phần và dọn dẹp bộ nhớ. Kết quả, từ 16 GB VRAM, chỉ còn khoảng 3 GB dùng trong quá trình tạo hình.

Ảnh chụp: ForkLog. Quá trình tạo ra một hình ảnh mất khoảng bảy phút. Với phiên bản miễn phí của mô hình mở này, kết quả khá ấn tượng.

Hình ảnh được tạo bằng FLUX.1 Schnell. Nguồn: ForkLog. Khi thử tạo nhiều lần hình tượng ca sĩ rock Marilyn Manson theo phong cách Victorian cùng cộng tác viên, có thể mô hình không nhận ra tham chiếu cụ thể và chỉ tạo ra mẫu hình chung chung.

Hình ảnh của nghệ sĩ theo yêu cầu «vẽ Marilyn Manson theo phong cách Victorian» qua FLUX.1 Schnell. Nguồn: ForkLog.## Khó khăn và điều kỳ diệu

Các mạng nơ-ron mở đã được sử dụng không chỉ để tạo nội dung văn bản và hình ảnh mà còn cho các nhiệm vụ đặc thù và kỳ lạ hơn. Một ví dụ nổi bật là mô hình GameNGen, có khả năng tái tạo quá trình chơi game của shooter cổ điển DOOM trong thời gian thực.

Nguồn: GameNGen/Github. GameNGen không mô phỏng game theo nghĩa thông thường, mà liên tục tạo video: mô hình dự đoán cách cảnh tiếp theo sẽ trông như thế nào sau hành động của người chơi (ví dụ, di chuyển hoặc bắn súng). Do đó, các kẻ địch, vật thể và các thay đổi trong cảnh không «tính toán» bởi engine, mà thể hiện trực quan như kết quả có khả năng nhất.

Trong các hệ thống tự trị, nổi bật là dự án Voyager — AI agent cho Minecraft. Nó tự khám phá thế giới game, khai thác tài nguyên và liên tục tự học.

Cộng đồng khoa học cũng tích cực tùy biến AI mở cho các mục đích riêng, ví dụ, dùng thuật toán để giải mã lịch sử. Các nhà nghiên cứu từ Tel Aviv và Munich đã huấn luyện mô hình Akkademia dịch trực tiếp chữ cuneiform cổ sang tiếng Anh. Nó giúp xử lý hàng nghìn bảng đất sét bị hư hỏng, rút ngắn thời gian của các nhà khảo cổ hàng chục lần.

Không kém phần thú vị là dự án MinD-Vis. Hệ thống này phân tích dữ liệu MRI chức năng và cố gắng tái tạo hình ảnh mà người thử nghiệm quan sát trong quá trình quét. Tức là, tạo ra diễn giải về những gì người đó nhìn thấy dựa trên các mẫu hoạt động của não.

Các sáng kiến này chứng minh rằng trí tuệ nhân tạo đã trở thành công cụ đa năng để khám phá và mô phỏng thực tế. Chuyển đổi từ API doanh nghiệp đóng sang mã nguồn mở tạo ra một mô hình phát triển hoàn toàn mới. Ngày nay, bất kỳ nhà nghiên cứu, nhà phát triển hay người đam mê nào cũng có thể triển khai hạ tầng mà vài năm trước đây đòi hỏi hàng triệu đô la đầu tư vào các trang trại máy chủ.

Sự phát triển của hệ sinh thái đi kèm với việc nâng cao trải nghiệm người dùng: thay thế các script phức tạp bằng giao diện trực quan và môi trường tự động hóa. Việc sử dụng các công cụ như Ollama và Forge cho thấy rằng quyền riêng tư, không kiểm duyệt và hiệu suất cao có thể cùng tồn tại trong một giải pháp phần mềm. Tương lai của ngành AI ngày nay phần lớn phụ thuộc vào việc hệ sinh thái mở có còn mạnh mẽ, mở rộng và độc lập hay không.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim