من قاع القاع - ForkLog: العملات المشفرة، الذكاء الاصطناعي، التفرد، المستقبل

img-ddd2e1cfd0523174-4995440145895408# تم التشفير من القاع

دليل تشغيل نماذج الذكاء الاصطناعي المفتوحة من أعماق GitHub

ظهر في تطور الذكاء الاصطناعي اتجاه يسمح من خلاله اللامركزية والكود المفتوح بالخروج عن نطاق الحلول التجارية الشعبية. تتيح النماذج اللغوية الكبيرة المحلية العمل مع البيانات بشكل خاص، وتخصيص النظام بمرونة لمهامك، والتحكم بشكل مستقل في بيئة الاستخدام. ومع ذلك، يتطلب تشغيل مثل هذه النماذج فهم الأدوات الأساسية — من المستودعات وأوزان النماذج إلى البيئات السحابية والخصائص التقنية.

في المادة الجديدة، ستخبرنا ForkLog بكيفية البدء في التعرف على نماذج الذكاء الاصطناعي المستقلة بدون تكاليف، وما الموارد التي يمكن للمبتدئين استخدامها، وما يقدمه المطورون لحلول أنظمة التشغيل المفتوحة.

التعارف الأولي

هناك منصتان رئيسيتان لمطوري نماذج الذكاء الاصطناعي المفتوحة — GitHub و Hugging Face. الأولى تُستخدم تقليديًا لنشر الكود المصدري، والوثائق، وسكربتات التثبيت، والثانية أصبحت مركزًا عالميًا لأوزان النماذج، ومجموعات البيانات، والحلول الجاهزة للتعلم الآلي. يُنشر على Hugging Face مئات الآلاف من الشبكات العصبية المدربة، من نماذج لغوية صغيرة للهواتف الذكية، بدائل لمولدات المحتوى الإعلامي، إلى خوارزميات متخصصة للعلماء والمهتمين.

يساعد مؤشرات نشاط المجتمع على اختيار النموذج المطلوب. على GitHub، تمثلها عدد النجوم (stars)، وتواتر التحديثات (commits)، وسرعة حل المشكلات (issues).

من المهم بشكل خاص التحقق من مصدر المنتج وشرعية المستودع. غالبًا ما تتحول حزم أنظمة التشغيل الشهيرة إلى فخ للاحتيال الإلكتروني، حيث يوزع المهاجمون برمجيات خبيثة تحت ستار أدوات الذكاء الاصطناعي المعروفة.

المرحلة التالية من التعرف على النماذج المحلية هي تجربة وظيفتها عمليًا. للمستخدمين بدون أجهزة قوية، توجد منصات سحابية مجانية أو شبه مجانية

الحل الأكثر شعبية هو Google Colab — بيئة سحابية توفر وصولًا إلى وحدات معالجة الرسوميات (GPU) مباشرة من المتصفح. الاشتراك المجاني يتيح العمل على نظام مع معالج Nvidia Tesla T4 لمدة تتراوح بين ساعتين وأربع ساعات تقريبًا حسب الحمل. البدائل تشمل Kaggle Notebooks و Hugging Face Spaces. الأخيرة تتيح التفاعل مع النماذج عبر واجهات ويب جاهزة مثل Gradio أو Streamlit.

كما أنه عند العمل مع الحلول الفدرالية، من المهم مراعاة الجانب القانوني. العديد من المشاريع الشهيرة متاحة بموجب تراخيص تقليدية، مثل MIT أو Apache 2.0، مما يسمح باستخدامها حتى لأغراض تجارية مع قيود قليلة.

لكن هناك أيضًا طرق خاصة. شركة Meta توزع نماذجها الرائدة بموجب ترخيص Llama 3.1 Community License، الذي يتطلب الحصول على إذن خاص إذا تجاوز الجمهور الشهري للخدمة 700 مليون مستخدم.

توجد أيضًا تراخيص copyleft صارمة مثل GNU General Public License، التي تلزم بكشف الكود المصدري لجميع المنتجات المشتقة.

نسختي الشخصية من ChatGPT

من بين عدد كبير من نماذج اللغات الكبيرة المستقلة (مشابهة ChatGPT أو Gemini)، تساعد التصنيفات المستقلة المبنية على الاختبارات العمياء ومقاييس الأداء مثل Open LLM Leaderboard و Chatbot Arena على اختيار النموذج المطلوب.

لوحة تحكم النماذج المفتوحة. المصدر: llm-stats. يُعتبر عائلة نماذج Llama من Meta وQwen من Alibaba معيارًا ذهبيًا لهذا القطاع. تعمل هذه النماذج بشكل جيد مع السياقات الطويلة، وتتعامل مع الطلبات متعددة الخطوات، وتناسب مهام البرمجة والبرمجة التلقائية. بفضل إطار العمل المفتوح Ollama، يمكن تثبيتها بأمر واحد.

خلال اختبار أُجري لكتابة هذه المادة، تمكنت من تشغيل نموذج qwen3.5:2b على لابتوب بدون بطاقة رسومات منفصلة، بمعالج Core i7 وذاكرة 8 جيجابايت وقرص SSD، مع إغلاق تطبيقات ثقيلة مثل المراسلات والمتصفحات.

المصدر: Ollama. «2b» يعني 2 مليار معلمة. كلما زاد الرقم، زادت قدرة الشبكة على التقاط علاقات أكثر تعقيدًا. على سبيل المثال، النموذج 2b يتعلم القواعد الأساسية للغة والأوامر البسيطة، بينما 122b يتذكر حقائق من الفيزياء الكمومية، وتفاصيل الوثائق القانونية، ويتعلم تخطيط المهام لعشرة خطوات مستقبلية.

كل معلمة تشغل مساحة فعلية على القرص الصلب، والأهم من ذلك، في ذاكرة الوصول العشوائي. استخدمت 2b حوالي 4-5 جيجابايت من RAM، وكانت الحد الأقصى للتشغيل على هذا الجهاز. ومع ذلك، استغرقت الإجابة على طلب بسيط مثل «مرحبًا!» حوالي ثلاث دقائق.

لقطة شاشة: ForkLog. تصنيف تقريبي للنماذج:

  • 0.5b-2b. سريعة، يمكن تشغيلها على أجهزة لابتوب وهواتف قديمة. مثالية للمهام البسيطة (توجيه الأوامر، ملخصات أساسية، إكمال تلقائي لأسطر قصيرة من الكود). تميل إلى الهلوسة في الطلبات المعقدة؛
  • 3b-4b. توازن بين السرعة والجودة. جيدة للأجهزة المحمولة، المنازل الذكية، وأتمتة المهام. على سبيل المثال، يمكن طلب من روبوت الدردشة خفض الإضاءة، تشغيل المكيف، أو رفع الحاجز؛
  • 7b-9b. تتطلب حوالي 6-8 جيجابايت من الذاكرة الحرة. نماذج قوية بفهم للسياق ومنطق عميق، مناسبة للبرمجة والعمل مع النصوص الكبيرة.

في دراسة حديثة عن البرمجة التلقائية في Web3، اكتشف فلاديمير سليبير أن النماذج التي تناسب جهاز MacBook Air بذاكرة 16 جيجابايت تشمل qwen2.5-coder:7b، qwen3:8b، llama3.2:3b، deepseek-r1:8b. النماذج الأقوى تتطلب استثمارًا في حاسوب قوي مع بطاقات رسومات عالية الأداء أو التثبيت على خوادم مستأجرة.

المعالجة الخاصة للبيانات، الطباعة ثلاثية الأبعاد وحماية المستخدم

خيارات التفاعل مع نماذج الذكاء الاصطناعي المفتوحة تعتمد على مستوى خبرة المستخدم والأجهزة المتوفرة. توجد مشاريع مهيأة في مثبتات سهلة (ملفات بصيغة .EXE) أو تطبيقات هاتفية تعمل «من العلبة». وأخرى عبارة عن مستودعات GitHub مهجورة، حيث يتحول التثبيت إلى معركة طويلة مع تعارضات المكتبات القديمة.

اليوم، تُستخدم نماذج الذكاء الاصطناعي التطبيقية ليس فقط لإنشاء النصوص. فحتى التحليل السطحي للنظام البيئي يتيح تحديد عشرات الأدوات المتخصصة لمهام محددة

العمل مع الفيديو و3D:

  • CogVideoX. نموذج مفتوح من Zhipu AI لإنشاء الفيديو من الوصف النصي. يتيح إنشاء مقاطع قصيرة واقعية، ويحتوي على أوزان مفتوحة ويمكن نشره في بيئات مثل Jupyter أو Colab إذا كانت هناك ذاكرة فيديو كافية؛
  • DepthCrafter. أداة لاستخراج معلومات عمق المجال من الفيديو. مفيدة لمختصي VFX والنمذجة ثلاثية الأبعاد. تتيح إنشاء خرائط عمق عالية الدقة لكل إطار من المشهد الديناميكي؛
  • TRELLIS (Morfx 3D). نظام متقدم لإنشاء أصول ثلاثية الأبعاد. يسمح بإنشاء نماذج ثلاثية الأبعاد عالية الجودة من الصور أو الطلبات النصية، وتحسينها للاستخدام في محركات الألعاب.

تحويل صورة قطار إلى كائن للمعالجة والطباعة ثلاثية الأبعاد باستخدام إصدار الويب من نموذج Morfx 3D. لقطة شاشة: ForkLog.الصوت والتعرف:

  • CosyVoice. نموذج متعدد اللغات لتوليد الكلام مع دعم استنساخ الصوت. يتيح إنشاء مسار صوتي واقعي مع الحفاظ على نغمة ومشاعر المتحدث الأصلي؛
  • Whisper-WebGPU. تطبيق لنموذج التعرف على الكلام من OpenAI، مكتوب للعمل مباشرة في المتصفح باستخدام API WebGPU. هذا يعني أن تفريغ الصوت يتم محليًا، مما يضمن الخصوصية الكاملة دون إرسال ملفات الصوت إلى خوادم خارجية؛
  • BirdNET-Analyzer. شبكة عصبية من جامعة كورنيل لتحديد أنواع الطيور من خلال تغريدها. على عكس تطبيق Merlin Bird ID الشهير، الذي يعتمد بشكل كبير على المعالجة السحابية لبعض الوظائف، يوفر BirdNET-Analyzer تحكمًا كاملًا في عملية التحليل محليًا، ويمكن استخدامه لمعالجة جيجابايتات من التسجيلات الميدانية.

المصدر: BirdNET.البرمجة وحماية المستخدم:

  • Screenshot-to-Code. أداة لتحويل لقطة شاشة لموقع ويب أو تطبيق إلى كود HTML أو Tailwind أو React نظيف. غالبًا ما تعمل مع واجهات برمجة التطبيقات المدفوعة (Claude، GPT-4)، لكن الهيكلية تسمح بربط نماذج متعددة الوسائط مفتوحة المصدر؛
  • MinerU/Magic-PDF. مشروع لاستخراج البيانات المنظمة بدقة من ملفات PDF. يتعرف على النص، والمعادلات الرياضية، والجداول، ويحول التنسيق المعقد إلى Markdown؛
  • Fawkes. يُدخل تغييرات غير مرئية للعين على الصور، ويعيق أنظمة التعرف على الوجوه من التعرف على الأشخاص. يُحمّل محليًا على الكمبيوتر عبر ملف بصيغة .EXE، ويمكن استخدامه للصور الرمزية على وسائل التواصل الاجتماعي؛
  • Nightshade. «يُسمم» بكسلات الصورة لإرباك خوارزميات تدريب شركات الذكاء الاصطناعي، إذا كانت تفعل ذلك بدون إذن. على سبيل المثال، عند طلب «كلب»، ستُنتج النموذج صورة لقط.

صورة لرئيس الولايات المتحدة دونالد ترامب قبل استخدام Fawkes. المصدر: مكتبة الكونغرس الأمريكية. بعد معالجة Fawkes. لقطة شاشة: ForkLog.

مكافحة المكتبات والنجاح الأول

بعد تثبيت نماذج الذكاء الاصطناعي ذات واجهات المستخدم/تجربة المستخدم المفهومة، كان من الضروري معرفة مدى سهولة نشر مستودع ثقيل على السحابة، مجانًا.

FLUX.1 من شركة Black Forest Labs — أحد النماذج الرائدة في توليد الصور، ينافس Midjourney وNano Banana من الشركات الكبرى. مع وجود المعدات اللازمة، يمكن أن يعمل البرنامج بشكل مستقل دون اتصال بالإنترنت، ويتيح تجاوز الرقابة.

استخدم الاختبار النسخة المجانية الأخف من FLUX.1 Schnell. لإنشاء حلول مفتوحة، يطور المطورون أُطُر عمل موجهة مثل Ollama. وتُستخدم واجهات رسومية مثل ComfyUI و Forge لإنشاء الصور.

خلال محاولة تثبيت تنفيذ Forge — cagliostro-forge-colab — استغرقت جلسة كاملة للوصول إلى GPU من Google Colab. كانت المشكلة في خطأ تقليدي للمبتدئين — عدم توافق إصدارات Python، البيئة السحابية، والنموذج نفسه. خلال أربع ساعات من البرمجة التلقائية باستخدام النسخة المجانية من Gemini 3 Flash، لم يتمكنوا من تحقيق النجاح.

وفي النهاية، قرروا التخلي عن تثبيت الإطار والانتقال مباشرة إلى نشر FLUX.1، لكن في جلسة مجانية أخرى في يوم مختلف

عمليًا، يكون من الأسهل استخدام Google Colab المجاني في عطلات نهاية الأسبوع: غالبًا ما توفر المنصة وصولًا أطول

احتلت النموذج حوالي 34 جيجابايت من مساحة SSD السحابية. لكن جميع العمليات المرتبطة بالتثبيت استهلكت حوالي 86 جيجابايت في النهاية.

الموارد المستخدمة من قبل سحابة Google Colab. لقطة شاشة: ForkLog. في المرحلة الأولى، لم تكن ذاكرة الفيديو لمعالج Nvidia Tesla T4 كافية لنموذج FLUX.1 Schnell. كانت التهيئة غير المعدلة تقف عند حدود GPU، حتى ساعدت التعديلات التي أدخلها Gemini 3 Flash عبر تحميل تدريجي وتنظيف الذاكرة، حيث استُخدم حوالي 3 جيجابايت من أصل 16 جيجابايت من ذاكرة الفيديو أثناء التوليد.

لقطة شاشة: ForkLog. استغرق إنشاء صورة واحدة حوالي سبع دقائق. مع أن النسخة مجانية، كانت النتيجة مفاجئة ومُرضية.

صورة مولدة باستخدام FLUX.1 Schnell. المصدر: ForkLog. عند محاولة توليد صورة لنجوم الروك مارلين مانسون بأسلوب فيكتوري مع رفيق، لم تتعرف غالبًا على الإشارة إلى شخصية معينة، وولدت نمطًا بصريًا عامًا.

صورة مولدة لمطرب بناءً على الطلب «ارسم مارلين مانسون بأسلوب فيكتوري» باستخدام FLUX.1 Schnell. المصدر: ForkLog.## الصعب والمذهل

لطالما استُخدمت الشبكات العصبية المفتوحة ليس فقط لتوليد النصوص والصور، بل أيضًا لمهام أدق وأغرب. مثال بارز على الاستخدام غير التقليدي للهندسة المعمارية للذكاء الاصطناعي هو نموذج GameNGen، القادر على إعادة إنشاء عملية لعب لعبة الرعب الكلاسيكية DOOM في الوقت الحقيقي.

المصدر: GameNGen/Github. لا يحاكي GameNGen اللعبة بمعنى التقليدي، بل يولد فيديو بشكل متسلسل: يتوقع النموذج كيف يجب أن يبدو الإطار التالي بعد إجراء المستخدم (مثل الحركة أو الرصاصة). لذلك، لا يتم حساب الأعداء والأشياء وتغييرات المشهد بواسطة المحرك، بل يتم عرضها بصريًا كنتيجة أكثر احتمالًا.

من بين الأنظمة المستقلة، يبرز مشروع Voyager — وكيل ذكاء اصطناعي للعبة Minecraft. يستكشف العالم، يجمع الموارد، ويتعلم باستمرار.

كما يخصص المجتمع العلمي موارد مفتوحة الذكاء الاصطناعي لمهامهم، مثل فك رموز التاريخ. على سبيل المثال، درب باحثون من تل أبيب وميونيخ نموذج Akkademia لترجمة الكتابة المسمارية القديمة مباشرة إلى الإنجليزية. يسرع العمل على آلاف الألواح الطينية التالفة، ويزيد من سرعة عمل علماء الآثار بعشرات المرات.

كما أن مشروع MinD-Vis مثير للاهتمام. يحلل هذا النظام بيانات التصوير بالرنين المغناطيسي الوظيفي (fMRI) ويحاول إعادة بناء الصور التي يراها المشارك أثناء المسح. بمعنى آخر، يولد تفسيرًا لما يراه الإنسان استنادًا إلى أنماط النشاط الدماغي.

تُظهر هذه المبادرات أن الذكاء الاصطناعي أصبح أداة عالمية لفهم الواقع ونمذجته. الانتقال من واجهات برمجة التطبيقات المغلقة للشركات إلى الكود المفتوح يخلق نموذجًا جديدًا تمامًا لتطوير التكنولوجيا. اليوم، يمكن لأي باحث أو مطور أو مهتم أن ينشر بنية تحتية كانت قبل سنوات تتطلب استثمارات بملايين الدولارات في مزارع الخوادم.

يترافق تطور النظام البيئي مع تحسين تجربة المستخدم: من السكربتات المعقدة إلى الواجهات البديهية وبيئات النشر الآلي. تُظهر أدوات مثل Ollama و Forge أن الخصوصية، وغياب الرقابة، والأداء العالي يمكن أن تتعايش بشكل متناغم في حل برمجي واحد. مستقبل صناعة الذكاء الاصطناعي اليوم يعتمد بشكل كبير على مدى قوة، وقابلية التوسع، واستقلالية النظام البيئي المفتوح.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت