لقد طوروا هاتف "Doubaozz" الذي لا يمكن حظره، وحصل على استثمار ملاك بمستوى عشرات الملايين

robot
إنشاء الملخص قيد التقدم

“ساعدني في طلب كوب من الشاي بالحليب.”

“ساعدني في شراء كرة سلة على JD.com.”

“ساعدني في شراء تذكرة سينما على Maoyan.”

لا تزال معركة السيطرة على هاتف Doubao وتطبيقاته المختلفة مستمرة، حيث أن عملية طلب الطعام عبر Qianwen فقط أدت إلى دمج عميق لنظامها البيئي، والروبيان الصغير (OpenClaw) الذي انتشر على الإنترنت لم يتمكن بعد من حل مشكلة الأتمتة عبر الأجهزة المختلفة.

لكن مؤخرًا، استخدم مهندسان من شركة معدات صلبة كبيرة، وهما Zhang Zhiyong و Shan Wenbang، Agent ZeroFlow الذي طوراه بأنفسهم. استنادًا إلى نموذج كبير محلي متعدد الوسائط يمتلك قدرات متعددة، حققوا بشكل مثالي قدرات التحكم متعددة الوسائط على أجهزة أندرويد ومتصفح Chrome وعلى سطح المكتب. يمكن لـ ZeroFlow أن يشبه الإنسان في مشاهدة الشاشة، والنقر، والتمرير، والإدخال، وأداء مجموعة من المهام المعقدة عبر الأجهزة المختلفة بشكل تلقائي.

مسار تقني مختلف

في محاولة تحقيق الأتمتة عبر الأجهزة، اتبعت Doubao وAutoGLM من Zhizhu مسارات تقنية مختلفة تمامًا.

تعاون Doubao مع شركات تصنيع الهواتف للحصول على صلاحيات عالية جدًا، مما سمح لها بتجاوز مراحل تفويض المستخدم أو التطبيق، لكن ذلك أثار مقاومة من قبل مطوري التطبيقات، مما أدى إلى سلسلة من عمليات الحظر.

أما AutoGLM المفتوح المصدر من Zhizhu، فهو يعتمد على صلاحيات التحكم عبر بروتوكول adb، لكن هذا النموذج لا يمكن تشغيله مباشرة على هواتف المستخدمين، لذا اتبع AutoGLM نمط آلة افتراضية عن بعد، حيث يستخدم adb للتحكم في هاتف المستخدم داخل آلة افتراضية. هذا النموذج يتطلب مستوى ثقة مرتفعًا.

أما حل ZeroFlow، فاعتماده الأساسي على خدمة الوصول (Accessibility Service) في أندرويد. كانت خدمة الوصول في الأصل وظيفة مساعدة على مستوى النظام مصممة للمستخدمين ذوي الإعاقات البصرية، وبعد الحصول على هذا التصريح، يمكن للوكيل قراءة محتوى الشاشة، والحصول على جميع النصوص، والأزرار، ومواقع مربعات الإدخال، بالإضافة إلى محاكاة عمليات الإنسان مثل النقر، والضغط الطويل، والتمرير، وإدخال النصوص. تعتمد هذه الحلول بشكل كبير على قدرات الوكيل والنموذج الأساسي في التعامل متعدد الوسائط، ومن الناحية النظرية، فهي حل لا يمكن أن يتم حظره من قبل مطوري التطبيقات.

يبدو المبدأ بسيطًا جدًا، لكن عملية التطوير الفعلية أكثر تعقيدًا بكثير. قال Zhang Zhiyong للمستثمرين إن أحد أكبر التحديات هو أن العديد من صفحات الويب في الصين، منذ تصميمها الأولي، أُعدت لمنع العمليات الآلية (وهو امتداد لمقاومة “الزحف” و"البرمجيات الخبيثة")، وتضمنت العديد من خطوات التحقق و"إخفاءات" هندسية. على سبيل المثال، قد ترى زرًا في مكان معين، لكنه في الواقع عنصر حقيقي في مكان بعيد جدًا. هذا يجعل فهم صفحات الويب من خلال الكود أمرًا صعبًا جدًا، لكن من خلال التعامل متعدد الوسائط، يصبح الأمر أسهل بكثير، وهو السبب الرئيسي وراء عدم قدرة بعض النماذج الكبيرة على قراءة روابط الويب، ولكنها تستطيع قراءة لقطات الشاشة.

من ناحية أخرى، فإن استخدام أقل عدد من لقطات الشاشة لتمكين الوكيل من فهم النية الصحيحة هو تحدٍ هندسي آخر.

قال Shan Wenbang للمستثمرين إن الإعلانات المنبثقة على صفحات الويب، والتحويل التلقائي، كلها تؤثر على فهم متعدد الوسائط. باستخدام أقوى نماذج متعددة الوسائط، يمكن الحصول على أدق الإجابات، لكن تكلفة الرموز (Tokens) قد تكون مرتفعة جدًا بالنسبة للمستخدم العادي. التحدي هو كيف يمكن استخدام نماذج أرخص، وأخذ أقل عدد من الصور، وتحقيق أفضل فهم، وهو تحدٍ هندسي كبير.

التوازن بين الأمان والسهولة

عند الحديث عن مخاوف من تشابه المنتجات بين الشركات الكبرى، قال Zhang Zhiyong إنه لا يقلق. فالشركات الكبرى تعتمد على عزل بيئتها الخاصة، وحتى لو كانت تمتلك هذه التقنية، فهي غير قادرة على تنفيذ عمليات أتمتة حقيقية عبر المنصات والأجهزة، لأنه بمجرد أن تدخل شركة كبرى، ستواجهها شركات أخرى، وهذه ميزة للفرق الناشئة.

استلهم ZeroFlow من مفهوم المصدر المفتوح لـ OpenClaw، وركز على تحسينات عميقة في الأمان، وتوافق النموذج، وسهولة الاستخدام.

الخطر الأمني الرئيسي في OpenClaw هو كونه “ذكاء اصطناعي يمتلك القدرة على استدعاء الأدوات”، حيث يمكنه تنفيذ أوامر shell، وقراءة وكتابة الملفات، وإرسال الرسائل، والوصول إلى الشبكة. وإذا تم حقن أو توجيه prompts بشكل خبيث، قد يؤدي ذلك إلى السيطرة على الجهاز، أو تسريب البيانات الحساسة.

يواجه ZeroFlow هذا الخطر من خلال عزل الصندوق الرملي (Sandbox) وآلية تنقية البيانات الصغيرة (Desensitization). من ناحية، يتم عزل المعلومات الحساسة للمستخدم، مثل المفاتيح، داخل مساحة العمل، بحيث لا يمكن للذكاء الاصطناعي الوصول إليها بسهولة. ومن ناحية أخرى، يراقب نموذج صغير جميع التفاعلات بين المستخدم والنموذج الكبير، وإذا تم اكتشاف معلومات حساسة، يتم معالجتها وتشفيرها بشكل آمن. هكذا، فإن الملفات الحساسة المخزنة على السحابة غير قابلة للعثور عليها بسهولة، وإذا تم العثور عليها، فهي مشفرة ولا يمكن فكها بسهولة. بفضل هاتين الآليتين، يضمن ZeroFlow حماية الخصوصية للمستخدمين العاديين أثناء الاستفادة من قدرات الوكيل.

أما من ناحية السهولة، فقد خفض ZeroFlow حاجز الاستخدام إلى مستوى جديد “منخفض جدًا”. عملية النشر بسيطة جدًا، وتقترب من نمط استخدام المنتجات على الإنترنت، بحيث تكاد لا تشعر بها. كل ما عليك هو فتح المتصفح، وتسجيل حساب على الموقع، وبدء الاستخدام في مربع الحوار.

نظرًا لأن OpenClaw يعتمد على معيار استدعاء الأدوات من OpenAI/Anthropic، فهناك بعض المشاكل في التوافق مع النماذج المحلية. أما ZeroFlow، فقد أُجريت تحسينات هندسية على النماذج المحلية الرائدة مثل Kimi وDeepSeek، لتحسين تجربة استدعاء الأدوات، وتقليل طول prompts بنسبة تقارب 40%، مما يقلل بشكل كبير من تكلفة الرموز.

قال Zhang Zhiyong للمستثمرين إن تكلفة الرموز للمستخدم العادي عند استخدام ZeroFlow يمكن أن تنخفض بنسبة حوالي 30%.

من الوكيل البرمجي إلى الوكيل العام

ولادة ZeroFlow لم تكن مجرد استغلال للترند بشكل عشوائي.

عندما بدأت موجة النماذج اللغوية الكبيرة، كان Zhang Zhiyong وShan Wenbang في الطليعة. لم يتبعوا سردًا كبيرًا، بل ركزوا على حل مشكلة محددة جدًا، وهي كيف يمكن للمهندسين التحرر من التفاصيل البرمجية المعقدة، واستخدام الذكاء بشكل إبداعي. لذلك، قاموا بتطوير أول جيل من الوكلاء البرمجيين، وهو “رفيق الكود” الذي يفهم السياق، ويتوقع النية، ويكمل المنطق بشكل نشط.

هذا الأداة نمت بشكل غير معلن داخل نظامهم الهندسي. من زمن GPT-3.5، مرورا بتقنيات تذكر المحادثات، واستدعاء الأدوات، ومراجعة الكود، كل تحديث كان استجابة حقيقية لاحتياجات فعلية. على مدى سنوات، ساعدت هذه المنظومة على مضاعفة كفاءتهم البحثية والتطويرية.

عندما أُطلق OpenClaw، يتذكر Zhang Zhiyong أنهما جلسا في غرفة الاجتماعات، يشاهدان عروض الفيديو، وظلا صامتين لفترة طويلة. ليس من الدهشة، بل لأنهما تعرفا على شيء مألوف، وهو أن الطريق الذي سلكوه، يُعاد استكشافه من قبل عالم أوسع.

في تلك اللحظة، أدركوا أن الثلاث سنوات التي قضوها في بناء أداة برمجية، كانت في الواقع منهجية حول “تمكين الوكيل من فهم نية الإنسان وتنفيذها باستمرار”.

“إذا كانت هذه المنهجية يمكن أن تضاعف كفاءة المهندسين، فلماذا لا يمكن أن تمنح كل صناعة وكل شخص نفس التحرر؟” وهكذا، وُلد ZeroFlow.

“شخص واحد يمكن أن يسرع أكثر”

من اليسار إلى اليمين: Shan Wenbang، Zhang Zhiyong

قال Zhang Zhiyong: “أعتقد أن الوكيل يمكن أن يحسن جودة حياة الجميع، ويجب أن يُحرر الجميع من المهام الروتينية ليقوموا بأشياء أعلى قيمة، لكن المشكلة الكبرى الآن أن تكلفة الوصول للمستخدم العادي لا تزال مرتفعة جدًا. ليس فقط امتلاك روبوت الروبيان، بل جعل هذا الروبوت قادرًا على العمل عبر الأجهزة بشكل تلقائي لحل المشكلات في السيناريوهات الحقيقية. لذلك، ما نريد أن نحققه هو وكيل عام يمكن الوصول إليه بدون أي تكاليف، ويعمل بمجرد فتح المتصفح.”

قال Shan Wenbang: “ZeroFlow ليس بديلًا لمساعد البرمجة، بل هو نقل النموذج البرمجي (فهم النية → التخطيط → استدعاء الأدوات → التنفيذ المستمر → التغذية الراجعة) إلى سيناريوهات العمل المعرفي الأوسع. التحليل المالي، العمليات التشغيلية، إنتاج المحتوى، رؤى البيانات… كل مكان يتكرر فيه العمل، ويحتوي على منطق، ويحتاج إلى إخراج، هو مجال يمكن لـ ZeroFlow أن يسيطر عليه.”

عند سؤالهما عن سبب عدم تحقيق حلمهما داخل شركتهما السابقة، تبسم Zhang Zhiyong وShan Wenbang وقالا: “أعتقد أن مجموعة من الناس يمكن أن تسير أبعد، لكن شخصًا واحدًا يمكن أن يسرع أكثر. في هذا العصر، السرعة قد تكون أهم.”

حاليًا، حصلت شركة Zero Zero على استثمار من ملائكة فرديين ورأس مال من Hongshi Capital، بقيمة تقترب من عشرة ملايين يوان، وسيُستخدم التمويل بشكل رئيسي لتحسين وتوسيع وظائف المنتج.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.35Kعدد الحائزين:2
    0.10%
  • القيمة السوقية:$2.35Kعدد الحائزين:2
    0.00%
  • القيمة السوقية:$2.35Kعدد الحائزين:2
    0.00%
  • تثبيت