العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
ورقة بحثية جديدة من DeepSeek: كيف يحل الهيكل الفائق المرتبط بقيود المنحنى مشكلة تدريب الشبكات العميقة
بحثا جديدا أصدرته DeepSeek مؤخرا جذب انتباه مجتمع التكنولوجيا. اقترحوا بنية جديدة تسمى الاتصال الفائق المقيد بمانيفولد (mHC)، والهدف الأساسي في الواقع واضح - حل نقطتي ألم في تقنية شبكة الاتصال الفائق الحالية: عدم استقرار التدريب وقابلية التوسع المحدودة.
جذر هذه المشكلة هو أن تقنية HC تدمر خصائص رسم الهوية. حل DeepSeek هو تحويل فضاء الاتصال المتبقي ل HC إلى متعدد أبعاد محدد، مما يعيد خصائص تعيين الهوية. قد يبدو الأمر مجرد بعض الشيء، لكن بصراحة، هو لجعل التدريب العميق على الشبكات أكثر استقرارا وقابلية للتوسع من خلال رسم خرائط رياضية أذكى.
تتضمن الورقة أيضا تحسين البنية التحتية لضمان الكفاءة العملية، وتظهر النتائج التجريبية تحسنا كبيرا في الأداء وقابلية توسع متفوقة. وهذا يعني أنه مع هيكل شبكة أعمق، تصبح عملية التدريب أكثر قابلية للتحكم.
تؤمن DeepSeek بأن mHC هو امتداد مرن وعملي لتقنية HC، مما يمكن أن يساعد الصناعة على فهم تصميم البنية الطوبولوجية بشكل أفضل، بل يشير أيضا إلى اتجاه واعد جدا لتطور النماذج الكبيرة. أكمل هذا البحث شيه تشندا، وي ييشوان، تساو هوانتشي، ليانغ وينفنغ وآخرون.
على المدى الطويل، سيكون للاختراقات في مثل هذه البنية التحتية تأثير عميق على استقرار وقابلية التوسع للنماذج الكبيرة.
هل تواصل استخدام هذه السحر الأسود في الرياضيات؟ بصراحة، الأمر مجرد جعل الشبكة تتدرب بشكل أفضل وتجنب الانهيارات
أنا حقًا لا أفهم قيود المنحنى، لكن البيانات التجريبية جيدة بما يكفي لإنهاء الأمر
هل أخيرًا استطاعت الشبكات العميقة أن تتدرب بشكل مستقر؟ إذن، ستُطرد مجموعة من الأشخاص مرة أخرى
لكن، إذا تمكنت فعلاً من حل مشكلة القابلية للتوسع، فسيكون تطبيقها أسهل بكثير في المستقبل
إذا كانت هذه الورقة البحثية موثوقة حقًا، فهذا يدل على أن الطبقة الأساسية للذكاء الاصطناعي لا تزال مليئة بالمشاكل التي يجب حلها
انتظر، كيف أداء هذا الشيء عند التشغيل الفعلي؟ لا تكن مجرد نظرة سطحية على الورق
الهيكل الجديد يبدو رائعًا، لكن فعاليته الحقيقية يجب أن تثبتها السوق، على أي حال أنا أبتسم أولاً احترامًا.
هذه المنطق يشبه تداول العملات الرقمية، النظرية مثالية، والواقع ينهار، هاها.
هذه الموجة من DeepSeek تعتبر تمهيدًا لتدريب النماذج الكبيرة، استقرار الشبكة العميقة زاد، واحتمالية ظهور نماذج بمستوى وحوش أصبحت أكبر.
بصراحة، إذا تم تنفيذ هذا البحث الأساسي بشكل جيد، فإن المستفيدين الحقيقيين هم تلك الشركات الكبرى، ونحن المستثمرين الأفراد لا نملك سوى الأكل من الفتات.
إذا كان هذا قادرا حقا على تثبيت التدريب العميق، عليك أن تنظر جيدا إلى البيانات التجريبية، ولا تدع الورقة تبدو جيدة وتنهار فعليا
استعادة ميزة تعيين الهوية... دعونا ننتظر ردود الفعل من بيئة الإنتاج قبل فوات الأوان.
أوراق ديب تزداد كثافة، وهناك بالفعل اختراق في قابلية التوسع، وهو خبر جيد بالنسبة لتكلفة تدريب النماذج الكبيرة
علي أن ألقي نظرة أقرب على الخرائط الرياضية، وأشعر أن ربط النظرية بالممارسة يستغرق وقتا طويلا
لم تتغير بيانات السلسلة بعد، نحن كمستثمرين أفراد لا زلنا نراقب أولاً، لئلا نكون الضحايا. ومع ذلك، من ناحية أخرى، فإن موجة DeepSeek بالفعل في مركز العاصفة، وربما يضحك من قاموا بالمخاطرة مبكرًا.
القيود على المنحنى تبدو متقدمة جدًا، لكن مدى ابتكار هذا الهيكل بعيد جدًا عن التطبيق الحقيقي؟ هل هناك مؤسسات كبيرة تقوم بالفعل بمثل هذه العمليات لتحقيق أرباح من الفروق السعرية؟
بصراحة، الاختراقات التقنية الصافية غالبًا ما تكون مبالغ فيها، أنا أراهن على رد فعل السوق، وليس على الورقة البحثية نفسها. بمجرد أن تتماشى رسوم التعدين، سيكون الوقت قد حان لركوب الخيل والخروج.
متى ستصدر أحدث بيانات التوسع؟ هل هناك مقارنة تفصيلية مع الحلول المماثلة؟ هذا هو الأمر الذي يهمني حقًا.
---
أطلقت DeepSeek عملًا جديدًا، يبدو وكأنها تقوم بتصليح الحفرة القديمة لتقنية HC
---
كل ما قيل هو جعل التدريب أكثر استقرارًا، مدى سرعة التشغيل الحقيقي لا يزال غير واضح
---
لم أفهم تمامًا جزء المطابقة الهوية، أشعر أن من يكتب الأبحاث يجعل الأمور البسيطة معقدة
---
هل التوسع ممتاز؟ كم نقطة أسرع من الحلول الحالية، هل هناك معيار أداء benchmark؟
---
نموذج "ثوري" آخر، ننتظر لنرى إذا كان يمكن استخدامه في السيناريوهات الحقيقية
---
كلمة قيود المنحنى تبدو مكلفة جدًا، لا أعرف كيف سيكون تكلفة التشغيل
---
تحسين الخوارزميات دائمًا هو: "نظريًا جيد جدًا، لكن في الواقع يعتمد على GPU"
---
يبدو أنهم بذلوا جهدًا، لكن أشعر أن الورقة مليئة بالمظاهر، أين التفاصيل؟
---
تم حل مشكلة استقرار تدريب الشبكات العميقة، ماذا عن استهلاك الذاكرة، هل هذا الحل عادةً يسبب مشاكل؟
القيود على المنحنى؟ بكلام بسيط يعني منع انهيار تدريب الشبكة، على أي حال لم أفهمها ههه
الشبكة العميقة أصبحت أكثر استقرارًا، هل هذا مفيد لتحسين تعدين العملات الرقمية؟
التحويل الرياضي، التحويل، التحويل، هل يمكنه مباشرة تحسين كفاءة حساب رسوم الغاز؟
DeepSeek مرة أخرى يطور بنية النموذج، هذا الإيقاع فعلاً لا أستطيع مواكبته
أريد فقط أن أعرف هل يمكن تشغيله في النهاية بدون أن يتوقف عن العمل، وكل شيء آخر مجرد كلام فارغ