العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
أنثروبيك تصدر BioMysteryBench: خمسة خبراء لا يستطيعون الإجابة على أسئلة الكائنات الحية، كلود ميثوس يستطيع حل 30% منها
AIMPACT رسالة، في 30 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating من 动察، أصدرت Anthropic BioMysteryBench، وهي مجموعة من 99 سؤالًا لتقييم المعايير في علم الأحياء المعلوماتي. تم إعداد الأسئلة بواسطة خبراء المجال استنادًا إلى مجموعات بيانات حقيقية (تسلسل DNA/RNA، علم البروتينات، علم الأيض، وغيرها)، والإجابات تأتي من خصائص البيانات الموضوعية أو من بيانات وصفية للتحقق التجريبي، ولا تعتمد على الحكم الشخصي للباحثين. من الأمثلة النموذجية على الأسئلة: تحديد الجين الذي تم تعطيله في مجموعة تجريبية استنادًا إلى بيانات RNA-seq، أو استنتاج علاقة الأبوة من بيانات تسلسل الجينوم الكامل. يوفر بيئة تقييم لClaude حاوية مثبت فيها أدوات علم الأحياء المعلوماتي الشائعة، ويمكن تثبيت البرامج عبر pip و conda، والوصول إلى قواعد البيانات العامة مثل NCBI و Ensembl لتحميل الجينوم المرجعي، ويقتصر التقييم على الإجابة النهائية، دون قيود على مسار التحليل. من بين الـ99 سؤالًا، أجاب على الأقل واحد من خبراء بشريين بشكل صحيح في 76 سؤالًا (يمكن للبشر حلها)، في حين أن الـ23 سؤالًا المتبقية لم يتمكن من حلها أكثر من 5 خبراء في المجال بعد محاولاتهم (صعبة على البشر).
بالنسبة للأسئلة التي يمكن للبشر حلها، بلغت دقة Claude Opus 4.6 نسبة 77.4%، مع تحسين إضافي بواسطة Mythos Preview. في الـ23 سؤالًا الصعبة على البشر، تمكنت نماذج Sonnet 4.6 والأقوى من حل نسبة كبيرة منها، ووصلت Mythos Preview إلى 30%. أظهر تحليل المسارات أن لدى Claude استراتيجيتين رئيسيتين: الأولى هي استدعاء المعرفة المدمجة في بيانات التدريب، لإجراء استنتاجات تتطلب تحليلًا ميتا لا يمكن للبشر مباشرة الوصول إليها؛ الثانية هي تشغيل عدة طرق تحليلية في وقت واحد عند عدم اليقين، وأخذ تقاطع الأدلة من عدة مسارات.
يكشف تحليل الموثوقية عن فرق دقيق: في الأسئلة التي يمكن للبشر حلها، كانت نسبة الإجابات الصحيحة من Opus 4.6 التي كانت على الأقل صحيحة 4 مرات من أصل 5 محاولات 86%، وهو أداء مستقر؛ أما في الأسئلة الصعبة على البشر، انخفضت هذه النسبة إلى 44%، حيث أن نصف الإجابات الصحيحة كانت تتكرر مرة أو مرتين فقط من أصل 5 محاولات، وهو أشبه بمحاولة عشوائية لاتباع مسار استنتاج معين. وراء فرق الدقة، يوضح فرق الموثوقية بشكل أفضل حدود القدرة.
نشرت شركة Genentech و Roche في نفس الوقت مجموعة CompBioBench، التي تتضمن 100 سؤال في علم الأحياء الحسابي، وتبلغ نسبة نجاح Claude Opus 4.6 فيها بشكل عام 81%، وأصعب سؤال بنسبة 69%، مما يدعم استنتاجات BioMysteryBench.
(المصدر: BlockBeats)