الطريق إلى AGI: المنطق الكامن وراء ChatGPT، الضغط هو الذكاء

PANews · 2023-09-04T08:19:52+00:00

ما هو التعلم الآلي بالضبط؟ أول نظرية للتعلم الآلي اقترحها بايز في النظرية التي تحمل الاسم نفسه والتي نشرت في عام 1783. تتعلم نظرية بايز من بيانات التدريب من أجل تحقيق أفضل التنبؤات الممكنة للبيانات الجديدة غير المرئية. وبعبارة صريحة، هذا ما نقوله "بالقياس".

PANews

2023-09-04 08:19:52

أنا أفكر إذن أنا موجود

في الشهر الماضي في معسكر البرمجة النسائي في شانهايوو، قمت بمشاركة قضية “الطريق إلى AGI: الضغط هو الذكاء” كمحاضر. لقد وجدت أن الجميع كانوا مهتمين جدًا بـ AIGC والنماذج الكبيرة، لكن العديد من الأصدقاء لم يفهموا ذلك في الوقت، فكتبت هذا الشرح العامي. آمل أن يكون مفيدًا لك المهتمين بـ AIGC. إذا كنت بحاجة إلى فهم أعمق، يرجى الرجوع إلى جاك راي (عضو أساسي في فريق OpenAI) في جامعة ستانفورد بعد قراءة هذا الخطاب الرئيسي: الضغط من أجل الذكاء الاصطناعي العام (وهذا أيضًا هو المرجع الرئيسي لهذه المقالة).

1 البدء من التعلم الآلي

قد يكون التعلم الآلي غير مألوف لأولئك الذين ليس لديهم خلفية عن الكمبيوتر. لكن كل جانب من جوانب حياتنا تمت تغطيته بالتعلم الآلي. على سبيل المثال، عندما نفتح Zhihu وDouyin وXiaohongshu وغيرها من البرامج، سيوصي النظام تلقائيًا بالمحتوى الذي قد نهتم به؛ وعندما تحدثت للتو مع أصدقائي حول شراء ماركة معينة من التنورة، فتحت Taobao ووجدت أن البحث لقد أصبحت التوصيات هي العلامة التجارية، وستقوم أنظمة البريد الإلكتروني بحظر البريد العشوائي تلقائيًا بالنسبة لنا، وتلتقط كاميرات المرور صورًا للسائقين لاستنتاج ما إذا كانت هناك انتهاكات. كل هذا بفضل التعلم الآلي.

إذن ما هو التعلم الآلي بالضبط؟ تم اقتراح التعلم الآلي لأول مرة بواسطة بايز في النظرية التي تحمل الاسم نفسه والتي نُشرت عام 1783. تدور نظرية بايز حول التعلم من بيانات التدريب من أجل تحقيق أفضل التنبؤات الممكنة بشأن البيانات الجديدة غير المرئية. وبعبارة صريحة، فإن هذا ما نسميه “استخلاص الاستنتاجات من حالة واحدة إلى حالات أخرى”.

إنه النظام الذي يسمح لأجهزة الكمبيوتر بالتعلم من تلقاء نفسها دون أن تتم برمجتها بشكل صريح (آرثر، 1959)، وهو مجال فرعي من الذكاء الاصطناعي. بعض الأشياء يمكننا القيام بها من خلال البرمجة الصريحة، مثل حساب 188 أس 12، أو أقصر مسافة من أ إلى ب. ولكن هناك بعض المشاكل التي لا تستطيع البرمجة الصريحة مساعدتنا في حلها.

على سبيل المثال، نأمل أن يصبح الكمبيوتر لاعبًا ممتازًا في لعبة Go. يمكننا برمجة الكمبيوتر للسماح للكمبيوتر بلعب الشطرنج مع نفسه. بعد اللعب 10000 مرة، يمكن للكمبيوتر ملاحظة أنه في نهاية اللعبة، معدل الفوز في مركز معين أكبر من أي موقع آخر، هذا هو المكان الذي سيختاره البرنامج. نظرًا لقوة الحوسبة القوية للكمبيوتر، يمكنه إكمال عدد لا يحصى من الألعاب في فترة زمنية قصيرة، لذلك سيعرف المزيد والمزيد عن كيفية الفوز، ويصبح في النهاية لاعب شطرنج يتفوق على البشر. إن السماح للآلة بالتعلم بنفسها للعثور على الحل الأفضل هو عملية التعلم الآلي، ولكن ما الذي تعلمته الآلة بالضبط؟ هذا صندوق أسود، لا يمكننا الحصول إلا على نتيجة الإخراج من المدخلات.

يمكن تقسيم خوارزميات التعلم الآلي إلى أربعة أنواع وفقًا لطرق التعلم: التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم شبه الخاضع للإشراف، والتعلم المعزز. الأكثر استخدامًا هو التعلم الخاضع للإشراف، لكن ChatGPT اختار التعلم المعزز باعتباره الخوارزمية الأساسية.

2 التعلم المعزز مقابل التعلم الخاضع للإشراف

نظرًا لأن التعلم الخاضع للإشراف هو الخوارزمية السائدة، فلماذا اختارت OpenAI التعلم المعزز؟ هنا نقدم لك أولاً مفهومي الاثنين.

يشير التعلم الخاضع للإشراف إلى خوارزمية تتعلم التعيين بين المدخلات والمخرجات من الأمثلة المقدمة من قبل المستخدم. على سبيل المثال، كثيرًا ما نجد أن بعض رسائل البريد الإلكتروني يتم حظرها تلقائيًا ويتم وضعها في صندوق المهملات، فكيف يحكم النظام على ما إذا كانت رسالة البريد الإلكتروني بريدًا عشوائيًا؟ يستخدم هذا التعلم الخاضع للإشراف. أولاً، يحتاج المهندسون إلى تغذية الخوارزمية بكمية كبيرة من البيانات المصنفة. في هذا المثال، يمكن استخدام البريد الإلكتروني كمدخل، وتكون نتائج المخرجات المقابلة من نوعين: بريد عشوائي وليس بريد عشوائي (نعم / لا) ، أي التسمية). لنفترض أننا قمنا بتغذية 100000 قطعة من البيانات، فإن الخوارزمية ستتعرف على خصائص البريد العشوائي بناءً على 100000 قطعة من البيانات. في هذا الوقت، عندما نقوم بإدخال بريد إلكتروني جديد تمامًا إليه، فإنه سيحكم على ما إذا كان البريد الإلكتروني الجديد يلبي خصائص البريد العشوائي بناءً على النموذج الذي تم تدريبه مسبقًا، وبالتالي يقرر ما إذا كان سيتم اعتراضه أم لا.

التعلم المعزز هو أكثر من مجرد آلية للمكافأة والتغذية الراجعة. في التعلم المعزز، نقدم مدخلات للنموذج، ولكن ليس الإجابات الصحيحة. يحتاج النموذج إلى إنشاء الإجابة نفسها. ثم اطلب من شخص حقيقي قراءة الإجابة التي تم إنشاؤها وإعطاء درجة للإجابة (على سبيل المثال، 1-100 هي 80 نقطة). الهدف من النموذج هو كيفية الإجابة للحصول على درجة عالية. هناك آلية أخرى وهي أن النموذج يولد إجابات متعددة، وآلية التسجيل تخبر النموذج بالإجابة الأفضل. الهدف من النموذج هو تعلم كيفية إنشاء إجابات ذات درجات عالية، وليس إجابات ذات درجات منخفضة. وفي كلتا الحالتين، يتعلم النموذج من خلال توليد الإجابات وتلقي التعليقات.

في المقابل، يسمح التعلم الخاضع للإشراف فقط بردود فعل إيجابية (نقوم بتغذية النموذج بسلسلة من الأسئلة وإجاباتها الصحيحة)، بينما يسمح التعلم المعزز بردود فعل سلبية (يمكن للنموذج إنشاء إجابات خاطئة والحصول على تعليقات تقول “هذه الإجابة سيئة، في المرة القادمة” يتوقف عن فعل هذا"). وكما اكتشف الأشخاص الحقيقيون في عملية التعلم، فإن التعليقات السلبية لا تقل أهمية عن التعليقات الإيجابية. من المحتمل أن يكون هذا هو السبب وراء اختيار OpenAI لتدريب RLHF (أي تدريب التعلم المعزز بناءً على ردود الفعل البشرية).

فكر في الأمر جيدًا، هل هذا مشابه جدًا للطريقة التي يتعلم بها البشر؟ عندما نتعلم، فإننا نكتسب أيضًا قدرًا كبيرًا من المعرفة، ثم نجري اختبارات لاختبار موقف التعلم، وأخيراً نطبق المعرفة المكتسبة على سيناريوهات جديدة (نقل التعلم، وهي أيضًا إحدى قواعد GPT). لذلك، تعتبر هذه الجولة من AIGC أيضًا قريبة بشكل لا نهائي من AGI (الذكاء العام الاصطناعي).

3 الطريق إلى الذكاء الاصطناعي العام

ببساطة، الذكاء الاصطناعي العام (AGI) هو ذكاء اصطناعي يتمتع بنفس ذكاء البشر، أو يتفوق على البشر. هل تعتقد أن ChatGPT يتمتع بهذا الذوق؟ ولكن كيف نحكم على ذكاء الذكاء الاصطناعي؟

في عام 1980، اقترح جون سيرل تجربة فكرية شهيرة بعنوان “الغرفة الصينية”. يمكن التعبير عن العملية التجريبية على النحو التالي:

قم بحبس شخص لا يعرف اللغة الصينية ولا يتحدث سوى الإنجليزية في غرفة مغلقة لها نافذة صغيرة فقط. يوجد دليل بالترجمات الصينية والإنجليزية في الغرفة. يوجد ما يكفي من ورق المخطوطات وأقلام الرصاص في الغرفة. وفي الوقت نفسه، تم إرسال قطع من الورق مكتوبة باللغة الصينية إلى الغرفة من خلال النافذة الصغيرة. يمكن للأشخاص الموجودين في الغرفة استخدام كتابه لترجمة الكلمات والرد باللغة الصينية. على الرغم من أنه لا يتحدث الصينية على الإطلاق، إلا أنه من خلال هذه العملية، يمكن للشخص الموجود في الغرفة أن يجعل أي شخص خارج الغرفة يعتقد أنه يتحدث الصينية بطلاقة.

من الواضح أن مثل هذا الدليل الضخم يمثل مستوى منخفضًا جدًا من الذكاء، لأنه بمجرد أن يواجه الشخص مفردات غير موجودة في الدليل، فلن يتمكن من التعامل معها. إذا تمكنا من استخراج بعض القواعد والقواعد من كمية كبيرة من البيانات، فقد يصبح الدليل أكثر إحكاما، ولكن النظام سيكون أكثر ذكاء (قدرة تعميم أفضل).

كلما كان الدليل أكثر سمكًا، كان الذكاء أضعف، وكلما كان الدليل أرق، كان الذكاء أقوى. يبدو الأمر كما لو أنه عندما تقوم شركة بتعيين شخص ما، كلما زادت قدرتك، قل احتياجك إلى الشرح، وكلما قلت قدرتك، زادت حاجتك إلى الشرح.

المثال أعلاه هو تفسير جيد لسبب كون الضغط ذكاءً: إذا كنت ترغب في تحسين ذكاء الذكاء الاصطناعي، فيمكنك استخراج المعلومات الفعالة المطلوبة عن طريق تعميم قواعد الاستخراج. بهذه الطريقة، يمكنك فهم ما يقوله غالبًا باحثو البرمجة اللغوية العصبية: **عملية تدريب GPT هي ضغط البيانات دون فقدان البيانات. **

4 الضغط هو الذكاء

في 28 فبراير، شارك جاك راي، الباحث الأساسي في OpenAI، موضوعًا يسمى الضغط من أجل AGI عندما شارك في مقابلة في ندوة Stanford MLSys. وجهة نظره الأساسية هي: **الهدف من النموذج الأساسي لـ AGI هو لتحقيق أقصى قدر من المعلومات الفعالة الحد الأقصى للضغط بدون فقدان. **في الوقت نفسه، يقدم تحليلًا منطقيًا لسبب معقولية هذا الهدف، وكيف أنشأت OpenAI ChatGPT في إطار هذا الهدف.

التعميم هو عملية الانتقال من المعلوم إلى المجهول. كما هو موضح في الشكل، فإن القضية الأساسية التي نهتم بها هي كيفية التعرف على أنماط البيانات غير المعروفة وإجراء التنبؤات (باللون الرمادي) من البيانات الموجودة (باللون الأصفر). كلما زادت دقة النموذج في التنبؤ بالأجزاء الرمادية، زادت قدرته على التعميم.

تخيل أن برنامج كمبيوتر يحتاج إلى ترجمة اللغة الإنجليزية إلى الصينية، فإذا قام بترجمة جميع العبارات الممكنة إلى اللغة الصينية من خلال البحث في القاموس، فيمكننا أن نعتقد أنه لديه أسوأ فهم لمهمة الترجمة، لأن أي عبارة تظهر خارج القاموس لن تتمكن من ذلك. يمكن ترجمتها. ولكن إذا تم تقسيم القاموس إلى مجموعة أصغر من القواعد (مثل بعض القواعد النحوية أو المفردات الأساسية)، فسيتم فهمه بشكل أفضل، حتى نتمكن من تسجيله بناءً على مدى ضغط مجموعة القواعد. في الواقع، إذا تمكنا من ضغطه إلى الحد الأدنى من طول الوصف، فيمكننا القول إنه يتمتع بأفضل فهم لمهمة الترجمة.

بالنسبة لمجموعة بيانات معينة D، يمكننا ضغطها باستخدام النموذج التوليدي f، حيث يمثل |D| في الشكل الضغط بدون فقدان لمجموعة البيانات D، ويمكن التعبير عن حجم الضغط بدون فقدان كاللوغاريتم السلبي للنموذج التوليدي تم تقييمها على D ثم قم بإضافة الحد الأدنى لطول الوصف للدالة المقدرة.

إذًا كيف يمكن للنموذج الكبير أن يحقق ضغطًا بدون فقدان البيانات؟ نحن بحاجة إلى فهم طبيعة GPT أولاً. GPT هو في الواقع قاموس كبير يعتمد على Transformer، وجوهره هو التنبؤ بالرمز التالي (الاستدلال أدناه). ببساطة، الهدف هو التنبؤ بآخر كلمة أو عبارة ممكنة بعد تسلسل نصي معين. على سبيل المثال، إذا قلت: “لقد نمت جيداً الليلة الماضية”، قبل أن أنتهي من الحديث، ستعلم أن احتمال أن أقول: “هل نمت جيداً الليلة الماضية؟” وبعد الاستدلال، سأستمر في القول " حسنًا" العملية هي المنطق التالي.

قد تقول إنه من الواضح أن ما يتم تعلمه بهذه الطريقة ليس مجرد العلاقة الإحصائية السطحية بين الكلمات؟ كيف نشأ الذكاء؟

لنفترض أنك بحاجة إلى نقل بعض البيانات من مجرة سنتوري البعيدة إلى الأرض، ولكن عرض النطاق الترددي ثمين للغاية، فأنت بحاجة إلى استخدام الحد الأدنى من عرض النطاق الترددي لنقل البيانات والتأكد من قدرة الطرف الآخر على استعادة بياناتك دون خسارة. يمكنك استخدام هذه الطريقة:

أولاً، قم بإعداد كود تدريب نموذج اللغة الذي سيولد نفس نموذج الشبكة العصبية في كل مرة تقوم بتشغيله.

ثانيًا، قم بتشغيل البرنامج التدريبي على أجزاء من البيانات N. في الوقت t، استخرج احتمال Xt ضمن جميع التوزيعات الاحتمالية الرمزية Pt، واستخدم الترميز الحسابي لتحويله إلى رقم عشري ثنائي، مسجل كـ Zt. وبالقياس، يتم الحصول على قائمة تتكون من Z1، Z2، Z3،…، Zn.

إذا كنت ترغب في استعادة أجزاء البيانات N هذه دون فقدانها في الطرف الآخر، فأنت تحتاج فقط إلى إرسال المحتوىين التاليين: قائمة Z1-Zn وكود تدريب نموذج اللغة.

عند فك التشفير على الطرف المتلقي، نقوم بتهيئة الشبكة باستخدام رموز التدريب المستلمة. في الطابع الزمني t، يستخدم النموذج Pt لفك التشفير الحسابي Zt للحصول على Xt. تجدر الإشارة إلى أن توزيع احتمالية الرمز المميز Pt في الوقت t يكون متسقًا تمامًا عند المرسل والمستقبل.

العملية برمتها عبارة عن عملية ضغط بيانات بدون فقدان، واستنادًا إلى كود التدريب الخاص بنموذج اللغة، نقوم بضغط عدد N من البيانات في سلسلة من أرقام Z1-Zn، وحجم كل بيانات مضغوطة هو -logp(x). من المهم أن نلاحظ أنه خلال العملية برمتها، لا نحتاج إلى إرسال الشبكة العصبية بأكملها (مئات أو مئات المليارات من المعلمات).

ولذلك، يمكن التعبير عن العدد الإجمالي للبتات لضغط مجموعة البيانات D باستخدام نموذج اللغة بالصيغة التالية:

يتراوح طول الوصف للنموذج القائم على المحولات تقريبًا بين 100 كيلو بايت إلى 1 ميجابايت (كل حجم الكود الضروري). لا تنتمي معلمات النموذج إلى طول وصف النموذج.

غالبًا ما نشعر أن chatgpt مليء بالأخطاء فيما يتعلق بالأسئلة الواقعية، على سبيل المثال، عند سؤال النموذج عن المدينة التي ينتمي إليها Liu Cixin، سيظل النموذج يقدم إجابات خاطئة. وذلك لأنه أثناء عملية التدريب، يحفظ النموذج بعض بيانات التدريب ببطء، ويمكن اعتبار معلمات النموذج تقريبًا بمثابة ضغط بيانات مفقود لبيانات التدريب. وهذا أيضًا ما قاله تيد جيانغ في “ChatGPT هو كل النص على الإنترنت.” تعني الصورة الباهتة". LLM عبارة عن ضغط بدون فقدان لمجموعة البيانات الأصلية، والذي يمكن إثباته رياضيًا بشكل صارم. إن الضغط الفاقد الذي قاله تيد تشيانغ هو تشبيه أدبي مجرد للغاية.

تذكر هذه الصورة، ما يهمنا ليس المحتوى الموجود داخل الدائرة الصفراء، بل الجزء الرمادي الموجود بالخارج، لأننا نهتم بكيفية استخدام محتوى أقل للحصول على المزيد من المعرفة، أي القدرة على التعميم. التعميم هو الذكاء مقارنة بمعلمات الكومة!

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1