2026-04-02 18:12:56

كل شيء يبدأ بسؤال بسيط: كيف يمكن للآلة فهم النص؟ عندما تقوم بتدريب نموذج لتمييز الرسائل المزعجة عن الرسائل العادية أو لتحديد نغمة التعليقات، يحدث شيء مثير تحت الغطاء. يجب على النموذج أن يحول الأحرف والكلمات إلى أرقام، لأن الشبكات العصبية تعمل فقط مع الأرقام.

أول نهج بسيط هو ترقيم كل كلمة فريدة فقط. Good = 6، bad = 26، awesome = 27. يبدو منطقيًا، لكن المشكلة هي أن الأرقام 26 و27 قريبة من بعضها، لذلك يعتقد النموذج أن bad وawesome متشابهتان. في الواقع، فإن awesome وgood أقرب من حيث المعنى. هذه هي المشكلة.

جربنا الترميز One Hot - نعطي كل كلمة متجهًا بحجم قاموس كامل، حيث تكون هناك واحدة فقط تُمثل الكلمة الصحيحة، والبقية أصفار. اختفت مشكلة الترتيب، لكن ظهرت مشكلة جديدة: إذا كان القاموس يتكون من 20 ألف كلمة، سيكون كل متجه من 20 ألف عنصر. يستهلك الكثير من الذاكرة، بالإضافة إلى أن النموذج لا يفهم المعنى العميق للكلمات.

ثم جاءنا Bag of Words و N-grams - نحسب كم مرة تظهر الكلمة في النص. يضيف سياقًا، لكن مرة أخرى - متجهات متفرقة كبيرة، والنموذج لا يفهم العلاقات العميقة بين الكلمات. إذا كانت في الجملة "The librarian loves books" كلمتا librarian وbook غير متجاورتين، فإن N-grams لن يلتقطا أنهما مرتبطتان.

هنا يأتي دور الترميز الصحيح عبر embedding. الفكرة أن الكلمات المشابهة يجب أن تكون قريبة من بعضها في الفضاء المتجهاتي. تخيل مستوى ثنائي الأبعاد: على محور واحد حجم الحيوان، وعلى الآخر - خطورته. النمر والأسد سيكونان بجانب بعض (كبير وخطير)، بينما القوارض ستكون منفصلة (صغير وآمن). هذا هو embedding - متجه كثيف يحمل معنى الكلمة في فضاء n-الأبعاد.

الأمر الرائع: مع هذه المتجهات يمكن إجراء العمليات الحسابية. خذ متجه "ابن"، اطرح "رجل" وأضف "امرأة" - ستحصل على متجه قريب من "ابنة". أو: مدريد + ألمانيا - إسبانيا = برلين. يعمل ذلك لأن النموذج يلتقط العلاقات بين المفاهيم.

كيف يتم تدريب مثل هذه embeddings؟ اقترحت Google تقنية Word2Vec بنهجَين. في CBOW، تأخذ الكلمات السياقية وتتوقع الكلمة المركزية. أما Skip-Gram، فالعكس - من الكلمة المركزية تتوقع الجيران. كلا الطريقتين تعملان بشكل جيد لتدريب word embedding.

في النماذج الحديثة مثل GPT أو BERT، الأمر مختلف قليلاً. طبقة embedding لا تُجهز مسبقًا، بل تُدرّب مع النموذج نفسه. أولاً، يُقسّم النص إلى توكنات، ثم تُنشئ شبكة عصبية بسيطة embedding لكل توكن. أوزان هذه الطبقة هي معلمات قابلة للتعلم، تتعلم تمثيل الكلمات في الفضاء المطلوب. ثم تمر هذه embeddings عبر وحدات الموديل وتصل إلى الطبقة النهائية التي تعطي احتمالات للتوكن التالي.

هناك تفصيل صغير - التشفير الموضعي (positional encoding). المحول (Transformer) يعالج جميع التوكنات بشكل متوازي، على عكس RNN. لذلك، من الضروري إخبار النموذج بترتيب الكلمات. يُؤخذ متجه موضعي ويُضاف إلى متجه الembedding. نحصل على مزيج: معنى الكلمة + معلومات عن موقعها في النص.

بعد التشفير الموضعي، تدخل الembedding إلى آلية الانتباه - وهي قلب جميع نماذج اللغة الكبيرة. الembedding يلتقط المعنى الدلالي للكلمات، لكن السياق يُفهم بواسطة الانتباه (attention). لذلك، كلمة "مفتاح" في سياقات مختلفة ستحصل على تمثيلات سياقية مختلفة.

بهذه الطريقة، من خلال دمج الأفكار البسيطة - التوكنيزة، حساب الكلمات، التشفير الصحيح عبر embedding - تصل تدريجيًا إلى المحولات وChatGPT. الآن، embeddings موجودة في كل مكان: في أنظمة التوصية، في البحث عن صور مشابهة، وفي أساس جميع نماذج اللغة الكبيرة الحديثة. إذا أردت فهم NLP بشكل عميق، عليك أن تفهم كيف تعمل CBOW، Skip-Gram، وكل هذه الهندسة المعمارية. هذه هي القاعدة التي تبدأ منها.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.