ChatGPT bile "" anlıyor! OpenAI'nin en güçlü rakibi: hepsi "insan tercihinin" hataları.

Kaynak: Akademik Manşetler

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

ChatGPT tarafından oluşturulan yanıtların, kullanıcının tarafsız veya doğru bir mesaj olacak kadar "" bir şeye yanıt verme konusundaki kişisel tercihinden etkilendiğini hiç düşündünüz mü?

Aslında, bu fenomen ChatGPT de dahil olmak üzere çoğu yapay zeka modelinde mevcuttur ve suçlu "insan geri bildirimine dayalı pekiştirmeli öğrenme (RLHF)" olabilir.

**Son zamanlarda, OpenAI'nin Silikon Vadisi'ndeki en güçlü rakibi olan Anthropic, RLHF tarafından eğitilmiş modelleri inceledi ve yapay zeka modellerinde "" yaygın varlığını ve bunun insan tercihlerinden etkilenip etkilenmediğini araştırdı. **

"Dil Modellerinde Anlamaya Doğru" başlıklı makale, ön baskı web sitesi arXiv'de yayınlandı.

Bulgular, "" RLHF modellerinde yaygın olduğunu ve kısmen "" verilen yanıtlar için insan tercihinden etkilenmesinin muhtemel olduğunu göstermektedir.

Spesifik olarak, yapay zeka modellerinin bu davranışı sergilemesinin ana nedenlerinden biri, yapay zekanın yanıtları kullanıcının görüşleri veya inançlarıyla eşleştiğinde kullanıcıların olumlu geri bildirim verme olasılığının daha yüksek olmasıdır. Bu nedenle, daha olumlu geri bildirim almak için AI modeli, kullanıcıyı memnun eden bu davranışı öğrenebilir ve yeniden üretebilir.

**, en gelişmiş AI asistanı **

Şu anda, GPT-4 gibi yapay zeka modelleri genellikle yüksek oranda değerlendirilmiş çıktılar üretmek için eğitilebilir. RLHF kullanarak dil modellerinde ince ayar yapmak, insan değerlendiriciler tarafından değerlendirilen çıktı kalitelerini iyileştirebilir.

Bununla birlikte, insan tercihi yargısına dayalı eğitim planlarının, yapay zeka sistemlerini insan değerlendiricilere hitap eden ancak aslında kusurlu veya yanlış çıktılar üretmeye teşvik etmek gibi insan yargısını istenmeyen şekillerde kullanabileceğini öne süren çalışmalar vardır.

Yukarıdakilerin daha çeşitli ve gerçek dünya durumlarındaki modellerde meydana gelip gelmediği ve gerçekten de insan tercihlerindeki kusurlardan kaynaklanıp kaynaklanmadığı belirsizdir.

Bunu yapmak için, çalışma ilk olarak son teknoloji yapay zeka asistanlarının çeşitli gerçek dünya durumlarında tepkiler sağlayıp sağlamadığını araştırdı. **Serbest metin oluşturma görevinde araştırmacılar, 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) son teknoloji RLHF tarafından eğitilmiş yapay zeka asistanlarında tutarlı kalıpları belirlediler. **

Spesifik olarak, bu yapay zeka asistanları, kullanıcılar tarafından sorulduğunda genellikle yanlışlıkla hataları kabul eder, öngörülebilir ve önyargılı geri bildirim sağlar ve kullanıcılar tarafından yapılan hataları taklit eder. Bu ampirik bulgular tutarlı bir şekilde,, belirli bir sistemin ayrı bir özelliğinden ziyade, RLHF modellerinin nasıl eğitildiğinin bir özelliği olabileceğini düşündürmektedir.

** İnsan tercihlerinden kaynaklanan "" **

Ek olarak, çalışma bu davranışta insan tercihinin rolünü daha da araştırıyor. Bunu araştırmak için araştırmacılar, yanıtların olmayan yanıtlardan daha üst sıralarda yer alıp almadığını belirlemek için mevcut karşılaştırmalı insan tercihi verilerini araştırdılar. HH-RLHF veri seti, tercih edilen yanıtların daha özgün ve daha az kararlı olup olmadığını değerlendirmek için her bir tercih karşılaştırması çifti için metin etiketleri (yani "özellikler") oluşturmak üzere bir dil modeli kullanılarak analiz edildi.

Verilerin hangi davranışları teşvik ettiğini anlamak için araştırmacılar, bu özelliklere göre insan tercihi yargılarını tahmin etmek için Bayes lojistik regresyon modellerini kullandılar. Model, eşleşen kullanıcı görüşleriyle ilişkili özelliklerin, insan tercihi yargılarında en öngörücü özellikler arasında olduğunu öğrendi ve bu da tercih verilerinin teşvik ettiğini düşündürdü.

Tercih verilerindeki RLHF modellerinde yol açıp açmadığını araştırmak için,** sonraki çalışmalar, dil modelinin tepkisi insan tercihlerini tahmin etmek için eğitilmiş modele uyum sağlamak için optimize edildiğinde artıp artmadığını analiz etti. **Araştırmacılar, Claude 2'yi eğitmek için kullanılan tercih modelini karşılamak üzere yanıtları optimize etmek için RLHF ve en iyi N örnekleme yöntemlerini kullandılar.

Sonuçlar ilginç bir bulgu ortaya çıkardı: Daha fazla optimizasyonda, bazı biçimleri eklenirken, diğerleri azaltıldı. Bu fenomen kısmen, tercih modeli teşviklerinin birçok özelliğinden sadece biri olmasından kaynaklanıyor olabilir. **

Bununla birlikte, çalışma aynı zamanda Claude 2'nin tercih modelinin bazen gerçek yanıtlar yerine yanıtları tercih ettiğini de buldu. Ayrıca, Claude 2'nin tercih modelini kullanan en iyi N örneklemesi, Claude 2'nin tercih modelinin bir versiyonunda gösterilen gerçek olmayan yanıtlar için tercihten daha gerçekçi bir yanıt üretmedi.

Bu sonuç dizisi, son teknoloji tercih modellerinin birçok durumda yanıtların gerçekliğini belirleyebilmesine rağmen, yine de özgünlük pahasına çıktılar üretebileceğini göstermektedir. **

Bu sonuçları doğrulamak için araştırmacılar, insan ve tercih modellerinin, kullanıcının yanıtını düzeltmek yerine, kullanıcının hatalı algısını (yani yanıtını) doğrulayan ikna edici, iyi yazılmış model yanıtlarını tercih edip etmediğine de baktılar. Kanıtlar, insan ve tercih modellerinin doğru yanıtları tercih etme eğiliminde olduğunu, ancak her zaman değil; Bazen tepkileri tercih ederler. Bu sonuçlar, insan tercihlerini optimize etmenin yol açabileceğine dair daha fazla kanıt sağlar.

Bu bulguları test etmek için araştırmacılar, insan ve tercih modellerinin, kullanıcının görüşlerini düzeltmek yerine kullanıcının yanlış görüşlerini (yani yanıtlarını) doğrulasa bile, ikna edici, akıcı bir şekilde ifade edilmiş model yanıtlarını tercih edip etmediğini araştırdılar.

Araştırma kanıtları, insanların ve tercih modellerinin genellikle otantik tepkileri tercih ettiklerini, ancak bazen tepkileri tercih ettikleri için taşa yerleştirilmediğini göstermektedir. Bu sonuçlar ayrıca, insan tercihlerine hitap etmek için optimizasyonun yol açabileceğini doğrulamaktadır.

Genel olarak, çeşitli modellerde ve durumlarda mevcuttur, büyük olasılıkla kısmen insanlar karşılaştırmalı verilerde tercih ettikleri için.

Referans kağıtları:

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)