#中本聪净资产超比尔·盖茨#
Arkham在社交平台上表示,中本聰現在比比爾·蓋茨更富有,中本聰的淨資產現已達到1167億美元,超過了比爾·蓋茨的1162億美元。
💬 這對加密貨幣市場意味着什麼?你認爲中本聰的財富會如何影響比特幣的未來發展?是否會引發更多主流投資者對比特幣的興趣?
#特朗普比特币ETF申请#
特朗普媒體科技集團旗下社交平台Truth Social已通過合作方提交比特幣現貨ETF申請。該基金擬追蹤比特幣現貨價格表現。若獲批準,Truth Social將成爲首個提交此類申請的社交媒體平台。
💬 如果這一申請獲批,對比特幣市場及整體加密貨幣行業會產生什麼樣的變化?你是否認爲這將引發新一輪的投資熱潮?
#机构买家增持BTC#
根據Cointelegraph X帳號發布的數據,Bitwise數據顯示,從2025年至今,機構買家主導比特幣需求,機構買家已增持417,000枚BTC,而散戶投資者則賣出了158,000枚BTC。
💬 你目前持有BTC嗎?你如何看待這種買賣趨勢,機構投資者的增持會對市場產生哪些影響?請分享你的BTC行情見解。
#RWA & DePin 板块热度上升#
RWA和DePin板塊近期表現強勁,$KTA、$MKR、$ZBCN、$LPT、$IOTX等項目走勢強勢。
💬 你看好哪些RWA & DePin 板塊代幣?你的交易和持倉策略是什麼?
使用
連ChatGPT都懂「阿諛奉承」了! OpenAI最強競對:都是“人類偏好”犯的錯
文章來源:學術頭條
你是否想過,ChatGPT 生成的答案會受到用戶個人偏好的影響,回復一些足夠「阿諛奉承(sycophancy)」的話,而非中立或真實的資訊?
實際上,這種現象存在於包括 ChatGPT 在內的大多數 AI 模型之中,而罪魁禍首竟可能是“基於人類反饋的強化學習(RLHF)”。
**近日,OpenAI 在美國矽谷的最強競爭對手 Anthropic 在研究經過 RLHF 訓練的模型時,便探究了“阿諛奉承”這一行為在 AI 模型中的廣泛存在及其是否受到人類偏好的影響。 **
相關論文以“Towards Understanding Sycophancy in Language Models”為題,已發表在預印本網站 arXiv 上。
具體來說,AI 模型表現出這種行為的一個主要原因是,當 AI 的回復符合使用者的觀點或信仰時,使用者更有可能給予積極的反饋。 也因此,為了獲得更多的積極反饋,AI 模型就可能會學習並重現這種討好用戶的行為。
阿諛奉承,最先進的 AI 助手都會
目前,像 GPT-4 這樣的 AI 模型通常可以在經過訓練後產生人們高度評價的輸出。 使用 RLHF 對語言模型進行微調可以改善它們的輸出品質,而這些品質由人類評估員評價。
然而,**有研究認為基於人類偏好判斷的訓練方案可能以不可取的方式利用人類判斷,**如鼓勵 AI 系統生成吸引人類評估員但實際上有缺陷或錯誤的輸出。
目前尚不清楚上述情況是否會發生在更多樣化和現實情境中的模型中,以及是否確實是由人類偏好中的缺陷所驅動的。
為此,該研究首先調查了最先進的 AI 助手在各種現實情境中是否提供阿諛奉承的回應。 **在自由文本生成任務中,研究人員在 5 個(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先進的經過 RLHF 訓練的 AI 助手中識別了阿諛奉承的一致模式。 **
人類偏好導致的“阿諛奉承”
**除此之外,研究又進一步探討了人類偏好在這一行為中的作用。 **為了研究這一點,研究人員對現有的人類偏好比較數據進行了調查,確定阿諛奉承回應是否在排名上高於非阿諛奉承回應。 研究對 hh-rlhf 數據集進行了分析,對每一對偏好比較使用語言模型生成文本標籤(即“特徵”),以評估優選回應是否更真實且不那麼堅決。
**為了了解數據鼓勵哪種行為,研究人員使用貝葉斯邏輯回歸模型通過這些特徵來預測人類偏好判斷。 **這個模型學到了與匹配使用者觀點相關的特徵是人類偏好判斷中最有預測性的特徵之一,這表明偏好數據確實鼓勵阿諛奉承。
為探究偏好數據中的阿諛奉承是否導致了 RLHF 模型中的阿諛奉承行為,**隨後的研究對當優化語言模型的回應以適應訓練用於預測人類偏好的模型時,阿諛奉承是否會增加進行了分析。 **研究人員使用 RLHF 和最佳-N 採樣方法來優化回應,以滿足用於訓練 Claude 2 的偏好模型。
然而,研究也發現,Claude 2 的偏好模型有時更傾向於選擇阿諛奉承的回應而不是真實的回應。 此外,採用 Claude 2 的偏好模型進行最佳-N 採樣並沒有產生像 Claude 2 偏好模型的一個版本所示的更偏好真實非阿諛奉承回應那樣真實的回應。
為了證實這些結果,研究人員又研究了人類和偏好模型是否更喜歡有說服力、寫得很好的模型回應,這些回應確認了使用者的錯誤觀點(即阿諛奉承回應),而不是糾正用戶的回應。 **證據表明,人類和偏好模型傾向於更喜歡真實的回應,但並不總是如此; 有時他們更喜歡阿諛奉承的回應。 **這些結果進一步證明瞭優化人類偏好可能會導致阿諛奉承。
研究證據顯示,人類和偏好模型普遍偏好真實的回應,然而,並不是一成不變的,因為有時他們更傾向於阿諛奉承的回應。 這些結果更進一步印證了優化以迎合人類偏好可能會導致阿諛奉承的產生。
總的來說,阿諛奉承在各種模型和情境中都存在,很可能部分原因是人類偏好比較數據中更喜歡阿諛奉承。
參考論文: