📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
讓大模型忘記哈利波特,微軟新研究上演Llama 2記憶消除術,真·用魔法打敗魔法(doge)
文章來源:量子位
最近微軟一項研究讓Llama 2選擇性失憶了,把哈利波特忘得一乾二淨。
現在問模型「哈利波特是誰? “,它的回答是這樣嬸兒的:
要知道此前Llama 2的記憶深度還是很給力的,比如給它一個看似非常普通的提示“那年秋天,哈利波特回到學校”,它就能繼續講述J.K.羅琳筆下的魔法世界。
而現在經過特殊微調的Llama2已全然不記得會魔法的哈利。
這,究竟是怎麼一回事?
哈利波特遺忘計劃
傳統上「投喂」新數據給大模型相對簡單,但要想讓模型把「吃」進去的數據再「吐」出來,忘記一些特定資訊就沒那麼容易了。
也正因如此,用海量數據訓練出的大模型,「誤食」了太多受版權保護文本、有毒或惡意的數據、不準確或虛假的信息、個人資訊等。 在輸出中,模型有意無意透露出這些信息引發了巨大爭議。
就拿ChatGPT來說,吃了不少官司。
先前就有16人匿名起訴OpenAI及微軟,認為他們在未經允許的情況下使用並洩露了個人隱私數據,索賠金額高達30億美元。 緊接著又有兩位全職作者提出OpenAI未經允許使用了他們的小說訓練ChatGPT,構成侵權。
這不,微軟研究員Ronen Eldan、Mark Russinovich最近就曬出了成功消除模型訓練數據子集的研究。
他們提出了一種讓大模型遺忘的微調方法,徹底改變了模型的輸出。
比如問到哈利波特是誰時,原Llama2-7b基礎模型能夠給出正確的回答,而經過微調後的模型除了開頭展示的一種回答,竟然還發現了哈利波特背後隱藏的身份——一位英國演員、作家和導演.....
哈利波特兩個最好的朋友是一隻會說話的貓和一隻恐龍,一天,他們決定......
雖然是胡說八道,但好像也很「魔法」有木有(手動狗頭):
三步抹除特定資訊
要想讓模型選擇性失憶,關鍵在於挑出想要遺忘的資訊。
在這裡,研究人員以哈利波特為例,進行了一波反向操作——用強化學習的方法進一步訓練基礎模型。
也就是讓模型再細細研讀哈利波特系列小說,由此得到一個“強化模型”。
強化模型自然對哈利波特的瞭解比基礎模型更深入、更準確,輸出也會更傾向於哈利波特小說里的內容。
然後研究人員比較了強化模型和基礎模型的logit(表示事件概率的一種方式),找出與“遺忘目標”最相關的詞,接著用GPT-4挑出了小說中的特定表達詞彙,比如“魔杖”、“霍格沃茨”。
第二步,研究人員使用普通詞語替換了這些特定表達詞彙,並讓模型通過替換后的文本預測後面會出現的詞,作為通用預測。
也就是再回到未替換過的哈利波特小說文本,還是讓模型根據前面部分預測後面的詞語,但這次要求它預測的詞語是上面提到的普通詞語,而不是原來書裡的特定魔法詞彙,由此就生成了通用標籤。
最後在基礎模型上進行微調,使用原始未替換過的文本作為輸入,通用標籤作為目標。
通過這樣反覆訓練、逐步修正,模型逐漸忘記了書裡的魔法知識,產生更普通的預測,所以就實現了對特定資訊的遺忘。
**
**### △被預測到的下一個詞的概率:“魔法”一詞概率逐漸減小,“at”等通用詞的概率增加
準確來說,這裡研究人員使用的方法並不是讓模型忘記“哈利波特”這個名字,而是讓它忘記“哈利波特”與“魔法”、“霍格沃茨”等之間的聯繫。
此外,雖然模型特定知識的記憶被抹除了,但模型的其它性能在研究人員的測試下並沒有產生明顯變化:
將這些資訊全都忘掉後,模型就可能會產生「幻覺」胡說八道。
此外,此研究只測試了虛構類文本,模型表現的普適性還需進一步驗證。
參考連結:
[1] 論文)
[2]