一群AI研究者上線開源平台FLARE-AI,仿照故障回報站Downdetector的概念,讓任何人都能通報並追蹤AI造成的傷害。 (前情提要:「2 + 2 = 5」騙倒AI瀏覽器:ChatGPT Atlas、Claude、Perplexity集體中招洩憑證) (背景補充:AI紅隊演練是什麼?為什麼你需要它保護企業資安)
本文目錄
Toggle
當一個聊天機器人教人做炸彈、洩漏個資,或把用戶越聊越偏執,這個世界目前沒有一個公認的地方可以通報。軟體資安圈早就有成熟的「協調式漏洞揭露」機制,AI出包卻長期只能靠記者一篇篇寫下來、大眾看熱鬧,沒有留下任何系統性紀錄。
對此,一群AI研究者上線了開源平台FLARE-AI(Flaw Reporting for AI),讓任何人都能通報並追蹤AI造成的傷害,再把案件交給模型開發商,以及長期追蹤技術系統問題的非營利組織MITRE。整個構想很像故障回報站Downdetector,差別在於這次要抓的不是網站當機,而是AI模型的黑箱行為。
FLARE-AI的推手是Hugging Face的AI政策研究員Avijit Ghosh,與電腦科學家Elaine Zhu、Shayne Longpre共同主導開發。三人並非臨時起意,去年就已投入AI通報機制的研究,這次進一步串連49位AI專家、來自32個不同組織,共同撰寫一份研究論文,主張隨著AI被更廣泛採用、代理型AI掌握的權限越來越大,缺乏一致的通報管道會是重大隱患。
「現在完全沒有一個集中、可課責的方式,能通報AI系統的缺陷,」Ghosh說。這句話點出核心矛盾:全世界都在談AI風險,卻連「壞事發生時該通知誰」都沒有共識。
智庫Center for Security and Emerging Technology研究員Jessica Ji認為這是「很好的倡議」,她指出現有通報機制確實破碎,AI模型本身又是黑盒子,「任何能讓AI更透明的做法,我都支援」。
Ghosh也補充,AI系統的問題不只是資安漏洞,還包括心理傷害、歧視偏見、假訊息,而不同公司對這些問題的認定標準又不一樣,結果是有些問題根本沒人承認發生過。「沒有協調式揭露機制,外部就沒有任何手段能強制要求透明度,」他說。
近期幾起事件足以說明這種脆弱性有多真實。資安公司LayerX本週揭露一種手法,能誘騙內建AI的瀏覽器(包括OpenAI的Atlas與Perplexity的Comet)繞過自身護欄,只要讓AI誤以為自己在玩遊戲,瀏覽器就可能失控去嘗試入侵網站(相關廠商已修復此問題)。
延伸閱讀:「2 + 2 = 5」騙倒AI瀏覽器:ChatGPT Atlas、Claude、Perplexity Comet..6款全乖乖交出帳密
今年4月,資安研究員Johann Rehberge r也發現,能用ChatGPT生成的圖片誘導Claude洩漏個人資料。
Humane Intelligence PBC執行長Rumman Chowdhury認為,FLARE-AI可能是許多AI開發商實作通報機制的實用方式,但她也提醒,這類倡議通常伴隨真實的挑戰:一是如何處理大量湧入、卻不見得嚴重的通報案件;二是通報機制本身能否獲得可信、具權威性的組織背書。
這也是為什麼上個月的美國國會法案格外關鍵。由眾議員Deborah Ross、Jeff Hurd、Don Beyer提出的法案,將要求美國國家標準暨技術研究院(NIST)訂定AI缺陷通報標準,並維護一個中央化的AI缺陷通報資料庫。Ghosh與其他主導者認為,這麼做能誘使AI開發商正視並修補系統中的問題,也讓用戶能依不同使用情境,檢視各家系統的安全性。
520.75K 人気度
6.5M 人気度
67.49K 人気度
646.88K 人気度
55.1K 人気度
AIの不具合がついに管理され、リスク通報ステーションFLARE-AIがローンチ
一群AI研究者上線開源平台FLARE-AI,仿照故障回報站Downdetector的概念,讓任何人都能通報並追蹤AI造成的傷害。
(前情提要:「2 + 2 = 5」騙倒AI瀏覽器:ChatGPT Atlas、Claude、Perplexity集體中招洩憑證)
(背景補充:AI紅隊演練是什麼?為什麼你需要它保護企業資安)
本文目錄
Toggle
當一個聊天機器人教人做炸彈、洩漏個資,或把用戶越聊越偏執,這個世界目前沒有一個公認的地方可以通報。軟體資安圈早就有成熟的「協調式漏洞揭露」機制,AI出包卻長期只能靠記者一篇篇寫下來、大眾看熱鬧,沒有留下任何系統性紀錄。
對此,一群AI研究者上線了開源平台FLARE-AI(Flaw Reporting for AI),讓任何人都能通報並追蹤AI造成的傷害,再把案件交給模型開發商,以及長期追蹤技術系統問題的非營利組織MITRE。整個構想很像故障回報站Downdetector,差別在於這次要抓的不是網站當機,而是AI模型的黑箱行為。
從跨國聯盟到跨黨派法案
FLARE-AI的推手是Hugging Face的AI政策研究員Avijit Ghosh,與電腦科學家Elaine Zhu、Shayne Longpre共同主導開發。三人並非臨時起意,去年就已投入AI通報機制的研究,這次進一步串連49位AI專家、來自32個不同組織,共同撰寫一份研究論文,主張隨著AI被更廣泛採用、代理型AI掌握的權限越來越大,缺乏一致的通報管道會是重大隱患。
「現在完全沒有一個集中、可課責的方式,能通報AI系統的缺陷,」Ghosh說。這句話點出核心矛盾:全世界都在談AI風險,卻連「壞事發生時該通知誰」都沒有共識。
為什麼破碎的通報機制是真問題
智庫Center for Security and Emerging Technology研究員Jessica Ji認為這是「很好的倡議」,她指出現有通報機制確實破碎,AI模型本身又是黑盒子,「任何能讓AI更透明的做法,我都支援」。
Ghosh也補充,AI系統的問題不只是資安漏洞,還包括心理傷害、歧視偏見、假訊息,而不同公司對這些問題的認定標準又不一樣,結果是有些問題根本沒人承認發生過。「沒有協調式揭露機制,外部就沒有任何手段能強制要求透明度,」他說。
近期幾起事件足以說明這種脆弱性有多真實。資安公司LayerX本週揭露一種手法,能誘騙內建AI的瀏覽器(包括OpenAI的Atlas與Perplexity的Comet)繞過自身護欄,只要讓AI誤以為自己在玩遊戲,瀏覽器就可能失控去嘗試入侵網站(相關廠商已修復此問題)。
延伸閱讀:「2 + 2 = 5」騙倒AI瀏覽器:ChatGPT Atlas、Claude、Perplexity Comet..6款全乖乖交出帳密
今年4月,資安研究員Johann Rehberge r也發現,能用ChatGPT生成的圖片誘導Claude洩漏個人資料。
國會法案要接手,眾包通報仍有隱憂
Humane Intelligence PBC執行長Rumman Chowdhury認為,FLARE-AI可能是許多AI開發商實作通報機制的實用方式,但她也提醒,這類倡議通常伴隨真實的挑戰:一是如何處理大量湧入、卻不見得嚴重的通報案件;二是通報機制本身能否獲得可信、具權威性的組織背書。
這也是為什麼上個月的美國國會法案格外關鍵。由眾議員Deborah Ross、Jeff Hurd、Don Beyer提出的法案,將要求美國國家標準暨技術研究院(NIST)訂定AI缺陷通報標準,並維護一個中央化的AI缺陷通報資料庫。Ghosh與其他主導者認為,這麼做能誘使AI開發商正視並修補系統中的問題,也讓用戶能依不同使用情境,檢視各家系統的安全性。