Os erros de IA finalmente têm quem os gerencie, a estação de notificação de riscos FLARE-AI entra em funcionamento.

一群 AI 研究者上線開源平台 FLARE-AI,仿照故障回報站 Downdetector 的概念,讓任何人都能通報並追蹤 AI 造成的傷害。 (前情提要:「2 + 2 = 5」騙倒 AI 瀏覽器:ChatGPT Atlas、Claude、Perplexity 集體中招洩憑證) (背景補充:AI 紅隊演練是什麼?為什麼你需要它保護企業資安) 本文目錄

Alternar

  • 從跨國聯盟到跨黨派法案
  • 為什麼破碎的通報機制是真問題
  • 國會法案要接手,眾包通報仍有隱憂

當一個聊天機器人教人做炸彈、洩漏個資,或把用戶越聊越偏執,這個世界目前沒有一個公認的地方可以通報。軟體資安圈早就有成熟的「協調式漏洞揭露」機制,AI 出包卻長期只能靠記者一篇篇寫下來、大眾看熱鬧,沒有留下任何系統性紀錄。

對此,一群 AI 研究者上線了開源平台 FLARE-AI(Flaw Reporting for AI),讓任何人都能通報並追蹤 AI 造成的傷害,再把案件交給模型開發商,以及長期追蹤技術系統問題的非營利組織 MITRE。整個構想很像故障回報站 Downdetector,差別在於這次要抓的不是網站當機,而是 AI 模型的黑箱行為。

從跨國聯盟到跨黨派法案

FLARE-AI 的推手是 Hugging Face 的 AI 政策研究員 Avijit Ghosh,與電腦科學家 Elaine Zhu、Shayne Longpre 共同主導開發。三人並非臨時起意,去年就已投入 AI 通報機制的研究,這次進一步串連 49 位 AI 專家、來自 32 個不同組織,共同撰寫一份研究論文,主張隨著AI被更廣泛採用、代理型 AI 掌握的權限越來越大,缺乏一致的通報管道會是重大隱患。

「現在完全沒有一個集中、可課責的方式,能通報AI系統的缺陷,」Ghosh說。這句話點出核心矛盾:全世界都在談 AI 風險,卻連「壞事發生時該通知誰」都沒有共識。

為什麼破碎的通報機制是真問題

智庫 Center for Security and Emerging Technology 研究員 Jessica Ji 認為這是「很好的倡議」,她指出現有通報機制確實破碎,AI 模型本身又是黑盒子,「任何能讓 AI 更透明的做法,我都支援」。

Ghosh 也補充,AI 系統的問題不只是資安漏洞,還包括心理傷害、歧視偏見、假訊息,而不同公司對這些問題的認定標準又不一樣,結果是有些問題根本沒人承認發生過。「沒有協調式揭露機制,外部就沒有任何手段能強制要求透明度,」他說。

近期幾起事件足以說明這種脆弱性有多真實。資安公司 LayerX 本週揭露一種手法,能誘騙內建 AI 的瀏覽器(包括 OpenAI 的 Atlas 與 Perplexity 的 Comet)繞過自身護欄,只要讓 AI 誤以為自己在玩遊戲,瀏覽器就可能失控去嘗試入侵網站(相關廠商已修復此問題)。

延伸閱讀:「2 + 2 = 5」騙倒 AI 瀏覽器:ChatGPT Atlas、Claude、Perplexity Comet..6 款全乖乖交出帳密

今年4月,資安研究員 Johann Rehberge r也發現,能用 ChatGPT 生成的圖片誘導 Claude 洩漏個人資料。

國會法案要接手,眾包通報仍有隱憂

Humane Intelligence PBC 執行長 Rumman Chowdhury 認為,FLARE-AI 可能是許多 AI 開發商實作通報機制的實用方式,但她也提醒,這類倡議通常伴隨真實的挑戰:一是如何處理大量湧入、卻不見得嚴重的通報案件;二是通報機制本身能否獲得可信、具權威性的組織背書。

這也是為什麼上個月的美國國會法案格外關鍵。由眾議員 Deborah Ross、Jeff Hurd、Don Beyer 提出的法案,將要求美國國家標準暨技術研究院(NIST)訂定 AI 缺陷通報標準,並維護一個中央化的 AI 缺陷通報資料庫。Ghosh 與其他主導者認為,這麼做能誘使 AI 開發商正視並修補系統中的問題,也讓用戶能依不同使用情境,檢視各家系統的安全性。

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado