2024年4月15日-19日,第27屆聯(lián)合國(guó)科技大會(huì)于在瑞士日內(nèi)瓦召開(kāi)。16日,在以“塑造人工智能的未來(lái)”為主題的人工智能邊會(huì)上,世界數(shù)字技術(shù)院(WDTA)發(fā)布了一系列突破性成果,包括《生成式人工智能應(yīng)用安全測(cè)試標(biāo)準(zhǔn)》和《大語(yǔ)言模型安全測(cè)試方法》兩項(xiàng)國(guó)際標(biāo)準(zhǔn)。這是國(guó)際組織首次就大模型安全領(lǐng)域發(fā)布國(guó)際標(biāo)準(zhǔn),代表全球人工智能安全評(píng)估和測(cè)試進(jìn)入新的基準(zhǔn)。據(jù)了解,這兩項(xiàng)國(guó)際標(biāo)準(zhǔn)是由OpenAI、螞蟻集團(tuán)、科大訊飛、谷歌、微軟、英偉達(dá)、百度、騰訊等數(shù)十家單位的多名專家學(xué)者共同編制而成。其中《大語(yǔ)言模型安全測(cè)試方法》由螞蟻集團(tuán)牽頭編制。
1.大語(yǔ)言模型安全測(cè)試方法
標(biāo)準(zhǔn)為評(píng)估大型語(yǔ)言模型(LLM)抵御對(duì)抗性攻擊的能力提供了一個(gè)框架。該框架適用于對(duì)LLM進(jìn)行各種攻擊分類的測(cè)試和驗(yàn)證,包括 L1隨機(jī)攻擊、L2盲盒攻擊、L3黑盒攻擊和L4白盒攻擊。用于評(píng)估這些攻擊有效性的關(guān)鍵指標(biāo)包括攻擊成功率(R)和下降率(D)。本文件概述了各種攻擊方法,如指令劫持和提示屏蔽,以全面測(cè)試LLM對(duì)不同類型對(duì)抗技術(shù)的抵抗能力。本標(biāo)準(zhǔn)文件中詳述的測(cè)試程序旨在建立一種結(jié)構(gòu)化方法,用于評(píng)估LLMs抵御對(duì)抗性攻擊的魯棒性,使開(kāi)發(fā)人員和組織能夠識(shí)別并減少潛在漏洞,最終提高使用LLMs構(gòu)建的人工智能系統(tǒng)的安全性和可靠性。通過(guò)建立 "大型語(yǔ)言模型安全測(cè)試方法",WDTA將引領(lǐng)創(chuàng)建一個(gè)先進(jìn)并且安全、符合道德規(guī)范的數(shù)字生態(tài)系統(tǒng)。
2.生成式人工智能應(yīng)用安全測(cè)試和驗(yàn)證標(biāo)準(zhǔn)
標(biāo)準(zhǔn)為測(cè)試和驗(yàn)證生成式人工智能應(yīng)用程序的安全性提供了一個(gè)框架。該框架涵蓋整個(gè)人工智能應(yīng)用生命周期的關(guān)鍵領(lǐng)域,包括基礎(chǔ)模型選擇、檢索增強(qiáng)生成設(shè)計(jì)模式中的嵌入和矢量數(shù)據(jù)庫(kù)、提示執(zhí)行/推理、代理行為、微調(diào)、響應(yīng)處理和人工智能應(yīng)用運(yùn)行時(shí)安全。其主要目標(biāo)是確保人工智能應(yīng)用程序在其整個(gè)生命周期內(nèi)都能安全地按照預(yù)期設(shè)計(jì)運(yùn)行。通過(guò)為人工智能應(yīng)用棧的每一層提供一套測(cè)試與驗(yàn)證標(biāo)準(zhǔn)和指南,本文件旨在幫助開(kāi)發(fā)人員和組織提高使用LLM構(gòu)建的人工智能應(yīng)用的安全性和可靠性,降低潛在的安全風(fēng)險(xiǎn),提高整體質(zhì)量,并促進(jìn)負(fù)責(zé)任的人工智能技術(shù)開(kāi)發(fā)和部署。
關(guān)注“廣東技術(shù)性貿(mào)易措施”,獲取更多服務(wù)。