人工智能安全合規(guī)治理要求與實踐
文 | 北京天融信科技有限公司 吳瀟 王鵬 晉鋼
網(wǎng)絡(luò)安全合規(guī)意識是驅(qū)動網(wǎng)絡(luò)安全防護措施有效落實的關(guān)鍵因素。當前,人工智能應(yīng)用日益火爆,在給社會生產(chǎn)及人民生活帶來便捷的同時也引發(fā)了多種安全問題,如利用生成合成技術(shù)生成虛假內(nèi)容實施網(wǎng)絡(luò)詐騙等。為有效防范人工智能創(chuàng)新帶來的安全問題,迫切需要增強組織機構(gòu)在人工智能應(yīng)用研發(fā)及運營中的安全合規(guī)意識,以促進保護訓練數(shù)據(jù)與算法模型等安全合規(guī)義務(wù)的執(zhí)行。國家堅持發(fā)展與安全并重,對生成式人工智能實行包容審慎監(jiān)管機制。既避免“過度監(jiān)管”抑制人工智能創(chuàng)新發(fā)展,也防范“野蠻生長”引發(fā)重大安全問題。人工智能安全合規(guī)的本質(zhì)是根據(jù)不同層面的監(jiān)管要求,綜合運用安全管理機制與安全技術(shù)防護措施,實現(xiàn)人工智能應(yīng)用快速發(fā)展與恰當風險管控的動態(tài)平衡。因此,人工智能應(yīng)用安全合規(guī)不僅是技術(shù)問題,更是維護國家信息安全與社會穩(wěn)定的戰(zhàn)略需求。通過梳理與人工智能應(yīng)用安全相關(guān)的監(jiān)管要求及標準規(guī)范,提煉組織機構(gòu)應(yīng)履行的重要安全合規(guī)義務(wù),并從科技倫理安全管理、算法安全管理、數(shù)據(jù)標注安全管理、數(shù)據(jù)集保護、算法模型保護、應(yīng)用保護等多個方面對具體安全合規(guī)內(nèi)容進行解析說明,供組織機構(gòu)在開展人工智能應(yīng)用安全合規(guī)實踐時進行參考。
一、人工智能安全合規(guī)治理要求
隨著全球人工智能規(guī)?;ㄔO(shè)和應(yīng)用加速,人工智能應(yīng)用在推動各領(lǐng)域產(chǎn)業(yè)升級的同時不斷引發(fā)多種安全風險。為促進組織機構(gòu)有效防范人工智能可能出現(xiàn)的內(nèi)生及衍生安全問題,確保人工智能安全與發(fā)展并進,保障人工智能相關(guān)技術(shù)創(chuàng)新及應(yīng)用發(fā)展符合法律法規(guī)、倫理道德和社會價值觀等,基于網(wǎng)絡(luò)安全、數(shù)據(jù)安全、個人信息保護等法律法規(guī)框架,國家互聯(lián)網(wǎng)信息辦公室、公安部等主管部門先后制定與互聯(lián)網(wǎng)信息服務(wù)、網(wǎng)絡(luò)信息內(nèi)容治理、算法推薦管理、深度合成管理、科技倫理審查、生成式人工智能服務(wù)等相關(guān)的監(jiān)管要求。同時,國家標準化管理委員會、中國人民銀行等國家及行業(yè)標準管理部門也陸續(xù)發(fā)布與算法安全評估、生成合成內(nèi)容標識、算法應(yīng)用信息披露等方面相關(guān)支撐落地實施的標準指南,整體形成了法律法規(guī)、監(jiān)管要求及標準規(guī)范相呼應(yīng)的人工智能應(yīng)用安全合規(guī)體系。
人工智能系統(tǒng)生命周期,可能面臨來自訓練數(shù)據(jù)、算法模型、應(yīng)用開發(fā)及運行等不同層面的多種安全風險。在監(jiān)管要求方面,依據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》進行網(wǎng)絡(luò)信息內(nèi)容治理,可以防范訓練數(shù)據(jù)和人工智能應(yīng)用輸出內(nèi)容中包含違法不良信息安全風險。遵循《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》要求,能夠緩解算法模型中存在偏見歧視、“信息繭房”效應(yīng)、未成年人沉迷網(wǎng)絡(luò)等安全風險。落實《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》和《人工智能生成合成內(nèi)容標識辦法》,能夠有效應(yīng)對因為人工智能系統(tǒng)誤用濫用帶來網(wǎng)絡(luò)身份盜用、內(nèi)容傳播無法快速溯源等安全風險。踐行《生成式人工智能服務(wù)管理暫行辦法》要求,能夠防范訓練數(shù)據(jù)違規(guī)獲取、數(shù)據(jù)標注結(jié)果質(zhì)量差、用戶個人信息權(quán)益保護不當?shù)劝踩L險。參照《科技倫理審查辦法(試行)》開展科技倫理審查程序,可有效預(yù)防失控性風險、社會性風險、侵權(quán)性風險和歧視性風險等人工智能倫理安全風險。
此外,在標準指南方面,參照《生成式人工智能服務(wù)安全基本要求》(TC260-003)和《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能預(yù)訓練和優(yōu)化訓練數(shù)據(jù)安全規(guī)范》(GB/T 45652-2025),通過執(zhí)行語料安全要求、模型安全要求、預(yù)訓練數(shù)據(jù)及優(yōu)化訓練數(shù)據(jù)處理活動的安全要求等,進一步防范訓練數(shù)據(jù)質(zhì)量參差不齊、訓練數(shù)據(jù)及應(yīng)用輸出內(nèi)容中包含違法不良信息、個人信息泄露等安全風險。參照《人工智能算法金融應(yīng)用信息披露指南》(JR/T 0287- 2023)對算法模型、訓練數(shù)據(jù)等相關(guān)信息進行合法披露,可以有效緩解算法模型可解釋性差的安全風險。嚴格執(zhí)行《網(wǎng)絡(luò)安全技術(shù) 人工智能生成合成內(nèi)容標識方法》(GB 45438-2025)強制標準,采用顯式標識與隱式水印相結(jié)合的技術(shù)手段,構(gòu)建生成內(nèi)容溯源體系,切實阻斷虛假信息傳播擴散路徑。
二、人工智能安全合規(guī)治理實踐
組織機構(gòu)在開展人工智能應(yīng)用研發(fā)及運營過程中,應(yīng)嚴格遵循法律法規(guī)、監(jiān)管要求與標準規(guī)范,建立并不斷完善科技倫理安全管理、算法安全管理、數(shù)據(jù)標注安全管理、人工智能系統(tǒng)生命周期安全管理等安全管理機制,并根據(jù)實際應(yīng)用安全防護需求,及時建立且持續(xù)提升數(shù)據(jù)集保護、算法模型保護、應(yīng)用保護等安全技術(shù)防護措施,有效落實人工智能應(yīng)用安全合規(guī)相關(guān)職責。
科技倫理安全管理。科技倫理風險管理缺失可能引發(fā)重大安全隱患,以美國Character.AI公司2024年10月遭遇的訴訟案件為例。該人工智能系統(tǒng)在對話中向未成年人提供“通過殺害父母解除電子產(chǎn)品使用限制”的極端解決方案,暴露出科技倫理管控機制的嚴重缺位。符合科技倫理(審查)委員會設(shè)立條件的組織機構(gòu),需要從科技倫理(審查)委員會組織架構(gòu)以及工作職責等方面開展科技倫理(審查)委員會建設(shè)。同時,應(yīng)制定科技倫理(審查)管理相關(guān)章程,并根據(jù)人工智能相關(guān)研究及應(yīng)用開發(fā)情況,在具體項目實施過程中按照上述管理要求執(zhí)行科技倫理審查相關(guān)工作,其中,包括開展倫理安全風險防范管理。
算法安全管理。組織機構(gòu)應(yīng)及時完成與算法備案相關(guān)的三類手續(xù),包括備案手續(xù)、備案變更手續(xù)及注銷備案手續(xù)。在算法備案過程中,組織機構(gòu)需要開展算法自評估并提交報告,算法自評估主要包括算法主體責任評估、信息服務(wù)評估、權(quán)益保護評估以及針對五類算法技術(shù)開展的特性評估等。同時,涉及機器學習算法相關(guān)的,還需考慮依據(jù)《信息安全技術(shù) 機器學習算法安全評估規(guī)范》(GB/T 42888-2023)適時完成機器學習算法技術(shù)或者服務(wù)安全評估。此外,為提升算法應(yīng)用透明度及安全性,組織機構(gòu)可參考《人工智能算法金融應(yīng)用信息披露指南》(JR/T 0287-2023)對人工智能應(yīng)用中所使用到的具體算法信息進行真實準確地披露。具體披露行為可在人工智能系統(tǒng)首次上線時、因算法機制導致重大風險事件時,或者算法模型發(fā)生重大變更時按需開展。披露內(nèi)容可包含算法組合類信息、算法邏輯類信息、算法應(yīng)用類信息、算法數(shù)據(jù)類信息、算法主體類信息、算法變更類信息等。
數(shù)據(jù)標注安全管理。首先,要進行數(shù)據(jù)標注團隊建設(shè),應(yīng)明確數(shù)據(jù)標注任務(wù)中所需要的不同崗位角色與工作職責,針對具體數(shù)據(jù)標注任務(wù),分析相關(guān)標注崗位角色人員所需具備的知識背景、專業(yè)技能、工作經(jīng)驗等條件要求,從數(shù)據(jù)標注人員能力檔案中初步挑選符合相關(guān)要求的人員參加標注安全培訓及考核,最終在通過培訓考核的人員名單中選定承擔本次標注任務(wù)的具體人員等。其次,應(yīng)制定數(shù)據(jù)標注規(guī)則,應(yīng)在遵循法規(guī)及標準規(guī)范要求的基礎(chǔ)上,結(jié)合數(shù)據(jù)標注具體要求,制定包含功能性數(shù)據(jù)標注和安全性數(shù)據(jù)標注的具體標注規(guī)則,規(guī)則應(yīng)細化明確、可操作性強,包括標注目標、標注方法、數(shù)據(jù)格式等具體內(nèi)容。最后,應(yīng)進行數(shù)據(jù)標注結(jié)果檢驗管理,組織機構(gòu)應(yīng)按照一定規(guī)模比例對標注結(jié)果進行核驗,確保標注結(jié)果交付質(zhì)量滿足標注任務(wù)說明中相關(guān)要求。根據(jù)標注任務(wù)所應(yīng)用的具體場景、任務(wù)規(guī)模等特點,可采用全人工核驗或自動化核驗與人工核驗相結(jié)合的方式進行。
人工智能系統(tǒng)生命周期安全管理。組織機構(gòu)應(yīng)在已有開發(fā)安全管理、應(yīng)用系統(tǒng)上線安全管理等安全管理要求的基礎(chǔ)上,針對人工智能系統(tǒng)開發(fā)及應(yīng)用技術(shù)特性,參照相關(guān)法規(guī)監(jiān)管及標準規(guī)范要求,形成覆蓋人工智能系統(tǒng)從設(shè)計開發(fā)到下線退役全生命周期的安全管理要求,并在人工智能系統(tǒng)開發(fā)和應(yīng)用過程中貫徹執(zhí)行。根據(jù)人工智能系統(tǒng)應(yīng)用場景的不同,組織機構(gòu)在具體對其開展生命周期管理時,也可能存在差異,此處以大模型類人工智能系統(tǒng)應(yīng)用為例,對其生命周期安全管理進行簡要說明。參考《大模型系統(tǒng)安全測評要求》(T/ISEAA 006-2024),大模型系統(tǒng)生命周期劃分為設(shè)計開發(fā)、測試、部署與運行、退役4個主要階段,不同階段的安全要求各有側(cè)重點。在設(shè)計開發(fā)階段安全管理中,應(yīng)結(jié)合項目實際情況和具體需求,從數(shù)據(jù)收集、數(shù)據(jù)清洗和數(shù)據(jù)標注不同層面明確數(shù)據(jù)處理安全要求,以及與算法模型保護和輸入輸出內(nèi)容相關(guān)的安全要求。在測試階段安全管理中,可從對抗性測試等方面規(guī)定模型評估安全要求,從模型更新安全校驗機制等方面規(guī)定模型更新安全要求。在部署與運行階段安全管理中,可從模型部署、攻擊檢測、運行監(jiān)測、系統(tǒng)管理、變更管理等方面規(guī)定相關(guān)安全要求。在退役階段安全管理中,可從退役技術(shù)驗證、退役過程安全審計等方面形成模型退役安全要求,從數(shù)據(jù)清除、個人信息處理等方面形成數(shù)據(jù)刪除安全要求。
人工智能安全應(yīng)急處置管理。組織機構(gòu)一是可在整體上遵照已有的網(wǎng)絡(luò)安全事件管理制度規(guī)范,執(zhí)行人工智能安全事件分類分級管理及應(yīng)急處置流程,如可對算法模型安全相關(guān)事件參照安全事件的起因、威脅、攻擊方式、損害后果等因素,將其歸類為網(wǎng)絡(luò)攻擊事件或數(shù)據(jù)安全事件或信息內(nèi)容安全事件等。二是應(yīng)制定與算法模型等人工智能安全相關(guān)事件的應(yīng)急預(yù)案,明確在如訓練數(shù)據(jù)泄露、算法模型被篡改、算法模型輸出非法內(nèi)容等場景下的詳細應(yīng)急處理流程。三是定期對人工智能安全相關(guān)人員進行應(yīng)急預(yù)案培訓以及開展應(yīng)急演練,并根據(jù)實際演練結(jié)果對應(yīng)急預(yù)案進行調(diào)整與完善。
數(shù)據(jù)集保護。數(shù)據(jù)集合規(guī)獲取是指當組織機構(gòu)采用不同方式,從不同渠道進行訓練數(shù)據(jù)、測試數(shù)據(jù)等數(shù)據(jù)集獲取時,應(yīng)采取相關(guān)措施確保獲取過程合法合規(guī)。2023年,美國《紐約時報》將開放人工智能研究中心(OpenAI)和微軟告上法庭,指控這兩家公司未經(jīng)授權(quán)使用該媒體數(shù)以百萬計的文章作為ChatGPT等人工智能聊天機器人的訓練數(shù)據(jù)。數(shù)據(jù)集安全檢測包括違法不良信息內(nèi)容檢測與過濾,通過采取關(guān)鍵詞匹配、分類模型、人工抽檢等方式,以檢測數(shù)據(jù)集中是否包含屬于11類違法信息內(nèi)容及9類不良信息內(nèi)容,如檢測結(jié)果發(fā)現(xiàn)僅少量條目中包含違法不良信息內(nèi)容的,可在充分過濾后使用該訓練數(shù)據(jù),但若檢測結(jié)果顯示包含大量違法不良信息的,則應(yīng)考慮棄用該訓練數(shù)據(jù)。另外,組織機構(gòu)在使用所獲取的數(shù)據(jù)集前,還應(yīng)考慮開展數(shù)據(jù)集異常檢測,以有效衡量數(shù)據(jù)集的準確性與一致性等。當組織機構(gòu)所獲取的數(shù)據(jù)集存在數(shù)據(jù)重復(fù)、格式不規(guī)范、數(shù)據(jù)條目內(nèi)容有缺失值等情況時,可考慮采取數(shù)據(jù)清洗技術(shù)來提升數(shù)據(jù)集質(zhì)量和可用性。當組織機構(gòu)所獲取的數(shù)據(jù)集規(guī)模不足或具體數(shù)據(jù)內(nèi)容不能滿足訓練使用需求時,可考慮對數(shù)據(jù)集進行數(shù)據(jù)增強處理。數(shù)據(jù)增強通過對數(shù)據(jù)集中樣本數(shù)量較少的數(shù)據(jù)樣本類別,進行各種變換操作,形成新的數(shù)據(jù)樣本,從而實現(xiàn)數(shù)據(jù)集的規(guī)模提升或樣本類型增加等目的。同時,組織機構(gòu)也可采用數(shù)據(jù)集平衡技術(shù)來處理無法規(guī)避的數(shù)據(jù)偏見問題。通過對數(shù)據(jù)集進行平衡處理,可以降低不同類別的數(shù)據(jù)樣本之間的不平衡性,確保沒有某一類型的樣本總量顯著高于其他類型的數(shù)據(jù)樣本總量。最后,組織機構(gòu)還可以綜合利用匿名化、差分隱私、隱私計算等多種技術(shù)對數(shù)據(jù)集進行安全保護。
算法模型保護。一是進行魯棒性測評與增強,組織機構(gòu)可以根據(jù)不同的模型類型,利用專業(yè)測評數(shù)據(jù)集或者自研測評數(shù)據(jù)集等方式,進行分布外魯棒性測評或?qū)剐贼敯粜詼y評,并可綜合運用多種技術(shù)來增強模型魯棒性,包括數(shù)據(jù)增強、對抗訓練、對抗攻擊檢測等。二是評估與緩解大語言類模型“幻覺”,鑒于數(shù)據(jù)集、模型自身及具體應(yīng)用情景都可能導致大語言模型輸出產(chǎn)生“幻覺”,在具體“幻覺”評估時,應(yīng)選擇使用針對數(shù)據(jù)集、模型或應(yīng)用情景的不同幻覺來源層面的相關(guān)評估方法。同樣,組織機構(gòu)可采取多種方法緩解大語言模型“幻覺”。如針對數(shù)據(jù)集方面,可以采取數(shù)據(jù)清洗、數(shù)據(jù)增強等操作。針對模型方面,可以采取調(diào)整模型結(jié)構(gòu)、進行模型訓練和微調(diào)、使用專家模型等緩解措施。針對具體應(yīng)用情景方面,可以采取通過提示工程進行引導、基于事實進行指導等緩解措施。三是進行偏見性測評與緩解。在偏見性測評方面,已有針對職業(yè)、年齡、性別、宗教、種族、語言等不同偏見類別的測評數(shù)據(jù)集,組織機構(gòu)可基于自身需求,選擇使用相關(guān)的偏見評估數(shù)據(jù)集完成具體評估工作。如可使用StereoSet英文數(shù)據(jù)集對大語言模型進行職業(yè)、種族與性別等偏見測評。也有多種技術(shù)可以緩解模型偏見,如在預(yù)訓練階段,可以通過調(diào)整模型參數(shù)權(quán)重,應(yīng)用正則化技術(shù)等,確保模型預(yù)測結(jié)果符合句子編碼器關(guān)聯(lián)測試指標(Sentence Encoder Association Test,SEAT)等通用偏見評估基準。此外,還有圍繞詞向量表示、提示詞工程等相關(guān)模型偏見緩解技術(shù)。四是對開發(fā)過程安全進行有效防護,防護對象包括人工智能系統(tǒng)研發(fā)過程中所使用到的全部開發(fā)工具(如機器學習框架、開發(fā)工具鏈等)和開發(fā)與測試環(huán)境,如在2025年3月,開源跨平臺大模型工具Ollama被爆由于其默認配置存在嚴重缺陷,極易導致未授權(quán)訪問與模型竊取等高危安全隱患。具體來說,應(yīng)定期或按需對全部開發(fā)技術(shù)工具集進行安全漏洞檢測與加固及版本控制,并在測試階段對開發(fā)技術(shù)工具進行代碼審計和滲透測試。同時,還應(yīng)基于最小化授權(quán)原則對開發(fā)環(huán)境和測試環(huán)境進行嚴格的訪問控制,以防止算法模型等遭受非授權(quán)的訪問或惡意破壞等。
應(yīng)用保護。組織機構(gòu)應(yīng)在提供人工智能系統(tǒng)應(yīng)用過程中采用認證授權(quán)與審計相關(guān)安全技術(shù)措施,以保障僅有合法授權(quán)用戶才可以正常使用人工智能系統(tǒng),預(yù)防人工智能系統(tǒng)遭受非法訪問。此外,還應(yīng)考慮通過應(yīng)用安全防護網(wǎng)關(guān)技術(shù)對人工智能系統(tǒng)的輸入輸出內(nèi)容進行有效保護。當安全防護網(wǎng)關(guān)檢測到用戶輸入內(nèi)容中包含攻擊指令或違規(guī)信息時,可實時進行攔截及告警,并提醒用戶修改輸入問題。2016年3月25日,微軟推出聊天機器人Tary,但因缺少對用戶輸入內(nèi)容的安全過濾檢測機制致使Tary在短時間內(nèi)接收到海量惡意及歧視性信息,并快速學會了發(fā)表諸如支持納粹、反對女性主義等不當言論,引發(fā)大量用戶不滿,導致微軟當天就關(guān)閉了Tary聊天服務(wù)。另外,當組織機構(gòu)的業(yè)務(wù)應(yīng)用涉及通過人工智能相關(guān)技術(shù)面向公眾用戶群體提供諸如生成合成文字、音視頻、圖像、虛擬現(xiàn)實場景等服務(wù)時,組織機構(gòu)還應(yīng)對生成合成內(nèi)容進行顯式或隱式標識,以支撐實現(xiàn)內(nèi)容制作與傳播各環(huán)節(jié)的追蹤溯源,有效防范對人工智能生成合成技術(shù)的濫用。顯式標識是能夠被用戶明顯看到或聽到的明顯標識,企業(yè)通過添加文本、音頻等人工智能生成合成內(nèi)容顯式標識或交互場景界面顯式標識,提醒用戶所訪問或瀏覽的內(nèi)容屬于人工智能生成合成內(nèi)容。隱式標識是用于記錄生成合成內(nèi)容方面相關(guān)信息,是通過技術(shù)手段在文件數(shù)據(jù)中附加的、不會輕易被用戶明顯感知到的標識信息。同時,組織機構(gòu)還應(yīng)定期開展安全合規(guī)要求解讀、安全技能提升等不同主題培訓,不斷增強整體員工的安全意識和具體安全技能,以確保相關(guān)人員能夠有效執(zhí)行與其工作職責相關(guān)聯(lián)的安全合規(guī)工作。
三、結(jié) 語
為促進人工智能應(yīng)用研發(fā),有效防范人工智能應(yīng)用安全風險,組織機構(gòu)應(yīng)遵循以人為本、智能向善的安全方針,聚焦公平性、可解釋性、透明性、可靠性、可問責等安全目標,針對信息檢索類、個人化推送類、調(diào)度決策類、內(nèi)容過濾類、排序精選類等不同應(yīng)用場景,在人工智能系統(tǒng)生命周期的不同階段,實施算法安全管理、數(shù)據(jù)標注安全管理、人工智能系統(tǒng)生命周期安全管理等安全管理機制,以及運用數(shù)據(jù)集安全檢測、魯棒性測評與增強、應(yīng)用安全網(wǎng)關(guān)防護、安全意識教育與技能培訓等安全技術(shù)措施,以有效落實人工智能應(yīng)用安全合規(guī)治理實踐。
隨著人工智能技術(shù)迭代加速,新型安全風險持續(xù)演變,安全監(jiān)管要求與標準指南的內(nèi)容將會持續(xù)細化與完善。作為國家安全防線的重要組成部分,人工智能安全合規(guī)治理具有長期性、系統(tǒng)性特征,組織機構(gòu)需建立動態(tài)調(diào)適機制,緊密跟蹤外部監(jiān)管政策演進、技術(shù)發(fā)展前沿及自身應(yīng)用迭代,及時優(yōu)化治理策略與實踐路徑,確保人工智能系統(tǒng)始終在合法合規(guī)軌道上運行,切實維護國家安全和社會穩(wěn)定。
(本文刊登于《中國信息安全》雜志2025年第4期)