一 概述
�2017年Transformer架構(gòu)誕生,大模型便踏上了迅猛�(fā)展的征程。從�(shù)量來(lái)�,全球大模型�(chuàng)新節(jié)奏持�(xù)加快�2023年,全球基礎(chǔ)模型�(shù)量較2022年實(shí)�(xiàn)翻倍增�(zhǎng)�2024�,創(chuàng)新活力持�(xù)釋放,新增或迭代的基�(chǔ)模型近百�(gè)。據(jù)2025�7月世界人工智能大�(huì)最新數(shù)�(jù)顯示,全球已�(fā)布大模型總數(shù)�(dá)3755�(gè),其中中�(guó)�(fā)�1509�(gè),位居首��7�31日召�(kāi)的國(guó)�(wù)院常�(wù)�(huì)議審議通過(guò)《關(guān)于深入實(shí)施“人工智�+”行�(dòng)的意�(jiàn)�,提出要深入�(shí)施“人工智�+”行�(dòng),推�(dòng)人工智能在經(jīng)�(jì)社會(huì)�(fā)展各�(lǐng)域加快普及、深度融�,形成以�(chuàng)新帶�(yīng)�、以�(yīng)用促�(chuàng)新的良性循�(huán)�
從技�(shù)能力�(lái)�,大模型的技�(shù)能力邊界不斷拓展。從最初簡(jiǎn)單的文本處理,逐步向多模態(tài)�(lǐng)域延�,如今已能實(shí)�(xiàn)文本、圖�、音頻等跨模�(tài)�(nèi)容的理解和涌�(xiàn)。目�,已�(jīng)出現(xiàn)了一批以大模型為基礎(chǔ)、多智能體協(xié)作的技�(shù)解決方案,正在向通用人工智能快速演�(jìn)�
從產(chǎn)�(yè)�(yīng)用來(lái)看,大模型與傳統(tǒng)�(chǎn)�(yè)融合速度顯著加快。自2025年初DeepSeek在全球范圍引�(fā)熱潮以來(lái),大模型在政�(wù)、醫(yī)�、互�(lián)�(wǎng)、教育等垂直�(lǐng)域落地生�,不僅重塑了傳統(tǒng)�(chǎn)�(yè)的生�(chǎn)模式與服�(wù)形態(tài),更成為�(shù)字經(jīng)�(jì)高質(zhì)量發(fā)展的重要?jiǎng)恿�?/div>
然�,大模型的迅速發(fā)展也帶來(lái)了一系列�(yán)峻的安全�(wèn)�,貫穿模型的全生命周�。在�(guó)�(wù)院常�(wù)�(huì)議中,特別強(qiáng)�(diào)要提升安全能力水�,加快形成動(dòng)�(tài)敏捷、多元協(xié)同的人工智能治理格局�
� 大模型安全風(fēng)�(xiǎn)分析
隨著大模型技�(shù)與產(chǎn)�(yè)�(chǎng)景的深度融合,其安全�(fēng)�(xiǎn)已從技�(shù)層面延伸至業(yè)�(wù)全鏈�,既包含�(nèi)生隱�,也衍生出對(duì)物理世界的直接威�。全面梳理這些�(fēng)�(xiǎn),并�(gòu)建系�(tǒng)性防�(hù)方案,成為大模型健康�(fā)展的�(guān)��
從技�(shù)層面看,大模型安全風(fēng)�(xiǎn)首先體現(xiàn)在技�(shù)本身的“先天不足�,即�(nèi)生安全問(wèn)�,包含模型魯棒性差、算法黑箱特性顯�,加之大模型特有的“幻�(jué)”問(wèn)題。在�(yīng)用過(guò)程中,這些�(nèi)生安全問(wèn)題會(huì)得以顯現(xiàn),即衍生安全�(wèn)�,包括模型誤�、濫用導(dǎo)致的虛假信息泛濫、決策偏差等。這些�(wèn)題已�(kāi)始對(duì)金融、工�(yè)等核心領(lǐng)域的�(yè)�(wù)連續(xù)性構(gòu)成威脅——例如工�(yè)制造中,模型決策偏差可能沿生產(chǎn)鏈路放大,引�(fā)連鎖反應(yīng)甚至�(yè)�(wù)中斷�
從全生命周期�,安全風(fēng)�(xiǎn)貫穿始終。在模型選型與測(cè)試評(píng)估階段,�(kāi)源模型易遭投�、契合場(chǎng)景需求的系統(tǒng)性安全測(cè)試評(píng)估方法、測(cè)試數(shù)�(jù)、工具缺失的�(wèn)題嚴(yán)重,傳統(tǒng)的基于規(guī)則的判斷模式難精�(zhǔn)衡量大模型的安全�(wèn)�。在模型�(xùn)�/微調(diào)階段,訓(xùn)練或微調(diào)�(yǔ)料若含違法不良信息等敏感�(shù)�(jù)�(huì)污染模型,缺乏模型安全對(duì)齊機(jī)制可能導(dǎo)致模型輸出易失控,這也成為了模型在�(yīng)用過(guò)程中�(fēng)�(xiǎn)的最直接根源。在上線(xiàn)服務(wù)階段,模型部署依�(lài)的推理框架等軟件�(huán)境普遍存在漏洞缺�,模型魯棒性差、智能體等上層應(yīng)用防�(hù)不完�,可能導(dǎo)致數(shù)�(jù)泄露等嚴(yán)重危害。在更新、下�(xiàn)�(xiāo)毀階段,緩存數(shù)�(jù)、臨�(shí)文件可能干擾新模型運(yùn)�,模型文件、權(quán)�、緩存等信息則需妥善�(xiāo)毀。盡管更新下�(xiàn)階段�(fēng)�(xiǎn)暫時(shí)�(méi)完全顯現(xiàn),但隨著技�(shù)�(yīng)用的不斷深入,會(huì)在未�(lái)呈現(xiàn)出實(shí)際危��
與傳�(tǒng)信息系統(tǒng)安全相比,大模型安全的攻防焦�(diǎn)延續(xù)了傳�(tǒng)安全的核心要素——硬�、數(shù)�(jù)。防火墻、數(shù)�(jù)泄露防護(hù)(DLP)等工具�(jīng)改造后仍可�(fā)揮作�,傳�(tǒng)的“識(shí)�-�(píng)�-管理-持續(xù)改�(jìn)”的�(fēng)�(xiǎn)管理框架依然適用。但大模型也帶來(lái)了新的威脅:如攻擊手段已�(shí)�(xiàn)智能化迭代,攻擊者可通過(guò)大模型自�(dòng)演化攻擊模式,突破傳�(tǒng)邊界防護(hù);業(yè)�(wù)系統(tǒng)的復(fù)雜度提升,“云邊端”一體化架構(gòu)�,一次攻擊可能導(dǎo)致多�(gè)�(yè)�(wù)系統(tǒng)中斷;防�(hù)和應(yīng)�(duì)成本大幅攀升,�(jù)�(tǒng)�(jì)�2023年全球AI�(wǎng)�(luò)安全支出�240億美�,預(yù)�(jì)2030年增�1330億美��
此外,大模型安全�(fēng)�(xiǎn)還呈�(xiàn)出多維復(fù)雜交織的新態(tài)�(shì)。風(fēng)�(xiǎn)載體從傳�(tǒng)硬件、數(shù)�(jù)�(kuò)展至模型、智能體等新�(duì)�,數(shù)�(jù)層面的投�、對(duì)抗樣本有可能造成模型后門(mén)植入,或致使推理決策的重大錯(cuò)�。模型黑�、幻�(jué)特性導(dǎo)致內(nèi)容生成過(guò)程中的風(fēng)�(xiǎn)不可�(yù)�(jiàn)。智能體因形�(tài)多樣、協(xié)議不�(tǒng)一、權(quán)限控制能力不�,難以用�(biāo)�(zhǔn)化手段防�(hù)。同�(shí),在�(fēng)�(xiǎn)檢測(cè)�(píng)估方面,缺乏�(tǒng)一的標(biāo)�(zhǔn)、工具和�(dòng)�(tài)�(jiān)控方�。這些都需要新的管理思路和技�(shù)手段�(jìn)行應(yīng)�(duì)�
� 大模型安全“工具箱�
大模型安全“工具箱”作為一套集成全流程安全技�(shù)�(chǎn)品和工具的綜合解決方�,以“攻-�-防”全流程為核心思路,覆蓋大模型生命周期的主要環(huán)節(jié),形成了涵蓋“智鑒”大模型安全檢測(cè)平臺(tái)、“智鉞”大模型安全自動(dòng)化仿真驗(yàn)證平�(tái)和“智盾”大模型安全加固防護(hù)方案的產(chǎn)品服�(wù)矩陣,實(shí)�(xiàn)�(fēng)�(xiǎn)“發(fā)�(xiàn)-�(píng)�-加固-�(yàn)證”閉�(huán)�(jī)制,確保大模型在全生命周期的安全��
“智鑒”大模型安全檢測(cè)平臺(tái)聚焦于大模型基礎(chǔ)�(huán)境和模型�(yīng)用過(guò)程中輸入輸出�(nèi)容的安全檢測(cè)。大模型基礎(chǔ)�(huán)境檢�(cè)針對(duì)大模型研�(fā)和部署環(huán)節(jié)安全�(wèn)�,通過(guò)代碼掃描、漏洞和軟件成分,發(fā)�(xiàn)模型�(huán)境的安全�(fēng)�(xiǎn)。模型輸入輸出內(nèi)容安全檢�(cè)重點(diǎn)針對(duì)模型接收和產(chǎn)生的�(nèi)容,包含有害、商�(yè)或技�(shù)敏感信息�
“智鉞”大模型安全自動(dòng)化仿真驗(yàn)證平�(tái)主要用于�(duì)大模型提供自�(dòng)化的安全�(píng)估支�。在�(cè)試能力方�,支持自�(dòng)化調(diào)用模型接�,無(wú)需人工干預(yù)即可完成攻擊�(cè)試,�(cè)試完成后,可自動(dòng)生成包含�(cè)試過(guò)程、結(jié)�、安全問(wèn)題及改�(jìn)建議的評(píng)估報(bào)告,為應(yīng)用方提供清晰直觀的結(jié)�。在�(cè)試數(shù)�(jù)方面,平�(tái)集成了百�(wàn)量級(jí)�(cè)試數(shù)�(jù)和近百種攻擊方法模板。同�(shí),還可結(jié)合用�(hù)需求,定制化開(kāi)展數(shù)�(jù)制作和評(píng)估模型建�(shè)工作,滿(mǎn)足場(chǎng)景化安全�(cè)試需��
“智盾”大模型安全加固防護(hù)方案依托積累的海量大模型安全�(shù)�(jù),采用模型微�(diào)�(duì)齊和安全知識(shí)�(kù)增強(qiáng)等手段�(jìn)行模型對(duì)齊防�(hù),提升大模型自身安全能力,同�(shí)兼顧大模型原本的通用能力,避免安全加固對(duì)模型功能造成�(fù)面影�。經(jīng)�(shí)踐驗(yàn)證,“智盾”方案能顯著提升大模型的安全性能,多�(gè)�(kāi)源大模型被攻擊成功概率下降超�(guò)30�(gè)百分�(diǎn),最高超�(guò)70�(gè)百分�(diǎn)。此�,還支持�(duì)大模型�(jìn)行語(yǔ)意層面的�(quán)限控制,防止不同�(quán)限人員使用同一套模型的�(guò)程中造成的數(shù)�(jù)未授�(quán)�(fǎng)�(wèn)�(wèn)��
目前,工具箱中的�(chǎn)品已�(jīng)服務(wù)于能源行�(yè)多�(gè)用戶(hù)單位�(kāi)展大模型安全檢測(cè)、防�(hù)等工�,特別支撐了煤炭科學(xué)研究院太�(yáng)石礦山大模型,完成了生成式人工智能服�(wù)上線(xiàn)備案工作�
� �(jié)�(yǔ)
未來(lái),大模型、智能體必將與業(yè)�(wù)生產(chǎn)�(huán)節(jié)�(shí)�(xiàn)更加深度的融合。因�,為推動(dòng)新技�(shù)的深度融�,可通過(guò)�(duì)�(chǎng)景�(jìn)行風(fēng)�(xiǎn)分級(jí)分類(lèi)�(píng)估的方式,全面梳理并最終形成技�(shù)落地的路�(xiàn)�,再配合技�(shù)手段�(jìn)行檢�(cè)、監(jiān)�(cè)、防�(hù),實(shí)�(xiàn)大模�、智能體與傳�(tǒng)行業(yè)的深度融��












