王翔: 大模型可控安全初探

發布時間：2025-10-13

點擊：

來源：計算機與信息學院

報告時間：2025年10月16日（星期四）14:00

報告地點：翡翠湖校區科教樓B501報告廳

報告人：王翔特任教授

工作單位：中國科學技術大學

舉辦單位：計算機與信息學院

報告簡介：

隨著大模型的規模與能力持續擴展，其潛在的安全風險與不可控性已成為亟待解決的重大挑戰。傳統的安全對齊方法往往局限于單一階段，難以實現對模型行為的全面、精細化控制。本報告初步嘗試從訓練、對齊到部署的整個生命周期，實現對風險行為的系統性干預。

在訓練階段，引入 AlphaSteer，通過安全優先的激活引導機制，在模型內部表征層面進行早期安全校正；在對齊階段，設計 AlphaAlign，利用安全強化的激勵機制精細化模型的價值觀，確保其行為模式與安全準則深度對齊；在部署階段，開發 AlphaEdit，通過風險觸發的模型編輯技術，對已部署模型的特定風險行為進行實時、原子化的修正。

報告人簡介：

王翔，中國科學技術大學特任教授、博士生導師，國家青年人才。研究興趣涵蓋信息推薦與挖掘、大模型、可信人工智能等。在相關領域的國際頂會（如 SIGIR、WWW、NeurIPS、ICLR）和頂刊（如 IEEE TPAMI、ACM TOIS）上發表論文70余篇，谷歌學術引用3萬余次，H因子60，入選Elsevier中國高被引學者。

其10余篇論文入選國際會議最具影響力論文列表和最佳論文候選。2025年獲ICLR杰出論文獎，2023、2025年兩度獲國際基礎科學大會前沿科學獎，2024年獲ACM SIGIR青年學者獎及吳文俊人工智能自然科學一等獎，同年入選《麻省理工科技評論》MIT TR35榜單與AI100青年先鋒。

上一篇：周輝：全球人工智能法律治理

下一篇：黃爽: 星火大模型應用落地的安全挑戰與實踐

本月熱點