報告時間:2025年10月16日(星期四)14:00
報告地點:翡翠湖校區科教樓B501報告廳
報 告 人:王翔 特任教授
工作單位:中國科學技術大學
舉辦單位:計算機與信息學院
報告簡介:
隨著大模型的規模與能力持續擴展,其潛在的安全風險與不可控性已成為亟待解決的重大挑戰。傳統的安全對齊方法往往局限于單一階段,難以實現對模型行為的全面、精細化控制。本報告初步嘗試從訓練、對齊到部署的整個生命周期,實現對風險行為的系統性干預。
在訓練階段,引入 AlphaSteer,通過安全優先的激活引導機制,在模型內部表征層面進行早期安全校正;在對齊階段,設計 AlphaAlign,利用安全強化的激勵機制精細化模型的價值觀,確保其行為模式與安全準則深度對齊;在部署階段,開發 AlphaEdit,通過風險觸發的模型編輯技術,對已部署模型的特定風險行為進行實時、原子化的修正。
報告人簡介:
王翔,中國科學技術大學特任教授、博士生導師,國家青年人才。研究興趣涵蓋信息推薦與挖掘、大模型、可信人工智能等。在相關領域的國際頂會(如 SIGIR、WWW、NeurIPS、ICLR)和頂刊(如 IEEE TPAMI、ACM TOIS)上發表論文70余篇,谷歌學術引用3萬余次,H因子60,入選Elsevier中國高被引學者。
其10余篇論文入選國際會議最具影響力論文列表和最佳論文候選。2025年獲ICLR杰出論文獎,2023、2025年兩度獲國際基礎科學大會前沿科學獎,2024年獲ACM SIGIR青年學者獎及吳文俊人工智能自然科學一等獎,同年入選《麻省理工科技評論》MIT TR35榜單與AI100青年先鋒。