報告時間:2025年10月16日(星期四)9:00
報告地點:翡翠湖校區(qū)科教樓B501報告廳
報 告 人:董胤蓬 助理教授
工作單位:清華大學人工智能學院
舉辦單位:計算機與信息學院
報告簡介:
隨著大語言模型的能力不斷增強,其在復(fù)雜推理與決策場景中的安全對齊問題愈發(fā)突出。如何在不削弱模型性能的前提下,實現(xiàn)深層次的推理安全與價值觀對齊,已成為當前人工智能發(fā)展的關(guān)鍵挑戰(zhàn)。本報告將圍繞“基于推理增強的大模型安全對齊”展開,探討從推理層面提升模型自我反思與安全約束能力的新思路。將介紹近期在強化模型安全推理、平衡安全與效能、以及多模態(tài)場景下安全對齊的研究進展,并結(jié)合實際應(yīng)用案例展示推理增強在提升模型可信性和穩(wěn)健性方面的潛力。通過這些探索,我們期望推動從結(jié)果導(dǎo)向的安全約束,邁向以推理過程為核心的全面安全對齊范式。
報告人簡介:
董胤蓬,清華大學人工智能學院助理教授。在 TPAMI、IJCV、CVPR、NeurIPS 等期刊和會議上發(fā)表論文60余篇,谷歌學術(shù)引用12000余次,擔任 ICLR、ICML、NeurIPS 領(lǐng)域主席。曾獲得CCF優(yōu)秀博士學位論文、清華大學優(yōu)秀博士后、微軟學者獎學金、百度獎學金等,連續(xù)4年入選全球前2%頂尖科學家榜單。