報告時間:2025年11月9日(星期日)8:30-17:00
報告地點:翡翠科教樓B座501室
舉辦單位:計算機與信息學院(人工智能學院)
學術報告信息(一)
報告題目:Vision-based Autonomous Driving by Imitation Learning
報告時間:2025年11月9日(星期日)8:40-9:10
報 告 人:ANTONIO MANUEL LOPEZ PE?A 教授
工作單位:西班牙巴塞羅那自治大學
報告簡介:
Developing autonomous vehicles requires training and testing AI drivers with supervised data gathered from a wide variety of driving scenarios. We could say that data is the driver in autonomous driving. This talk highlights the work carried out at CVC/UAB to reduce the need for manual data labeling, focusing on the use of sensorimotor models trained through imitation learning. Antonio’s team brings nearly seven years of experience to this field, ranging from simulation with CARLA to deploying real-world vehicles in the Catalan Pyrenees and on the UAB campus. Their research also includes comparative studies of human attention and AI driver attention. In this presentation, we will review the team's research journey on this topic from its beginnings to the present, discussing current achievements and open questions.
報告人簡介:
Antonio has a long trajectory carrying research at the intersection of computer vision, simulation, machine learning, driver assistance, and autonomous driving. Antonio has been deeply involved in the creation of the SYNTHIA and UrbanSyn datasets and the CARLA open-source simulator, all created for democratizing autonomous driving research. Antonio’s team was pioneer on synth-to-real domain adaptation in the late 2010’s. Antonio’s team and colleagues also put the focus on vision-based end-to-end autonomous driving powered by deep imitation learning. Antonio is actively working hand-on-hand with industry partners to bring state-of-the-art techniques to the field of autonomous driving.
學術報告信息(二)
報告題目:安全可信自主駕駛行為策略學習
報告時間:2025年11月9日(星期日)9:10-9:40
報 告 人:薛建儒 教授
工作單位:西安交通大學
報告簡介:
當前,開放、動態環境中的自動駕駛汽車正面臨著在不確定條件下安全可信運行的嚴峻挑戰。為應對挑戰,強化學習與控制理論領域正不斷涌現出自動駕駛安全學習的研究工作。一方面,無人車釋放出全球性、多樣化的大規模數據,有力推動了數據驅動的自動駕駛行為策略學習技術的發展。另一方面,在真實物理世界部署應用無人駕駛必須確保其行為的必安全、可信。本報告將重點討論不確定性條件下自動駕駛安全可信行為的策略學習方法,并展望未來值得關注的一些基礎性問題。
報告人簡介:
薛建儒,博士,西安交通大學教授,中國自動化學會會士和中國圖形圖象學會會士,主要研究領域包括模式識別與機器學習、無人駕駛與混合增強智能等。研究成果獲國家自然科學二等獎和國家技術發明二等獎各1項,教育部和陜西省自然科學一等獎各1項。主要學術兼職有CAA混合智能專業委員會主任委員、CAAI人機融合智能專委會副主任委員、《Frontiers of Information Technology & Electronic Engineering》、《自動化學報》等多個學術期刊編委。
學術報告信息(三)
報告題目:視覺感知與自動駕駛
報告時間:2025年11月9日(星期日)9:40-10:10
報 告 人:魯繼文 教授
工作單位:清華大學
報告簡介:
自動駕駛動駕駛是人工智能與機器人領域的研究熱點,在工業制造、交通運輸、現代服務等領域有著重要的應用前景。報告將介紹自動駕駛視覺感知近年來的主要研究進展,包括視覺場景生成、三維占據預測、端到端自動駕駛、自動駕駛大模型等代表性方法與技術,同時深入分析其優缺點與應用潛能,最后對自動駕駛視覺感知的未來發展趨勢進行展望。
報告人簡介:
魯繼文,清華大學長聘教授、自動化系副主任、全國重點實驗室副主任、IEEE/IAPR Fellow。主要研究方向包括機器視覺與模式識別、人工智能安全與治理、具身智能與機器人,發表IEEE匯刊和CVPR/ICCV/ECCV會議論文300余篇,獲授權國家發明專利60余項,主持國家重點研發計劃項目1項、國家自然科學基金重點項目3項、北京市重點項目2項,獲國家級教學成果獎二等獎1項,省部級科技獎一等獎4項。擔任中國仿真學會理事、視覺計算與仿真專委會主任,中國圖象圖形學學會視覺認知與計算專委會副主任,中國自動化學會專家咨詢工作委員會副主任,國際期刊Pattern Recognition Letters主編,培養6名博士生獲北京市和全國一級學會優秀博士學位論文。
學術報告信息(四)
報告題目:無人駕駛具身交互智能
報告時間:2025年11月9日(星期日)10:30-11:00
報 告 人:馬楠 教授
工作單位:北京工業大學
報告簡介:
無人駕駛離不開車對車、車對路、車對人之間的智能交互,應具有良好的具身智能。然而實際場景中,人們往往對無人駕駛行為不很清楚、對它做出的決策不夠理解。針對復雜、不確定環境下無人駕駛交互認知缺失問題,近年來團隊先后提出一系列人車路協同的無人車智能交互方法,開展多通道跨模態感知和行為理解研究,并設計基于低秩增量大語言模型的開放式座艙用戶行為字典動態構建、多視數據時空高階語義關聯特征的人機協同動作識別、感知-認知-行為閉環反饋的強化學習范式實現了無人車在不斷增長的碎片化場景中的自學習等方法,建立機器與人的交互認知。“自主駕駛+交互認知”,使無人車成為可交互的輪式機器人,更好地服務于人類社會。
報告人簡介:
馬楠,人工智能研究領域專家,北京工業大學信息科學技術學院教授、副院長、博士生導師,智能感知與自主控制教育部工程研究中心副主任,兼任中國人工智能學會副秘書長和教育工作委員會秘書長,CCF杰出會員,是北京市智能制造與機器人技術創新專項負責人和國家級一流本科課程負責人,北京市先進工作者。研究方向為交互認知、具身智能、無人駕駛和移動機器人。以第一完成人先后獲得中國圖象圖形學學會科技進步一等獎、中國電子學會科學技術獎【技術發明類】二等獎;主持多項國家、省部級項目,承擔北汽集團、東風悅享、云跡科技等企業委托無人車、服務機器人智能交互項目10余項。帶領團隊多次在國際、國內人工智能、無人駕駛重要比賽中獲得冠軍,團隊成果“無人駕駛云智能交互系統”獲得第二屆中國“AI+”創新創業大賽總決賽特等獎(2000余參賽隊)。已在IEEE TRO、TIP、TNNLS、TMM、PR、中國科學.信息科學、ACM MM、ICRA等國內外學術期刊、會議上發表論文90余篇。建設了國家級一流本科課程《智能交互技術》,在中國大學MOOC開設13輪次;主編專著和教材5部,其中《智能交互技術與應用》入選“十三五”國家重點出版物規劃教材;先后獲得第六屆全國教育科學研究優秀成果獎二等獎和北京市教學成果一等獎等。
學術報告信息(五)
報告題目:基于認知驅動的自動駕駛3.0
報告時間:2025年11月9日(星期日)11:00-11:30
報 告 人:陳龍 博士
工作單位:小米汽車
報告簡介:
在大模型時代,傳統的基于規則算法的自動駕駛1.0和以數據驅動為核心的端到端自動駕駛2.0正面臨泛化能力瓶頸。它們的感知和決策能力難以處理復雜的長尾場景。如今,以大模型為基礎的認知驅動3.0范式應運而生,它賦予車輛強大的世界認知理解和推理能力,使其能像人類一樣在開放環境中動態決策,從而邁向更高級別的安全與智能。
報告人簡介:
陳龍,本科畢業于大連理工大學,在英國倫敦大學學院(UCL)和英國伯恩茅斯大學獲得碩士和博士學位。曾任職于美國自動駕駛公司,和英國自動駕駛獨角獸公司 Wayve。陳龍博士在 CVPR、ECCV、NeurIPS、ICRA、CoRL 等國際頂級會議發表多篇論文,獲CVPR 2024自動駕駛挑戰賽第一名,并多次受邀為國際研討會主旨演講嘉賓。2025年被評為《麻省理工科技評論》亞太區“35歲以下科技創新35人”。
學術報告信息(六)
報告題目:Physical AI中表征學習的前沿進展
報告時間:2025年11月9日(星期日)14:00-14:30
報 告 人:王乃巖 正高級研究員
工作單位:小米汽車
報告簡介:
通用視覺表征模型在近幾年內迅猛發展,以DINO系列為例,極大拓寬了通用視覺模型的性能和泛化性,但其在自動駕駛與機器人領域仍有諸多難題有待突破。我們認為其核心原因在于現有的多模態特征提取器。現階段常用的特征提取器多基于單幀海量互聯網數據訓練,強于語義理解。然而物理世界的AI需要的特征不僅僅止步于此,還需要對于幾何、運動、時序的理解。現有的大規模視覺和3D預訓練模型方法很難滿足于這樣的需求。在本場演講中,我會介紹我們最近的兩個相關工作,希望能夠啟迪后續的研究工作。
報告人簡介:
王乃巖于2011年本科畢業于浙江大學,2015年博士畢業于香港科技大學,2014 Google PhD Fellow計劃入選者(中國僅四人入選)。他現任職于小米汽車,在此之前任圖森中國CTO,領導了L4自動駕駛卡車的前沿研發。他有超過8年的自動駕駛業界研發經驗,并在計算機視覺與機器學習頂級會議與期刊上發表論文70余篇,發表論文引用次數已超過 23000余次。
學術報告信息(七)
報告題目:NextG Communications for Vehicle Networks
報告時間:2025年11月9日(星期日)14:30-15:00
報 告 人:石怡 副教授
工作單位:美國弗吉尼亞理工學院
報告簡介:
Vehicle networks enable a wide range of emerging and important applications, including safe driving, traffic efficiency, autonomous driving, vehicle diagnostics, software updates, Internet access, and in-vehicle entertainment. However, the frequency band currently allocated for vehicle networks provides only 20 MHz of bandwidth, which is insufficient to meet growing communication demands. There is a pressing need to identify additional spectrum resources for vehicular communications.
With the expansion of 5G and beyond technologies across multiple frequency bands through spectrum sharing, new opportunities have emerged to support the increasing data requirements of vehicle networks. This talk reviews the opportunities and unique challenges associated with the CBRS band and the 4.9 GHz band, and presents spectrum sharing solutions that can enable large-area, reliable communication services for vehicle networks.
報告人簡介:
Dr. Yi Shi is a Research Associate Professor at the Commonwealth Cyber Initiative, Virginia Tech. He is an IEEE Fellow. Before joining Virginia Tech, Dr. Shi was a Senior Lead Scientist at Intelligent Automation, a BlueHalo company. He holds three patents on wireless communications and social networks.
Dr. Shi's current research focuses on machine learning, algorithm design, and optimization for 5G/NextG networks and satellite networks. His work has been published in leading IEEE and ACM journals and presented at top-tier international conferences. He received many paper awards, including the Test of Time Paper Award at IEEE INFOCOM 2023 and the Best Paper Award at IEEE INFOCOM 2008.
Dr. Shi currently serves as a distinguished lecturer for IEEE Vehicular Technology Society, an Editor for IEEE Communications Surveys and Tutorials, and an Editor for IEEE Transactions on Cognitive Communications and Networking. He has also served as a Co-Chair for various IEEE and ACM Workshops, Conference Tracks, and Symposia, as well as a TPC member for many top international conferences.
學術報告信息(八)
報告題目:端到端自動駕駛大模型關鍵技術
報告時間:2025年11月9日(星期日)15:00-15:30
報 告 人:王興剛 教授
工作單位:華中科技大學
報告簡介:
本次報告將介紹我們在構建端到端自動駕駛大模型過程中突破的一些關鍵技術:(1)在基礎架構方面,我們設計了多模態大模型與端到端小模型橋接的快慢雙系統架構Senna,訓練了用于駕駛任務高層次決策的視覺語言模型Senna-VLM;首次將GRPO強化學習技術引入到駕駛高層決策模型的訓練當中,打造了AlphaDrive模型。(2)在駕駛的軌跡解碼方面,提出了DiffusionDrive方法,首次將擴散模型技術成功用于端到端自動駕駛,設計了支持多模駕駛軌跡輸出的截斷擴散模型。(3)在模型的后訓練方面,我們實現了業內首個端到端駕駛模型的強化學習系統RAD,通過采用3DGS來構造真實場景的數字孿生,為端到端駕駛模型提供可靠的強化學習反饋,大幅度提升模型的泛化性能。(4)在自動駕駛世界模型方向,我們提出了可見光和激光雷達聯合建模的多模態擴散模型Genesis。相關的技術均在公司的實際業務系統中取得了很好的應用效果。
報告人簡介:
王興剛,華中科技大學電信學院教授博導。主要從事視覺表征學習、多模態基礎模型、自動駕駛等領域研究,在領域內頂級期刊會議上發表論文60余篇,谷歌學術引用4.5萬次,7篇論文引用超過1000次。獲湖北青年五四獎章、CSIG青年科學家獎、 CAAI吳文俊優秀青年獎、CVM期刊年度最佳論文獎、MIR期刊年度最高引用論文獎、微軟學者獎、互聯網+全國金獎等。現任Image and Vision Computing期刊共同主編、IEEE TPAMI編委、CVPR/ICCV/ AAAI/NeurIPS領域主席等。
學術報告信息(九)
報告題目:以視覺為中心的自駕場景高效預訓練范式及魯棒感知
報告時間:2025年11月9日(星期日)15:50-16:20
報 告 人:李鎮 助理教授
工作單位:香港中文大學(深圳)
報告簡介:
視覺中心的三維感知已成為自動駕駛場景理解的重要方向,但現有技術在高效特征建模、跨任務泛化以及復雜環境下的魯棒性方面仍面臨挑戰。本報告圍繞三項最新工作,系統探討視覺為核心的高效預訓練范式與魯棒感知策略。首先,VisionPAD提出基于錨點式三維高斯渲染(3D Gaussian Splatting)的自監督預訓練框架,結合體素速度估計與多幀光度一致性,在純圖像監督下高效學習幾何與運動表征,顯著提升3D檢測、占據預測及地圖分割性能。其次,SQS將高斯渲染式預訓練引入稀疏查詢感知模型(SPMs),設計適應性高斯查詢及查詢交互模塊,實現任務查詢與先驗查詢的高效融合,在占據預測和3D目標檢測上超越現有稀疏感知方法。最后,針對真實駕駛環境中的天氣、光照等分布偏移,DriveGEN利用訓練自由的可控文本到圖像擴散生成,結合自原型特征提取與原型引導擴散,提升數據增強的幾何保真度,在多類OOD場景下大幅提高視覺中心3D檢測的魯棒性。這些工作形成了從高效預訓練到穩健感知的完整技術鏈,為未來端到端自動駕駛的安全與性能提升提供了新的思路與工具。
報告人簡介:
李鎮博士,現任香港中文大學 (深圳)理工學院助理教授, 深圳市未來智聯網絡研究院助理院長,理工學院計算機信息工程理學碩士項目主任。李鎮博士獲得香港大學計算機科學博士學位 (2014-2018年),他還于2018年在芝加哥大學擔任訪問學者。李鎮博士榮獲2023年IROS最佳論文Finalist,6次獲得公開競賽/數據集冠軍等。李鎮博士還獲得了來自于國家、省市級以及工業界的科研項目(如華為青年科學家獎勵捐贈、騰訊犀牛鳥項目等)。他領導了港中深的Deep Bit Lab(https://mypage.cuhk.edu.cn/academics/lizhen/),其主要的研究方向是三維視覺,深度學習等基礎理論算法研究,并致力于將人工智能算法推廣應用于交叉學科,自動駕駛,具身智能,醫學大數據分析等場景中,在該方向著名國際期刊和會議發表論文80余篇,包括頂級期刊Cell Systems, Nature Communications, T-PAMI, IJCV, TMI, TVCG, TNNLS等,以及頂級會議CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML,IROS, ACM MM, AAAI, IJCAI, MICCAI等。李鎮博士擔任IEEE Transactions on Mobile Computing、IROS副編、ICLR2024 AC以及眾多頂刊頂會的審稿人,李鎮博士還是廣東院士聯合會腦科學與類腦智能專委委員,VALSE、MICS、CSIG-MV、3DV專委會等學術組織的委員。
學術報告信息(十)
報告題目:面向自動駕駛的圖像語義分割
報告時間:2025年11月9日(星期日)16:20-16:50
報 告 人:袁曉輝 教授
工作單位:美國北德克薩斯州大學
報告簡介:
街景理解在自動駕駛、交通感知和城市規劃等諸多應用中發揮著重要作用。為了實現場景及物體的理解,圖像目標需要被分割并分類,即圖像語義分割。在語義分割中,像素的鄰域往往呈現出目標的典型上下文。要正確完成目標分割,通常不僅需要依賴目標自身的特征,還必須結合其上下文信息。在深度網絡中,解碼器是語義分割中的關鍵元素。現有方法在特征提取時依賴有限的感受域,忽視了周邊上下文信息,這可能導致對復雜場景的理解錯誤。此外,在滿足實際應用需求時,還必須在上下文信息和計算成本之間進行權衡。為了解決這些問題,我們提出了一種空間格狀注意力解碼器網絡,該網絡采用輕量級解碼器結合空間格狀注意力,在語義分割中實現高效計算。
報告人簡介:
袁曉輝受聘為北德克薩斯大學終身教授,計算機視覺和智能系統實驗室主任。他已經主持了20多項由美國科學基金等多個機構支持的科研項目。其研究結果已經發表在240余篇期刊及國際會議中。他于2008年獲得Ralph E. Powe 教授獎,并多次獲得美國空軍訪問教授獎。他在多個國際雜志中擔任副主編、編委會成員和客座編委,并在多個國際會議中擔任主席、組織成員和會場主席。是NASA、NSF、NIH和路易斯安那州教育委員會科研項目的項目評委。