以下文章來源于同路人TJ ,作者Trusted AI TJ
同濟(jì)大學(xué)交通運(yùn)輸工程學(xué)院黃世澤老師團(tuán)隊(duì)交流共享平臺(tái)
3月23-24日,“2024全球開發(fā)者先鋒大會(huì)”(GDC)在上海徐匯盛大開幕。大會(huì)由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦。以“模速空間——開發(fā)者的模力之源”為主題,促進(jìn)全球范圍內(nèi)最尖端技術(shù)、最熱門議題和最先鋒人才的深入交流與對(duì)話,以上海模速空間創(chuàng)新生態(tài)社區(qū)為抓手,不斷優(yōu)化生態(tài)環(huán)境,引導(dǎo)全球頂尖人才向上海匯聚,助推上海成為高科技產(chǎn)業(yè)高地[1]。作為國內(nèi)人工智能發(fā)展高地,上海將支持通用大模型和垂直大模型的研發(fā),推動(dòng)大模型在金融、教育、醫(yī)療等典型領(lǐng)域的垂直應(yīng)用。
主會(huì)場(chǎng)攝影圖像
陳杰副市長(zhǎng)致辭
大會(huì)期間,同濟(jì)大學(xué)交通運(yùn)輸工程學(xué)院黃世澤副教授(中凱科技股份首席技術(shù)官)受邀參加全球開發(fā)者先鋒大會(huì)數(shù)字城軌論壇“軌交大模型與可靠性工程”。
主題報(bào)告
參與討論
論壇合照
黃世澤副教授(中凱科技股份首席技術(shù)官)在會(huì)議上發(fā)表演講“視覺大模型及其在軌道交通弓網(wǎng)視頻處理中的應(yīng)用”,介紹了團(tuán)隊(duì)長(zhǎng)期從事的軌道交通智能運(yùn)維相關(guān)研究,以及將視覺大模型應(yīng)用在軌道交通智能運(yùn)維的相關(guān)工作,包括將Segment Anything Model(SAM)[2]應(yīng)用于弓網(wǎng)支撐裝置的分割,將Recognize Anything Model(RAM)[3]應(yīng)用于列車運(yùn)行環(huán)境的感知,以及對(duì)視覺大模型本質(zhì)安全的探究。充分利用視覺大模型的優(yōu)勢(shì),從已有的視頻資源中挖掘大量有效信息并進(jìn)行整合,在不需額外標(biāo)注的情況下提取場(chǎng)景的語義信息,以輔助軌道交通智能運(yùn)維工作。
Part.1/ 成功將SAM應(yīng)用于弓網(wǎng)支撐裝置分割
1. 成功將SAM應(yīng)用于弓網(wǎng)支撐裝置分割
根據(jù)《高速鐵路接觸網(wǎng)運(yùn)行檢修規(guī)則》,接觸網(wǎng)零部件故障可能不會(huì)直接引起接觸網(wǎng)跳閘等,但卻導(dǎo)致接觸網(wǎng)系統(tǒng)整體可靠性下降,增加事故隱患,這些零部件及設(shè)備的技術(shù)狀態(tài)直接關(guān)乎高速鐵路接觸網(wǎng)的運(yùn)行安全。弓網(wǎng)支撐裝置分割效果會(huì)直接影響基于計(jì)算機(jī)視覺的零部件狀態(tài)監(jiān)測(cè)的檢測(cè)效果,從復(fù)雜多變的背景中準(zhǔn)確提取弓網(wǎng)支撐裝置是后續(xù)零部件狀態(tài)監(jiān)測(cè)的重要基礎(chǔ)。
弓網(wǎng)支撐裝置分割任務(wù)存在像素級(jí)數(shù)據(jù)標(biāo)注工作量大、背景復(fù)雜多變、天氣情況多樣、弓網(wǎng)幾何結(jié)構(gòu)多樣的問題,針對(duì)存在的難點(diǎn),團(tuán)隊(duì)提出基于SAM實(shí)現(xiàn)對(duì)車載視頻的全景分割方法,實(shí)驗(yàn)表明基于SAM模型的半監(jiān)督弓網(wǎng)支撐裝置分割方法效果較好,分割示例如下:
圖:基于SAM的弓網(wǎng)支撐裝置分割效果
Part.2/ 探索RAM對(duì)列車運(yùn)行環(huán)境的感知效果
列車運(yùn)行環(huán)境感知依賴于傳感器收集數(shù)據(jù)信息并分析,以實(shí)現(xiàn)狀態(tài)監(jiān)測(cè)和故障診斷,但存在大量“同質(zhì)化”傳感器,同時(shí),受制于成本、空間的限制,難以布設(shè)新傳感器。海量弓網(wǎng)視頻的信息有待發(fā)掘,基于弓網(wǎng)視頻實(shí)現(xiàn)列車運(yùn)行環(huán)境感知可以充分利用現(xiàn)有資源,在不耗費(fèi)額外資源的前提下實(shí)現(xiàn)對(duì)于環(huán)境的感知。傳統(tǒng)深度學(xué)習(xí)方法采用人工構(gòu)建的分類樣本集作為訓(xùn)練數(shù)據(jù),耗時(shí)耗力,并且難以窮盡所有分類與識(shí)別環(huán)境細(xì)節(jié)。
基礎(chǔ)模型RAM擁有“識(shí)別一切”能力,無需人工標(biāo)注,可以高精度識(shí)別任何常見類別?;赗AM的識(shí)別結(jié)果,通過分析標(biāo)簽時(shí)序圖特征整體可以感知列車全過程運(yùn)行環(huán)境,感知結(jié)果與列車實(shí)際運(yùn)行環(huán)境吻合度較高,示例如下:
圖:列車運(yùn)行環(huán)境感知示例
未來,團(tuán)隊(duì)將繼續(xù)探究視覺大模型在環(huán)境感知方面的應(yīng)用,研究大模型在不同的視覺語義理解場(chǎng)景中的應(yīng)用,并為軌道交通領(lǐng)域的多模態(tài)融合感知提供研究基礎(chǔ)。
Part.3/ 探究視覺大模型的本質(zhì)安全威脅
團(tuán)隊(duì)聚焦列車行駛環(huán)境感知場(chǎng)景下的對(duì)抗樣本攻防問題,圍繞列車(有軌電車)行駛環(huán)境感知對(duì)抗樣本攻防目標(biāo),障礙物檢測(cè)、軌行區(qū)識(shí)別以及交警指揮行為姿態(tài)估計(jì)場(chǎng)景,解決對(duì)抗樣本攻擊下列車行駛環(huán)境可信感知科學(xué)問題。針對(duì)SAM模型,團(tuán)隊(duì)提出具有提示間遷移性的對(duì)抗攻擊方法,攻擊效果如下:
研究表明,SAM等視覺大模型與其他深度學(xué)習(xí)方法一樣,存在對(duì)抗樣本風(fēng)險(xiǎn),對(duì)此,團(tuán)隊(duì)也將聚焦大模型安全性,考慮對(duì)抗樣本對(duì)于大模型的風(fēng)險(xiǎn),同步實(shí)現(xiàn)對(duì)抗樣本防御,為平穩(wěn)度過技術(shù)迭代升級(jí)時(shí)期提供支撐。
Part.4/ 展望
新一代模型最強(qiáng)的能力是生成,例如,Sora可以生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。這對(duì)于稀缺樣本生成擴(kuò)充、提供感知算法測(cè)試場(chǎng)景、自動(dòng)構(gòu)建數(shù)字孿生場(chǎng)景均提供了潛在有力的工具。
圖:生成模型的用途場(chǎng)景展望
會(huì)議結(jié)束后,中車、卡斯柯等企業(yè)圍繞上述研究的落地展開了進(jìn)一步交流。未來,探究大模型在軌道交通領(lǐng)域智能運(yùn)維的應(yīng)用與發(fā)展,將是團(tuán)隊(duì)繼續(xù)追尋的目標(biāo),期待各位專家的指導(dǎo)。
中凱科技致力于智能監(jiān)控管理平臺(tái)的研發(fā),實(shí)現(xiàn)企業(yè)管理的數(shù)字化,用數(shù)據(jù)為企業(yè)賦能,全面提升企業(yè)管理水平。
同濟(jì)大學(xué)和浙江中凱20余年持續(xù)合作,未來將探索視覺大模型引入到中凱的監(jiān)控管理平臺(tái)。