-
北大學生團隊打造感知生成一體化多模態大模型系統,讓亞運會展現AI的溫度
2023/10/13 12:59:39 來源:財訊網 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:在最近的杭州亞運會期間,一位智能“導游”吸引了很多的目光。它可不是一般人,它外觀看上去像一輛小車,四個輪子在地面上快速靈活地移動。在最近的杭州亞運會期間,一位智能“導游”吸引了很多的目光。它可不是一般人,它外觀看上去像一輛小車,四個輪子在地面上快速靈活地移動。上面安裝了機械臂,整體約一人高,機械臂上配有攝像頭,以及語音和顯示界面等交互設施,使其能夠對周圍環境和需要執行的任務進行識別與理解。據悉,這臺“導游”機器人系統是由北京大學計算機學院HMI團隊研發,它結合了當前最前沿的AI技術——多模態大模型和具身智能,在亞運會期間,為視障人士提供引領和導航等幫助,并可解析視障人士的需求并完成相應任務,如幫助他們撿拾掉落的物品等,以其獨特的方式,為亞運會的成功舉辦貢獻了力量。
【圖說】北京大學團隊研發的多模態智能愛心助手在亞運會期間服務
「我們研發的這款多模態智能愛心助手,是基于團隊自研的感知生成一體化多模態大模型,該系統能夠精準地感知與理解視覺場景,生成準確豐富的語言描述,實現從人類復雜指令到具體行動的轉化,并基于端云協作大小模型的協同高效微調,提升模型的泛化性,使其可以快速適應新場景。」北京大學計算機學院仉尚航研究員介紹。
「多模態大模型能夠根據語言、2D、3D等多種輸入模態,解析接收到的指令與周圍環境,進行任務拆解并生成相應動作,完成服務任務。希望我們的研究可以用科技創新賦能弱勢群體,讓更多人感受未來科技的溫暖,體驗到亞運會的精彩!
「多模態大模型+具身智能」系統首次落地大型體育賽事
「亞運會上有很多尖端科技的應用,很大程度上增強了運動員的比賽體驗和觀眾的觀賽體驗。」北京大學學生莊棨寧表示:「但在深入研究和觀察后,我們發現對于特定的觀眾群體,如少數民族和殘疾人士,當前的技術并沒有充分滿足他們的需求。少數民族的觀眾可能面臨語言障礙,而殘疾人士可能需要更多的輔助工具或特別的服務,以便更好地享受比賽!
為了解決這一問題,團隊便萌生了研發一個專門服務殘障人士觀賽的AI系統的想法!付嗄B大模型是我們課題組的重點研究方向,我們就在想有沒有可能把多模態大模型和具身智能結合起來,為機器人賦予更加智能的大腦,使其可以將人類復雜需求轉化為具體行動指令。」
「這樣,我們的愛心助手可以更好地與用戶互動,理解他們的需求,并快速做出有針對性的響應,更好地為亞運會弱勢觀眾群體服務,也讓更多人能夠親身體驗到AI科技所帶來的變革與溫暖。」
在仉尚航研究員的指導和支持下,學生們迅速行動起來,并且追求了一種創新的路徑,即設計「感知生成一體化的多模態大模型」,以實現對各種視覺場景的精準地感知與理解,并生成準確豐富的語言描述。
【圖說】:仉尚航研究員(一排左四)和學生團隊成員
同時,團隊還將多模態大模型與具身智能相結合,由于機器人將面對不同場景,需要具備快速適應新場景的泛化能力,為此,團隊設計了基于端云協作的大小模型協同高效微調,提升模型的泛化性,使其可以持續適應不同的場景。
在本次亞運會期間大顯身手的多模態愛心助手,基于團隊自研的感知生成一體化通用多模態大模型,其核心是一個參數量為7B/13B的多模態大模型,該模型集成了視覺基礎模型的泛化感知能力和大語言模型的涌現能力。
例如,聽到用戶說「我渴了」之后,機器人能自動轉身去拿過桌上的一瓶水送到用戶手中。在這個看似簡單的過程中,實際上涉及了一系列復雜的子任務:
. 機器人首先需要捕獲有人說「我渴了」這個語音信號,然后通過語音識別技術將其轉換為文字。
. 機器人需要理解「我渴了」這句話的含義,也就是說,理解說話者此時需要水。
. 然后,機器人需要知道在哪里能找到水,而這需要它對環境有一個良好的感知,利用計算機視覺技術,識別和定位瓶裝水。
. 在確定了瓶裝水的位置后,機器人需要規劃一條到達那里的路徑,這涉及到路徑規劃算法。
. 完成路徑規劃后,機器人需要控制自身的動作,移動到瓶裝水的位置。
. 到達水瓶的位置后,機器人需要準確抓取瓶裝水,這涉及視覺檢測、機器人控制系統和抓取的相關技術。
. 抓取到水后,機器人需要規劃返回的路徑并控制自身的動作,將水送到說話者的手中。
每一個子任務都需要大量的研究和工程實踐。不僅如此,機器人還需要能夠處理在訓練數據中未曾出現過的新情況,也就是說,模型需要具有強大的泛化能力,能夠在新的、未知的環境中有效地工作。
為了提升機器人在開放環境下的持續性泛化能力,團隊構建了一個端云協作的持續學習系統。這一系統的設計旨在兼顧終端計算的個性化、隱私保護和低通信成本等優勢,同時也充分利用云端計算的大規模計算資源、大量標注數據以及卓越的泛化能力。通過高效的數據傳輸和合理的資源分配,實現了高度泛化的大小模型協同學習。
仉尚航研究員表示,「在終端設備上,我們部署了經過壓縮的多模態模型,該模型在進行推理時能夠同時進行不確定性估計。這一智能策略允許我們主動篩選出不確定性較高的樣本,并將它們傳送回云端。這些高不確定性的樣本通常涉及新的數據分布,來自新場景、新環境或新事件等情況,這些都是在開放環境下需要特別重點識別和理解的情形。」
團隊成員劉家銘同學也提及,「一旦這些高不確定性樣本到達云端,我們利用未壓縮的多模態大模型對它們進行深度分析和學習。通過知識蒸餾和高效微調等技術手段,我們將從這些難例樣本中提取的知識傳授給終端上的壓縮模型。這個過程大幅度提高了壓縮后的多模態模型的泛化能力,使機器人在開放世界中能夠不斷適應和理解各種場景!
團隊提出的端云協作持續學習系統,在設計和研發上充分發揮了云端和終端計算的優勢,通過智能的樣本篩選和知識傳遞,實現了機器人在開放環境中持續學習和適應的目標。這一創新的方法顯著提升了多模態大模型的泛化性與高效性,為開放環境中的機器人系統賦予了更強的智能。
科技創新賦能弱勢群體,讓亞運會展現「AI的溫度」
深度學習大模型技術的突破式發展帶來了人工智能研究的革命性變化。預訓練大模型,如 ChatGPT和 GPT-4,成為 AIGC 系統的核心。在基礎設施支撐、頂層設計優化、下游需求旺盛三輪驅動下,人工智能大模型迎來了良好的發展契機。
不過,大模型研究仍處于研究的初期階段,仍存在關鍵科學難題和卡脖子技術亟待解決,包括如何同時處理多種輸入模態,如何進行大規模參數和高效訓練,如何進行遷移學習和大模型微調,如何進行多模態和多任務學習,如何進行跨語言融合,如何進行人機協作等。
團隊這次自研的感知生成一體化通用多模態大模型,已經展現出卓越的一體化處理能力,包括:視覺問答(VQA),能夠對圖像進行自然語言問答;Captioning,能夠為圖像生成描述性文本;行為決策與規劃,具備基于圖像和文本信息進行決策和規劃的能力;以及目標檢測,能夠識別圖像中的特定目標或特征。
「多模態大模型是我們組研究的核心,」北京大學計算機學院博士后王冠群介紹說:「目前也取得了一定的成果,除了這次自研的感知生成一體化通用多模態大模型、大小模型協同訓練與部署,我們還關注多模態生成式大模型Agent設計、大模型記憶機制設計、面向多場景的智能醫療多模態大模型集群、通用大模型適配器等!
據悉,團隊研發的一體化大模型工具鏈(X-Accessory),旨在降低大模型使用門檻,促使各行業從業者能輕松調試大模型,在各自專有領域進化大模型的能力以靈活適配專有需求!肝覀冊谟布洗钶d高算力一體機,同時提供直通云端調取云算力服務的選項,軟件上搭載X-Accessory工具鏈,為用戶提供靈活的大模型調試和應用環境。該工具鏈可用于訓練和部署各類任務,包括但不限于金融知識問答、交通任務調度、醫療推薦等垂直領域的專有任務!
基于多模態大模型,在北京大學計算機學院黃鐵軍教授及仉尚航研究員的指導下,團隊還為本次亞運會研發了一款智能AI賽事解說系統。黃鐵軍教授提出了「脈沖連續攝影原理」,直接用每個像素的定額積分時間表達光強,相機速度取決于電路能夠實現的最短信號讀取時間,顛覆了持續近兩個世紀的定時曝光成像原理,解決了傳統相機不能兼顧超高速、高動態的問題,被中國電子學會鑒定認為是「超高速成像和機器視覺領域的重大原始創新,超高速成像技術達到國際領先水平」。有了高速脈沖相機,就能夠同時實現超高速、高動態、全畫幅連續成像。在此基礎上,團隊通過自研的 X-Accessory一體化大模型工具鏈,設計了多模態多語種視頻解說系統,在亞運會期間用于乒乓球、跆拳道、跳水、體操等賽事。這個解說系統的特點在于,它不僅能夠理解和分析正在進行的比賽,生成實時的解說內容,還可以根據觀眾的喜好提供個性化的解說服務,包括將解說內容翻譯成多種語言,包括維吾爾語、阿拉伯語等,從而為全球各地的觀眾提供豐富的觀賽體驗。
【圖說】北京大學團隊研發的智能賽事解說系統
在高速脈沖相機的加持下,能夠清晰成像高速運動場景,捕捉比賽中的關鍵時刻,針對賽場畫面進行多個語種的解說和報道,讓更多的人了解亞運,特別是提升國內少數民族及國外多語種國家的賽事體驗。
除此之外,團隊還進行多模態生成式大模型Agent設計。當前,多數模型都是單模態的,無法有效地結合視覺、聽覺和文本等多種模態信息。這種局限性在復雜的實際場景,如虛擬助手、機器人交互和智慧城市中,可能導致效果并不理想。「因此,我們開發了一種多模態生成式大模型Agent,將各種模態的優點結合起來,例如視覺的細節捕捉能力、聽覺的時序特性和文本的結構化知識。這樣的綜合性設計將有助于推動生成式模型向更加實用和高效的方向發展,滿足未來多種復雜應用場景的需求!
在更復雜的應用場景,團隊還研究過面向多場景的智能醫療多模態大模型集群。他們設計和實現了一組智能醫療多模態大模型集群,包括面向患者的個性化醫療知識問答多模態時序大模型、面向醫生的臨床影像報告生成多模態大模型和面向導診場景的檢索增強大語言模型,使大模型技術適配臨床場景,滿足患者-醫生-醫院多方訴求,解決行業痛點,推動大模型在醫療領域的落地應用。
在這個科技日新月異的時代,團隊以其深厚的專業知識和創新精神,為亞運會提供了強大的科技支持,也為弱勢群體帶來了實質性的幫助。
未來,團隊將繼續秉持科技向善的原則,不斷深化在多模態大模型的研究和實踐,將AI技術的潛力最大限度地發揮出來,為解決社會問題、改善人們的生活提供更強大的支持。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,郵箱:cidr@chinaidr.com。 -
- 熱點資訊
- 24小時
- 周排行
- 月排行