2024年12月,隨著中央經濟工作會議的召開,中國人工智能(AI)產業迎來重要的政策指導期。在這一背景下,各大科技公司眾彩紛呈。尤其近期,DeepSeek、字節跳動和小米等企業的最新動態,更是為國產AI大模型的商業化應用提供了生動的注解。
最近DeepSeek在AI社區引發軒然大波,其推出了大語言模型DeepSeek-R1及聊天機器人應用。據估算,DeepSeek-R1比OpenAI的ChatGPT-O1模型成本低95%,且計算能力需求僅為Meta的Llama3.1的十分之一。其通過算法創新實現計算能力的優化,突破了美國企業依賴海量數據輸入和龐大計算資源的傳統模式。
其次,字節跳動在其冬季FORCE原動力大會上宣布其自研的大模型“豆包”完成全面升級,推出了新的視覺理解模型。該模型不僅在內容識別和推理能力上表現卓越,而且其服務價格優勢明顯。
而小米則宣布正在建設大型GPU集群,旨在為業務的AI大模型發展提供強有力的支撐。其AI團隊規模已超過3000人,顯現出這一行業龍頭對AI技術未來的重視與投入。隨著算力基礎設施投資的持續增加,AI應用將加速落地,推動整個產業的高速發展[1]。
2024年12月19日,閃極科技發布了AI眼鏡“閃極AI拍拍鏡”,該產品支持接入多種各具特色的大模型,如豆包和文心一言等。2025年1月7日-10日,全球最大的電子消費展CES 2025在美國拉斯維加斯盛大召開。繼去年首次亮相后,李未可科技在此次展會上帶來了即將在春季正式發布的AI拍攝眼鏡MetaLens View,搭載自研多模態AI大模型WAKE-AI。
AI眼鏡的發布標志著端側AI的崛起,一種新的設備終端生態開始形成。未來AI大模型的發展一定是結合不同的應用場景。根據市場研究機構頭豹研究院的測算,預計2028年中國終端AI市場規模將激增至19071億元[2]。
這種趨勢預示著,端側AI技術正在迅速成熟,能夠有效整合于PC、手機、可穿戴設備、車載中控屏等多種智能硬件之中,并應用于多種場景。接下來,將從AI大模型技術應用到多場景的角度進行專利技術的解析。
圖1 閃極AI拍拍鏡[3]
百度在2024年11月發布了小度AI眼鏡產品,其于2023年便布局了相關專利CN116300092B,基于語音交互和智能眼鏡的移動狀態分析用戶意圖,從圖像序列中篩選出用戶感興趣的目標圖像并展示出來便于用戶交互;并基于標記精確定位出用戶感興趣的圖像內容,使得用戶可以較低的復雜度和操作成本在智能眼鏡進行圖像內容搜索,提升了用戶的使用體驗。
又如杭州李未可科技有限公司2024年申請的專利CN118585071B,其公開了基于AR眼鏡的多模態大模型的主動交互系統,同樣將AI大模型技術結合到眼鏡上面。通過集成多種交互模態,包括視覺、語音、手勢和觸覺等,利用先進的數據融合技術和機器學習算法,智能地處理并整合來自不同模態的信息,從而在復雜的使用環境中做出更加準確的決策,其提出的大模型眼鏡能夠識別并量化交互命令中的不確定性,通過觸發輔助交互模態及時介入,確保了交互的準確性。
圖3 李未可眼鏡[5]
現有的問答系統面向通用知識領域,在用戶進行問題搜索時,往往根據用戶問題中的關鍵詞在通用知識領域進行關鍵詞匹配搜索,因此用戶進行問題搜索時,往往不能準確理解用戶的技術術語和問題描述,難以確保提供的答案正確有效。2024年三六零安全科技發布的兒童AI手表,其搭載了360智腦大模型。三六零安全科技2023年布局專利CN116955573B,通過對用戶問題進行關鍵詞提取,再進行知識檢索,從而對用戶問題進行問題描述增強,然后再進行檢索得到答案信息,相對于直接根據用戶問題檢索對應答案信息的方式,能夠提高問題搜索的效率,提高用戶體驗感。
圖4 360兒童AI手表[6]
AI大模型技術融合到PC端和手機端均是從2023年下半年開始的。2023年底,聯想搶先發布全球首款商務AI PC—ThinkPad X1 Carbon AI。2024年3月,蘋果發布最新款MacBook Air,作為其首款AI PC產品,在M3芯片的加持下,macOS提供AI功能。2024年,市場部分PC產品已嵌入了一些AI技術,頭部廠商推出從雙向AI降噪、AI文生圖創作,到搭載AI引擎、AI軟件等功能。
2017年被業內視作“AI手機”元年,蘋果、華為、三星等智能手機廠商紛紛自研AI大模型,全力布局AI手機并發掘更多有價值的AI應用。而在2023年各個智能手機廠商更是眾彩紛呈。如2023年10月26日,高通驍龍8gen3發布,其離線終端可以運行百億參數量大模型。2023年11月,華為宣布手機系統接入盤古大模型,開啟內置大模型的語音助手“小藝”的眾測。vivo推出自研AI大模型矩陣,并在11月發布了首款AI大模型手機X100。OPPO開發者大會上,操作系統ColorOS14正式亮相,首次內置了安第斯大模型(AndesGPT)。
接下來,針對AI大模型技術融合到PC端、手機端的專利技術,從產品的角度進行淺析。
Deepseek是杭州深度求索人工智能基礎技術研究有限公司的子公司,其技術優勢及特點主要是采用混合專家(MoE)架構,如DeepSeek-R1包含256個路由專家和1個共享專家,每個令牌可激活370億個以上參數。共享專家捕捉通用知識,路由專家優化計算資源分配,使模型能更高效地處理各種任務,在保持高性能的同時降低計算成本。另一個相較于其他大模型的優勢在于,DeepSeek采取開源模式,如DeepSeek-R1在MIT許可下發布,開發者可自由訪問、修改和部署技術,提高了模型的透明度,能集眾人之力進行改進,降低了AI應用門檻,吸引了更多開發者和企業參與到基于其模型的開發中。
圖5 Deepseek產品圖
在專利的布局方面,由于公司成立時間較短,以及專利審查的滯后性,目前公開的專利只有1項,即申請日為2024年的CN118246542A,通過將數據集切分為數據序列,以數據序列為單位建立索引,對索引進行操作而不直接操作數據的情況下,實現數據的按比例混合、打亂及切分操作,整個過程不會增加冗余數據存儲,減少對存儲、通信資源的消耗。
文心一言是百度打造出來的人工智能大語言模型,其在人機交互技術和視頻交互技術方面具有一定的優勢。
在人機交互方面,主要基于深度學習的Transformer架構,還涉及情感分析、知識圖譜等算法,支持文本、語音、圖像等多種輸入方式,實現了多模態的交互體驗,使得用戶與機器之間的交流更加自然和便捷。在視頻交互方面,用戶可根據自己的需求,選擇不同的語音、圖像和動畫風格,還能對生成的語音進行語速、音高和音量等方面的調整,生成符合個人喜好的視頻,滿足不同用戶對視頻風格和內容的多樣化需求。
人機交互方面:2024年申請專利CN118606590B,通過瀏覽目標頁面的對象的交互操作,來獲取目標頁面相關頁面信息,并根據大模型處理頁面信息得到的結構化反饋信息來向對象進行展示,從而可以基于結構化反饋信息來實現對頁面信息的展示,使對象可以通過瀏覽結構化反饋信息,來提升用戶的信息獲取效率和信息瀏覽效率,進而提升用戶的多模態交互體驗。
視頻交互方面:2024年申請專利CN118764681B和CN118764682B基于AIGC(中文釋義)技術進行智能對話。基于視頻的內容,采用大語言模型確定交互頁面所關聯的交互對象包括的虛擬對象;虛擬對象與視頻中的角色相對應;以及響應于接收到針對視頻的獲取請求,將視頻以及虛擬對象的標識信息發送給請求視頻的終端設備,進而提升用戶的參與感與沉浸度。
豆包是字節跳動研發的AI大模型,其采用擬人化和真實感的設計,用戶可以通過文字、語音與豆包互動,其高逼真、擬人化的自然語言風格,讓對話更加自然流暢。另外,其在圖像生成方面也有著強大的實力。
在人機交互方面,豆包采用先進的深度學習算法和大規模語料庫訓練,能夠精準解析用戶輸入的自然語言,理解其中的意圖、情感和上下文信息。無論是簡單的問題詢問,還是復雜的指令表達,都能準確把握關鍵信息,并且豆包還支持多語種交互以及多模態交互。在圖像處理方面,利用深度學習中的卷積神經網絡等技術,能夠對各種類型的圖像進行精準分類,識別出圖像中的物體、場景、人物等元素。可以準確判斷圖像是風景、動物、建筑還是其他類別,為進一步的圖像處理和分析提供基礎。其不僅能夠識別圖像中的物體和場景,還能理解圖像所表達的語義信息。通過對圖像中各種元素之間的關系進行分析,能夠推斷出圖像所傳達的故事、情感或主題,實現對圖像更深入的理解。
人機交互方面,2018年布局專利CN108564833B,通過構建目標知識集合,進而確定應答語句的方式能夠保證對話內容在用戶的學習能力范圍之內,進而可以鞏固和提升用戶對知識點的吸收率。此外,針對不同的用戶,根據該用戶對應的目標知識集合,向用戶反饋與用戶輸入的第一源語句對應的第一應答語句,可以滿足不同用戶的個性化交互需求,提升用戶的交互體驗。
圖像處理方面,2019年布局專利CN110475065B,通過基于特效圖像幀的繪制幀率和原始圖像幀的預覽幀率之間的差值,控制圖像預覽過程中用于采集新的原始圖像幀的分辨率,能夠使特效處理過程中分辨率和幀率的智能化平衡,從而使得用戶對相機預覽效果和視頻錄制的滿意度達到相對最佳,并且獲得更優質的使用體驗。
Kimi是北京月之暗面科技有限公司(以下簡稱“月之暗面”)開發的智能助手產品,其具備長文總結和生成、聯網搜索、數據處理、編寫代碼、用戶交互、翻譯等功能。
現有的大語言模型推理方法中,會涉及對同一參數進行多次重復計算,但是,由于大語言推理模型的復雜性,單次推理可能進行上億參數的深度學習推理計算,因此,大量的重復計算會導致浪費計算資源。月之暗面在2024年布局的專利CN118052282A提出了解決方案,通過緩存單元存儲歷史推理請求過程中的推理資源,進而可以在針對當前推理請求過程中,提取歷史推理資源,以減少當前推理過程中重復計算的問題,加快了推理速度,進一步的,通過使用生成的結果字更新當前推理數據,可以使后續結果字的生成更加準確,可以提高推理系統生成自然語言的流暢性和連續性。
車企與科技企業合作可以充分發揮各自的優勢,共同推動智能汽車的發展。例如,百度、字節跳動、商湯科技、科大訊飛等科技企業與理想汽車、小鵬汽車、蔚來汽車等車企都在加快部署大模型“上車”,融合到車載端的大模型可以為新能源汽車更好地賦能:
(1)大模型能夠處理和分析海量的駕駛數據,實現更精準的環境感知、目標識別和路徑規劃。例如,商湯絕影發布的DriveAGI自動駕駛大模型,可讓車輛像人一樣理解復雜的現實世界,洞察各類交通參與者的行為動機,快速學習交通規則,并向用戶解釋駕駛決策的推理過程。
(2)通過對用戶語音、手勢等多模態信息的理解,提供更加自然、便捷的交互方式。例如,百度的文心一言大模型將百度智能座艙升級為Apollo超級座艙,可實現自動理解、構建,并生成相應場景,調度全車能力,理解用戶需求,并主動執行最優全局解決方案。
(3)實時監控車輛的運行狀態和周圍環境,及時發現潛在的安全隱患,并向用戶發出預警。例如,國內汽車安全公司木衛四發布的汽車安全大模型蝴蝶大模型2.0,可以在數百萬輛的汽車異常日志中自動識別黑客攻擊和汽車異常狀況,幫助車企實時識別汽車安全風險。
(4)大模型可以支持更多的娛樂應用,如游戲、視頻、音頻等,為用戶在駕駛過程中提供更多的娛樂選擇。例如,吉利的AI銀河精靈擁有遠程控車、自定義形象、大模型創作等15大功能,還可以根據用戶的駕駛習慣、偏好等數據,提供個性化的服務,如音樂推薦、導航路徑規劃等,提升用戶的滿意度。
在融合到車載端的大模型的專利布局方面,列舉以下企業:
商湯科技主要產品為DriveAGI自動駕駛大模型,在該系列模型的專利技術保護方面如:
2021年,商湯科技布局的專利CN112949827B,提出了神經網絡生成、數據處理,以及智能行駛控制方法。通過確定結構向量對應的梯度向量,基于梯度向量和結構向量確定目標神經網絡,比如利用梯度向量指示的調整信息對結構向量對應的神經網絡結構進行調整,確定目標神經網絡,不需要多次采樣神經網絡結構,提高了生成目標神經網絡的效率。商湯科技將這種方法融合到了自動駕駛方面,通過獲取行駛裝置在行駛過程中采集的圖像或視頻;利用神經網絡檢測圖像或者視頻中的目標對象;基于檢測的目標對象,控制行駛裝置。
圖9 商湯科技產品應用圖[7]
隨著人工智能的發展,智能交互的思想逐漸滲透至生活中的各個方面。在智能汽車領域,現如今逐漸趨向于軟件定義汽車,在大模型自然交互的大背景下,如何更好地提升乘駕體驗,讓汽車更加智能化,成為該領域研究的重點之一,吉利基于自建星睿智算中心,已正式發布全棧自研的全球首個汽車行業全場景AI大模型——吉利星睿AI大模型。
圖10 吉利星睿AI大模型架構圖[8]
車端的算力相對于云端存在較大差距,目前大多是通過對大模型進行云端部署,以實現車端的大模型體驗。但是,在云端部署大模型,由于云端數據交互傳輸會導致車端在實際體驗過程中時延較高;并且,云端部署的大模型與車端進行交互時,對網絡質量的要求較高,但在實際車輛行駛過程中,車載網絡信號不能實現時刻穩定,因此,導致車載交互準確性較差以及車載大模型體驗不夠好。
針對云端部署大模型與車端進行數據交互過程中時延高,以及車載網絡不穩定導致的車載交互不夠及時和準確的問題,吉利在2024年申請了專利CN117891469A,通過云端運行車載大模型,利用用戶終端的大模型框架加載云端運行跑出的參數,從而實現將大模型從云端運行轉移至用戶終端運行,實現了本地化及離線化部署;通過共享用戶終端算力,避免了汽車終端算力不足的問題;另一方面,通過用戶終端與汽車終端進行數據通信傳輸,避免了汽車終端與云端之間網絡信號不穩定而導致的交互不夠及時和準確的問題。
隨著智能座艙技術的發展,出現了實操駕駛分析技術,此技術采集用戶的實操駕駛數據,通過對實操駕駛數據的分析向用戶反饋實操駕駛報告,以使用戶可以更清晰的知道自己的駕駛水平,從而可以有針對性的對自己的駕駛技巧進行訓練。吉利在2024年申請的專利CN118069782A,通過實操駕駛數據和標準駕駛數據對目標對象的駕駛操作進行分析,得到分析結果;根據目標對象的問題和分析結果構建的提示信息有助于指導大模型輸出更具針對性的回復信息。
可以看出,無論是將大模型融合到眼鏡、手表、手環等可穿戴設備上,還是開發適用于手機端、PC端的AI大模型應用,或是將其延伸到發展如火如荼的新能源汽車上,AI大模型均具有較大的發展潛力。
當然,AI技術的快速發展也帶來了一系列挑戰與思考。例如,隨著算力需求的急劇上升,行業如何確保技術的可持續發展、如何應對行業間的競爭加劇、以及如何在法律與倫理的框架下引導技術的應用,都是亟待解決的問題。
總之,國產大模型的崛起與端側AI的廣泛應用,代表著中國AI產業步入了一個新的發展階段。未來,AI大模型不僅將是科技領域的一個關鍵詞,更將是每個人日常生活中不可或缺的伙伴。積極的研發活動和完善的專利布局,能夠助力企業在日趨激烈的市場競爭中占據一席之地。
作者:北京品源知識產權管理咨詢有限公司 張天闊