人機交互遊戲規則即將改變
誰能想到,大模型風暴襲來,鋼鐵俠裏的賈維斯儼然成了最忙碌的“漫威英雄”(手動狗頭)。
原因無他,實在是超級助手這個概念太火爆,從手機到PC再到智能座艙,哪裏都要被cue上一輪。
甚至連硬件本身的形態,都因此出現了新的變化。
比如火爆國內外社交媒體的
AI 引腳
,就充分展示了什麼叫“你的下一個手機,何必是手機”。
這麼一個類似徽章的小玩意兒,由高通芯片驅動,內置以大模型技術爲基礎的智能語音助手。
即使沒有屏幕和按鍵,依靠諸多傳感器和智能“大腦”,它一樣可以幫你完成打電話、寫短信、發郵件、記錄世界的操作。
目前,AI Pin背後的公司Humane已經拿下2.3億美元融資,最新估值達到8.5億美元。
事實上,無論是擠佔各大手機廠商發佈會最重要版面的大模型智能助手,還是AI Pin這樣更徹底的硬件創新,如果我們透過現象去分析本質,就會發現,核心的變化還是:
隨着大模型和AIGC技術的火爆,
交互方式變革的序幕,已經被不可逆轉地拉開
。
而第一波創新機遇,正在智能終端上有所體現。
AIGC時代,交互方式變了
儘管距離真正的“賈維斯”還有不小的距離,但對於智能終端行業而言,在大模型技術的衝擊之下,交互方式已經發生了兩重變化:
第一重,是人與機器之間交互方式的改變;第二重,則體現在機器與機器的相互聯通之上。
人機交互方式變革
,在ChatGPT掀起風暴之初,就受到科技界的廣泛關注。
原因很簡單:從命令行,到GUI(圖形用戶界面),再到純自然語言交互,最新科技的使用門檻越來越低的同時,也意味着一切應用乃至設備,都將迎來重構。
而正如移動互聯網催生了如抖音這樣的現象級App,
“重構”背後,新的跨時代殺手級App,甚至是殺手級設備的涌現,開始成爲可能
。
觀察行業動向,不難發現對於場上玩家而言,把握先機已然成爲共識。
而最先被看好的超級助手雛形,就是智能語音助手。
像是微軟,就直接用大模型驅動的Copilot,取代了Windows系統原有的語音助手Cortana。
更不用提各大手機廠商。大模型/AIGC技術驅動下的智能語音助手,儼然已成各大發佈會上的新C位,取代影像成爲了智能手機的最新“卷”點。
相較於已然被熱烈討論、實踐的人機交互新範式,
機器與機器之間交互方式的改變
,較少被提及,但實際上,大模型這個“機器大腦”也正在物聯網(IoT)中掀起變革風暴。
在過去,受限於物聯網場景的碎片化,“一事一議”的模式很大程度上影響了AI算法應用落地的進程和有效性。
換句話說,就是各種終端傳感器,缺少一個能真正統籌全局的“大腦”。
而大模型的智能涌現,恰恰填補了這一空缺,能將其他智能終端作爲“感官”更好地聯動起來。
2023年科技界的另一大熱門話題“
具身智能
”,其實就是大模型與IoT設備碰撞的實例。
人類與機器的交互,機器與機器的互聯,大模型時代,“萬物互聯”無疑有了更具象的進展。
那麼,問題來了,要更進一步通往真正的超級助手,並在新的競爭浪潮中取得先機,還有哪些重點信息需要關注?
底層技術加速交互方式變革
任何一項技術的大規模應用,不外乎可以從
載體
和
實現路徑
兩方面來觀察。
對於超級助手而言,載體即智能終端,涉及
硬件算力和軟硬件協同技術
;至於實現路徑,當下最可能、也最有潛力的技術之一,就是
以大模型爲代表的AI技術了
,而走在這樣路徑之下的時代,如今我們也稱之爲「模力時代」。
首先來看智能終端爲核心的載體。
橫向從終端技術來看,對於超級助手而言,作爲載體最關鍵的衡量標準有兩點,計算和連接。
計算
,以芯片爲代表的各設備的AI計算能力,也是能否承載超級助手的關鍵。
以當下在智能終端領域佔據主導話語權的
高通
爲例。
這幾天,高通的端側運行百億模型能力又成了熱門話題,還被英偉達高級AI科學家Jim Fan轉發:
我們正在進入一個新時代。在這個時代,移動芯片的性能不是通過GHz來衡量的,而是通過Llama 2的tokens生成速度來衡量的。大語言模型是新的智能手機操作系統!
這種AI計算能力,具體又可以分爲手機和PC兩方面。
一方面,以第三代驍龍8移動平臺爲代表的芯片,正在進一步增強手機計算生成式AI的能力。
如高通AI引擎中最核心的Hexagon NPU,爲了更好地支持AI計算,它升級了全新微架構,性能比前代快98%的同時、功耗降低40%,實現了對更多Transformer網絡的支持。
加之對高通AI引擎及其他部分,如高通傳感器中樞的優化,使得第三代驍龍8移動平臺發佈時已經實現讓終端跑100億參數大模型,並能以每秒生成20 tokens的速度運行70億參數大語言模型。
另一方面,以驍龍X Elite爲代表的芯片,又將從手機端卷出來的AI計算能力進一步拓寬,給PC端帶來一點小小的AI算力震撼。
驍龍X Elite的高通AI引擎,算力達到75 TOPS。
其中光是核心Hexagon NPU,算力就達到45 TOPS,爲此高通特意給NPU增加了全新的供電系統,讓它能按照工作負載適配頻率;同時,爲了專門加速Transformer網絡等複雜AI模型,還研發了微切片推理架構。
這樣,PC端就能直接運行超過130億參數的生成式AI模型,寫PPT、總結、生成文案甚至無需聯網就能實現;
同時AI處理速度快上4.5倍,又能實現視頻會議背景虛化、降噪、視頻編輯、照片加濾鏡等更絲滑的功能。
連接
,各設備間傳輸數據的性能,從底層直接影響超級助手的交互能力。
對於終端設備而言,連接的需求同樣有兩方面,以手機、PC爲代表的人機交互領域,和以物聯網爲代表的機器萬物互聯領域。
人機交互領域,需要連接硬件能提供更智能的網絡性能分析、同時具備更高的傳輸效率。
以驍龍X75 5.5G調制解調器及射頻系統爲例,這款基帶首次集成了專用硬件張量加速器,即第二代高通5G AI處理器,AI性能相比第一代提升2.5倍。
基於此,通過分析信號完整性和信噪比,AI就能改善無線帶寬、延遲,讓網絡性能更高效、數據傳輸更智能。
機器互聯領域,對於連接硬件又有續航性能、成本和體積等不同的限制。
以驍龍X35 5G NR-Light調制解調器及射頻系統爲例,相比移動寬帶與極低帶寬的NB-IoT,這個基帶相當於輕量級實現了5G的傳輸性能,同時續航也要更持久、成本更低,更好地適應體積更小物聯網設備。
但除此之外,還有很關鍵的一點,即
計算和連接之間兼容並濟的能力
。
無論是雲端運行的通用大模型、還是終端以超級助手爲目標的個人大模型,要想實現二者並行,勢必需要5G+AI技術的雙驅動,才能在確保傳輸數據效率、確保使用體驗的同時,保證各側模型的穩定運行。
高通已經在這條路上走了至少5年。
從定位智能終端設備開始,高通就一直在利用5G技術的連接能力,將更多AI技術由雲端擴展至終端,如同渠與水的關係一樣,讓“原本在數據中心才能實現的AI功能,現在終端也能實現”。
最早從手機的攝影、圖像視頻處理,到更多設備如汽車智能座艙AI的數據傳輸、XR上運行手勢識別等AI功能需要的低延遲,再到如今在雲端和終端運行生成式AI……
高通不斷用最新的AI技術快速引領終端側的功能革新,而這每一步都離不開5G數據傳輸在背後的連接支持。
正是有了AI+5G打配合的能力,才能在進一步用高效連接提升AI使用體驗的同時,反過來用AI增強連接的性能,最終改變用戶和終端交互的方式。
縱向從載體類型來看,這種交互方式的變革,又能通過高通AI軟件棧這樣的工具無縫銜接到不同種類、不同功能的終端設備中。
高通AI軟件棧全面支持各種主流AI框架、不同操作系統和編程語言,來提升各類AI軟件在智能終端上的兼容性。
基於這套工具包,即使只在一個平臺如手機上開發,也能在汽車、XR、PC和物聯網上運行,極大加速了交互方式變革的速度。
總結來看,在各類終端萬物互聯的時代,AI+5G是不可或缺、相互協作的兩大最重要的基礎能力,而高通恰好在這兩個領域都處於領先地位,並持續引領着終端側的技術發展。
但對於超級助手而言,智能終端核心技術發展再快,也只是作爲載體,爲其大規模落地做好了準備。
從超級助手最關鍵的實現路徑——AI技術來看,我們距離最終的目標又還有多遠?
我們距離超級助手還有多遠?
正如《鋼鐵俠》中的賈維斯一般,在「模力時代」下,大衆對
超級助手
的想象,也是一個
“統籌一切”的AI個人助理
。
對此,高通產品管理高級副總裁兼AI負責人Ziad Asghar,這樣描述過對於AI個人助理的想象:
在各方面,大夥兒可能都只需要1個應用就能完成所有任務,如生產力APP、娛樂APP等,再用一個AI個人助理來“統籌一切”,這將會是一場極具顛覆性的變革。
當下,AI技術正迎來以大模型爲代表的生成式AI爆發的階段。
高通公司總裁兼CEO安蒙近期接受《獨立報》採訪時,如此強調生成式AI給終端帶來的重要性:
生成式AI將賦能用戶大大提升查找文件的效率,以直觀高效的方式進行視頻創作和修改…將這些處理能力引入終端,人們會看到大量應用場景涌現。
縱觀智能手機領域,AI的發展有望開啓一輪全新的增長週期。只有強有力的技術變革才能推動手機市場的變革。我們將生成式AI視爲一次千載難逢的機會,基於智能手機的新一輪創新浪潮已勢不可擋。
而作爲“被認定是最有可能實現超級助理”的實現路徑之一,大模型距離成爲這樣一個超級助理,或許還有三方面的條件。
其一,思考方式的改變,也就是進化出更強大的自主學習能力。
正如同AlphaGo從模仿人類到超越人類一樣,這部分的關鍵在於教它學會自我提升,理解行動的目的。
除此之外,大模型的思考方式也應該從“系統1”到“系統2”發生轉變,從不假思索地預測,到真正緩慢理性的思考。
其二,功能上的增強,從單純的文本生成進化出多模態、甚至是學會使用工具的能力。
Ziad認爲,這一部分的關鍵,依舊是需要合適的訓練數據,甚至模型本身的大小並不那麼重要。像是OpenAI的GPT-3雖然有1750億參數,但LLaMA的650億參數能實現同等甚至更好的效果。
以多模態爲例,Stable Diffusion的文生圖能力,從某種意義上來說已經是多模態的,但參數只有十幾億。只要使用了合適的數據,大模型增加更多模態不是問題,而且不一定要朝着“大”的方向發展。
其三,具備定製化能力,即在終端定製專屬大模型、微調出專屬於個人超級助理的技術。
以目前的大模型爲例,Ziad表示,即使能給雲端大模型提供部分個人信息,作爲“助理”來提供規劃,終究還是會面臨隱私和安全、甚至是“失憶”的問題。
因此,要想實現超級助手,一大路徑就是能做出依靠個人信息微調、實現個性化定製的終端大模型,同時不將個人信息上傳到雲端,確保用戶安全。
同時,用戶的終端使用記錄,也能讓大模型在一次次“微調”中更加理解用戶的意圖,成爲更“貼心”的超級助手。
高通已經在着手準備。第三代驍龍8的傳感器中樞,正是有助於大模型在手機端實現定製化,讓用戶的位置、活動等個性化數據更好地爲AI個人助理所用。
綜上來看,未來大模型引領下的超級助手形態,或許正是一個
全新的智能操作系統
。
正如OpenAI大牛Andrej Karpathy所言,在這樣的操作系統中,大模型的窗口和嵌入對應內存和硬盤,代碼解釋器、多模態、瀏覽器和其他AI算法是系統上的APP,大模型本身則相當於CPU核心,負責統籌調度一切。
因此,不止是大模型,在更多場景的環境感知和交互上,要想實現超級助手,同樣還需要更多AI技術支持。
以手機攝影場景爲例,在AIGC生成能力之外,驍龍8 Gen 3芯片認知ISP中部署的語義分割、感知等基礎圖像AI算法,依舊可以進一步增強,節省算力的同時也增強手機環境感知的能力;
與此同時,結合AI技術,還能實現聲控拍照、視頻編輯、無縫擴展照片等應用……
又像是XR場景中,最新推出的
第二代驍龍XR2和第一代驍龍AR1平臺
,默認支持平面檢測、深度估計、3D重建、語義理解、物體識別和追蹤等AI算法,讓智能終端的交互能力進一步增強。
而在物聯網領域,
第一代高通S7、S7 Pro音頻平臺
AI性能,最高能提升到前代的100倍。
這樣一來,不僅耳機AI主動降噪功能大幅增強,在會議、社交、遊戲等不同場景獲得不同的降噪能力;
附帶的傳感器設備也能因爲AI算力得到功能提升,更穩定精確地測量脈搏、耳溫等健康數據、並進行智能分析。
至於在汽車方面,
第四代驍龍座艙至尊級平臺
(驍龍8295),也已經用AI技術實現更智能的座艙體驗。
以搭載驍龍8295的極越01爲例,搭載的智能座艙能支持艙內感知離線訓練,實現算法在車端迭代。用戶只需要動動嘴,座艙就能結合AI理解算法和多模態感知能力,準確get需求,並作出響應。
Ziad更是認爲,5年內,AI會徹底改變人車的交互方式,例如告訴汽車想去機場、同時吃點好的、買杯咖啡,汽車就能準確識別這3個需求,智能導航到指定的地點。
顯然,無論是手機、XR、物聯網還是汽車,種種智能終端設備交互方式的改變,除了自身的計算和連接能力提升以外,終究也需要依靠AI技術的發展才能實現。
這樣的路徑,也正是高通長期以來堅持的
AI統一路線
。
高通認爲,從雲端、到終端、再到雲端和終端連接的混合AI端,AI終將無處不在,從而開啓一個全新的AI時代。
正是基於這條一以貫之的路線,高通才能在「模力時代」下率先交出答卷,將不同的終端和計算架構用AI串聯起來,朝向超級助手的終極目標邁進一步。
最終的超級助手會是什麼交互形態,還沒有人能預測。
但可以預知的是,只有繼續擁抱和發展AI技術,才能更快地推動「模力時代」下交互方式的變革,引領智能終端產業發展。
— 完 —
如若转载,请注明出处:https://www.tuio.cc/1417.html