16000顆H200超級芯片!最強雲計算亞馬遜雲科技和英偉達“合體”了:推出雲AI超級計算機

2023-12-2 25 12/2

亞馬遜成H200第一個大客戶

金磊 克雷西 發自 拉斯維加斯

量子位 | 公衆號 QbitAI

最強雲計算、最快GPU,聯手出大招了!

就在剛剛,雲計算霸主
亞馬遜雲科技

英偉達
宣佈:

推出首款雲AI超級計算機,結合了英偉達H200 Grace Hopper超級芯片和亞馬遜UltraCluster擴展功能。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

據悉,該合作項目代號爲
項目木棉
,而這個超級計算機是配備了H200 NVL32與Amazon EFA互連技術的大規模系統,將部署在亞馬遜雲科技之上。

它共計搭載了
16384顆
英偉達H200超級芯片,能夠處理65 exaflops速度等級的AI運算。

爲了這個合作項目,老黃也是親自來到亞馬遜雲科技年度盛會re:Invent的現場站臺,重視程度可見一斑。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机△左:亞馬遜雲科技 CEO:Adam Selipsky;右:英偉達CEO:黃仁勳

與此同時,亞馬遜雲科技也成爲了英偉達H200 Grace Hopper超級芯片的第一個大客戶。

而之所以兩大巨頭要這般合作,雙方的目標也是非常明確——劍指
生成式AI

亞馬遜雲科技CEO Adam Selipsky在現場表示:

我們與英偉達合作了13年,推出了最廣泛的英偉達 GPU解決方案可用於各種工作負載,包括繪圖、遊戲、HPC高性能計算、機器學習,以及現在的生成式AI。

我們將會讓亞馬遜雲科技成爲運行GPU的最佳雲端環境。

黃仁勳也對生成式AI與雲計算髮表了他的觀點:

生成式AI正改變各種雲端負載,爲多元內容創作在底層注入加速計算動能。

我們共同目標是爲每個客戶提供具有成本效益、先進生成式AI,爲此英偉達與亞馬遜雲科技在整個計算堆棧展開合作,橫跨AI基礎設施、加速庫、基礎模型以及生成式AI服務。

而這次強強聯手的合作,也僅僅是亞馬遜雲科技 re:Invent活動中的一隅。

現在,我們就來一同看下更多的重磅發佈。

亞馬遜雲科技升級AI芯片

除了與英偉達展開合作之外,亞馬遜雲科技自家的芯片也迎來了大升級。

首先便是發佈了升級後的通用AI芯片——
引力子4

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

據瞭解,與上一代Graviton3相比,Graviton4的計算性能提高了30%,核心數量增加了50%,內存帶寬增加了75%。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

Graviton4帶來的一個新轉變之一,便是通過對所有快速物理硬件接口的全面加密,這就顯著提升了它的安全性。

亞馬遜雲科技透露,這款芯片將被應用於內存優化型的Amazon EC2 R8g實例,幫助客戶提升高性能數據庫、內存緩存和大數據分析工作的效率。

而且,R8g實例的大小更大,其vCPU和內存容量比前一代的R7g實例最多增加了三倍。

搭載Graviton4的電腦預計在接下來的幾個月內上市。

亞馬遜雲科技進一步表示:

自從大約五年前推出Graviton項目以來,他們已經生產了超過200萬個Graviton處理器。

而且,亞馬遜雲科技 EC2的前100位用戶都已經選擇使用Graviton,這證明了其在市場上的受歡迎程度。

亞馬遜雲科技在大會中帶來的第二款升級芯片,則是
Trainum2

如其名,這款芯片的主要用途就是針對擁有超大參數模型的訓練。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

相比於上一代Trainium1,Trainum2在速度上快出了4倍,同時在能效方面也有2倍的提升。

在亞馬遜雲科技內部,Amazon EC2 Trn2實例將採用的正是Trainium2,每個實例內置16個Trainium芯片。

這些Trn2實例的目的是爲了支持客戶在下一代EC2 UltraCluster中大規模擴展,最多可達10萬個Trainium2芯片,通過亞馬遜雲科技彈性織物適配器(EFA)的petabit級網絡連接,能夠提供高達65 exaflops的強大計算能力。

有了這種規模,客戶就可以在數週而不是數月時間內訓練3000億參數的大語言模型!

正如Claude背後公司Anthropic的聯合創始人Tom Brown所述:

我們正在與亞馬遜雲科技密切合作,使用Trainium芯片開發我們未來的基礎模型。

Trainium2將幫助我們大規模構建和訓練模型,我們預計它比第一代Trainium芯片快至少4倍,適用於我們的一些關鍵工作負載。

據悉,Trainium2將從明年開始用於支持新的服務。

Amazon Q:亞馬遜工作版ChatGPT出道

在生成式AI方面,亞馬遜雲科技還發布了自家工作版的ChatGPT——
亞馬遜問
,重新構想了未來的工作方式。

Amazon Q主要面向的是企業用戶,它讓員工可以利用公司的數據和專業知識獲得答案、解決問題。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

Amazon Q基於亞馬遜雲科技17年的知識來訓練,所以
很懂亞馬遜雲科技
,於是在使用亞馬遜雲科技過程中,可以隨時隨地提供幫助。

Adam說,Amazon Q改變了開發人員在亞馬遜雲科技上構建、部署和操作應用程序的方式。

它可以通過提出問題來了解亞馬遜雲科技功能和工作原理,或者確定最佳服務。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

Amazon Q不僅能介紹亞馬遜雲科技的各項功能,還可以根據用戶需求,提供利用亞馬遜雲科技各項服務構建應用的方法。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

在使用亞馬遜雲科技遇到問題和故障時,Amazon Q也可以
一鍵分析原因
並想辦法解決。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

在亞馬遜雲科技控制檯之外,Amazon Q還可以在IDE中調用,實時幫助開發者生成或解釋代碼,並進行測試和優化。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

更爲精彩的是,Amazon Q可以完成從計劃到代碼,再到完成後的測試和用戶文檔的
全流程自動開發

假如要給應用添加新功能,開發人員只需要用自然語言描述需求,然後檢查Amazon Q給出的建議並進行必要調整就可以了。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

不過,開發不是一勞永逸,程序的維護和升級也至關重要。

而如果這之中涉及到了編程語言的更新迭代,開發者可能需要花費幾個月甚至幾年對代碼進行逐行調整。

而Amazon Q的代碼轉換功能,將這一時間縮短到了幾分鐘。

開發人員只需在 IDE 中打開他們想要轉換的代碼,然後要求Amazon Q對其進行“/transform”即可。

最近,5名開發人員用Amazon Q在短短兩天內將1000個應用從Java 8升級到Java 17,平均每個用時還不到10分鐘。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

除了面向開發者的Builder版本, Amazon Q還有爲商業從業者提供的Business版本。

可以在亞馬遜QuickSight數據分析平臺和亞馬遜雲科技 Connect中使用。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

將Amazon Q連接到企業系統,還能得到定製版的Q,我們還可以看到Amazon Q幫助用戶分析了下游客戶的需求。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

在此基礎之上,Amazon Q更是可以直接充當使用者的客服代表,解決下游用戶提出的問題。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

做個總結的話,Business版本的Amazon Q一共擁有四重“專家”身份:

亞馬遜雲科技專家,對亞馬遜雲科技的每一個功能、模塊都有充分的瞭解。

生意專家,能夠分析行業狀況下游客戶的需求。

商業智能專家,能夠對大量商業數據進行分析。

客服專家,對用戶企業情況充分了解,可以充當智能客服工作。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

價格方面,Business和Builder版本的價格分別是每用戶每月20美元和25美元。

還有其它發佈

與這些芯片和聊天機器人Amazon Q同時發佈的,還有全新的
雲存儲服務
亞馬遜雲科技 S3 Express One Zone。

它的速度是標準版S3的10倍,可以在1分鐘之內處理數百萬次請求,請求成本和計算成本分別降低了50%和60%。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

工具層面,生成式AI
應用搭建平臺Bedrock
也值得關注。

Adam將其稱作最簡單的利用大模型搭建和擴展生成式AI的方式。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

此外還有和Trainium芯片配套的
ML優化SDK
亞馬遜雲科技 Neuron。

排行前100的ML模型中,亞馬遜雲科技 Neuron支持93種。

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

按照基礎設施層、工具層和應用層這三個層級進行劃分,此次發佈中涉及生成式AI的產品都在下面這張圖裏了:

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

還有一件事

據說這屆亞馬遜雲科技的re:Invent活動吸引了來自全球的5萬多人。

來,感受一下Keynote結束後的人山人海……

16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机

參考鏈接:

[1]https://press.aboutamazon.com/2023/11/aws-unveils-next-generation-aws-designed-chips

[2]https://press.aboutamazon.com/2023/11/aws-and-nvidia-announce-strategic-collaboration-to-offer-new-supercomputing-infrastructure-software-and-services-for-generative-ai