GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

2023-12-5 30 12/5
GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

最近GPT-4一直在默默更新,加入了多模態,語音互動等功能。但是與年初OpenAI每次發佈新功能,都能引起外界一陣驚呼的陣仗相比,現在GPT-4的聲量似乎小了很多。不知道是不是擔心自己產品發佈太過於耀眼,導致監管和官司不斷找上門,OpenAI除了4週前更新了文生圖模型DALL-E 3外,在發佈GPT-4之後的7個月內,官方沒有再公開發佈任何新的產品和功能。

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

但是OpenAI總裁Greg Brockman自己卻在X上,不斷轉發利用新版GPT-4來實現的各種天馬行空的功能。像是利用GPT-4V的多模態能力和程式碼能力,直接把一個寫在書上的數學公式轉化成一段Python程式碼。

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

還有GPT-4剛更新不久的語音功能,已經有人開始把它當成商務談判的教練來進行模擬練習了。

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

就在這個貼文下面,一位倫敦帝國理工學院商學院的學習設計師留言稱,他們已經開始使用GPT-4的語音功能為MBA設計培訓課程。

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

而直接用ChatGPT內建的的DALL-E 3,也可以為遊戲設計師生成世界觀和原畫設定圖。只要幾行Prompt,一個飛龍世界的文字描述和原畫風格圖就出來了。

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

另外,還可以直接用DALL-E 3來生成自己想要的GIF檔案。像是一顆玉米變成爆米花的動圖,或是在跳舞的狗等等。

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

我們就一起來看看如何利用GPT-4來完成這一系列的功能。

GPT-4理綜版

網友發現,只要透過截圖,可以將幾乎任何數學公式轉化為Python程式碼。 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

當然,因為模型還是存在出現幻覺的可能,所有的結果不能直接拿過來就用,還是要認真檢查其中的錯誤。比如截圖中第六行的程式碼,「d_hat(i, j)」應該是「d_hat(i)」。不過,雖然有小錯誤,但是網友們依然對這個功能給與了非常高的評價。因為原本有人認為,在沒有上下文的情況下,GPT-4會無法辨識這個函數,不過事實證明它確實知道它正在做什麼。

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

而一位開發了金融AI工具的開發人員也大力讚賞,並給出了兩個具體的用例。

  1. 可以截圖研究論文中的複雜數學方程並在本地快速運行。
  2. 可以螢幕截圖(任何內容)並讓GPT生成程式碼來實現UI。 

同樣,除了數學公式,它還可以直接讀取分子式,然後寫出製備方法;或是給它一張耳機的電路圖,它就能告訴你組裝這個裝置的大致步驟。 

由於GPT-4V對於多模態的良好支援,結合它的編碼能力及廣博的知識面,可以組合出幾乎無窮的使用方案。 

幾句Prompt生成龍與魔法的世界

另外一位網友分享了它透過ChatGPT創造了一個和龍有關的奇幻世界的過程。GPT-4生成了和龍有關的概念、解剖結構,甚至龍的棲息地。 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

首先,需要指定出你想要的圖像樣式。作者想要那種技術資訊圖表風格的美術風格,他使用了這個Prompt,幾乎就是普通的英語描述,「Can you generate me a technical engineer's drawing of a dragon, with labels of its various parts? Use a wide aspect ratio.」 

就得到了下面的結果: 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

接下來,生成龍頭的特寫。 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

然後讓他生成棲息地的環境原畫圖和介紹。 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

如果不滿意,就再進一步細化要求,讓GPT-4來滿足。 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

作為遊戲設計師,想要設計一個和龍有關的場景,直接動手就能出可以使用的結果。 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

另外一位網友根據這個用例的啟發,生成了一個和番紅花相關的介紹。 

「Can you generate me a technical engineer's drawing of a saffron, with labels of its various parts? Use a wide aspect ratio.」用這個提示詞生成了一個番紅花的結構圖。 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

再生成了一幅番紅花束的特寫。「Can you generate a close up of saffron strand in wide aspect ratio?」 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

番紅花田的遠景圖片。「Please generate an aerial view of saffron field in wide aspect ratio.」 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

最後生成了番紅花的剖面圖。「Anatomy of saffron strand in wide aspect ratio.」 

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

更多生成圖作品

一個非常複雜的潛艇結構圖:

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

鋼彈結構示意圖:

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

頭部和足部的詳細結構圖:

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

武器結構圖:

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

麵包機結構圖:

GPT-4V多模態能力可以這樣玩:公式截圖直出程式碼、幾行文字生成「龍與魔法世界」

有趣又精細的生成圖,也讓網友紛紛表示玩到完全停不下來了。 

本文轉載自:36kr