ChatGPT變得更像「人」:支援圖片和語音輸入,能看能聽還能說

2023-12-5 21 12/5
ChatGPT變得更像「人」:支援圖片和語音輸入,能看能聽還能說

OpenAI宣佈推出新版ChatGPT更新,增加了兩項新功能:語音輸入和圖像輸入。據OpenAI稱,新功能將在未來兩週內向ChatGPT Plus訂閱使用者推出,其他人也將“很快”能夠使用這些功能。

語音輸入功能

語音輸入功能方面,類似於手機上的語音助手,使用者只需按下一個按鈕,說出自己的問題,ChatGPT 就會將其轉換為文字,然後生成答案,再將答案轉換為語音,播放給使用者。

若要開始使用語音,請前往行動應用程式上的“設定”→“新功能”,然後選擇加入語音對話。然後,點擊主畫面右上角從五種不同的聲音中選擇喜歡的聲音。

新的語音功能採用了新的文字轉語音模型,能夠僅從文字和幾秒鐘的樣本語音中產生類似人類的音訊。這是OpenAI透過與專業配音員合作創作了每一個聲音。也使用他們的開源語音辨識系統 Whisper 可以將用戶的口語轉錄為文字。

OpenAI 表示,這樣的互動方式更加自然和便捷,而且由於 LLM 的技術優勢,答案的品質也會更高。OpenAI 還開發了一種新的文字轉語音模型,可以根據幾秒鐘的樣本語音,生成與之相似的人聲。

這種模型還有更多的潛在用途。例如,OpenAI 正在與 Spotify 合作,將Podcast內容翻譯成其他語言,同時保留主持人的聲音。不過,這種模型也存在一些風險,比如可能被惡意利用來冒充公眾人物或進行詐騙。因此,OpenAI 表示,這種模型不會被廣泛開放,而是會受到嚴格的控制和限制。

圖像輸入功能

圖像輸入功能則類似於 Google Lens,使用者可以拍攝自己感興趣的事物,並上傳到 ChatGPT 中。ChatGPT 會嘗試識別使用者想要詢問的內容,並給出相應的回答。

ChatGPT變得更像「人」:支援圖片和語音輸入,能看能聽還能說

使用者還可以用應用程式中的繪圖工具來幫助表達自己的問題,或者配合語音或文字輸入來進行交流。

ChatGPT 的優勢在於它可以進行多輪對話,而不是一次性搜尋。如果使用者對答案不滿意或想要更多資訊,可以繼續向 ChatGPT 提問,從而得到更準確和全面的答案。

當然,圖像搜尋也有一些潛在問題。例如,在處理人物圖片時,OpenAI 表示他們限制了 ChatGPT 對人物進行分析和直接評價的能力,既為了保證精準性,也為了保護隱私,這意味著上傳一個人的照片就能知道他 / 她是誰還無法實現。

自從 2022 年初推出 ChatGPT 以來,OpenAI 一直在努力為其機器人增加更多功能和能力,同時避免造成新的問題出現。通過這次更新,該公司試圖在這條界線上尋找平衡點,通過有意識地限制其新模型能做什麼來實現這一目標。但是這種方法並不是長久之計,隨著越來越多的人使用語音控制和圖像搜尋,以及 ChatGPT 逐漸成為一個真正的多模態、有用的虛擬助手,要保持安全和合理的邊界會變得越來越困難。

語音功能將在iOS和Android平台推出,圖像功能將覆蓋所有平台。