環(huán)球微速訊：GPT-4 震撼發(fā)布，能讀圖，考高分，訓練更高效

2023-03-15 13:31:09 來源：手機網(wǎng)易網(wǎng)

綜合報道

(資料圖片僅供參考)

9min read

GPT-4 震撼發(fā)布，能讀圖，考高分，訓練更高效

凌梓郡宛辰2023/03/15

摘要

加強版的 ChatGPT，更聰明也更安全了。

該來的終于到來了。

美國當?shù)貢r間 3 月 14 日，大熱的 OpenAI 正式推出其最新作品 GPT-4。通過 ChatGPT 再次點燃整個科技圈的想象力之后，GPT-4 毫無疑問成為整個行業(yè)關注的焦點。

在 OpenAI 官方網(wǎng)站中，這一代的大模型 GPT-4 相較于前一代產(chǎn)品，最大的進化在于「多模態(tài)」和長內(nèi)容生成。

此前的 ChatGPT，用戶只能輸入文字，而 GPT-4 現(xiàn)在已經(jīng)可以識別圖片內(nèi)容，并給出答案，甚至能識別一些網(wǎng)絡上常見「梗圖」，并告訴用戶「笑點」到底是什么。在輸出方面，GPT-4 最多可以輸出 25000 個單詞，相比 ChatGPT 有大幅提升。

同時，相比上一代產(chǎn)品，GPT-4 給出答案的錯誤更少，涉及到倫理和敏感問題時，回答也更「安全」。

GPT-4 能像「哥哥」ChatGPT 一樣再次席卷科技圈嗎？它對接下來 AI 行業(yè)的走向，又會產(chǎn)生怎樣的影響？

多了一雙「眼」，更智能

根據(jù) OpenAI 介紹，相較于 ChatGPT，GPT-4 有三個方面的主要提升。

1 讀圖能力

對話時可以直接用圖片提問，它能夠在讀懂圖片內(nèi)容的基礎上，給出有邏輯的回答。比如，你可以給它一張牛奶、雞蛋、面粉的圖片，問他「這些材可以用來做什么？」它會給出一系列選項：

煎餅或華夫餅

法式薄餅、法式吐司

煎蛋或煎蛋餅

乳蛋餅

蛋奶或布丁

蛋糕或紙杯蛋糕

松餅或面包

餅干或餅干

圖片來源｜OpenAI

當種讀圖能力和寫代碼能力相結合，就像有了魔法，在發(fā)布會上，Open AI 展示了如何讓 GPT-4 幫你制作網(wǎng)頁：

只要輸入在筆記本上畫出草圖，拍照，對他說：用簡短的 HTML/JS 將這個草圖變成彩色的網(wǎng)站，能夠幾秒鐘之內(nèi)，一個完整的網(wǎng)頁就可以出現(xiàn)。

圖片來源｜OpenAI

目前 Open AI 還沒有將 GPT-4 中的圖像識別能力開放，為了更好地優(yōu)化圖像輸入功能，OpenAI 正在與 BeMyEyes 密切合作。這是一家在丹麥的公司它們在做的事情是用軟件讓視障人群與志愿者遠程互動，后者做前者的眼睛，幫助他們完成生活任務。

接入了最新的圖像識別能力之后，視障人群就像有了一個「更聰明的攝像頭」，也被稱為「虛擬志愿者」，之前的算法不能基于視覺信息做邏輯推理——這也是 GPT-4 與之前的視覺算法最大的區(qū)別。公司的 CTO Jesper Hvirring Henriksen 解釋，新的功能「不僅在于交談的能力，還在于該技術提供的分析能力」，基本的圖像識別應用程序只能告訴人們眼前發(fā)生了什么，現(xiàn)在算法能夠判斷地面上出現(xiàn)的事物「是否不僅僅是一個球，而是一個絆倒的危險，然后進行交流?！?/p>

2 答案更可靠

在更涉及到邏輯的更復雜任務上，能夠給出更可靠、也更有創(chuàng)造性的答案。

Open AI 讓 GPT-4 參加了一系列考試，GPT-4 的表現(xiàn)均有所提升，有的甚至直接從 GPT-3.5 的差生變成了優(yōu)等生。例如，在模擬律師資格考試上，它成績在前 10% 左右；而 GPT-3.5 的成績在后 10% 左右。滿分為 800 分的 SAT Math，它從 590 分提升到了 700 分。

「在隨意的交談中，GPT-3.5 和 GPT-4 之間的區(qū)別可能是微妙的。當任務的復雜性達到足夠的閾值時，差異就會出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細微的指令?！筄pen AI 表示。

3 內(nèi)容更長更豐富

此外，在單次問答的信息處理量上也有了提升。在對GPT-4提問的時候，一次性能夠輸入長達 25000 單詞。之前，有編劇跟極客公園交流，試用 ChatGPT 的時候跟，只能把劇本拆開一段段給模型看，現(xiàn)在，這樣的煩惱應該會大大減輕。

也就是可以讓他直接幫你讀文章。你還可以扔給他一個鏈接，讓他直接做閱讀理解。

比如，給它美國歌星雷哈娜的維基百科鏈接，問她，「描述一下她在超級碗上的表現(xiàn)，以及為什么這么特別」

給出的回答是這樣：

蕾哈娜在第七屆超級碗中場秀上的表演很特別，原因有很多。首先，這是她五年多來的第一次現(xiàn)場表演，也是她第一次在超級碗中場秀上亮相。此外，她還創(chuàng)造了歷史，成為第一個在懷孕期間在超級碗表演的人。這場演出本身就廣受好評，許多人稱贊她充滿活力的表演和令人印象深刻的歌聲。它也獲得了大量的觀眾，成為歷史上收視率第二高的中場秀。

圖片來源｜OpenAI

4. 關于「胡編亂造」和「有害答案」

當然，目前大模型在「胡編亂造」上的問題，GPT-4 仍然有。不過 Open AI 表示，在對于「捏造事實」的內(nèi)部測試上，GPT-4 的表現(xiàn)比 GPT-3.5 要高出 40%。GPT-4 的知識范疇也存在時間限制，截止于 2021 年 9 月。

在生成有害的想法上，Open AI 也強調(diào)了風險?！窯PT-4 及其后續(xù)模式有可能以有益和有害的方式對社會產(chǎn)生重大影響。我們正在與外部研究人員合作，改進我們理解和評估潛在影響的方式，并對未來系統(tǒng)中可能出現(xiàn)的危險能力進行評估?！?/p>

由于在基于人類反饋的強化學習（RLHF）環(huán)節(jié)中，增加了一個額外的安全獎勵信，這使得 GPT-4 目前的表現(xiàn)更加優(yōu)秀一些。此外，OpenAI 也聘請了 50 多名來自人工智能對齊風險（AI alignment risks）、網(wǎng)絡安全、生物風險、信任與安全以及國際安全等領域的專家，對模型進行對抗性測試。研究結果中給出了兩個例子。

GPT-4 落地更快

對于 GPT-4 的表現(xiàn)，OpenAI 總結道：我們花了 6 個月的時間迭代調(diào)整 GPT-4，使用了來自 ChatGPT 的經(jīng)驗教訓和我們的對抗性測試程序，在真實性、可控性（steerability）和拒絕超出護欄（refusing to go outside of guardrails）方面得到了我們有史以來最好的結果。

顯然，OpenAI 的 GPT 大模型迭代速度變快了。GPT-4 距離上次 ChatGPT 的發(fā)布，不到 4 個月。這與其開放 ChatGPT 給個人用戶和企業(yè)客戶的舉措有關，使機器基于人類反饋的強化學習（RLHF）更快，形成了數(shù)據(jù)飛輪的優(yōu)勢。

比 GPT-4 迭代更快的，是其落地應用的速度。

盡管 GPT-4 還沒有全面開放API接口，但其實，OpenAI 大股東微軟的 New Bing 已經(jīng)用上 GPT-4 超過一個月。在 OpenAI 官宣 GPT-4 之后，微軟在官方博客馬上公布了這一消息，甚至在 5 天前，微軟德國 CTO Andress Braun 就作為全網(wǎng)獨家信源替 OpenAI 放出了風聲。

人們此前沒有明顯感覺到 New Bing 中搭載了 GPT-4 的原因可能在于 GPT-4 的進步是微妙的。OpenAI 闡述道，「在隨意的談話中，GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙，當任務的復雜性達到足夠的閾值時，差異就會出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細微的指令?！?/p>

微軟的 Bing 搜索已經(jīng)用上 GPT-4｜微軟

微軟加持 OpenAI 大模型的迭代還體現(xiàn)在底層基礎設施上。OpenAI 透露，在過去的兩年里，與 Azure 一起為工作負載從頭開始共同設計了一臺超級計算機，重建了整個深度學習堆棧。

不僅如此，更多的應用也加入了 GPT-4 的早期使用陣營：

Stripe 宣布使用 GPT-4 掃描商業(yè)網(wǎng)站并向客戶支持人員提供摘要；語言學習工具軟件 Duolingo 將 GPT-4 構建到新的語言學習訂閱中；摩根士丹利正在創(chuàng)建一個由 GPT-4 驅(qū)動的系統(tǒng)，該系統(tǒng)將從公司文件中檢索信息并將其提供給金融分析師；可汗學院正在利用 GPT-4 構建某種自動化導師。

毫無疑問，OpenAI 的速度會越來越快。除了開放給客戶使用獲得數(shù)據(jù)飛輪，本次隨著 GPT-4 的發(fā)布，OpenAI 還開源了 OpenAI Evals，這是其用于自動評估 AI 模型性能的框架，允許任何人報告其大模型中的缺點，以幫助指導進一步改進。

對此，出門問問創(chuàng)始人李志飛將其評價為眾包評測，將幫系統(tǒng)找茬的任務，眾包給各位開發(fā)者和愛好者了，既讓大家有參與感，又能讓大家免費幫忙評估提高系統(tǒng)，一石二鳥。

加速的 AGI

2022 年 11 月 30 日，當 OpenAI 推出 ChatGPT 測試版的時候，也許不會料到，這款大語言模型加持下的對話機器人，會成為科技史上第一個最短時間用戶破億的產(chǎn)品，同時讓全球科技從業(yè)者，再次因為 AI 的進展而興奮起來。

而僅僅在 3 個月之后，OpenAI 就推出了下一代產(chǎn)品 GPT-4，其迭代非常具有「硅谷速度」了，從更新頻率上也能看出，團隊對于拿下大語言模型賽道的必勝之心。

雖然相對于上一代產(chǎn)品，GPT-4 的進化不算「革命性」的，但是各項指標上百分之幾十的提升，依然會為已經(jīng)很熱的 AI 賽道，再添一把火。

同時，一邊聯(lián)手微軟，讓 ChatGPT 在全球最大商業(yè)軟件 Office、以及基建 Azure 云上落地；一邊通過開放 API 接口，接入更多商業(yè)合作伙伴，OpenAI 也成功將自己轉型為類似云一樣的平臺型企業(yè)，生生闖出一條大模型的商業(yè)化之路，開了研究成果轉商業(yè)的先河。

GPT 到底是不是通向人工智能的圣杯——通用人工智能的正確道路，現(xiàn)在還不好說。但可以肯定的是，GPT 的成功，已經(jīng)讓人們像當年互聯(lián)網(wǎng)革命一樣，想利用 AI「重新改造一切」。

GPT-4 的及時推出，給渴望改造和變革的人們，又打了一針強心劑。

以下為出門問問創(chuàng)始人李志飛對于此次 GPT-4 的評價：

能力驚人：如果說 GPT3 系列模型給大家證明了 AI 能夠在一個模型里做多個任務（也就是所謂通用），GPT-4 在很多任務上已經(jīng)是人類水平（human-level），在很多專業(yè)和學術考試上超越 90% 的人類。各類中小學、大學和專業(yè)教育該如何應對？高效的煉丹：GPT-4 模型太大每次訓練成本很高，但同時訓練模型時很像煉丹需要做很多實驗，如果這些實驗都要在真實環(huán)境下跑一遍的話誰也承受不了。為此，OpenAI 搞了所謂的 predictable scaling，就是可以用萬分之一的成本來預測各個實驗的結果（loss 和 human eval)。這把大模型訓練從碰運氣的煉丹升級成了「半科學」的煉丹。眾包評測：這次提供了一個 open source 的 OpenAI evals，就是把系統(tǒng)性的幫系統(tǒng)找茬的任務眾包給各位開發(fā)者和愛好者了，既讓大家有參與感，又能讓大家免費幫忙評估提高系統(tǒng)，一石二鳥。工程補漏：這次還發(fā)布了一個 system card，大概意思是為了減輕一本正經(jīng)的胡說八道問題，系統(tǒng)打了各種各樣的補丁做預處理和后處理，后面還會開放代碼把打補丁能力眾包給大家。這標志著 LLM 終于從一個優(yōu)雅簡單的 next token prediction 任務進入了各種 messy 的工程 hack 了。多模態(tài)：萬眾矚目的多模態(tài)其實跟市場上很多論文描述的多模態(tài)能力沒有太多差別，主要區(qū)別是把文本模型的 few-shot 和邏輯鏈（COT）結合進來了，這也是在一個基礎能力很好的文本 LLM 加多模態(tài)的好處（其它多模態(tài)模型感覺 LLM 都太弱）。有計劃的出王炸：GPT4 模型去年 8 月就煉出來了，但今天才發(fā)布，解釋是花時間做了大量測試和各種查漏補缺。谷歌工程師傅估計又得熬夜跟了？不再 Open：論文里完全不講模型參數(shù)和數(shù)據(jù)規(guī)模、也不講任何技術原理，解釋說是為了大家好，怕大家學會了怎么做 GPT4 用來作惡，個人完全不認同這種此地無銀的做法。眾志成城：論文里花了三頁把系統(tǒng)的各個部分的貢獻人員都列出來了，估計有一百多人，再次體現(xiàn) OpenAI 里團隊成員眾志成城、高度協(xié)作的狀態(tài)。

GPT-4openAIChatGPT

關鍵詞：

環(huán)球微速訊：GPT-4 震撼發(fā)布，能讀圖，考高分，訓練更高效

環(huán)球微速訊：GPT-4 震撼發(fā)布，能讀圖，考高分，訓練更高效