最近 AI 真是火得沒邊了。
OpenAI 靠著 ChatGPT 實(shí)力吸睛,Google 帶著 Bard 緊隨其后,就在昨天,GPT-4 模型又搶盡風(fēng)頭。你方唱罷我登場的 AI 領(lǐng)域,今天,輪到了百度了。
就在今天下午,備受期待的百度文心一言如期而至。不過在發(fā)布會一開場,百度 CEO 李彥宏先給大家打了一劑預(yù)防針:
(相關(guān)資料圖)
從某種意義上說百度為此(發(fā)布文心一言)已經(jīng)準(zhǔn)備了多年,我們十幾年前就開始投入 AI 研究,2019年就推出了文心大語言模型,今天的文心一言是過去多年努力的延續(xù)。 但也不能說我們完全 ready 了,文心一言要對標(biāo) ChatGPT、甚至是對標(biāo) GPT-4 的門檻是很高的,全球大廠還沒有一個做出來的,百度是第一個。我自己測試感覺還是有很多不完美的地方。
姍姍來遲的文心一言表現(xiàn)如何?和 ChatGPT 的差距有多少?能滿足市場對中文大語言模型的需求嗎?我們對它做了一次全方位解析。
申請內(nèi)測網(wǎng)站我們也一并放出來 https://cloud.baidu.com/survey_summit/wenxin.html?track=C816552
新一代大語言模型、生成式 AI 產(chǎn)品文心一言,能做什么?
五大要點(diǎn):
文學(xué)創(chuàng)作;商業(yè)文案的創(chuàng)作;數(shù)理邏輯的推算;中文的理解;多模態(tài)生成。針對這五大場景,李彥宏分別進(jìn)行了演示。值得一提的是,這些演示并非現(xiàn)場操作,而是錄播。
首先是文心一言的文學(xué)創(chuàng)作能力,李彥宏連續(xù)對文心一言提出了與《三體》相關(guān)的若干問題。
首先從演示視頻看來,文心一言的回答速度很快,比 ChatGPT 快很多,另外出來的內(nèi)容都挺不錯的,后面我們也會把相同的問題扔給 ChatGPT 和必應(yīng) Chat,看看三者之間的區(qū)別。
▲動圖未加速
針對商業(yè)文案創(chuàng)作,李彥宏向文心一言提問:
如果要成立一個用大模型服務(wù)中小企業(yè)數(shù)字化升級的科技服務(wù)公司,可以起個什么公司名?
以下是它的問答。
別說,還挺像樣的。
還能用它生成新聞稿,可以說是把 AI 從頭用到腳,很符合這家公司的定位。
在數(shù)理邏輯推演環(huán)節(jié),百度問了個雞兔同籠的問題,文心一言先是發(fā)現(xiàn)了題目出錯,后來換了個題目,它就能準(zhǔn)確回答出來。
文心一言發(fā)布前,已經(jīng)有人猜測這個語言模型會比 OpenAI、Google、微軟做得更好,因此百度也在這部分炫了個技,文心一言不僅準(zhǔn)確回答了成語「洛陽紙貴」的含義,還對背后的金融現(xiàn)象進(jìn)行了解釋,最后還用這個成語寫了首藏頭詩。
李彥宏在現(xiàn)場也提到,中文是文心一言的優(yōu)勢,反過來說,對英文素材的解析則成了它的劣勢。
最后介紹了文心一言的多模態(tài)生成能力,畫圖、寫長文、根據(jù)文字生成短視頻內(nèi)容,它都一一完成,這是 ChatGPT 所不具備的能力。
▲還能用生成方言語音
李彥宏還提到,百家號已經(jīng)在利用文心一言的多模態(tài)生成能力,把文字內(nèi)容視頻化。
會后,首批用戶通過百度提供的內(nèi)測碼,可以搶先體驗到文心一言,我們已經(jīng)提交內(nèi)測申請,未來將在第一時間給大家?guī)眢w驗內(nèi)容。
在這之前,我們把會上演示的幾個場景,分別喂給了 ChatGPT(3.5 版) 和 Bing Chat,看看他們輸出的結(jié)果如何。
對比 ChatGPT&Bing Chat,文心一言體驗如何?
演示過程中,李彥宏多次強(qiáng)調(diào)百度在中文語言的處理上,處于獨(dú)一無二的位置。
相比 ChatGPT 和 Bing Chat,現(xiàn)在的最大的不同點(diǎn)在于多模態(tài)生成,即可以通過語言生成海報、語音甚至視頻內(nèi)容。
發(fā)布會演示中,李彥宏展示了使用文心一言生成活動海報、方言語音,并根據(jù)提問內(nèi)容生成與活動相關(guān)的視頻。不過生成視頻的成本較高,現(xiàn)階段尚未對所有用戶開放。
圖片、視頻的生成能力確實(shí)讓我們眼前一亮,李彥宏也表示,「多模態(tài)生成式 AI 是一個明確的發(fā)展趨勢」。
除了這一特色功能,我們也很好奇其他能力相比 ChatGPT、Bing Chat 孰強(qiáng)孰弱,所以就用發(fā)布會中演示的內(nèi)容去詢問了 ChatGPT(3.5 版)以及 Bing Chat。先說結(jié)論:文心一言在中文領(lǐng)域的表現(xiàn),確實(shí)要優(yōu)于 ChatGPT、Bing Chat 這兩個前輩。
首先是關(guān)于《三體》的提問,Bing Chat 和文心一言均能正確回答作者是誰、來自哪里的問題,而 ChatGPT 則把劉慈欣的籍貫錯標(biāo)成了山東。
有趣的是,Bing Chat 的信息來源是百度百科。
而在關(guān)于 2023 年初上演的《三體》電視劇版演員的問題中,信息庫停留在 2021 年的 ChatGPT 再次吃癟,表示《三體》電視劇暫未開拍,而 Bing Chat 則在豆瓣中找到了答案。
在商業(yè)文案創(chuàng)作方面,三者均可以給出它們的看法,ChatGPT 還貼心的附上了英文名,方便我們進(jìn)行步入國際市場。
而 Bing Chat 則在第一次詢問時識別錯了問題含義,沒有給我準(zhǔn)確的公司名,而是提供了如何起一個公司名的解決方案。
至于三家起的名字哪個更好,就留給大家評判了。
不論是 ChatGPT 還是 Bing Chat,它們在做數(shù)學(xué)題時并不能讓我們完全放心,不過百度發(fā)布會中提到的雞兔同籠問題并沒有難倒二者,均準(zhǔn)確的做出了解答。
相比之下,我更喜歡 Bing Chat 的解讀,它更像是一位循循善誘的老師,而文心一言的回答則有點(diǎn)像課后的參考答案。
中文理解方面,文心一言的優(yōu)勢就體現(xiàn)出來了。
在詢問「當(dāng)時洛陽的紙到底有多貴」時,ChatGPT 誤以為我詢問的是唐代的物價,告訴我洛陽的紙一點(diǎn)都不貴,Bing Chat 識別上沒有問題,但也沒有給出準(zhǔn)確數(shù)據(jù)。
而文心一言給出兩三千文的價格,至少與我搜索得到的數(shù)據(jù)是一致的。
相信你也注意到了,且不說寫的內(nèi)容如何,ChatGPT 和 Bing Chat 都沒有理解什么是藏頭詩,相比下來,百度文心一言的表現(xiàn)確實(shí)出色。
當(dāng)然,這樣的比較對 ChatGPT 和 Bing Chat 是不公平的,畢竟我們還沒有正式體驗到文心一言,只是與發(fā)布會演示比較而已。獲得測試機(jī)會后,我們會第一時間體驗文心一言,表現(xiàn)如何到時再見分曉。
李彥宏在發(fā)布會中也提到,雖然中文方面優(yōu)勢明顯,但文心一言針對英文語種、代碼場景的訓(xùn)練還不夠多,表現(xiàn)也不夠好,相信接下來百度會迅速提升。
腳踏實(shí)地,仰望星空
毫無疑問,文心一言的發(fā)布對于中文互聯(lián)網(wǎng)來說是個標(biāo)志性的事件。
正如李彥宏開場時所言,百度是首個做出可以對標(biāo) ChatGPT 的產(chǎn)品的大廠,實(shí)現(xiàn)了中文語言大模型 AI 生成式產(chǎn)品從無到有的突破。
但另一方面,我們也需要正確看待文心一言與 ChatGPT 之間的差距。
我們今天所說的 ChatGPT,或者其背后的 GPT-4 語言模型,是一個花了 5 年時間、經(jīng)歷了 4 次迭代,完成了從量變到質(zhì)變過程。想讓文心一言在這么短的時間內(nèi)實(shí)現(xiàn)趕超,幾乎是不可能的事情。
從今天的發(fā)布會來看,文心一言并不是人們預(yù)期中那樣具有革命性的產(chǎn)品,而更像是對百度 AI 技術(shù)儲備的一次中期考驗,展現(xiàn)百度也有追逐最先進(jìn)人工智能產(chǎn)品的研發(fā)能力。
面向公眾開放后,文心一言可以通過用戶們大量的搜索請求進(jìn)行學(xué)習(xí)和改進(jìn),從而提升處理相應(yīng)問題的準(zhǔn)確性和速度。在 ChatGPT 上,我們已經(jīng)見識過 AI 語言模型進(jìn)化的速度。
如果你也期待見到一個真正的「中文版 ChatGPT」,不妨再給文心一言時間和耐心。士別三日,當(dāng)刮目相看,對于 AI 模型更是如此。
關(guān)鍵詞: