微軟 Bing 繼承了爆火的 ChatGPT 后,人們對新一代的搜索引擎非常非常期待,知危編輯部當時還拿到了最早一批的測試資格,效果非常驚艷。
Bing 的驚艷,讓中國最大的搜索引擎百度壓力陡增。
【資料圖】
百度火速宣布其將在 3 月推出自己的生成式對話產(chǎn)品 “ 文心一言 ”,截現(xiàn)在,已有 650 家機構(gòu)宣布它們將接入文心一言的能力,但我們始終不能知道百度的文心一言效果如何。
今天,它終于被發(fā)布了。
發(fā)布會相信大家已經(jīng)都看了,在此不贅述,知危編輯部想辦法拿到了文心一言的內(nèi)測賬號,直接帶大家體驗一下。
考慮到百度的搜索引擎也是與微軟 New Bing 對標的,所以我們將主要通過文心一言與 New Bing 的對比來展現(xiàn)文心一言的水平。
首先,對于文心一言的表現(xiàn),我們先給出一個結(jié)論:
知危編輯部認為,與預(yù)期相比,百度文心一言做的還不錯。雖然與搭載 Chat GPT 的 Bing 稍微有一些差距,但差距不是特別大,甚至某些問題的表現(xiàn)上,文心一言是強于 Bing 的。
下面,我們正式開始。
首先,知危編輯部提出了一個比較日常的問題:
如何做一份好吃的松鼠桂魚?
文心一言的回答是:
New Bing 的回答是:
我們可以明顯看到百度文心一言的回答要更為優(yōu)質(zhì),它給出的備料更詳細、制作方法也更詳細,并且還強調(diào)了注意事項。
隨后,我們又問了一個比較經(jīng)典的帶有思維陷阱數(shù)學(xué)問題:
一個青蛙掉到了一個10米深的井里,它每天晚上向上跳3米但會滑下來2米,請問他第幾天能跳出井里?
文心一言的回答是:
New Bing 的回答是:
從這個問題的表現(xiàn)來看,百度文心一言明顯是比 Bing要聰明的,思路清晰,解決方法合理。
隨后,我們問了一個代碼問題:
寫一個漸變色按鈕的 CSS
百度文心一言的回答是:
New Bing 給出的回答是:
我們咨詢了程序員,程序員表示兩家給的答案都一般,但也都沒什么大問題,但做出來的東西都比較丑。( 或許給更多限制性詞語答案可以優(yōu)化,時間緊張我們沒有進行更深度的測試 )
我們又提問了 AE 特效中的問題:
寫一個AE色塊跳動的表達式
百度文心一言的回答是:
New Bing 給出的回答是:
在這個問題的表現(xiàn)上,文心一言是弱于 Bing 的,它答非所問,沒有理解 “ AE 表達式 ” 的意思。
在需要信息搜索的問題上,我們也進行了提問:
理想汽車過去五個月銷量,請逐月列出
文心一言的答案是:
Bing 的回答是:
在這個問題中,文心一言的回答也是比 Bing 要差,他似乎抓取了錯誤的數(shù)據(jù)源。不過,中肯地講,文心一言理解了這個問題、展現(xiàn)形式?jīng)]有錯,數(shù)據(jù)源的問題是可以被優(yōu)化的,說不上是差。
隨后,我們又問了市場分析的問題:
分析一下為什么最近一段時間理想汽車賣的比蔚來汽車要好?
文心一言的回答是:
Bing 的回答是:
在這個問題的表現(xiàn)上,文心一言給出了相對籠統(tǒng)的回答,含金量不是特別高但是可以看。而Bing 雖然引經(jīng)據(jù)典列了一堆東西,但在 “ 產(chǎn)品陣容 ” 和 “ 產(chǎn)品創(chuàng)新 ” 這兩塊甚至是暗含 “ 蔚來比理想強 ” 這個意思的,這與問題和事實都不相符。
所以在這個問題上,文心一言和 Bing 的表現(xiàn)都一般,但文心一言似乎是稍好一點的。
我們繼續(xù)問了另一個產(chǎn)業(yè)分析問題:
關(guān)于最近一次特斯拉投資者大會上 “ 實現(xiàn)全球可持續(xù)能源 ” 的計劃,你覺得是可行的嗎?為什么可行?
文心一言的回答是:
Bing 的回答是:
在這個問題上,文心一言的回答表現(xiàn)較差給出了一些車轱轆話,并且還有事實錯誤, “ 贊助熱門綜藝節(jié)目、冠名品牌活動 ” 是在胡說。
這個現(xiàn)象的產(chǎn)生可能與上面 “ 理想汽車銷量 ” 問題相似,文心一言沒有很好地抓取到網(wǎng)絡(luò)上的有用信息并分析,有待提高。
隨后,我們又提了一下 “ 奇怪 ” 的問題,問題節(jié)選自弱智吧。
三本三國演義合成能變成九國演義嗎?
文心一言的回答:
Bing 的回答:
文心一言的回答帶有生成式對話模型的通病 —— “ 胡說 ”,但仍在回答,而 Bing 直接罵我們浪費時間和資源了,還跟我們
我們繼續(xù)問了另一個 “ 奇怪問題 ”:
為什么我爸媽結(jié)婚的時候沒邀請我?
文心一言的回答是:
Bing 的回答是:
我們認為在這個回答的表現(xiàn)上,兩者不分伯仲,兩者似乎都把問題應(yīng)引申成了“ 父母離異后二婚 ” 來作答,Bing 強在給出了更有條理的回答,而文心一言則是給出了一個潛在含有溫情的建議,識圖解決提問者的情感問題。
最后一個 “ 奇怪問題 ” 是:
為什么隕石總會落到隕石坑里?
文心一言的回答是:
Bing 的回答是:
這個問題上兩者表現(xiàn)的差不多,文心一言直接解釋了隕石坑的形成,而 Bing 則是指出了這個問題是一個邏輯謬論,所以 Bing 表現(xiàn)稍好。
最后,我們試了試文心一言獨有的圖片生成功能( Bing 只能生成文字,而文心一言可以生成圖片 )
我們讓文心一言生成一張小貓吃魚的漫畫:
讓它生成一張飛行汽車的圖片:
生成的效果都還可以,并且速度極快,只需十幾秒左右,不過有些過于刁鉆的需求它暫時還做不到:
所以,這個功能效果還可以,未來是比較值得期待的。
最后,值得強調(diào)的一點是,在我們的測試過程中,文心一言的連續(xù)對話能力有些差,比如:
文心一言的第二個回答并沒有很好地接上對話中的問題。
而 Bing 的表現(xiàn)則是:
好了,知危編輯部對文心一言的測試差不多就這些,我們認為,文心一言的表現(xiàn)比大家預(yù)期中的似乎要好。
中肯地講,文心一言與 Bing 有一定差距,但差距沒有大到離譜,甚至某些問題的表現(xiàn)比 Bing 要強。
在中文互聯(lián)網(wǎng)上,提到百度,人們都是譏諷居多,甚至昨天 GPT-4 推出時,已經(jīng)有表情包出來調(diào)侃文心一言了。
知危編輯部曾在之前 GPT-4 的文章中提出過一個觀點,對于 AI 來講,很多時候 “ 能不能做到,比能不能做好 ” 更重要,一旦某個模型具備了一個能力,那么后續(xù)想做好,或許只是時間問題。
一口吃不成胖子,各位稍安勿躁,給百度留一些時間吧。
關(guān)鍵詞:
推薦閱讀