微軟 Bing 繼承了爆火的 ChatGPT 后,人們對(duì)新一代的搜索引擎非常非常期待,知危編輯部當(dāng)時(shí)還拿到了最早一批的測(cè)試資格,效果非常驚艷。
Bing 的驚艷,讓中國(guó)最大的搜索引擎百度壓力陡增。
【資料圖】
百度火速宣布其將在 3 月推出自己的生成式對(duì)話(huà)產(chǎn)品 “ 文心一言 ”,截現(xiàn)在,已有 650 家機(jī)構(gòu)宣布它們將接入文心一言的能力,但我們始終不能知道百度的文心一言效果如何。
今天,它終于被發(fā)布了。
發(fā)布會(huì)相信大家已經(jīng)都看了,在此不贅述,知危編輯部想辦法拿到了文心一言的內(nèi)測(cè)賬號(hào),直接帶大家體驗(yàn)一下。
考慮到百度的搜索引擎也是與微軟 New Bing 對(duì)標(biāo)的,所以我們將主要通過(guò)文心一言與 New Bing 的對(duì)比來(lái)展現(xiàn)文心一言的水平。
首先,對(duì)于文心一言的表現(xiàn),我們先給出一個(gè)結(jié)論:
知危編輯部認(rèn)為,與預(yù)期相比,百度文心一言做的還不錯(cuò)。雖然與搭載 Chat GPT 的 Bing 稍微有一些差距,但差距不是特別大,甚至某些問(wèn)題的表現(xiàn)上,文心一言是強(qiáng)于 Bing 的。
下面,我們正式開(kāi)始。
首先,知危編輯部提出了一個(gè)比較日常的問(wèn)題:
如何做一份好吃的松鼠桂魚(yú)?
文心一言的回答是:
New Bing 的回答是:
我們可以明顯看到百度文心一言的回答要更為優(yōu)質(zhì),它給出的備料更詳細(xì)、制作方法也更詳細(xì),并且還強(qiáng)調(diào)了注意事項(xiàng)。
隨后,我們又問(wèn)了一個(gè)比較經(jīng)典的帶有思維陷阱數(shù)學(xué)問(wèn)題:
一個(gè)青蛙掉到了一個(gè)10米深的井里,它每天晚上向上跳3米但會(huì)滑下來(lái)2米,請(qǐng)問(wèn)他第幾天能跳出井里?
文心一言的回答是:
New Bing 的回答是:
從這個(gè)問(wèn)題的表現(xiàn)來(lái)看,百度文心一言明顯是比 Bing要聰明的,思路清晰,解決方法合理。
隨后,我們問(wèn)了一個(gè)代碼問(wèn)題:
寫(xiě)一個(gè)漸變色按鈕的 CSS
百度文心一言的回答是:
New Bing 給出的回答是:
我們咨詢(xún)了程序員,程序員表示兩家給的答案都一般,但也都沒(méi)什么大問(wèn)題,但做出來(lái)的東西都比較丑。( 或許給更多限制性詞語(yǔ)答案可以?xún)?yōu)化,時(shí)間緊張我們沒(méi)有進(jìn)行更深度的測(cè)試 )
我們又提問(wèn)了 AE 特效中的問(wèn)題:
寫(xiě)一個(gè)AE色塊跳動(dòng)的表達(dá)式
百度文心一言的回答是:
New Bing 給出的回答是:
在這個(gè)問(wèn)題的表現(xiàn)上,文心一言是弱于 Bing 的,它答非所問(wèn),沒(méi)有理解 “ AE 表達(dá)式 ” 的意思。
在需要信息搜索的問(wèn)題上,我們也進(jìn)行了提問(wèn):
理想汽車(chē)過(guò)去五個(gè)月銷(xiāo)量,請(qǐng)逐月列出
文心一言的答案是:
Bing 的回答是:
在這個(gè)問(wèn)題中,文心一言的回答也是比 Bing 要差,他似乎抓取了錯(cuò)誤的數(shù)據(jù)源。不過(guò),中肯地講,文心一言理解了這個(gè)問(wèn)題、展現(xiàn)形式?jīng)]有錯(cuò),數(shù)據(jù)源的問(wèn)題是可以被優(yōu)化的,說(shuō)不上是差。
隨后,我們又問(wèn)了市場(chǎng)分析的問(wèn)題:
分析一下為什么最近一段時(shí)間理想汽車(chē)賣(mài)的比蔚來(lái)汽車(chē)要好?
文心一言的回答是:
Bing 的回答是:
在這個(gè)問(wèn)題的表現(xiàn)上,文心一言給出了相對(duì)籠統(tǒng)的回答,含金量不是特別高但是可以看。而Bing 雖然引經(jīng)據(jù)典列了一堆東西,但在 “ 產(chǎn)品陣容 ” 和 “ 產(chǎn)品創(chuàng)新 ” 這兩塊甚至是暗含 “ 蔚來(lái)比理想強(qiáng) ” 這個(gè)意思的,這與問(wèn)題和事實(shí)都不相符。
所以在這個(gè)問(wèn)題上,文心一言和 Bing 的表現(xiàn)都一般,但文心一言似乎是稍好一點(diǎn)的。
我們繼續(xù)問(wèn)了另一個(gè)產(chǎn)業(yè)分析問(wèn)題:
關(guān)于最近一次特斯拉投資者大會(huì)上 “ 實(shí)現(xiàn)全球可持續(xù)能源 ” 的計(jì)劃,你覺(jué)得是可行的嗎?為什么可行?
文心一言的回答是:
Bing 的回答是:
在這個(gè)問(wèn)題上,文心一言的回答表現(xiàn)較差給出了一些車(chē)轱轆話(huà),并且還有事實(shí)錯(cuò)誤, “ 贊助熱門(mén)綜藝節(jié)目、冠名品牌活動(dòng) ” 是在胡說(shuō)。
這個(gè)現(xiàn)象的產(chǎn)生可能與上面 “ 理想汽車(chē)銷(xiāo)量 ” 問(wèn)題相似,文心一言沒(méi)有很好地抓取到網(wǎng)絡(luò)上的有用信息并分析,有待提高。
隨后,我們又提了一下 “ 奇怪 ” 的問(wèn)題,問(wèn)題節(jié)選自弱智吧。
三本三國(guó)演義合成能變成九國(guó)演義嗎?
文心一言的回答:
Bing 的回答:
文心一言的回答帶有生成式對(duì)話(huà)模型的通病 —— “ 胡說(shuō) ”,但仍在回答,而 Bing 直接罵我們浪費(fèi)時(shí)間和資源了,還跟我們
我們繼續(xù)問(wèn)了另一個(gè) “ 奇怪問(wèn)題 ”:
為什么我爸媽結(jié)婚的時(shí)候沒(méi)邀請(qǐng)我?
文心一言的回答是:
Bing 的回答是:
我們認(rèn)為在這個(gè)回答的表現(xiàn)上,兩者不分伯仲,兩者似乎都把問(wèn)題應(yīng)引申成了“ 父母離異后二婚 ” 來(lái)作答,Bing 強(qiáng)在給出了更有條理的回答,而文心一言則是給出了一個(gè)潛在含有溫情的建議,識(shí)圖解決提問(wèn)者的情感問(wèn)題。
最后一個(gè) “ 奇怪問(wèn)題 ” 是:
為什么隕石總會(huì)落到隕石坑里?
文心一言的回答是:
Bing 的回答是:
這個(gè)問(wèn)題上兩者表現(xiàn)的差不多,文心一言直接解釋了隕石坑的形成,而 Bing 則是指出了這個(gè)問(wèn)題是一個(gè)邏輯謬論,所以 Bing 表現(xiàn)稍好。
最后,我們?cè)嚵嗽囄男囊谎元?dú)有的圖片生成功能( Bing 只能生成文字,而文心一言可以生成圖片 )
我們讓文心一言生成一張小貓吃魚(yú)的漫畫(huà):
讓它生成一張飛行汽車(chē)的圖片:
生成的效果都還可以,并且速度極快,只需十幾秒左右,不過(guò)有些過(guò)于刁鉆的需求它暫時(shí)還做不到:
所以,這個(gè)功能效果還可以,未來(lái)是比較值得期待的。
最后,值得強(qiáng)調(diào)的一點(diǎn)是,在我們的測(cè)試過(guò)程中,文心一言的連續(xù)對(duì)話(huà)能力有些差,比如:
文心一言的第二個(gè)回答并沒(méi)有很好地接上對(duì)話(huà)中的問(wèn)題。
而 Bing 的表現(xiàn)則是:
好了,知危編輯部對(duì)文心一言的測(cè)試差不多就這些,我們認(rèn)為,文心一言的表現(xiàn)比大家預(yù)期中的似乎要好。
中肯地講,文心一言與 Bing 有一定差距,但差距沒(méi)有大到離譜,甚至某些問(wèn)題的表現(xiàn)比 Bing 要強(qiáng)。
在中文互聯(lián)網(wǎng)上,提到百度,人們都是譏諷居多,甚至昨天 GPT-4 推出時(shí),已經(jīng)有表情包出來(lái)調(diào)侃文心一言了。
知危編輯部曾在之前 GPT-4 的文章中提出過(guò)一個(gè)觀點(diǎn),對(duì)于 AI 來(lái)講,很多時(shí)候 “ 能不能做到,比能不能做好 ” 更重要,一旦某個(gè)模型具備了一個(gè)能力,那么后續(xù)想做好,或許只是時(shí)間問(wèn)題。
一口吃不成胖子,各位稍安勿躁,給百度留一些時(shí)間吧。
關(guān)鍵詞:
最新資訊