出品丨虎嗅科技組
作者丨蘇北佛樓蜜
編輯丨陳伊凡
【資料圖】
題圖丨視覺中國
2022年12 月,兩名計算生物學(xué)家Casey Greene和Milton Pividori開創(chuàng)了一項(xiàng)不同尋常的實(shí)驗(yàn):他們請一名非科學(xué)家的助手幫助他們改進(jìn)三篇研究論文。在一份生物學(xué)手稿中,助手甚至在引用方程式時發(fā)現(xiàn)了一個錯誤,審稿順利完成且費(fèi)用適中,每份文件不到0.50美元。
這名助手并非人類,而是一種名為GPT-3的人工智能算法。
“這將幫助我們提高研究人員的工作效率?!笨茖W(xué)家對此感到震驚。
如今,基于這一通用大模型算法誕生的產(chǎn)品ChatGPT,一經(jīng)推出,就引發(fā)了現(xiàn)象級關(guān)注。一時間,全球科技巨頭競相宣布其將會把ChatGPT引入自己的業(yè)務(wù)。人們或驚嘆狂歡,或居安思危,ChatGPT所承載的意義似乎就快超越它本身。在百花齊放的應(yīng)用場景中,生物技術(shù)領(lǐng)域能如何搭上ChatGPT的快車?
ChatGPT與生物技術(shù)的結(jié)合
2020年,人工智能公司OpenAI發(fā)布的一款模型,自發(fā)布初就被大肆宣傳為生成式AI聊天機(jī)器人式工具,無論是創(chuàng)作散文、詩歌、計算機(jī)代碼,還是編輯研究論文,似乎無所不能。
昨日,微軟(Microsoft)公司表示,將把ChatGPT整合到搜索引擎Bing和網(wǎng)絡(luò)瀏覽器中,谷歌(Google)公司也在今日展示了其名為Bard的人工智能對話系統(tǒng)。這些系統(tǒng)可以根據(jù)用戶提供的復(fù)雜問題,提供全面而綜合的回答,小到制定詳細(xì)的旅行計劃,大到分析公司的運(yùn)營策略。
ChatGPT在生物技術(shù)上最有前景的應(yīng)用似乎是在蛋白質(zhì)生成和基因測序領(lǐng)域。
總部位于加利福尼亞的生物技術(shù)公司Profluent使用類似于ChatGPT的AI模型,創(chuàng)造了新型抗菌蛋白,并且已經(jīng)證明它們能夠在實(shí)驗(yàn)室中殺死細(xì)菌。
這一模型名稱為ProGen,是一種大型語言模型 (LLM),它利用大量文本作為訓(xùn)練數(shù)據(jù),開發(fā)分析和生成語言的能力——類似于ChatGPT,但 Progen的語言是蛋白質(zhì)語言。
簡單來說,就是使用 AI 和大型語言模型,例如為 ChatGPT 提供支持的語言模型,來學(xué)習(xí)生物學(xué)的基本語言,并設(shè)計具有治愈疾病潛力的新蛋白質(zhì)。
目前,ProGen生成了一百萬種不同的人工序列,研究人員從中挑選了 100種在實(shí)驗(yàn)室中合成,其中66種產(chǎn)生了類似于雞蛋清溶菌酶的化學(xué)反應(yīng),用作陽性對照。
該團(tuán)隊(duì)隨后選擇了五種新型抗菌蛋白,并測試了它們對大腸桿菌的抵抗力。其中兩種新蛋白質(zhì)能夠殺死細(xì)菌。
同時,X射線成像顯示,盡管這些抗菌蛋白的氨基酸序列與任何已知的天然蛋白相差超過30%,但它們?nèi)匀徽郫B成與”天然表親們”幾乎相同的形狀。
這項(xiàng)研究可能意味著,未來我們能通過與AI合作,創(chuàng)造本不屬于自然界的蛋白質(zhì),并將這些蛋白質(zhì)賦予不同的功能,人類成為了微觀世界里的上帝。
攻克蛋白質(zhì)后,ChatGPT似乎又開始朝著基因高歌猛進(jìn)。
科技公司Nvidia在今年的JP摩根醫(yī)療健康大會稱,隨著新一代基因組測序速度的不斷加快和成本的不斷降低,目前我們測序基因組DNA的能力已經(jīng)超越了分析DNA序列并從中獲取洞見的能力。而更快速有效地處理海量的基因組序列信息離不開人工智能。
大型語言模型通過可以分析人類語言一樣分析DNA序列,以此加快基因組的拼接、基因突變的發(fā)現(xiàn),并且用人類對話的方式將發(fā)現(xiàn)表述給研究人員。
比如,整合ChatGPT的基因測序分析系統(tǒng)可能在處理患者的基因組測序數(shù)據(jù)后給出——“這名患者的某基因上的突變可能導(dǎo)致罕見遺傳病A”的結(jié)論,它似乎代替了醫(yī)生。
ChatGPT是萬能的嗎?
一切的發(fā)現(xiàn)和應(yīng)用似乎都朝著好的方向前進(jìn)。但面對似乎全能的工具,隨之而來的是人類的反思和“批判”。它是萬能的嗎?
部分看客也跟著給出了自己的答案:不是。
首先,我們開始思考翻譯和替代的準(zhǔn)確率?
比如,目前大型語言系統(tǒng)的缺陷在于“提供信息的真實(shí)度有待提高”。由于ChatGPT基于對已有語言數(shù)據(jù)的學(xué)習(xí)提供回答,它的回答也受到數(shù)據(jù)庫中不真實(shí)、有偏見、或者過時知識的影響。
這可能意味著對于專業(yè)性強(qiáng)的話題,如果大型語言系統(tǒng)沒有經(jīng)過足夠?qū)I(yè)數(shù)據(jù)的訓(xùn)練,很可能提供錯誤的回答。對于不了解專業(yè)知識的普通人來說,無法偵辨虛實(shí)。
此外,由于海量的數(shù)據(jù)訓(xùn)練是保證ChatGPT的基礎(chǔ),因此在數(shù)據(jù)的輸入過程中,可能存在歷史偏見等遺留問題,種族、性別、文化、年齡歧視等不良因素都會隱匿在其中。想要人工剔除是十分困難的事情,如何防止ChatGPT根據(jù)這些數(shù)據(jù)輸出有害言論是需要解決的另一個挑戰(zhàn)。
在Nature上發(fā)表的最新評論中,有研究人員指出,建立使用ChatGPT的規(guī)范和法規(guī)至關(guān)重要,才能確保這一技術(shù)被正當(dāng)、透明、公平的使用。
開發(fā)者比評論人更清楚這其中隱藏的問題。去年9月,Google子公司DeepMind發(fā)表了一篇關(guān)于名為Sparrow的“對話代理”的論文4,該公司的首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Demis Hassabis 表示,該論文將在今年以私人測試版的形式發(fā)布。谷歌的目標(biāo)是開發(fā)甄別包括引用消息來源的能力在內(nèi)的功能。
一些科學(xué)家也認(rèn)為,目前,ChatGPT還沒有接受足夠?qū)I(yè)的內(nèi)容培訓(xùn),無法對技術(shù)主題有所幫助。Kareem Carr是哈佛大學(xué)的生物統(tǒng)計學(xué)博士生,當(dāng)他在工作中試用時感到不知所措。
“我認(rèn)為ChatGPT 很難達(dá)到我需要的水平。”他說。
因此,一些科技公司正在根據(jù)專業(yè)科學(xué)文獻(xiàn)對聊天機(jī)器人進(jìn)行培訓(xùn),盡管它們也遇到了自己的問題。
去年11月,擁有Facebook的科技巨頭Meta發(fā)布了一個名為Galactica的法學(xué)碩士項(xiàng)目,該項(xiàng)目接受過科學(xué)摘要培訓(xùn),旨在使其特別擅長制作學(xué)術(shù)內(nèi)容和回答研究問題。
但測試中仍然出現(xiàn)了問題,目前該演示已從公共訪問中撤出。
對此,“不再能通過隨意濫用它來獲得樂趣了。”Meta 的首席人工智能科學(xué)家Yann LeCun在推特上略顯憤懣地回應(yīng)道。
種種小小的不愉快背后,可能意味著ChatGPT的果實(shí)并未完全成熟??駳g之余,子彈仍需飛一會兒。