全球今日?qǐng)?bào)丨智能閱卷官

2022-09-01 06:39:43 來源：北京日?qǐng)?bào)

“當(dāng)學(xué)生的時(shí)候最煩考試，沒想到工作后幾乎天天跟考試打交道。”采訪剛開始，科大訊飛考試業(yè)務(wù)線工程師張凱自己先笑了。此時(shí)，他正在機(jī)場(chǎng)等飛機(jī)，與記者的談話不時(shí)被“某某航班即將起飛”的背景音淹沒，飛來飛去，甚至將所有工作塞滿24小時(shí)，這是人工智能領(lǐng)域工程師的日常。他說：“能從事人工智能輔助閱卷系統(tǒng)的研發(fā)，我很驕傲。我希望用這套系統(tǒng)，為更多老師減負(fù)，打出最準(zhǔn)確的分?jǐn)?shù)，讓每一名學(xué)生都體會(huì)到教育的公平公正。”

人工智能輔助閱卷系統(tǒng)從2016年開始啟動(dòng)實(shí)驗(yàn)，至今已經(jīng)在安徽省、江蘇省、河南省等14個(gè)省份投入使用。去年，北京的一些重要考試也試點(diǎn)應(yīng)用了人工智能輔助閱卷。這套系統(tǒng)還進(jìn)入學(xué)校，成為“智慧教室”的標(biāo)配。六七年間，這套“智慧”的系統(tǒng)已經(jīng)獲得了十余個(gè)自有知識(shí)產(chǎn)權(quán)專利，涉及中英文類手寫體識(shí)別、測(cè)評(píng)等方面。

(資料圖片)

主觀題智能評(píng)分技術(shù)研究

人工算法必不敢省人工

“最早判卷是靠一支紅筆，但是面對(duì)海量的試卷和有限的閱卷時(shí)間，閱卷老師難免會(huì)出現(xiàn)紕漏。然而每一場(chǎng)考試對(duì)于學(xué)生而言，都可能是一次命運(yùn)的轉(zhuǎn)折，所以閱卷的公平性至關(guān)重要。比如中考、高考、研究生考試，還有四六級(jí)考試、托福考試……我們管這些叫高利害考試。”張凱自稱是教育領(lǐng)域的外行，但是經(jīng)年累月和老師們打交道，張口閉口就會(huì)帶出教育領(lǐng)域的專有名詞，說起考試更是侃侃而談，“上世紀(jì)八十年代，技術(shù)實(shí)現(xiàn)了客觀題閱卷機(jī)械化，利用光學(xué)掃描和石墨感應(yīng)技術(shù)，光標(biāo)閱讀機(jī)可以識(shí)別答題卡上的客觀題答案，自動(dòng)給考生批閱核分，老師只需要用筆判卷子上的主觀題。進(jìn)入新世紀(jì)前后，高速掃描儀可以掃描整張?jiān)嚲砹耍陀^題由計(jì)算機(jī)出分，閱卷老師可以在網(wǎng)上無紙化、零接觸批閱卷子里的主觀題，而且一張?jiān)嚲硗瑫r(shí)雙評(píng)、多評(píng)，還有仲裁都可以實(shí)現(xiàn)了。”

2016年3月，科大訊飛與教育部考試中心簽署合作協(xié)議，宣布共建聯(lián)合實(shí)驗(yàn)室。當(dāng)時(shí)給實(shí)驗(yàn)室制定的工作目標(biāo)是：以考試信息化推動(dòng)考試現(xiàn)代化，探索信息技術(shù)和人工智能技術(shù)解決大規(guī)模教育考試的難點(diǎn)問題，拓展教育考試服務(wù)功能，探索教育考試評(píng)價(jià)的新方法和新機(jī)制，開拓人工智能技術(shù)產(chǎn)業(yè)化的新領(lǐng)域。

編程、開發(fā)系統(tǒng)，這些對(duì)于張凱和同事們而言屬于常規(guī)操作，真正讓他們犯難的是“講明白”這套系統(tǒng)。最簡(jiǎn)單的辦法是，讓這位“智能閱卷官”拿出好成績(jī)。這個(gè)成績(jī)分兩部分：一部分是閱卷準(zhǔn)確率要高，一部分是耐力分要高。

在開始正式研發(fā)前，張凱和同事們做了一次調(diào)研，希望摸清全國(guó)考試的家底兒，“考試種類多，數(shù)量龐大，閱卷量很大。以河南省為例，僅是高考每年就有百萬級(jí)的考生參加，這意味著上千萬甚至更多的題目批閱量。而且考試出分的時(shí)間又非常緊湊，如果輔助智能閱卷系統(tǒng)不能保證長(zhǎng)時(shí)間高強(qiáng)度工作，就不能算合格。”

第一次“試崗”經(jīng)歷，讓張凱記憶猶新。“三個(gè)大小伙子，輪番盯著系統(tǒng)干活兒，排好班，目不轉(zhuǎn)睛地盯著。”當(dāng)初的辛苦如今在工程師嘴里成了小笑話，“當(dāng)時(shí)實(shí)驗(yàn)室剛成立幾個(gè)月，智能評(píng)卷系統(tǒng)安裝在計(jì)算機(jī)上可以出分了。我們就做了一次效果驗(yàn)證。剛開始，系統(tǒng)鬧‘脾氣’，明明設(shè)定了24小時(shí)工作運(yùn)算時(shí)間，不盯著就‘偷懶’，我和倆同事一個(gè)人盯8小時(shí)，加了一層人工崗，保障它的穩(wěn)定性。”

一次次的更新，一次次的試錯(cuò)，到2018年，智能閱卷系統(tǒng)可以實(shí)現(xiàn)連續(xù)運(yùn)算1個(gè)月，不打瞌睡。

2021年，智能評(píng)卷系統(tǒng)參與了國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)。這項(xiàng)監(jiān)測(cè)被業(yè)內(nèi)形象地比喻成對(duì)九年義務(wù)教育質(zhì)量的一次“體檢”，要對(duì)我國(guó)義務(wù)教育階段學(xué)生德智體美勞和學(xué)校教育教學(xué)等狀況進(jìn)行客觀評(píng)價(jià)，引導(dǎo)社會(huì)樹立正確的教育質(zhì)量觀，促進(jìn)學(xué)生身心健康發(fā)展。

大，是這次監(jiān)測(cè)最大的特點(diǎn)?？忌鷶?shù)量大，約57萬人，待閱答題卡數(shù)量達(dá)到1440萬份左右。搭建卷庫(kù)、掃描設(shè)備、服務(wù)器，設(shè)置數(shù)據(jù)處理區(qū)、監(jiān)控安保，各種技術(shù)人員和相關(guān)工作人員緊密配合，一系列工作有條不紊地推進(jìn)。

人工算法必不敢省人工，但曾經(jīng)的“人工盯梢崗”悄然消失了。更多的人力用在了技術(shù)升級(jí)上。

為了提高效率，每一分每一秒的時(shí)間，都要擠著用。為此，工程師們也是絞盡腦汁。最開始的技術(shù)，試卷整體掃描完成，工程師們定時(shí)去取數(shù)據(jù)，然后再上傳到某個(gè)局域網(wǎng)，老師去機(jī)房判卷子。一取一傳，緊趕慢趕往往也需要24小時(shí)?，F(xiàn)在，在保障絕對(duì)安全的前提下，智能閱卷系統(tǒng)和試卷掃描系統(tǒng)可以連接到一個(gè)網(wǎng)上了，兩者打通，省去了原來的“接頭”時(shí)間。張凱說：“理想狀態(tài)下可以實(shí)現(xiàn)掃描、人工網(wǎng)評(píng)和智能閱卷同步進(jìn)行，數(shù)據(jù)實(shí)時(shí)互傳。”

擦亮人工智能的“眼睛”

相比智能閱卷的耐力值而言，準(zhǔn)確度是“更要命”的。

傳統(tǒng)的網(wǎng)上評(píng)卷方式，評(píng)卷過程主要包括：掃描儀掃描答題卡，形成的圖像被上傳到計(jì)算機(jī)，再由教師在網(wǎng)上看圖閱卷。換句話說，整個(gè)過程其實(shí)只是從紙上轉(zhuǎn)移到了電腦屏幕上，評(píng)卷的質(zhì)量保障都由教師把控。

讓人工智能加入評(píng)卷后，會(huì)有什么變化？張凱將評(píng)卷過程“拆分”細(xì)解：首先在掃描階段，計(jì)算機(jī)不再是簡(jiǎn)單地呈現(xiàn)圖像，而是對(duì)掃描的答題卡進(jìn)行圖像轉(zhuǎn)文本的處理，讓圖片轉(zhuǎn)化為計(jì)算機(jī)能夠“讀懂”的文本，“基于大數(shù)據(jù)和海量文庫(kù)資源的處理技術(shù)，計(jì)算機(jī)就能對(duì)客觀題進(jìn)行自動(dòng)評(píng)分，同時(shí)還能檢測(cè)出主觀題里考生未作答的部分，單獨(dú)形成一個(gè)空白題列表，不將這些題繼續(xù)下發(fā)，為老師們?cè)u(píng)卷減負(fù)。”之后，進(jìn)入教師網(wǎng)評(píng)階段，計(jì)算機(jī)也可以幫助教師給主觀題“查重”，比如篩出套作網(wǎng)絡(luò)范文的作文，讓教師單獨(dú)處理這些試卷；甚至計(jì)算機(jī)就可以自主給主觀題打分，作為教師雙評(píng)、多評(píng)的輔助。

“實(shí)現(xiàn)這些應(yīng)用場(chǎng)景，要突破3大技術(shù)要點(diǎn)。”張凱拋出3個(gè)專業(yè)術(shù)語——文本圖像識(shí)別技術(shù)、基于深度神經(jīng)網(wǎng)絡(luò)建模的評(píng)分模型訓(xùn)練、多維度計(jì)算機(jī)智能評(píng)分算法。他貼心地將難懂的術(shù)語翻譯成白話：“簡(jiǎn)單地說，我們要做的就是擦亮這位‘智能閱卷官’的眼睛，通過大量的訓(xùn)練，讓它學(xué)會(huì)識(shí)字、辨錯(cuò)、測(cè)評(píng)，還要保證準(zhǔn)確率達(dá)到教師閱卷的基本水平。”

突破技術(shù)要點(diǎn)的背后，工程師們?cè)诓粩嘣囧e(cuò)、默默耕耘。

光是圖像識(shí)別轉(zhuǎn)寫文本，就讓張凱和同事費(fèi)了不少功夫。“假設(shè)要識(shí)別100張圖像，我們需要先給這100張圖像找到對(duì)應(yīng)的準(zhǔn)確文本，再和計(jì)算機(jī)識(shí)別的內(nèi)容進(jìn)行比對(duì)，得出準(zhǔn)確率。”張凱笑著說，他和同事嘗試了各種技術(shù)手段去找“標(biāo)準(zhǔn)答案”，比如融合多套算法“算”出準(zhǔn)確的文本，借鑒網(wǎng)絡(luò)上其他的識(shí)別轉(zhuǎn)寫技術(shù)等，不論怎樣嘗試，找到的“標(biāo)答”還是不盡如人意……“試了一個(gè)月之后，我們發(fā)現(xiàn)還是最原始的方法最有效——找兩個(gè)標(biāo)注員，把同一張圖像的文本敲出來，兩人的答案如果還有偏差，就再找第三個(gè)人敲一遍，以此類推，最終找到準(zhǔn)確的文本。”

考試中，還有些題的答案并不唯一，如何讓計(jì)算機(jī)學(xué)會(huì)處理這些題目，也曾令張凱和同事“撓頭”。“舉個(gè)最簡(jiǎn)單的例子，一道數(shù)學(xué)題的答案是三分之一，學(xué)生寫六分之二或者九分之三都算對(duì)，但是計(jì)算機(jī)最開始只認(rèn)一個(gè)答案，這就導(dǎo)致最后機(jī)器評(píng)分的準(zhǔn)確率大打折扣。”張凱說，類似的情況讓計(jì)算機(jī)在數(shù)學(xué)等專業(yè)性較強(qiáng)的題目的評(píng)定上吃了虧，“有些專業(yè)領(lǐng)域的知識(shí)我們是想不到的，第一次發(fā)現(xiàn)答案有遺漏需要增補(bǔ)，是在一次考試之后做數(shù)據(jù)分析，于是我們想到要給計(jì)算機(jī)做更細(xì)更深的規(guī)約。”

張凱最開始想到的方法是把考生們的高頻作答收集起來，形成一個(gè)新的樣本，讓老師進(jìn)行一次評(píng)分，再讓計(jì)算機(jī)學(xué)習(xí)，做出更準(zhǔn)確的評(píng)定。“但我們?cè)谑占罅啃聵颖緯r(shí)發(fā)現(xiàn)，老師評(píng)過的題目也不一定百分之百準(zhǔn)確，計(jì)算機(jī)學(xué)習(xí)之后還是評(píng)不準(zhǔn)。”張凱說，他們又想到把所有答案類型都統(tǒng)計(jì)出來，發(fā)給評(píng)卷組的老師逐一確認(rèn)，然而這無疑又增加了老師的工作量，“以70萬考生規(guī)模的考試為例，統(tǒng)計(jì)出來的答案數(shù)據(jù)也有2萬條左右，讓老師每條都看一遍也不現(xiàn)實(shí)。”

反復(fù)磨合、測(cè)試，張凱和同事們終于找到“最優(yōu)解”：讓計(jì)算機(jī)對(duì)考生的所有作答結(jié)果進(jìn)行歸類，“基本上能判斷對(duì)錯(cuò)的歸為一類，最核心、最需要評(píng)卷老師來判斷的歸為一類，讓老師在這些作答中挑出正確答案。”張凱說，看似簡(jiǎn)單的步驟，背后其實(shí)需要工程師一步步地細(xì)化、完善，不斷提高計(jì)算機(jī)的準(zhǔn)確度。

2018年，張凱和同事帶著這套人工智能輔助閱卷系統(tǒng)在某省高考評(píng)卷中進(jìn)行了試驗(yàn)，探索人工智能評(píng)卷技術(shù)在多科目、多題型上應(yīng)用的可行性。

“對(duì)我們來說，這是一次大考。”當(dāng)年參加這場(chǎng)大考時(shí)的緊張感，張凱記憶猶新。他解釋，這次試驗(yàn)內(nèi)容包括：在線對(duì)高考語文、高考英語的作文題進(jìn)行智能評(píng)分，并將評(píng)分結(jié)果應(yīng)用于輔助質(zhì)量監(jiān)控；以離線方式驗(yàn)證高考語文簡(jiǎn)答題、高考數(shù)學(xué)證明和計(jì)算題、高考文科綜合能力測(cè)試政治簡(jiǎn)答題的智能評(píng)分效果。“龐大的考生數(shù)量，閱卷涉及多個(gè)科目、多個(gè)題型，時(shí)間緊迫，這些因素?zé)o疑給我們?cè)黾恿穗y度。但是，搞科研，就是要有韌勁兒。”張凱笑著說，當(dāng)時(shí)國(guó)內(nèi)還沒有可借鑒的成功經(jīng)驗(yàn)，團(tuán)隊(duì)就把這次大考當(dāng)作對(duì)前兩年“訓(xùn)練”成果的檢驗(yàn)。

149萬余份考卷、40臺(tái)掃描和評(píng)卷用各類服務(wù)器、兩周時(shí)間內(nèi)評(píng)出所有試題結(jié)果……這次大考的“成績(jī)單”，讓張凱和同事們喜出望外。人工智能評(píng)分系統(tǒng)對(duì)各科抽取的試卷樣本評(píng)分的準(zhǔn)確率在95%左右，評(píng)分結(jié)果都經(jīng)過了閱卷系統(tǒng)完整性、準(zhǔn)確性檢查。同時(shí)，這位“智能閱卷官”還檢測(cè)出了特殊異常的作答樣本，包括與范文庫(kù)中文本內(nèi)容相似度高、與當(dāng)次考試試卷題干相似度高、考生之間作答內(nèi)容相似度高三種情況。

項(xiàng)目組還在語文作文和英語作文中分別隨機(jī)挑選了100份圖片進(jìn)行識(shí)別率的統(tǒng)計(jì)對(duì)比，結(jié)果顯示：語文中文字符的識(shí)別準(zhǔn)確率為96.93%，英語單詞的識(shí)別準(zhǔn)確率為98.88%。“我們的智能閱卷官已經(jīng)超過了識(shí)別準(zhǔn)確率在95%以上的目標(biāo)，這說明它已經(jīng)達(dá)到了一個(gè)較高的水平。”張凱興奮地說，他們還根據(jù)智能評(píng)分得到的數(shù)據(jù)，與評(píng)卷教師的評(píng)分情況進(jìn)行了比對(duì)，并對(duì)人機(jī)產(chǎn)生大分差的樣本進(jìn)行標(biāo)注，將這些大分差樣本數(shù)據(jù)下發(fā)給各學(xué)科組評(píng)卷專家進(jìn)行復(fù)核，“各題型復(fù)核結(jié)果也表明，人工智能評(píng)分系統(tǒng)對(duì)輔助試卷質(zhì)量監(jiān)控起到精準(zhǔn)定位、精細(xì)復(fù)核、精確評(píng)分的作用。”

人工智能評(píng)分系統(tǒng)在這次大考中的出色成績(jī)，令張凱和同事們信心倍增。此后，他們又帶著這位智能閱卷官參加了全國(guó)多個(gè)省市的各類考試。不斷優(yōu)化升級(jí)的過程中，智能閱卷官的準(zhǔn)確率也在逐年提高：95%，97%，98%……到2021年，它已經(jīng)能夠作為高考閱卷的“一評(píng)”，參與填空題等答案明確題型的評(píng)分，準(zhǔn)確率達(dá)99.5%以上。

從評(píng)卷到構(gòu)建“智慧課堂”

和科研人員類似，“社會(huì)影響力”也是張凱所在項(xiàng)目組的績(jī)效指標(biāo)。從2016年實(shí)驗(yàn)室成立至今，項(xiàng)目組已經(jīng)發(fā)表了語言識(shí)別、翻譯、評(píng)測(cè)相關(guān)論文28篇，大多數(shù)都獲得了自有知識(shí)產(chǎn)權(quán)專利；同時(shí)，項(xiàng)目組還發(fā)表了中文類手寫體識(shí)別、評(píng)測(cè)相關(guān)論文11篇，獲得10個(gè)相關(guān)專利，英文類手寫體識(shí)別、評(píng)測(cè)相關(guān)論文4篇，獲得4個(gè)專利。

依托項(xiàng)目組的自有知識(shí)產(chǎn)權(quán)專利，目前，人工智能輔助閱卷系統(tǒng)已經(jīng)能夠?qū)崿F(xiàn)對(duì)語文、英語以及政治、歷史等文科類學(xué)科試卷的智能評(píng)分，也可以處理數(shù)學(xué)這類公式相對(duì)統(tǒng)一的學(xué)科的試卷，下一步的目標(biāo)是“精益求精”。“像化學(xué)、物理、地理這些學(xué)科，會(huì)涉及有機(jī)分子式、圖形等一些特殊符號(hào)，在計(jì)算機(jī)圖像識(shí)別轉(zhuǎn)寫上，這些難點(diǎn)是我們要進(jìn)一步突破的。”張凱用“謹(jǐn)小慎微”形容他們正在做的工作，“還有很多細(xì)節(jié)，比如語文常用的刪除號(hào)、調(diào)位號(hào)等修改符號(hào)，現(xiàn)在計(jì)算機(jī)只能把它們識(shí)別出來交給閱卷老師去復(fù)核；未來，我們希望它能獨(dú)立完成對(duì)這些內(nèi)容的處理。”

去年，智能閱卷官在北京“上崗”了。新中考首考中，從搭建試卷庫(kù)、掃描儀、服務(wù)器，到實(shí)時(shí)處理數(shù)據(jù)，監(jiān)控試卷安全……項(xiàng)目組在規(guī)定時(shí)間內(nèi)順利完成了20萬考生近90萬份答題卡的掃描閱卷工作。不僅這一場(chǎng)考試，大到高考、高中學(xué)業(yè)水平考試，小至一些學(xué)校的月考、期末考，各類考試中都有這套人工智能輔助閱卷系統(tǒng)不同程度的試點(diǎn)應(yīng)用。

除了關(guān)注考試，在北京的中小學(xué)校園里，“智慧課堂”的建設(shè)也有人工智能系統(tǒng)的身影。今年，育英中學(xué)“上新”了一份個(gè)性化學(xué)習(xí)手冊(cè)，里面包含了學(xué)生日常檢測(cè)的錯(cuò)題解析、知識(shí)點(diǎn)講解，以及針對(duì)薄弱知識(shí)點(diǎn)的拓展練習(xí)題，幫助學(xué)生有針對(duì)性地進(jìn)行鞏固提升，滿足多樣化學(xué)習(xí)需求。如果學(xué)生學(xué)有余力，可以自主自愿選擇基于自身知識(shí)圖譜生成的個(gè)性化學(xué)習(xí)手冊(cè)，作為補(bǔ)充專題學(xué)習(xí)。這份智能手冊(cè)不僅可以識(shí)別學(xué)生手寫作答的中英文和公式，減輕教師的批改負(fù)擔(dān)，還可以通過計(jì)算機(jī)閱讀理解技術(shù)分析學(xué)生學(xué)情，推薦個(gè)性化學(xué)習(xí)方案。

“隨著‘雙減’政策的實(shí)施，我們也在探索人工智能在素質(zhì)教育方面發(fā)力，提供能力輔助提升。”張凱說，在個(gè)性化推薦上，這套系統(tǒng)將轉(zhuǎn)變以往推薦題庫(kù)“刷題”的模式，更注重引導(dǎo)學(xué)生自主學(xué)習(xí)和素質(zhì)培養(yǎng)，基于對(duì)學(xué)生的愛好分析，推薦更多相關(guān)的課外讀物?？此坪?jiǎn)單的轉(zhuǎn)變，其實(shí)需要研發(fā)人員做大量的工作才能實(shí)現(xiàn)。為此，張凱和同事除了在人工智能評(píng)卷技術(shù)上進(jìn)一步拓展之外，也正在忙著探索人工智能在素質(zhì)教育中的應(yīng)用。

雖然每天面對(duì)著冷冰冰的計(jì)算機(jī)，做著看似枯燥的工作，工程師們的心卻比誰都細(xì)膩溫暖。“我們更想達(dá)到的目標(biāo)是快樂教育，為孩子們減負(fù)，讓他們開心成長(zhǎng)。”采訪結(jié)束，背景音里又響起航班開始登機(jī)的廣播，張凱掐準(zhǔn)時(shí)間，起身趕往下一座城市，他說，“為了萬千學(xué)生，投身這一事業(yè)，再辛苦也值得。”

關(guān)鍵詞：