SQuAD的負責人Pranav Rajpurkar難掩興奮之情。他在社交媒體上表示,2018年一個強勁的開始,第一個模型(阿里巴巴iDST團隊提交的SLQA +)在精準度匹配上超越人類表現(xiàn)!下一個挑戰(zhàn):模糊匹配,人類仍然領先2.5分!
SQuAD比賽構建了一個大規(guī)模的機器閱讀理解數(shù)據集(包含10萬個問題),文章來源于500多篇維基百科文章。人工智能在閱讀完數(shù)據集中的一篇短文之后,需要回答若干個基于文章內容的問題,然后與標準答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果。
SQuAD是行業(yè)內公認的機器閱讀理解頂級賽事,吸引了包括谷歌、卡內基?梅隆大學、斯坦福大學、微軟亞洲研究院、艾倫研究院、IBM、Facebook等知名企業(yè)研究機構和高校的深度參與。
此次技術的重大突破源于阿里巴巴研究團隊提出的“基于分層融合注意力機制”的深度神經網絡模型。該模型能夠模擬人類在做閱讀理解問題時的一些行為,包括結合篇章內容審題,帶著問題反復閱讀文章,避免閱讀中遺忘而進行相關標注等。
模型可以在捕捉問題和文章中特定區(qū)域關聯(lián)的同時,借助分層策略,逐步集中注意力,使答案邊界清晰;另一方面,為避免過于關注細節(jié),采用融合方式將全局信息加入注意力機制,進行適度糾正,確保關注點正確。
阿里巴巴自然語言處理首席科學家司羅表示,對于解決wiki類客觀知識問答,機器已經取得非常好的結果,我們將繼續(xù)向對通用內容的“能理解會思考”的終極目標邁進。今后,研發(fā)的重點在于把這項技術真正應用在廣大實際場景,讓機器智能普惠生活。
實事上,這項技術已經在阿里巴巴內部被廣泛使用。比如,每年雙11都會有大量的顧客對活動規(guī)則進行咨詢。阿里小蜜團隊通過使用司羅團隊的技術,讓機器直接對規(guī)則進行閱讀,為用戶提供規(guī)則解讀服務,是最自然的交互方式。
再比如,顧客還會針對單個商品詢問大量的基礎問題,而這些問題其實在商品詳情頁都是有答案的?,F(xiàn)在通過機器閱讀理解技術,能夠讓機器對詳情頁中的商品描述文本進行更為智能地閱讀和回答,降低服務成本的同時提高購買轉化率。
由司羅領導的自然語言處理團隊支撐了阿里巴巴整個生態(tài)的技術需求。由他們研發(fā)的AliNLP自然語言技術平臺每日調用1200億+次,Alitranx 翻譯系統(tǒng)提供20個語種在線服務日調用量超過7億+次。此前曾在2016年ACM CIKM 個性化電商搜索、2017年IJCNLP中文語法檢測CGED評測、2017年年美國標準計量局TAC評比英文實體分類等大賽中取得全球第一的成績。