此外,在智能對話領域的研究成果也取得突破性進展。今年5月入選2024年國際機器學習大會(ICML)的論文《基于強化學習的檢索增強大語言模型可信對齊》由中國科技大學、合肥綜合性國家科學中心人工智能研究所、螞蟻數(shù)科聯(lián)合申報。論文針對大語言模型容易遭受幻覺困擾、制造無效內(nèi)容的問題,提出了基于強化學習的“可信對齊”策略,該策略的目標不只是“滿足用戶偏好”,而希望激勵模型生成更可信的內(nèi)容。相比傳統(tǒng)基于專家標注樣本的監(jiān)督訓練方式,“可信對齊”訓練的模型更注重基于給定的上下文和邏輯給出可信的判斷。實驗結果表明,該方案比開源基礎模型的準確率提升55%,與準確答案的對齊成本降低83%。此外,“可信對齊”在生成文字的流暢度方面比傳統(tǒng)方法提升30%,良好的性能將有利于語言模型在TO B嚴謹行業(yè)的應用落地。
自監(jiān)督學習被認為是機器智能達到人類水平的關鍵,其最大的特點是不依賴人工標注的數(shù)據(jù)標簽,可自主觀察和學習、提取有用的特征,并應用于各種任務,與人類學習的方式相似。自監(jiān)督學習在為模型訓練降本提效的同時,具備更好的知識泛化能力和持續(xù)學習能力,研究對推動AI發(fā)展有著深遠意義。