自O(shè)penAI於2022年11月推出ChatGPT之後,人工智能(AI)便逐漸成為大眾生活不可或缺的一部分,學(xué)生以AI輔助搜集論文資料,投資者靠AI總結(jié)企業(yè)季度表現(xiàn)。隨著AI聊天機器人的互動表現(xiàn)越來越自然,更有不少人開始把AI當(dāng)成虛擬朋友,吐露心聲,尋求建議。然而,自AI進入人們生活那一刻起,AI「討好」(Sycophancy)的毛病一直都存在。AI說的話是否可以盡信,或要打個問號。
今年4月末ChatGPT-4o更新,用戶紛紛表示該模型更新後過於迎合人類,更有甚者直指為「馬屁精」。4天後,OpenAI就發(fā)表聲明,表示已經(jīng)更換有問題的模型,承諾以後會採用新機制確保模型質(zhì)素。聲明提及,當(dāng)初訓(xùn)練新版本模型時「太重視短期回饋」,未能充分考慮用戶與模型的互動「會如何演變」,導(dǎo)致回應(yīng)顯得「過度迎合」「流於虛偽」。
訓(xùn)練形成「獎勵模型」
不過, 何謂「重視短期回饋」?這就不得不提生成式語言模型的重要概念,RLHF技術(shù)(Reinforcement Learning from Human Feedback),中文稱「基於人類反饋的強化學(xué)習(xí)」。
簡單來說,就是在訓(xùn)練模型時,讓機器生成回應(yīng),而訓(xùn)練人員則根據(jù)一套標(biāo)準(zhǔn)評估其品質(zhì):內(nèi)容是否顯得專業(yè),表達是否恰當(dāng)?shù)皿w,語氣是否友善自然,不一而足。而這些人類意見回饋會得到單獨訓(xùn)練,成為一套「獎勵模型」,計算出怎樣的回應(yīng)最得人類認(rèn)可。
語言模型便可使用獎勵模型,自動根據(jù)獎勵參數(shù)進行一系列評估與調(diào)整,隨後選擇最可能得到最大獎勵的答案。
這套訓(xùn)練方法允許模型更精準(zhǔn)洞察人類溝通的細微之處,處理一些複雜模糊的概念時也有人類的判斷作清晰指引。同時,卻也有限制:AI模型Claude的開發(fā)方Anthropic曾發(fā)表過一篇論文,當(dāng)中分析他們自己的RLHF數(shù)據(jù)集,發(fā)現(xiàn)如果模型的回應(yīng)符合用戶在提示中展現(xiàn)的價值觀,該回應(yīng)有相當(dāng)大可能符合用戶偏好。這意味著,基於人類偏好的訓(xùn)練數(shù)據(jù),會系統(tǒng)性地培養(yǎng)模型曲意逢迎的傾向。
因此,若用戶把AI當(dāng)作朋友,與此類有迎合傾向的模型互動,或有一定風(fēng)險。如果用戶諸事不順,需訴說心頭苦悶,那AI的確會是非常體貼的聆聽者,但倘若用戶需要進行生活中的決策而尋求AI幫助,則另當(dāng)別論。從大學(xué)該讀「神科」還是有興趣的科系,到畢業(yè)後該繼續(xù)升學(xué)抑或直接工作,種種問題都需經(jīng)審慎思考。當(dāng)然,人類朋友也可能會迎合當(dāng)事人意願,但至少當(dāng)事人一般都會意識到,他人的意見有其局限,不能照單全收。相反,一般市民或許對AI認(rèn)識不多,並未了解到AI有「討好」傾向,不疑有他,就點頭接受。
然而,AI雖是劃時代的發(fā)明,也只是輔助決策的先進工具,人類的角色仍然不可或缺。古人提倡「友直,友諒,友多聞」,如今亦然。AI並非笑裏藏刀的諂媚小人,但也不是絕對正確的專家,它只是一個見多識廣的朋友。要讓AI走入生活,首先要清楚這一點。
●中大賽馬會「智」為未來計劃
由香港賽馬會慈善信託基金捐助,香港中文大學(xué)工程學(xué)院及教育學(xué)院聯(lián)合主辦,旨在透過建構(gòu)可持續(xù)的AI教育生態(tài)系統(tǒng)將AI帶入主流教育。通過獨有且內(nèi)容全面的AI課程、創(chuàng)新AI學(xué)習(xí)套件、建立教師網(wǎng)絡(luò)並提供AI教學(xué)增值,計劃將為香港的科技教育寫下新一頁。
評論