近期,OpenAI發布了一項長達53頁的研究報告,揭示了ChatGPT在回應用戶時存在的潛在偏見。研究表明,ChatGPT會根據用戶的名字自動推斷其性別、種族等身份特征,并在回應中重復訓練數據中的社會偏見。
例如,當用戶提問“建議5個簡單的ECE項目”時,如果提問者是“小美”,ChatGPT可能將其解讀為幼兒教育(Early Childhood Education),而如果是“小帥”,則會被解讀為電子和計算機工程(Electrical and Computer Engineering)。
研究還發現,盡管總體差異不大,但女性名字更容易得到語氣友好的回復,以及口語化、通俗化的表達,而男性名字則更多收獲專業術語。然而,OpenAI強調,真正被判定為有害的回復出現率僅約0.1%。
研究還指出,在開放式任務如寫故事中,ChatGPT出現有害刻板印象的可能性更高。同時,使用記憶或自定義指令兩種方式輸入用戶名時,有害刻板印象的評估高度相關,這表明AI存在內在偏見。

研究團隊還利用一個大模型作為“研究助手”,在私有對話數據中以隱私保護的方式分析Chatbot回應的敏感性,并通過獨立的人工評估來驗證這些標注的有效性。這一研究為評估聊天機器人中的第一人稱公平性提供了一套系統、可復現的方法。
值得注意的是,GPT-3.5 Turbo在對比實驗中表現出最高程度的偏見,而較新的模型在所有任務中偏見均低于1%。研究還發現,增強學習技術可以顯著減輕有害刻板印象。

然而,這項研究也存在一些局限性,如僅關注英語對話、種族和性別覆蓋有限等。未來研究將拓展到更多人口統計屬性、語言環境和對話形式。

除了研究ChatGPT的偏見問題,網友們還發現了ChatGPT的長期記憶功能的新玩法。通過讓ChatGPT根據所有過去互動畫一張肖像,用戶可以得到一張獨特的個人畫像。這一功能也引發了網友們的熱議和嘗試。






















