最新一篇來自加州理工與劍橋的研究,顛覆了人們的想象。研究團隊不僅讓LLM填「大五人格」問卷,還安排了翻牌游戲、偏見測試和從眾實驗。結果出乎意料——模型的「自報性格」和實際行為幾乎毫無關聯。基于此,研究團隊提出一個新概念:人格幻覺。
一圖看透全球大模型!新智元十周年鉅獻,2025 ASI前沿趨勢報告37頁首發
AI真的有「性格」嗎?
有人拿它做過大五人格測試,發現它回答得既友善,又不焦慮,甚至比人類更穩定。
于是有了各種趣味解讀:有的模型像外向的ENFP,有的則更像嚴謹的ISTJ,好像AI也能被貼上MBTI標簽。
可最新一篇來自加州理工、劍橋等機構的論文,卻潑下了一盆冷水:
LLM的「人格」,也許只是語言制造的幻覺。

論文地址:https://arxiv.org/abs/2509.03730
項目主頁:https://psychology-of-ai.github.io/
研究者不僅讓模型做問卷,還設計了一系列行為實驗。結果令人意外:
模型說出來的性格,與實際行為幾乎對不上。
那么,這個「人格幻覺」是怎么被發現的?

在這項研究里,團隊把「大模型到底有沒有人格」拆成了三步:先看語言上的自報特質(RQ1),再測真實任務的行為表現(RQ2),最后嘗試用persona注入來調控(RQ3)。

從預訓練到對齊,再到persona提示注入的整體流程
如果只看心理問卷,大語言模型簡直是「模范人格」。
研究團隊首先采用了心理學里常見的兩類自評工具:大五人格問卷和自我調節量表。
這些量表在人類研究中被廣泛用來描繪一個人的性格特質,比如是否外向、是否友善,是否能夠控制沖動。
當研究者把這些問卷交給不同階段的大模型時,結果顯示出一個清晰的趨勢:隨著指令微調(SFT)、人類反饋強化學習(RLHF)、DPO 等對齊方法的疊加,模型的「人格畫像」越來越穩定、越來越「乖巧」。
具體表現在哪里呢?在大五人格的維度上,開放性和宜人性顯著上升,神經質顯著下降。
也就是說,它看上去更開朗、友善,也更少焦慮和不穩定。
