Is Chain-of-Thought Reasoning of LLMs a Mirage A Data Distribution Lens

[2508.01191] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens


問題

CoT(Chain-of-Thought)常被視為讓 LLM 產生「類人」推理步驟的技巧,但作者質疑這些步驟是否真在「推理」,或只是訓練分佈內的樣式擬合
⇒ 所謂的逐步推理是不是出來的過果剛好只是個巧合?

核心假說:
CoT 的成效受限於訓練分佈與測試分佈的差異(distribution discrepancy),一旦分佈差距變大,表現就會瓦解。


作法

  1. DataAlchemy
    1. 建立可控的合成環境,從零訓練 LLM 並系統化操弄分佈轉移;
    2. 以 26 個字母為「原子」,組成序列(elements),再施加兩類可組合的轉換
    3. ROT(字母位移)與循環位置平移,使每一步都有明確「中間狀態」,可評量整條推理鏈。
  2. 三個一般化維度:
    1. 任務(Task):測試看過/沒看過的轉換與其組合
    2. 長度(Length):輸入文字長度、推理步數的變化;
    3. 格式(Format):在提示中做插入/刪除/替換等表面型式變化。

結果

CoT 對分佈轉移極脆弱
在訓練分佈或近分佈時表現良好;只要轉換組合/要素/長度/格式稍有超出訓練分佈,整條 CoT 鏈即大幅退化——作者總結為「海市蜃樓」效應。

「看似正確推理」≠「真正推理」:
觀察到多起步驟敘述合理但最終答案錯誤的案例,顯示模型在複製訓練中見過的步驟樣式,而非進行邏輯演算。

元素/符號分佈外即崩潰:
從未出現過的字母(元素)幾乎無法泛化。

長度依賴:
模型傾向維持訓練見過的推理鏈長度(甚至硬湊步數),即便轉換本身不變,也會因長度差異而失效。

格式敏感
對提示的插入/刪除/替換等表面變動就會造成顯著退化,說明 CoT 高度依賴表面形式

Powered by Forestry.md