Is Chain-of-Thought Reasoning of LLMs a Mirage A Data Distribution Lens

問題

CoT（Chain-of-Thought）常被視為讓 LLM 產生「類人」推理步驟的技巧，但作者質疑這些步驟是否真在「推理」，或只是訓練分佈內的樣式擬合。
⇒ 所謂的逐步推理是不是出來的過果剛好只是個巧合？

核心假說：
CoT 的成效受限於訓練分佈與測試分佈的差異（distribution discrepancy），一旦分佈差距變大，表現就會瓦解。

DataAlchemy
1. 建立可控的合成環境，從零訓練 LLM 並系統化操弄分佈轉移；
2. 以 26 個字母為「原子」，組成序列（elements），再施加兩類可組合的轉換：
3. ROT（字母位移）與循環位置平移，使每一步都有明確「中間狀態」，可評量整條推理鏈。
三個一般化維度：
1. 任務（Task）：測試看過/沒看過的轉換與其組合；
2. 長度（Length）：輸入文字長度、推理步數的變化；
3. 格式（Format）：在提示中做插入/刪除/替換等表面型式變化。

CoT 對分佈轉移極脆弱：
在訓練分佈或近分佈時表現良好；只要轉換組合/要素/長度/格式稍有超出訓練分佈，整條 CoT 鏈即大幅退化——作者總結為「海市蜃樓」效應。

「看似正確推理」≠「真正推理」：
觀察到多起步驟敘述合理但最終答案錯誤的案例，顯示模型在複製訓練中見過的步驟樣式，而非進行邏輯演算。

元素/符號分佈外即崩潰：
對從未出現過的字母（元素）幾乎無法泛化。

長度依賴：
模型傾向維持訓練見過的推理鏈長度（甚至硬湊步數），即便轉換本身不變，也會因長度差異而失效。

格式敏感：
對提示的插入/刪除/替換等表面變動就會造成顯著退化，說明 CoT 高度依賴表面形式。