Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

Chen, Haolin; Feng, Yihao; Liu, Zuxin; Yao, Weiran; Prabhakar, Akshara; Heinecke, Shelby; Ho, Ricky; Mui, Phil; Savarese, Silvio; Xiong, Caiming; Wang, Huan

Computer Science > Artificial Intelligence

arXiv:2411.04282 (cs)

[Submitted on 6 Nov 2024 (v1), last revised 21 Nov 2024 (this version, v2)]

Title:Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

Authors:Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang

View PDF HTML (experimental)

Abstract:Large language models (LLMs) have shown impressive capabilities, but still struggle with complex reasoning tasks requiring multiple steps. While prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at inference time, optimizing reasoning capabilities during training remains challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled framework that formulates reasoning as sampling from a latent distribution and optimizes it via variational approaches. LaTRO enables LLMs to concurrently improve both their reasoning process and ability to evaluate reasoning quality, without requiring external feedback or reward models. We validate LaTRO through experiments on GSM8K and ARC-Challenge datasets using multiple model architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of 12.5% over base models and 9.6% over supervised fine-tuning across Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that pre-trained LLMs possess latent reasoning capabilities that can be unlocked and enhanced through our proposed optimization approach in a self-improvement manner. The code of LaTRO is available at \url{this https URL}.

Subjects:	Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG); Machine Learning (stat.ML)
ACM classes:	I.2.7
Cite as:	arXiv:2411.04282 [cs.AI]
	(or arXiv:2411.04282v2 [cs.AI] for this version)
	https://doi.org/10.48550/arXiv.2411.04282

Submission history

From: Haolin Chen [view email]
[v1] Wed, 6 Nov 2024 22:02:30 UTC (330 KB)
[v2] Thu, 21 Nov 2024 20:29:09 UTC (339 KB)

Computer Science > Artificial Intelligence

Title:Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Artificial Intelligence

Title:Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators