无线电通信技术

大语言模型中的思维链技术综述

PDF下载

杜家乐 ¹ , 陈曙东 ¹^,^* , 叶亮 ² , 王尔刚 ¹ , 赵一同 ³

无线电通信技术 | 专家论坛 2025,51(5): 877-887

收起

无线电通信技术 | 专家论坛 2025, 51(5): 877-887

大语言模型中的思维链技术综述

全屏

杜家乐¹, 陈曙东¹^,^*, 叶亮², 王尔刚¹, 赵一同³

作者信息

^1.中国科学院微电子研究所，北京　100029

^2.中国科学院大学　应急管理科学与工程学院，北京　100049

^3.北京理工大学　机械与车辆学院，北京　100081

杜家乐　男，（1999—），博士研究生。主要研究方向：知识图谱构建与应用、CoT技术与应用。参与实验室多项知识图谱构建与应用和CoT技术与应用项目，拥有专利1项和软件著作权2项。

叶亮　男，（2002—），硕士研究生。主要研究方向：AI、自然语言处理。

王尔刚　男，（1988—），博士研究生。主要研究方向：知识图谱构建与应用。

赵一同　男，（2004—）。主要研究方向：机械、AI。

通讯作者:

陈曙东　女，（1977—），博士，研究员，教授，博士生导师。国家科技部大数据与云计算、人工智能、工业软件领域专家。长期从事大数据、AI、物联网领域的科研工作，开展数据智能技术在智能制造、金融科技、智慧城市等领域的应用研究。曾主持多项国家发改委、科技部、基金委、中科院先导、中科院科技服务网络计划STS、欧盟FP6、FP7等重大专项。发表学术论文70余篇，拥有专利30多项和软件著作权2项，出版专著8部。

Survey of Chain of Thought Techniques in Large Language Models

Jiale DU¹, Shudong CHEN¹^,^*, Liang YE², Ergang WANG¹, Yitong ZHAO³

Affiliations

^1.Institute of Microelectronics of the Chinese Academy of Sciences, Beijing 100029, China

^2.School of Emergency Management Science and Engineering, University of Chinese Academy of Sciences, Beijing 100049, China

^3.School of Mechanical Engineering, Beijing Institute of Technology, Beijing 100081, China

出版时间: 2025-09-18 doi: 10.3969/j.issn.1003-3114.2025.05.001

文章导航

摘要

收起

在计算资源不断增强的供给推动下，大语言模型（Large Language Models，LLMs）的参数规模持续扩大，其在自然语言处理中的任务表现也更加卓越。但在面临推理问题，尤其是在常识推理或数学问题上，仍然存在一定的局限性。思维链（Chain of Thought，CoT）技术通过引导模型生成推理步骤，显著提升了其在不同领域问题的解决能力。从训练方式的角度梳理了CoT的理论基础系统和技术演进，对如政务服务、企业数字化等应用场景做了进一步讨论。结合（Artificial Intelligence，AI）的发展趋势，从AI智能化程度的角度论述了CoT在LLMs走向更高认知水平中必不可少的作用，并指出其在当前面临的挑战与亟需解决的技术瓶颈。

关键词

大语言模型 / 思维链 / 推理 / 人工智能

Abstract

收起

Driven by the ever-increasing supply of computational resources, the parameter size of Large Language Models(LLMs) continues to expand and their task performance in natural language processing has become more superior. However, there are still limitations when faced with reasoning problems, especially in common-sense reasoning or mathematical problems. Chain of Thought(CoT) significantly improves its ability to solve problems in different domains by guiding the model to generate reasoning steps. In this paper, we not only sort out the theoretical foundation system and technical evolution of CoT from the perspective of training method, but also further discuss application scenarios such as government service and enterprise digitalisation. Finally, in the light of the development trend of Artificial Intelligence (AI), the paper discusses the essential role of CoT in the development of LLMs towards a higher cognitive level from the perspective of the degree of AI, and points out the challenges and technical bottlenecks that need to be solved at the present time.

Key words

LLMs / CoT / reasoning / AI

引用本文

杜家乐, 陈曙东, 叶亮, 王尔刚, 赵一同. 大语言模型中的思维链技术综述. 无线电通信技术, 2025 , 51 (5) : 877 -887 . DOI: 10.3969/j.issn.1003-3114.2025.05.001

Jiale DU, Shudong CHEN, Liang YE, Ergang WANG, Yitong ZHAO. Survey of Chain of Thought Techniques in Large Language Models[J]. Radio Communications Technology, 2025 , 51 (5) : 877 -887 . DOI: 10.3969/j.issn.1003-3114.2025.05.001

正文

收起

0　引言

收起

随着AI技术的不断进步，尤其是在自然语言处理领域，LLMs的迅猛发展引发了广泛的关注。尽管这些模型在一定程度上展现出语言理解和生成的强大能力，但在推理能力上的短板却愈发显著。据Brown等^[1]的研究，GPT-3模型虽然在多项基准测试中取得了出色的表现，但在需要逻辑和常识推理的场景下，依然存在可被质疑的情境。因此，如何提升LLMs的推理能力成为亟待解决的研究课题。

LLMs的推理能力受到训练机制和数据集的限制。尽管这些模型在大量非推理任务中表现优异，但面对复杂的常识推理问题时，经常会出现逻辑推理错误或结果不一致等问题。这意味着，仅依靠大规模数据训练并不足以保证模型在推理领域的良好表现，推理能力的真正提升需要更为系统的研究与方法论。

CoT作为一种新兴的推理机制，试图通过引导模型生成推理步骤解决当前LLMs在复杂推理任务中的局限性。Wei等^[2]通过实验证实，CoT可以有效帮助模型在复杂推理任务中生成更为可靠的推理路径，从而增强模型的推理能力。CoT不仅显著提升了模型的常识推理能力，还在数学逻辑推理方面取得了重大进展。

本文旨在深入剖析CoT，探讨其在提升LLMs推理能力方面的潜力与现有局限。研究将系统性地考察当前LLMs的推理瓶颈，阐述CoT的技术演进与方法论，分析其在不同应用场景下的表现，并揭示其面临的关键挑战。

1　理论基础

收起

1.1　CoT定义

CoT是指模型在生成最终答案或进行推理时，能够明确生成其中间的思考步骤^[3]，进而展示从问题到答案的逻辑推导过程。从技术实现上看，CoT通过设计包含逐步推理示例的提示模板，激发模型生成类似结构的推理路径。这种方法通常包括但不限于推理、问题拆解、推理路径的构建等。

作为一种显式的推理机制，CoT可以帮助语言模型更好地模拟人类的思考方式，增强模型的推理能力和解释性。假设中间推理步骤为序列s₁，s₂，…，s_n，其核心数学形式可描述为给定输入问题x，模型生成答案y的过程被分解为多步推理链：

式中：s_i为模型在第i步的推理结果，P（s_i|x，s_<i）为模型基于输入x和历史步骤s_<i生成当前步骤的条件概率。与传统直接生成答案的方法，即最大化P（y|x）相比，CoT通过分步条件概率分解建模推理过程：

这种分解使得模型在生成最终答案y之前，必须通过中间步骤s₁，s₂，…，s_n_-1逐步逼近正确答案，从而减少直接生成答案导致的逻辑混乱或跳跃错误问题。

在后续的研究中，一些学者进一步拓展了CoT的定义。Yao等^[4]提出了思维树（Tree of Thoughts，ToT）方法，改进了传统的CoT框架，采用多路径推理模拟更复杂的决策过程，增强了语言模型的推理能力。Zhang等^[5]提出了多模态思维链（Multimodal-CoT，MoCoT）框架，通过结合语言和视觉模态，采用两阶段推理方法，提升了推理准确性，缓解了幻觉问题，并在ScienceQA数据集上取得了先进的性能。

CoT的引入为解决传统模型在复杂推理任务中的局限性提供了有效的突破，其核心价值体现在多个方面。

①常识推理能力的超越性：在语言模型的研究中，常识推理能力是评估模型智能和实用化的一个重要指标^[6]。CoT的提出，尤其是链式推理过程的逐步展开，使得语言模型在常识推理方面的能力逐渐提高。Wang等^[7]提出了自一致性解码策略，通过采样多个推理路径并选择一致性最强的答案，显著提升了CoT推理的准确性。在常识推理任务中，如StrategyQA，准确率提高了6.4%。Wang等^[8]提出的CHAIN-OF-TABLE框架通过逐步更新表格，实现了动态推理链，提高了语言模型在表格问答任务中的表现，在WikiTQ和TabFact等数据集上，均取得了新的一流基准，展示了其在常识推理中的优势。CoT的提出和相关策略的优化，极大地提高了语言模型在常识推理中的表现，不仅推动了自然语言处理技术的发展，还为模型在应用中的智能化程度和实用性提供了坚实的基础。

②数学逻辑推理的大幅提升：在数学逻辑推理任务中，语言模型的表现长期受限于复杂问题的多步推理能力^[9-10]，而CoT的引入为这一领域带来了革命性突破。Wei等^[2]提出的链式思维提示，相较于标准提示，通过在提示中加入一系列中间推理步骤，显著提升了语言模型在数学推理任务中的表现。在GSM8K数据集上，PaLM 540B模型通过链式思维提示将准确率从18%提升至57%，甚至优于之前最好的结果^[11]。此外，为了提高CoT在中小规模的LLMs上的推理能力，陈孟科等^[12]提出了基于6W2H策略的CoT（6W2H CoT，WH-CoT）框架，在Qwen-turbo模型上，算术推理准确率比Zero-Shot-CoT平均提高了3.35%，比Manual-CoT平均提高了4.27%。因此，CoT的发展，解决了语言模型在数学逻辑任务中的关键瓶颈，实现了从“直觉猜测”到“系统推理”的跨越。

③CoT的可解释性与可信性：CoT不仅通过显式生成推理步骤提高了任务推理性能，还为模型的最终决策提供了更高的可解释性与可信性^[13]。传统语言模型常被视为“黑箱”，其输出缺乏中间逻辑。例如，在医疗问答任务中，模型若直接输出诊断结果（如患者可能患有肺炎），其可信度会受到质疑；但若生成推理链（如患者症状包括发热、咳嗽→常见于细菌性肺炎→建议胸片检查），医生可追溯逻辑依据并验证合理性。Liu等^[14]提出的MedCoT通过层次化专家验证推理链提高了医学视觉问答的可解释性。多层次专家验证使推理路径可溯，增强了推理过程的透明度，从而提升了模型的可靠性和信任度。此外，在金融领域，Lee等^[15]提出了FINALE指令调整数据集，通过CoT提示生成高质量的推理步骤，提升了金融领域指令调优模型的推理性能和可解释性。实验结果表明，与其他模型相比，该模型在9个子任务中平均提高了9%。CoT不仅提升了模型在复杂任务中的推理性能，还显著增强了各领域任务中的可解释性与可信性，进而提高模型在实际应用中的可靠性。

1.2　少样本学习

在传统深度学习模型中，大量的标注数据通常是模型学习和推理能力提升的关键。然而，现实中很多任务获取足够多的标注数据既昂贵又耗时^[16]。受到人类学习方式的启发^[17]，少样本学习（Few-shot Learning）被提出，旨在仅有少量训练样本的情况下，依然能够实现良好的分类和预测性能^[18]。元学习（Meta-learning）作为当前少样本学习主要的研究方向之一，通常通过训练一个基础模型，使得该模型在面对新任务时，能够从少量样本中迅速进行有效学习。该框架通常假设模型可以通过在相关任务上进行训练来获得一组共享的知识。例如，给定一个任务空间T，任务T∈T通常包括输入X和目标输出Y，希望在新任务T_new上能够通过少量样本进行推理。在元学习中，训练过程通过最小化损失函数来优化模型的参数，以便在少量样本的情境下迅速适应新任务。对于任务T_new，目标是找到一组模型参数θ使得损失函数最小化，即：

式中：ℓ（f（x;θ），y）表示模型预测与真实标签之间的损失，f（x;θ）为模型对输入x的预测结果，θ为模型参数。

1.3　零样本学习

零样本学习（Zero-shot Learning）是迁移学习的一个特例，其中训练类集与测试类集之间不存在交集。在零样本学习的过程中，模型通过从训练类与测试类之间迁移知识来完成学习任务。

假设训练集中有n个样本

，其中x_i为特征，y_i∈Y为对应的类别标签，且Y为训练集中出现过的类别集合。目标是训练一个映射函数f:X→

^d，将输入空间X映射到一个嵌入空间中，使得模型能够在该空间中有效地比较不同类别的特征。具体而言，对于零样本学习问题，模型不仅需要学习如何映射输入特征x到一个表示空间RR^d，还需要通过类别的语义信息（如属性向量或文本描述）对未知类别y′∉Y进行正确的预测。

零样本学习的关键在于通过共享的语义空间进行类别推理，解决了传统学习方法中样本稀缺问题。

1.4　强化学习

强化学习为优化模型的CoT生成提供了一种有效的方法，核心机制是与环境的交互。模型能够通过“试错”不断调整其生成策略^[19]，以最大化累积奖励。在CoT生成任务中，强化学习用于优化推理步骤的正确性和连贯性。

在强化学习框架中，思维模型推理过程中的每一步都可以视为一个“状态”，模型在每个状态下需要选择一个动作，动作的选择即是推理的步骤或方法。根据模型选择的动作，系统会提供反馈，并且模型根据这些反馈优化推理路径，最终通过最大化累积奖励来优化推理过程，确保推理链条的高效性和准确性。

Q-learning可以用于优化模型在推理过程中的决策，模型通过学习每个状态—动作对的Q值（即该状态下采取某个动作的期望回报）来优化决策过程：

式中：α为学习率，γ为折扣因子，r_t₊₁为当前动作后的即时奖励，

表示下一个状态的最大Q值。通过不断更新Q值，模型能够优化每一步推理的选择，从而提高整个推理链的质量。

此外，模型还可以通过策略梯度方法优化参数，直接调整推理过程中动作的选择策略。其目标是最大化长期回报，通过计算策略的梯度来更新模型的推理策略：

式中：G_t表示从当前状态起未来所获得的累计奖励。策略梯度方法通过直接优化策略函数，使模型在推理任务中能够逐步选择出最优的推理路径。

1.5　迁移学习

迁移学习旨在将从源任务中学到的知识，通过极少的数据应用于一个目标任务的学习^[20]。与传统的机器学习范式，即要求训练数据与测试数据来自同一独立同分布的数据集不同，迁移学习通过参数共享，放松了这一限制，允许源任务T_S和目标任务T_T之间存在差异，即二者对应的分布P_S（X，Y）≠ P_T（X，Y）。

在语言模型的发展过程中，预训练-微调范式是典型迁移学习框架。大型语言模型如GPT、BERT（Bidirectional Encoder Representations from Transformers）等，首先在大规模通用语料上进行无监督预训练，然后学习通用语言知识、世界知识和基本推理能力，最后模型可以通过微调使其适应特定的下游任务^[21]。

在CoT推理中，手动构建推理链并重新训练模型往往因为数据质量及模型优化问题难以得到理想的结果^[22]。而LLMs在未明确训练CoT数据的情况下，依然可以通过“少样本学习”展示出基本的多步骤推理能力^[2]，这说明模型在预训练阶段已隐式学习到某种通用的推理机制，且可以通过提供少量示例进行快速迁移。这种迁移不仅限于任务类型的迁移，还包括认知策略的迁移。

2　技术演进与方法论

收起

2.1　关键里程碑研究

2.1.1　少样本CoT与零样本CoT范式

在Wei等^[2]提出少样本思维链（Few-shot CoT）后，Kojima等^[23]进一步提出零样本思维链（Zeroshot CoT），仅需在输入问题后添加“Let’s think step by step”等引导语，即可激发模型的推理能力，无需提供示例。实验显示，零样本CoT在算术推理任务（如MultiArith）中使GPT-3的准确率从17.7%提升至78.7%，表明语言模型具有隐式的分步推理能力。

如图1所示，少样本CoT通过提供少量人工编写的推理示例（通常3～5个），指导模型生成结构化推理链。每个CoT示例为模型提供了从问题到答案的逐步推理过程，以此来指导模型如何分解问题并系统地解决。其数学形式可表示为：

式中：ε为示例集合。研究表明，示例的质量和多样性对模型性能影响显著。

通过这种结构化的推理路径，模型能够在极少的标注数据下快速适应新任务，并生成合理的推理链，使模型能够在数据稀缺的情况下，通过已有的推理框架有效提升推理能力，快速获得准确的解决方案。

零样本学习仅依靠简洁的自然语言指令（如“Let's think step by step”）为模型提供高层次语义引导^[23]，以此将复杂问题分解为子问题序列，形成层次化推理路径^[24]。从技术层面来看，完整的过程由简单的自然语言指令生成一个CoT作为原问题的一个自我增强的提示来得到更加准确的结果，如图2所示。

在零样本CoT的应用过程中，在某些特定问题上暴露出计算错误、步骤缺失以及语义误解等一系列问题。针对这些现实挑战，Wang等^[25]创新性地通过改进提示模板（如：“Let’s first thoroughly understand the problem and meticulously devise a comprehensive plan to effectively solve it. Then，let’s meticulously carry out the plan and solve the problem step by step.”）来进一步优化推理过程，从而显著提高推理结果的准确率。

2.1.2　自一致性增强技术

为缓解CoT可能产生的推理路径偏差问题，Wang等^[7]提出自一致性（Self-consistency）方法。其核心思想是生成多条推理路径，通过多数投票或概率加权选择最一致的答案。具体流程如下。

多路径采样：从模型中采样N条推理链{C₁，C₂，…，C_N} ;

答案聚合：计算候选答案{y₁，y₂，…，y_N}的统计一致性

，其中I为指示函数。实验表明，自一致性使GSM8K任务的准确率从56.5%提升至74.4%。

此外，自一致性方法还存在以下技术优势与扩展应用：

①减少随机性误差：在逻辑推理任务（如定理证明）中，单一路径的错误率为41%，自一致性通过集成10条路径可将错误率降至18%。

②动态路径筛选：Cobbe等^[11]提出训练验证器（Verifier）评估推理链质量，优先选择高置信度路径，进一步将自一致性的效率提升30%。

2.2　方法论分类

2.2.1　基于提示语工程的显式引导

在处理复杂推理任务时，显式引导模型的推理过程至关重要。基于提示语工程的方法通过精心设计的提示词或指令，直接引导模型按照预设的逻辑和步骤进行推理。例如，KD-CoT框架将问题转化为结构化的多轮问答（Question-Answering，QA）格式，并在每一轮中利用外部知识库进行交互，从而引导模型生成更准确、更可信的推理链^[26]。这种方法的优势在于，它能够明确地告诉模型如何进行推理，减少模型在推理过程中的不确定性，提高推理的可靠性和准确性。这种方法在处理特定领域的复杂问题时尤为有效，因为它能够将领域知识整合到推理过程中，从而显著提升模型的推理性能与结果的可信度。

2.2.2　隐式推理路径生成

与显式引导不同，隐式推理路径生成侧重于让模型在没有明确提示的情况下，自主生成合理的推理路径。这种方法通常依赖于模型自身的知识和能力，通过优化模型的训练过程和架构，使模型能够自动发现和构建推理路径。例如，Wu等^[27]在CoT中结合自训练理念，通过任务特定提示和自适应推理迭代模块，让模型在迭代过程中自我优化推理路径。此外，Zelikman等^[28]的Self-Taught Reasoner（STaR）框架也属于隐式推理路径生成的一种，它通过模型自我生成推理链并利用验证器筛选出正确的推理进行微调，使模型能够在没有大量人工标注数据的情况下，自主提升推理能力。这种方法通过自我生成和优化推理，避免了大量人工标注数据，提升了推理任务的表现。

2.2.3　混合架构

为了进一步提升模型的推理性能，混合架构将神经网络与符号系统相结合，发挥二者的优势。例如，Gao等^[29]提出的程序辅助语言模型（ProgramAided Language Models，PAL）方法，将CoT与Python解释器结合，通过生成程序并将计算任务委托给解释器执行，避免了模型直接计算导致的错误。此外，Zhang等^[30]和Chen等^[31]提出的自然语言嵌入式程序（Natural Language Embedded Programs，NLEP）和思维程序（Program of Thoughts，PoT）方法，也是混合架构的一种应用，它们通过引入程序解释器，增强了模型在数值推理等任务中的准确性和稳定性。这种结合方法不仅保留了神经网络的强大表示能力，还借助了符号系统的精确性和逻辑性，为复杂推理任务提供了更有效的解决方案。例如，NLEP方法通过生成Python程序并利用解释器执行，显著提升了模型在多种任务中的表现，包括数学和符号推理、文本分类、问答和指令跟随等任务。

2.3　训练范式创新

2.3.1　自我增强方法

传统CoT在单向推理中易受初始错误的影响，为了增强推理路径的可靠性，众多学者提出了自我增强的理念。例如，Wu等^[32]在CoT中结合自训练理念进行自我增强，该方法引入任务特定提示和自适应推理迭代模块，通过迭代优化推理过程，有效减少了过度推理和推理相似性，提高了推理准确性和计算效率。Zelikman等^[28]提出的自学习推理器（Self-Taught Reasoner，STaR）框架通过迭代式自训练提升推理能力。模型先生成推理链，再利用验证器筛选出逻辑正确的推理进行微调，通过自我生成和优化推理，避免了大量人工标注数据，提升了推理任务的表现。自我增强方法的引入，使推理模型在处理复杂任务时具有新的路径和解决方案，展现出了更强的稳定性。

2.3.2　知识增强推理

在处理特定领域复杂问题时，LLMs由于缺乏领域相关知识的训练数据，往往难以保证推理的准确性和可靠性。为解决这一问题，知识增强推理方法通过整合外部知识库，将领域专业知识融入推理过程，从而显著提升模型在特定场景下的推理性能与结果的可信度^[33]。Zhao等^[34]提出的自查纠框架通过外部知识验证和编辑（Verify-and-Edit，VE）推理链，提升LLMs的事实准确性。该框架检测不确定预测并利用外部资源验证推理，最终生成更准确的答案。Wang等^[35]提出了知识驱动的思维链（Knowledge-Driven CoT，KD-CoT）框架，通过与外部QA系统互动来修正LLMs的推理链，以提高知识密集型问答任务的准确性。这些方法通过整合外部知识库等机制，有效解决了LLMs在特定领域推理中的知识局限与可信度问题，显著提升了推理的准确性与可靠性。

3　应用场景

收起

3.1　政务服务领域智能政务热线场景

惠州市政务服务和数据管理局通过部署Deep-Seek大模型技术，构建覆盖“智能知识库—智能应答—智能辅助分拨—智能跟进”的全链条AI赋能体系，并与12345政务服务热线深度融合，推动民生诉求响应效率，精准度显著提升^[36]。该模型基于自然语言处理技术，实现政策文件自动解析、实时语义分析及工单要素提取等核心功能，有效优化政务服务全流程闭环管理。

在智能知识库场景中，DeepSeek通过自动构建关联知识图谱，使话务员通过自然对话即可秒级获取政策条款解读，大幅缩短知识调用时间。智能应答系统则依托实时语义分析能力，动态匹配知识库解决方案，为话务员提供精准应答建议，尤其在处理复杂咨询时展现高效协同价值。此外，智能辅助分拨模块在通话过程中自动提取时间、地点、事件类别等关键要素，生成标准化工单模板，显著降低人工补录工作量，同时确保工单信息完整性与准确性。

该局创新应用DeepSeek技术驱动“未诉先办”模式，通过舆情聚类分析与热点预判，推动政务服务从被动响应转向主动治理。系统基于自然语言处理技术自动标注工单场景标签、生成趋势报告，辅助政府部门识别集中性事件并提前介入处置，实现资源配置优化与科学决策支撑。当前技术已形成“智能应答—分拨处理—跟进回访”的完整服务闭环，并通过人机协同模式释放人力资源，聚焦解决个性化难题，达成服务效率与温度的双重提升。

3.2　智慧城市与国企数字化转型领域

长沙数字集团联合国家超级计算长沙中心完成DeepSeek-R1大模型本地化部署，推出湖南首个城市级应用CS-DeepSeek，通过融合长沙本地数据与超算中心“天河”系列算力资源，构建覆盖智慧安防、医疗、交通等场景的垂直模型体系^[37]。该模型基于DeepSeek通用架构进行本地化训练强化，具备实时分析城市运行数据、精准识别交通拥堵、火灾隐患等风险的能力，并依托智能分拨系统实现跨部门协同处置，推动城市应急响应效率显著提升。

在数字政府建设领域，CS-DeepSeek通过挖掘房屋安全、燃气管理、自然灾害等场景数据，建立风险预警与决策辅助机制，有效提高了城市本质安全能力；在国资国企服务中，该模型应用于财务审核、办公审批等流程，通过智能识别与数据分析大幅缩短了业务处理周期，同时依托本地化部署保障数据安全，为国企数字化转型提供定制化解决方案。当前技术已形成“数据治理—智能分析—决策执行”的业务闭环，通过数据要素与算力资源的深度融合，构建起覆盖城市管理、公共服务、产业升级的多维赋能体系。

未来规划显示，长沙数字集团将以CS-Deep-Seek为核心推进“数字化—产品化—价值化”三化协同战略，重点开发可复制的数据治理平台与数据资产服务产品，通过数据资产融资授信等模式探索数据资本化路径，为数字经济发展贡献“长沙方案”。国家超级计算长沙中心将持续强化算力支撑，推动AI技术与城市治理、产业创新的深度融合，加速构建三位一体的智能城市底座。

3.3　媒体领域AI融合智媒转型场景

湖南日报社通过部署深度求索DeepSeek-R1对话大模型，构建覆盖内容生产、智能交互与深度服务的媒体智能化体系，推动省级主流媒体向智媒体转型^[38]。该社以新湖南客户端为核心载体，基于DeepSeek千亿级参数大模型的推理能力，升级智能助手“小辣萌”的语义理解与多轮对话功能，为用户提供涵盖新闻动态、政策解读、文化科普等领域的深度问答服务，显著提升客户端交互体验与信息获取效率。

在采编业务场景中，DeepSeek-R1通过智能写作助手、选题策划建议、热点趋势分析等功能赋能采编全流程，帮助记者快速完成线索搜集、内容创作及审核校对工作，推动新闻生产效率大幅提升。当前技术已实现采编平台与客户端的功能联动，用户可通过客户端AI入口直接体验大模型能力，采编人员则依托智能分析报告优化内容生产策略，形成“用户需求—智能响应—内容优化”的闭环生态。

该社同步推进AI技术深度应用，重点建设新一代内容安全智能风控平台“智眸”，并联合腾讯等企业探索音视频智媒实验室的行业应用，通过技术融合重构媒体叙事形态与传播体系。未来规划显示，湖南日报社将持续深化DeepSeek大模型与采编流程、绩效考核机制的协同创新，着力构建“文化+科技”融合生态，推动省域媒体从移动互联向智能互联时代跨越式发展，为媒体行业数字化转型提供“湖南范式”。

4　未来发展

收起

大模型技术的突破与CoT的引入，推动AI系统从被动响应向自主决策演进。参考SAE J3016自动驾驶分级框架对“自动化”的定义^[39]，本文将AI的智能化程度划分为4个层级（L1～L4），其核心标准为任务边界明确性与推理过程自主性。

较低层级（L1～L2）的AI系统，类似于自动驾驶中的辅助驾驶阶段，其能力高度依赖于预设的规则、结构化的输入以及在必要时进行的人工干预。例如，L2级别的系统虽然能执行复杂任务，但往往需要设计精密的显式提示工程来引导其推理路径和行为，其自主性受限于外部指令的精度和完整性。

随着层级的提升，高层级（L3～L4）的AI系统逐步展现出更强的环境感知、态势理解以及动态规划能力，并趋向于实现任务执行的闭环优化。在L4级别，系统能在特定操作设计域内，甚至在一定程度上自主调整其推理路径和策略，以应对复杂或未完全预见的状况，其决策过程的自主性显著增强。

CoT技术的渗透程度和作用方式随层级提升而演变：在最基础的L1层级，AI系统作为信息检索或简单模式匹配工具，通常不启用CoT机制；进入L2层级，CoT开始作为一种线性的、提示引导的推理工具被采纳，其启动和方向依赖外部明确指令；迈向L3层级，CoT的作用与自反思、符号逻辑等更高级机制结合，推理过程具备自我评估和修正能力；最终在L4层级，CoT融入更复杂的认知架构，支撑系统实现全流程的自主推理。

4.1　L1：基础辅助

L1级别的AI主要停留在基础辅助阶段，依赖于统计学习而缺乏明确的推理能力。这一层级的AI能够完成信息检索、关键词提取、情感分类等任务，其核心功能是对已有数据进行处理并建模分析，而不是推理和生成新的结论。由于其不涉及复杂的逻辑推导，CoT在这一级别中尚未发挥作用。代表模型有BERT和TF-IDF+SVM。

4.2　L2：进阶推理

L2级别开始具备一定的推理能力，并能够借助提示工程和CoT进行基本的多步推理，使AI能够模拟人类的思维过程，逐步推导问题的答案。例如，在数学推理、复杂问答等任务中，CoT使AI能够拆解问题并按照逻辑顺序推理，而不仅仅是从训练数据中提取最可能的答案。在这一阶段，AI的推理仍然是线性的，且缺乏对推理过程的动态调整能力。代表模型有GPT-3/3.5和PaLM（Pathways Language Model）。

4.3　L3：半自动化

L3级别不仅能够运用CoT进行推理，还能够结合任务规划并动态调整，使推理路径具备更强的适应性。在这一层级，AI不再只是单纯地按照预设的CoT展开推理，而是能够主动拆解任务，并根据不同的输入条件动态调整推理路径。例如，在法律分析或医学诊断任务中，通过列出多个可能的推理方向，结合反馈信息来调整最终结论。这一阶段的AI能够利用ToT等技术，使推理过程具备更强的探索性和自适应性。此外，该级别的AI还能够引入反思机制，在推理过程中自我检查和修正错误，从而提高整体推理的稳定性。代表模型有Claude2和GPT-4+ToT。

4.4　L4：全流程智能

L4级别代表了AI的最终形态，它不仅能够进行复杂推理，还具有自适应学习和长期知识积累的能力。L4级别的AI能够将CoT推理、强化学习和符号逻辑结合，使推理过程不再局限于固定任务的框架内，而是能够动态优化推理路径，并在不同任务之间迁移知识。例如，在自动化科学研究领域，L4级AI可以独立提出研究假设、设计实验方案，并在数据分析过程中不断优化推理策略。此外，L4级AI还能结合长期记忆，在多个任务中积累知识，并在未来的推理过程中灵活调用。这一级别的AI几乎不再依赖人工干预，而是能够实现全流程自主决策，并具备自我监督的能力。代表模型有Alpha Fold 2和GPT-4+RLAIF。

尽管AI智能化层级（L1～L4）与L5级自动驾驶均以“自主性”为演进目标，但二者在技术路径与落地挑战上存在本质差异。从目标维度，AI的L4级（如AlphaFold 2）追求特定任务的全流程闭环（如蛋白质结构预测），其边界相对封闭；而L5级自动驾驶需在无限开放的物理世界中实现全域安全通行，对突发场景（如极端天气、行人闯入）的实时响应要求严苛至毫秒级，当前仍无成熟解决方案。从技术实现看，AI高阶智能依赖CoT与符号逻辑的融合（如GPT-4+ToT的动态推理），侧重认知层面的多路径探索；自动驾驶则依靠多模态传感器融合（激光雷达、视觉感知）与高精度控制系统（如Way mo的路径规划算法），强调物理世界的即时交互可靠性。挑战层面，AI需突破跨领域知识迁移与自我监督瓶颈，而L5级自动驾驶面临伦理困境（事故责任判定）与长尾场景泛化难题。未来，两类系统或可交叉赋能：AI的动态推理能力可提升自动驾驶的突发决策质量（如Claude 2的反思机制适配车辆紧急避让策略），而自动驾驶的传感器技术能为具身智能（Embodied AI）提供环境交互基础。当前，AI的L4级已在科研领域局部落地，但L5级自动驾驶仍处于有限场景测试阶段，二者的完全体均需颠覆性技术突破。

5　关键挑战与局限

收起

尽管CoT在复杂推理任务（如数学问题求解、常识推理）中展现出了显著的优势，但其应用仍面临一些挑战：模型规模依赖性与推理可信度不足。以下从理论与实证角度详细分析这些局限性，并引用相关研究支持。

5.1　模型规模依赖性

尽管CoT在大型语言模型（如GPT-3、PaLM）中展现出强大的推理能力，但其有效性严格依赖于模型规模。这一现象归因于复杂推理任务对模型容量的需求。在较小的模型中，由于参数较少，模型在处理任务时可能无法理解足够的上下文信息，导致推理过程受限。而CoT作为一种推理机制，需要大量的上下文信息支持，以便在每个推理步骤中有效地引用先前的信息。如式（1）所示，CoT在生成最终答案之前，会先得到一系列中间推理序列。若使用的模型参数量不足，其注意力机制可能难以维持长距离依赖关系。例如，在数学推理数据集GSM8K上，参数量低于100亿的PaLM模型相较于直接提示，使用CoT提示的准确率仅几乎没有发生变化，而参数量达到5 400亿的PaLM模型则从18%跃升至57%^[2，40]。这种性能差异表明，CoT在较大的模型上的表现可能比在较小的模型上效果更好^[41]。

从实践角度看，模型参数量的增加也带来了资源消耗的问题，训练或微调百亿级模型需消耗数千GPU及大量时间^[42]，这使其部署和应用的成本较高。尤其是在一些硬件条件受限或资源有限的环境中，使用大型模型可能并不切实可行。因此，CoT的有效性和适用范围在很大程度上受到模型规模的制约，限制了其广泛应用。

5.2　推理可信度不足

CoT虽然可以通过逐步推理解决复杂任务，但其在推理过程中的可信度仍然具有一定的限制性。Turpin等^[43]研究了链式推理在LLMs中的不忠实性，发现尽管CoT解释表面合理，但往往未能反映模型真实的决策过程。实验表明，偏倚输入会影响模型的预测，但这些偏倚在CoT解释中未被提及，导致CoT解释不忠实于模型的实际推理过程。Saparov等^[44]指出，CoT虽然能帮助模型进行推理，但在处理复杂推理任务时，CoT往往无法准确生成假设性子证明，导致推理过程缺乏可信度，尤其在多步骤推理和反证法中表现不佳。当模型较大时，模型产生推理的忠实度可能会越来越低^[45]。此外，模型训练使用的庞大数据量，其中包括较为古老的信息，在新兴或专业领域中，模型的推理过程可能出现一系列幻觉问题。如何进一步提高大模型常规推理链的可信度，仍然是一个待解决的问题。

6　结束语

收起

CoT技术在提升大语言模型推理能力中展现出巨大的潜力，是推动AI迈向更高认知水平的关键一环。通过引导模型生成明确的推理步骤，CoT不仅显著增强了LLMs在复杂任务中的表现，还提高了模型输出的可解释性和可信度。CoT与少样本学习、零样本学习、强化学习和迁移学习等理论的结合，以及在提示工程、自一致性、混合架构等方法上的创新，共同构建了一个不断演进的技术体系。在政务服务、智慧城市和媒体等多个领域的成功应用，也证明了CoT在实际场景中的巨大价值。然而，CoT技术的发展仍面临挑战，尤其是在模型规模依赖性和推理可信度方面，这些局限性限制了其在资源受限环境下的部署以及在关键应用中对模型结果的完全信任。未来的研究需要进一步探索如何降低CoT对模型规模的依赖，同时提升推理过程的鲁棒性，从而使CoT成为更普适、更可靠的AI推理工具。

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

BROWN

T B

,MANN

,RYDER

,et al. Language Models are Few-shot Learners[EB/OL]. (2020-05-28)[2025-04-25]. http://arxiv.org/abs/2005.14165.

[2]

WEI

,WANG

X Z

,SCHUURMANS

,et al. Chain-of-thought Prompting Elicits Reasoning in Large Language Models[EB/OL]. (2022-01-28)[2025-04-25]. http://arxiv.org/abs/2201.11903.

[3]

舒文韬,李睿潇,孙天祥,等.大型语言模型:原理、实现与发展[J].计算机研究与发展,2024,61(2):351-361.

[4]

YAO

S Y

,YU

,ZHAO

,et al. Tree of Thoughts:Deliberate Problem Solving with Large Language Models[EB/OL]. (2023-05-17)[2025-04-25]. http://arxiv.org/abs/2305.10601.

[5]

ZHANG

Z S

,ZHANG

,LI

,et al. Multimodal Chainof-thought Reasoning in Language Models[EB/OL]. (2023-02-02)[2025-04-25]. http://arxiv.org/abs/2302.00923.

[6]

袁毓林,卢达威.怎样利用语言知识资源进行语义理解和常识推理[J].中文信息学报,2018,32(12):11-23.

[7]

WANG

X Z

,WEI

,SCHUURMANS

,et al. Self-consistency Improves Chain of Thought Reasoning in Language Models[EB/OL]. (2022-03-21)[2025-04-25]. http://arxiv.org/abs/2203.11171.

[8]

WANG

Z L

,ZHANG

,LI

C L

,et al. Chain-of-table:Evolving Tables in the Reasoning Chain for Table Understanding[EB/OL]. (2024-01-09)[2025-04-25]. http://arxiv.org/abs/2401.04398.

[9]

罗焕坤,葛一烽,刘帅.大语言模型在数学推理中的研究进展[J].计算机工程,2024,50(9):1-17.

[10]

黄峻,林飞,杨静,等.生成式AI的大模型提示工程:方法、现状与展望[J].智能科学与技术学报,2024,6(2):115-133.

[11]

COBBE

,KOSARAJU

,BAVARIAN

,et al. Training Verifiers to Solve Math Word Problems[EB/OL]. (2021-10-27)[2025-04-25]. http://arxiv.org/abs/2110.14168.

[12]

陈孟科,边赟,梁云浩,等.基于6W2H的大语言模型思维链提示框架WH-CoT[J].计算机应用,2024,44(增刊2):1-6.

[13]

桑晨扬,马廷淮,谢欣彤,等.基于大语言模型多阶段推理的情绪支持对话生成方法[J].计算机科学与探索,2024,18(11):2925-2939.

[14]

LIU

J X

, WANG

, DU

J W

, et al. MedCoT: Medical Chain of Thought via Hierarchical Expert[EB/OL]. (2024-12-18)[2025-04-25]. http://arxiv.org/abs/2412.13736.

[15]

LEE

,OH

,PARK

,et al. FINALE:Finance Domain Instruction-tuning Dataset with High-quality Rationales via Chain-of-thought Prompting[EB/OL]. (2025-02-16)[2025-04-25]. https://www.semanticscholar.org/paper/FINALE-%3A-Finance-Domain-Instruction-Tuning-Dataset-Lee-Oh/942633d606bfb6ab8654b71b2ee07b05904efd96.

[16]

赵凯琳,靳小龙,王元卓.小样本学习研究综述[J].软件学报,2021,32(2):349-369.

[17]

祝钧桃,姚光乐,张葛祥.深度神经网络的小样本学习综述[J].计算机工程与应用,2021,57(7):22-33.

[18]

VINYALS

,BLUNDELL

,LILLICRAP

,et al. Matching Networks for One Shot Learning[EB/OL]. (2016-06-13)[2025-04-25]. http://arxiv.org/abs/1606.04080.

[19]

颜玉松,周圆,王琮,等.基于预训练大模型的行动方案生成方法[J].计算机科学,2025,52(1):80-86.

[20]

李鑫尧,李晶晶,朱磊,等.资源受限的大模型高效迁移学习算法研究综述[J].计算机学报,2024,47(11):2491-2521.

[21]

张延.迁移学习在大模型中的挑战与突破[J].中国信息界,2024(9):186-189.

[22]

罗焕坤,葛一烽,刘帅.大语言模型在数学推理中的研究进展[J].计算机工程,2024,50(9):1-17.

[23]

KOJIMA

,GU

S S

,REID

,et al. Large Language Models are Zero-shot Reasoners[EB/OL]. (2022-05-24)[2025-04-25]. http://arxiv.org/abs/2205.11916.

[24]

LEE

G G

,LATIF

,WU

X S

,et al. Applying Large Language Models and Chain-of-thought for Automatic Scoring[EB/OL]. (2023-12-30)[2025-04-25].http://arxiv.org/abs/2312.3748.

[25]

WANG

, XU

W Y

, LAN

Y H

, et al. Plan-and-solve Prompting:Improving Zero-shot Chain-of-thought Reasoning by Large Language Models[EB/OL]. (2023-05-16)[2025-04-25]. http://arxiv.org/abs/2305.04091.

[26]

WANG

X Z

,WEI

,SCHUURMANS

,et al. Rationale-augmented Ensembles in Language Models[EB/OL]. (2022-07-02)[2025-04-25]. http://arxiv.org/abs/2207.00747.

[27]

Y H

,JIANG

A Q

,LI

W D

,et al. Autoformalization with Large Language Models[EB/OL]. (2022-05-25)[2025-04-25]. http://arxiv.org/abs/2205.12615.

[28]

ZELIKMAN

,WU

Y H

,MU

, et al. STaR: Bootstrapping Reasoning with Reasoning[EB/OL]. (2022-03-28)[2025-04-26]. http://arxiv.org/abs/2203.14465.

[29]

GAO

L Y

,MADAAN

,ZHOU

S Y

,et al. PAL:Programaided Language Models[EB/OL]. (2022-11-18)[2025-04-26]. http://arxiv.org/abs/2211.10435.

[30]

ZHANG

T H

,GE

J X

,LUO

H Y

,et al. Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning[EB/OL]. (2023-19-19)[2025-04-26]. http://arxiv.org/abs/2309.10814.

[31]

CHEN

W H

, MA

X G

, WANG

X Y

, et al. Program of Thoughts Prompting:Disentangling Computation from Reasoning for Numerical Reasoning Tasks[EB/OL]. (2022-11-22)[2025-04-26]. http://arxiv.org/abs/2211.12588.

[32]

Z Q

,XU

B D

,CUI

R C

,et al. Rethinking Chain-of-thought from the Perspective of Self-training[EB/OL]. (2024-12-14)[2025-04-26]. http://arxiv.org/abs/2412.10827.

[33]

崔金满,李冬梅,田萱,等.提示学习研究综述[J].计算机工程与应用,2024,60(23):1-27.

[34]

ZHAO

R C

,LI

X X

,JOTY

,et al. Verify-and-edit:A Knowledge-enhanced Chain-of-thought Framework[EB/OL]. (2023-05-05)[2025-04-26].http://arxiv.org/abs/2305.03268.

[35]

WANG

K H

,DUAN

F Y

,WANG

S R

,et al. Knowledge-driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering[EB/OL]. (2023-08-25)[2025-04-26]. http://arxiv.org/abs/2308.13259.

[36]

游璇钰,廖汉彬.惠州12345热线引入DeepSeek[N].惠州日报,2025-02-18(2).

[37]

刘琼萍,王云丽.湖南首个城市级应用CS-DeepSeek上线[N].长沙晚报,2025-02-15(1).

[38]

王铭俊,黄果,张延惠.新湖南客户端全线产品接入DeepSeek[N].湖南日报,2025-02-16(4).

[39]

SAE Intermatinal. Taxonomy and Definitions for Terms Related to On-road Motor Vehicle Automated Driving System[P/OL]. (2014-01-16)[2025-04-26]. https://www.sae.org/standards/content/j3016_201401/.

[40]

CHOWDHERY

,NARANG

,DEVLIN

,et al. PaLM:Scaling Language Modeling with Pathways[EB/OL]. (2022-04-05)[2025-04-26]. http://arxiv.org/abs/2204.02311.

[41]

QIAN

S B

, SINDHUJAN

, KABRA

, et al. What do Large Language Models Need for Machine Translation Evaluation?[EB/OL]. (2024-10-04)[2025-04-26]. http://arxiv.org/abs/2410.03278.

[42]

刘安平,金昕,胡国强.人工智能大模型综述及金融应用展望[J].人工智能,2023(2):29-40.

[43]

TURPIN

,MICHAEL

,PEREZ

,et al. Language Models Don’t Always Say What They Think:Unfaithful Explanations in Chain-of-thought Prompting[EB/OL]. (2023-05-07)[2025-04-26]. http://arxiv.org/abs/2305.04388.

[44]

SAPAROV

,PANG

R Y Z

,PADMAKUMAR

,et al. Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples[EB/OL]. (2023-05-24)[2025-04-26]. http://arxiv.org/abs/2305.15269.

[45]

LANHAM

, CHEN

A N

, RADHAKRISHNAN

,et al. Measuring Faithfulness in Chain-of-thought Reasoning[EB/OL]. (2023-07-17)[2025-04-26].http://arxiv.org/abs/2307.13702.

2025年第51卷第5期

PDF下载

147

引用本文

BibTeX

文章信息

doi: 10.3969/j.issn.1003-3114.2025.05.001

接收时间：2025-04-29
首发时间：2026-04-17
出版时间：2025-09-18

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2025-04-29

基金

作者信息

^1.中国科学院微电子研究所，北京　100029

^2.中国科学院大学　应急管理科学与工程学院，北京　100049

^3.北京理工大学　机械与车辆学院，北京　100081

通讯作者:

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/wxdtxjs/CN/10.3969/j.issn.1003-3114.2025.05.001

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT