目录

AI 时代的认知生存指南:五篇研究怎样提醒我们别把思考外包给大模型

前言

这篇文章想回答的,不是“AI 会不会让人变笨”这种过于宽泛的问题,而是一句更实在的话:当大模型越来越会写、会搜、会总结时,人应该把它放在思考流程的哪个位置?

我把常被一起引用的五篇研究重新核了一遍,发现它们并不是同一种证据。有的是 EEG 写作实验,有的是知识工作者调查,有的是高等教育框架论文,也有预印本形式的人机交互实验和关于 LLM 辩论的监督研究。如果把它们压缩成一句“论文已经证明 AI 会损害思考能力”,那是不准确的;但如果把它们放在一起看,确实能得到一条相当稳的原则:AI 应该增强判断,而不是接管判断。

如果一定要把这五篇研究翻成人话,我更愿意这样说:AI 更像磨刀石,不该变成拐杖。磨刀石会让刀更利,但刀仍然要你自己握;一旦让 AI 代替你定义问题、展开论证、给出最终判断,认知摩擦会消失,能力增长也会跟着消失。

先把证据摆平

这五篇研究分别提供的是五种不同层面的证据。

研究证据类型这篇研究最能支持的结论
Kosmyna et al. (2025)EEG + 写作任务实验在特定写作场景下,直接依赖 LLM 的参与者表现出更弱的脑连接、较低的文本 ownership 与较差的回忆表现
Lee et al. (2025)319 名知识工作者调查人们是否还会投入批判性思维,与其对 AI 的信任校准和对自身能力的信心密切相关
Vendrell and Johnston (2026)概念与教学设计框架“保留认知摩擦”可以被系统化设计,而不只是情绪化地反对 AI
Khan et al. (2024)LLM 辩论与监督研究在“多个答案竞争、需要挑出更可信解释”的任务里,辩论式呈现比单一路线更有利于判断
Ghosh et al. (2026)AI 辅助写作中的认知强迫函数实验结构化审查 AI 计划,能降低过度依赖,且不一定显著增加认知负担

这张表最重要的作用,是提醒我们别把不同证据混成一个结论。下面分别看。

一、MIT 的 EEG 实验,给的是警报,不是终审判决

Kosmyna 等人的论文《Your Brain on ChatGPT》之所以传播很广,是因为它抓住了一个真正敏感的问题:如果把写作过程直接外包给 LLM,人到底损失了什么。

这项研究把参与者分成三个条件组:LLMSearch EngineBrain-only。前 3 个 session 共 54 名参与者,另有 18 人进入第 4 个交叉 session,用来观察从 LLM 切回 Brain-only,以及从 Brain-only 切到 LLM 后会发生什么。研究同时看了 EEG、文本特征、教师与 AI 的评分,以及参与者对文章 ownership 的主观感受。

论文最值得重视的结果有三类。第一,Brain-only 组的脑连接最强,Search Engine 居中,LLM 最弱。第二,LLM 组对自己文章的 ownership 感更低,也更难准确回忆或引用自己刚刚写过的内容。第三,在第 4 个 session 里,从 LLM 切回纯脑写作的参与者,仍表现出较弱的 alpha 和 beta 连接;反过来,从 Brain-only 切到 LLM 的参与者,其脑区激活模式更接近 Search Engine 组。

这些结果真正能支持的说法是:在 essay writing 这种任务里,直接让 LLM 主导生成,可能会降低人的参与度、ownership 和回忆质量。 这已经足够值得警惕,因为写作本来就是整合信息、组织论证、检查漏洞的高密度认知活动。

但这篇论文也不能被写成“AI 会系统性损害大脑”。它是特定任务、特定样本、特定实验设置下的研究,而且目前仍是预印本,后续也已经引发了一些方法学层面的公开讨论。更稳妥的态度是:把它看成警报,而不是判决书。它提醒我们,把写作最核心的那一段直接交给 LLM,可能不是节省,而是透支。

二、微软 × 卡内基梅隆的调查,重点不在 AI 本身,而在信任校准

Lee 等人在 CHI 2025 发表的论文,研究角度和 MIT 很不一样。它不是实验室里的神经信号研究,而是对 319 名知识工作者做的调查,收集了 936 个第一手案例,想弄清楚:人们在什么情况下仍会对 AI 输出保持批判性思维,又为什么会放松警惕。

这篇论文最重要的结论,不是“用了 AI 就不思考”,而是批判性思维会被重新分配,甚至被重新定价。一些人会把认知努力从“自己想答案”转移到“验证、修订、整合 AI 输出”;另一些人则在对 AI 过度信任时,直接减少检查和推理投入。

论文尤其指出两个变量很关键。一个是对 GenAI 的信心,另一个是对自己完成该任务的信心。前者越高,越容易出现较低的批判性投入;后者越强,越可能继续主动判断、验证和整合。换句话说,真正决定你是在“用 AI”还是“被 AI 用”,常常不是工具本身,而是你如何校准对它的信任,以及你是否还保有自己的判断框架。

这项研究的边界也很清楚:它是自我报告调查,不是因果实验。因此它不能直接证明“高信任 AI 一定导致批判性思维下降”。但它已经足够说明一个现实问题:当人越来越把 AI 当成默认正确的起点时,批判性思维更容易从主动行为变成补救行为。

三、真正值得保留的,是认知摩擦

2026 年发表在 Computers and Education: Artificial Intelligence 的《Scaffolding Critical Thinking with Generative AI》,不是一项实验,而是一篇框架论文。它的价值不在于告诉你某个 effect size 有多大,而在于把“到底该怎样设计 AI 使用流程”说得足够具体。

作者综合了心理学、教育理论和 AI 伦理研究,提出六个构成批判性参与的核心过程:解释、推理、评价判断、调节、智识好奇心和 epistemic integrity。基于这些过程,论文进一步抽出八条设计原则,其中最值得普通用户记住的有三条。

第一,保留 friction。思考不是要被完全抹平的摩擦,而是需要被保留的负荷。第二,把 LLM 视为 provisional partner,而不是权威答案源。第三,在完整流程里交替安排 AI-mediatedAI-free 阶段,让人至少有一段时间必须独立整合和复述自己的判断。

这篇论文最强的地方,在于它把一个容易被说成鸡汤的口号变成了可操作的设计语言。所谓“不要太依赖 AI”,如果没有流程设计,很快就会沦为空话;而“保留认知摩擦”则意味着你要有意识地设置那些不能被自动生成直接替代的环节,例如先自己写结论、先自己列假设、先自己复述再看 AI。

它的边界也同样明显:这是概念与规范性框架,不是随机对照实验。所以它不证明“只要保留 friction,结果一定更好”;它做的是另一件同样重要的事,即为前两篇研究提示的问题提供一个更稳的修正方向。

四、辩论研究真正启发我们的,是“让答案彼此碰撞”

Khan 等人的《Debating with More Persuasive LLMs Leads to More Truthful Answers》经常被简化成一句“让 AI 和你辩论,会让你更接近真相”。这种转述方向没错,但如果写得太满,就会失真。

论文研究的问题其实是:当“更强的模型”掌握信息,而“更弱的模型”或人类并不直接知道正确答案时,能不能通过辩论机制,让判断者更容易选出真的那一个。实验设置是两个 LLM 专家分别为不同答案辩护,由非专家来判断谁更可信。结果显示,辩论相较于 naive baseline,能帮助非专家模型和人类更准确地选出正确答案;论文里给出的数字是,非专家模型准确率达到 76%,人类达到 88%,而朴素基线分别为 48% 和 60%。

这篇研究最可靠的启发,不是“以后所有问题都找 AI 吵一架”,而是:当你没有把握时,单一路线的答案往往不如相互冲突的论证更有助于判断。 在这类需要从多个 competing explanations 里挑出更可信答案的任务中,暴露分歧、比较理由和审视反例,通常比只接收一个顺滑答案更有利于判断。

因此,把 AI 放在“给结论”的位置上,价值有限;把 AI 放在“生成反对意见、暴露替代解释、补出你没想到的反例”的位置上,价值反而更高。这个结论和前面几篇研究是吻合的,因为它要求人的角色不是复制,而是裁决。

当然,这篇论文也不是日常知识工作场景的直接用户研究。它更接近一种关于监督与真值辨别的机制研究。因此,最合适的写法是:它为“让 AI 提供对立论证”提供了机制上的支持,而不是直接证明“你让 AI 反驳你一次,批判性思维就一定提升”。

五、结构化反思不是口号,而是低成本干预

Ghosh 等人在 2026 年发布的预印本《An Experimental Comparison of Cognitive Forcing Functions for Execution Plans in AI-Assisted Writing》,把问题推进到了一个非常实用的层面:真正的过度依赖,往往不是从复制最终成文开始的,而是从你毫无审查地接受 AI 给出的执行计划开始的。

这项研究让参与者完成 AI 辅助写作任务,并要求他们在审查 AI 生成计划时进入四种不同条件:AssumptionWhatIfBothControl。随后研究又做了 think-aloud 与访谈,对这些条件进行定性比较。

结果有两个信息密度很高的点。第一,Assumption 这种要求用户检查前提与论证基础的认知强迫函数,最能降低 overreliance,而且没有明显增加认知负担。第二,WhatIf 条件在主观感受上最有帮助,也就是说,用户会明显感觉到“如果换一种情境想一遍,自己确实更清醒”。

这篇论文提供了一个很现实的提醒:很多人以为自己是在审查 AI,实际上只是在浏览 AI。 真正有效的审查往往需要结构化的问题意识,否则人很容易把 AI 的 plan 当成默认合理的起点。

同样要补一句边界:这篇论文目前也是预印本,场景也集中在 AI 辅助写作和计划审查。但它之所以有价值,恰恰因为它把“不要盲信 AI”从道德建议变成了可插入工作流的具体动作。

五篇研究拼起来,真正一致的是三件事

把五篇研究放在一起看,最一致的不是“AI 会让人变笨”,而是下面三件事。

  1. 当 AI 接管问题定义、论证展开和文本生成时,人的认知参与更容易下降。
  2. 人是否继续投入批判性思维,很大程度上取决于对 AI 的信任校准,以及对自己判断能力的保留程度。
  3. 如果流程里持续保留 friction、反例、假设审查和 AI-free 阶段,过度依赖通常更有机会被压低,而不是一路累积。

这就是为什么我不赞成把 AI 用法简单分成“用了”或“没用”。更关键的问题是:你把 AI 放在了哪一个工位上。

如果把它放在“生成答案”的工位,它最容易让人偷掉前面的判断过程;如果把它放在“挑战假设、补充反例、检查计划”的工位,它更像一个提高你判断质量的对手或审稿人。

一个更稳的 AI 使用流程

基于上面五篇研究,一个对相当一部分知识工作都可参考的流程,可以压缩成四步。这里的“四步”不是某一篇论文直接验证过的统一 protocol,而是把五篇研究中反复出现的共同提醒,整理成一套最低成本的防错清单。

1. 先写出你的初判

不要从“这个问题该怎么做”开始,而是先写一句自己的判断,哪怕它很粗糙。你需要先把自己的立场外化出来,后面才谈得上修正。

最简单的起手式是:

这是我的初步判断:……
我目前这样想,主要基于三点:……

2. 让 AI 当反对者,不当代笔者

接下来不要让 AI 直接给答案,而是让它拆你的答案。

请不要重写我的结论。
请像一个强硬但讲理的反对者一样,指出我这套判断最脆弱的前提、最可能忽略的反例,以及最需要补证据的地方。

这一步对应的,不只是“多看一个角度”,而是把 AI 放回到更合适的位置上:帮助你暴露漏洞,而不是替你制造确定感。

3. 审查假设,再跑一遍 what-if

如果 AI 已经给了你计划、大纲或执行路径,不要立刻接受。至少问两轮。

第一轮问假设:

这个方案依赖哪些前提?
哪些前提一旦不成立,整个方案就会失效?

第二轮跑情境:

如果预算减半、时间缩短一半、关键约束变化,这个方案会先在哪一步出错?

这正是 Ghosh 等人那篇认知强迫函数研究给出的可迁移启发。

4. 保留一个 AI-free 收尾阶段

通常建议留一小段时间,不看 AI,把自己的结论重新说一遍。可以是 3 句话,也可以是一段 150 字以内的摘要。如果你暂时还无法脱离 AI 复述结论,往往说明这套判断还没有真正变成你的。

这个动作看起来很慢,但它恰好对应前面几篇研究共同强调的东西:ownership、回忆、独立整合和判断责任。

一个可参考的四问模板

如果你不想记完整流程,可以先记住下面四个问题作为起点。这四问不是某一篇论文原封不动给出的问卷,而是基于上面五篇研究抽出来的一组最低成本检查项,也不是唯一正确的问法。

  1. 我现在自己的判断是什么?
  2. 这个判断依赖哪些关键假设?
  3. 如果它是错的,最可能错在哪里?
  4. 哪一步必须由我亲自完成,不能外包给 AI?

这四问真正要保住的,不是“人必须比 AI 更强”,而是“最终判断必须仍然属于人”。

这篇文章最重要的边界

写到这里,最需要强调的不是结论本身,而是边界。

第一,这五篇研究的证据强度并不相同。里面既有实验,也有调查、框架论文和预印本。相对更直接的经验材料,主要来自 Lee 等人的调查和 Kosmyna 等人的实验;Khan 等人的工作更像机制启发;Vendrell 与 Johnston、Ghosh 等则分别提供框架与窄场景干预。真正稳的不是某一个单独结论,而是它们在方向上的收敛。

第二,目前证据最强的场景,仍然集中在写作、知识工作和教育情境。不同学科背景、原有批判性思维能力、任务熟悉度和组织环境,很可能都会改变结果;把这些结论直接扩展到所有类型的人机协作任务,并不严谨。

第三,这些研究没有一篇支持“不要用 AI”。它们共同支持的是另一件事:重新设计人和 AI 的分工。

第四,这几篇研究都很新,其中还包括预印本,背后的模型版本和交互方式也仍在快速变化。今天的模型能力可能已经不同,但“判断权不要默认外包”这条原则,目前并没有被更强的反向证据推翻。

第五,本文讨论的是一组以风险和边界为中心的研究,不是对全部“AI 是否提升学习或工作表现”文献的均衡综述。它更适合作为使用策略的校准材料,而不是政策或教学制度设计的唯一依据。

所以,更准确的提问方式不是“AI 该不该用”,而是“哪些环节可以交给 AI 加速,哪些环节必须保留给人来判断”。

一旦把问题这样改写,答案就清晰得多了:在多数知识工作场景下,搜集材料、生成备选方案、暴露反例、压缩表达,通常都适合让 AI 出力;定义问题、建立标准、权衡证据、承担结论,则一般不建议默认外包。

参考文献

  1. Kosmyna, N., Hauptmann, E., Yuan, Y. T., Situ, J., Liao, X.-H., Beresnitzky, A. V., Braunstein, I., and Maes, P. (2025). Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. arXiv. arXiv
  2. Lee, H.-P., Sarkar, A., Tankelevitch, L., Drosos, I., Rintel, S., Banks, R., and Wilson, N. (2025). The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers. CHI 2025. DOI
  3. Vendrell, M., and Johnston, S.-K. (2026). Scaffolding Critical Thinking with Generative AI: Design Principles for Integrating Large Language Models in Higher Education. Computers and Education: Artificial Intelligence, 10, 100572. DOI
  4. Khan, A., Hughes, J., Valentine, D., Ruis, L., Sachan, K., Radhakrishnan, A., Grefenstette, E., Bowman, S. R., and Perez, E. (2024). Debating with More Persuasive LLMs Leads to More Truthful Answers. arXiv. arXiv
  5. Ghosh, A., Sarkar, A., Lindley, S., and Poelitz, C. (2026). An Experimental Comparison of Cognitive Forcing Functions for Execution Plans in AI-Assisted Writing: Effects On Trust, Overreliance, and Perceived Critical Thinking. arXiv. arXiv