AI 时代的认知生存指南：五篇研究怎样提醒我们别把思考外包给大模型

2026-04-26 约 6572 字预计阅读 17 分钟

前言

当大模型越来越会写、会搜、会总结时，人应该把它放在思考流程的哪个位置？至于“AI 会不会让人变笨”这类过于宽泛的问题，暂时放在一边。

我把常被一起引用的五篇研究重新核了一遍，发现它们并不是同一种证据。有的是 EEG 写作实验，有的是知识工作者调查，有的是高等教育框架论文，也有预印本形式的人机交互实验和关于 LLM 辩论的监督研究。如果把它们压缩成一句“论文已经证明 AI 会损害思考能力”，那是不准确的；但如果把它们放在一起看，确实能得出一条原则：AI 应该增强判断，而不是接管判断。

给这五篇研究找一个比喻的话：AI 更像磨刀石，不该变成拐杖。磨刀石会让刀更利，但刀仍然要你自己握；一旦让 AI 代替你定义问题、展开论证、给出最终判断，认知摩擦会消失，能力增长也会跟着消失。

先把证据摆平

五篇研究给出的证据不在同一个层面上。

研究	证据类型	这篇研究最能支持的结论
Kosmyna et al. (2025)	EEG + 写作任务实验	在特定写作场景下，直接依赖 LLM 的参与者表现出更弱的脑连接、较低的文本 ownership 与较差的回忆表现
Lee et al. (2025)	319 名知识工作者调查	人们是否还会投入批判性思维，与其对 AI 的信任校准和对自身能力的信心密切相关
Vendrell and Johnston (2026)	概念与教学设计框架	“保留认知摩擦”可以被系统化设计，而不只是情绪化地反对 AI
Khan et al. (2024)	LLM 辩论与监督研究	在“多个答案竞争、需要挑出更可信解释”的任务里，辩论式呈现比单一路线更有利于判断
Ghosh et al. (2026)	AI 辅助写作中的认知强迫函数实验	结构化审查 AI 计划，能降低过度依赖，且不一定显著增加认知负担

把证据类型拉开，避免把不同性质的实验结果和调查结论捏在一起当同一件事用。

一、MIT 的 EEG 实验，给的是警报，不是终审判决

Kosmyna 等人的论文《Your Brain on ChatGPT》之所以传播很广，是因为它抓住了一个真正敏感的问题：如果把写作过程直接外包给 LLM，人到底损失了什么。

这项研究把参与者分成三个条件组：LLM、Search Engine 和 Brain-only。前 3 个 session 共 54 名参与者，另有 18 人进入第 4 个交叉 session，用来观察从 LLM 切回 Brain-only，以及从 Brain-only 切到 LLM 后会发生什么。研究同时看了 EEG、文本特征、教师与 AI 的评分，以及参与者对文章 ownership 的主观感受。

论文最值得重视的结果有三类。第一，Brain-only 组的脑连接最强，Search Engine 居中，LLM 最弱。第二，LLM 组对自己文章的 ownership 感更低，也更难准确回忆或引用自己刚刚写过的内容。第三，在第 4 个 session 里，从 LLM 切回纯脑写作的参与者，仍表现出较弱的 alpha 和 beta 连接；反过来，从 Brain-only 切到 LLM 的参与者，其脑区激活模式更接近 Search Engine 组。

这些结果能支持的说法是：在 essay writing 这种任务里，直接让 LLM 主导生成，可能会降低人的参与度、ownership 和回忆质量。 写作本来就是整合信息、组织论证、检查漏洞的高密度认知活动——直接让 LLM 主导生成，这些环节全被跳过。

但这篇论文不能直接写成“AI 会系统性损害大脑”。它是特定任务、特定样本、特定实验设置下的研究，目前仍是预印本，后续也已经引发了一些方法学层面的公开讨论。看这篇论文，把它当警报就好，别当判决书。它提醒我们，把写作最核心的那一段直接交给 LLM，看起来是节省，实际是透支。

二、微软 × 卡内基梅隆的调查，重点不在 AI 本身，而在信任校准

Lee 等人在 CHI 2025 发表的论文，研究角度和 MIT 很不一样。它不是实验室里的神经信号研究，而是对 319 名知识工作者做的调查，收集了 936 个第一手案例，想弄清楚：人们在什么情况下仍会对 AI 输出保持批判性思维，又为什么会放松警惕。

这篇论文的关键发现：批判性思维的投入会被重新分配——往哪分，取决于你对 AI 的信任程度——跟“用了 AI 就不思考”这种粗说法不是一回事。一些人会把认知努力从“自己想答案”转移到“验证、修订、整合 AI 输出”；另一些人则在对 AI 过度信任时，直接减少检查和推理投入。

论文尤其指出两个变量很关键。一个是对 GenAI 的信心，另一个是对自己完成该任务的信心。前者越高，越容易出现较低的批判性投入；后者越强，越可能继续主动判断、验证和整合。所以，用 AI 还是被 AI 用，分界线往往不在工具本身——看你怎么校准对它的信任，还保不保留自己的判断框架。

这项研究的边界也很清楚：它是自我报告调查，不是因果实验。因此它不能直接证明“高信任 AI 一定导致批判性思维下降”。但它揭示了一个现实问题：当人越来越把 AI 当成默认正确的起点时，批判性思维更容易从主动行为变成补救行为。

三、值得保留的认知摩擦

2026 年发表在 Computers and Education: Artificial Intelligence 的《Scaffolding Critical Thinking with Generative AI》，不是一项实验，而是一篇框架论文。它没给你某个 effect size，但它把“到底该怎样设计 AI 使用流程”说得足够具体。

作者综合了心理学、教育理论和 AI 伦理研究，提出六个构成批判性参与的核心过程：解释、推理、评价判断、调节、智识好奇心和 epistemic integrity。基于这些过程，论文进一步抽出八条设计原则，其中最值得普通用户记住的有三条。

第一，保留 friction。要的不是被完全抹平的摩擦，是需要主动保留下来的认知负荷。第二，把 LLM 视为 provisional partner，不要当成权威答案源。第三，在完整流程里交替安排 AI-mediated 和 AI-free 阶段，让人至少有一段时间必须独立整合和复述自己的判断。

光说"不要太依赖 AI"没有流程设计，很快沦为空话。这篇论文的贡献在于把"保留认知摩擦"拆成了具体操作：先自己写结论、先自己列假设、先自己复述再看 AI——这些动作不能交给自动生成。

它的边界也同样明显：这是概念与规范性框架，不是随机对照实验。它不证明“只要保留 friction，结果一定更好”，但为前两篇研究提示的问题给出了可操作的修正方向。

四、辩论研究给出的启发：“让答案彼此碰撞”

Khan 等人的《Debating with More Persuasive LLMs Leads to More Truthful Answers》经常被简化成一句“让 AI 和你辩论，会让你更接近真相”。这种转述方向没错，但如果写得太满，就会失真。

论文研究的问题其实是：当“更强的模型”掌握信息，而“更弱的模型”或人类并不直接知道正确答案时，能不能通过辩论机制，让判断者更容易选出真的那一个。实验设置是两个 LLM 专家分别为不同答案辩护，由非专家来判断谁更可信。结果显示，辩论相较于 naive baseline，能帮助非专家模型和人类更准确地选出正确答案；论文里给出的数字是，非专家模型准确率达到 76%，人类达到 88%，而朴素基线分别为 48% 和 60%。

这篇研究给出的实际启发：当你没有把握时，单一路线的答案往往不如相互冲突的论证更有助于判断。 在这类需要从多个 competing explanations 里挑出更可信答案的任务中，暴露分歧、比较理由和审视反例，通常比只接收一个顺滑答案更有利于判断。

把 AI 放在“给结论”的位置上，用处有限；让它生成反对意见、暴露替代解释、补出你没想到的反例，反而更有帮助。这和前面几篇研究的方向一致——人拿到对立论证后做裁决，而不是照搬其中一方。

当然，这篇论文也不是日常知识工作场景的直接用户研究。它更接近一种关于监督与真值辨别的机制研究。它为“让 AI 提供对立论证”提供了机制上的支持，而不是直接证明“你让 AI 反驳你一次，批判性思维就一定提升”。

五、结构化反思：低成本干预

Ghosh 等人在 2026 年发布的预印本《An Experimental Comparison of Cognitive Forcing Functions for Execution Plans in AI-Assisted Writing》，把问题推进到了一个非常实用的层面：过度依赖往往比你以为的更早开始：你毫无审查地接受 AI 给出的执行计划时，依赖就已经发生了，等不到复制最终成文那一步。

这项研究让参与者完成 AI 辅助写作任务，并要求他们在审查 AI 生成计划时进入四种不同条件：Assumption、WhatIf、Both 和 Control。随后研究又做了 think-aloud 与访谈，对这些条件进行定性比较。

结果有两个信息密度很高的点。第一，Assumption 这种要求用户检查前提与论证基础的认知强迫函数，最能降低 overreliance，而且没有明显增加认知负担。第二，WhatIf 条件在主观感受上最有帮助，也就是说，用户会明显感觉到“如果换一种情境想一遍，自己确实更清醒”。

这篇论文给出一个很现实的提醒：很多人以为自己是在审查 AI，实际上只是在浏览 AI。 有效的审查离不开结构化的问题意识；缺了它，人很容易把 AI 的 plan 当成默认合理的起点。

同样要补一句边界：这篇论文目前也是预印本，场景也集中在 AI 辅助写作和计划审查。但它的贡献在于把“不要盲信 AI”从道德建议变成了可插入工作流的具体动作。

五篇研究拼起来，一致的是三件事

把五篇研究放在一起看，“AI 会让人变笨”这种笼统说法站不住，但有三件事方向一致。

当 AI 接管问题定义、论证展开和文本生成时，人的认知参与更容易下降。
人是否继续投入批判性思维，很大程度上取决于对 AI 的信任校准，以及对自己判断能力的保留程度。
如果流程里持续保留 friction、反例、假设审查和 AI-free 阶段，过度依赖通常更有机会被压低，而不是一路累积。

所以光问“用没用 AI”意义不大。更值得想的是：你把 AI 放在了哪一个工位上。

如果把它放在“生成答案”的工位，它最容易让人偷掉前面的判断过程；如果把它放在“挑战假设、补充反例、检查计划”的工位，它更像一个提高你判断质量的对手或审稿人。

一个更稳的 AI 使用流程

基于上面五篇研究，一个对相当一部分知识工作都可参考的流程，可以压缩成四步。这“四步”没有某一篇论文直接验证过，只是把五篇研究中反复出现的共同提醒整理成一套最低成本的防错清单。

1. 先写出你的初判

先写一句自己的判断，哪怕很粗糙，别从“这个问题该怎么做”开始。你需要先把自己的立场外化出来，后面才谈得上修正。

起手式：

这是我的初步判断：……
我目前这样想，主要基于三点：……

2. 让 AI 当反对者，不当代笔者

接下来不要让 AI 直接给答案，而是让它拆你的答案。

请不要重写我的结论。
请像一个强硬但讲理的反对者一样，指出我这套判断最脆弱的前提、最可能忽略的反例，以及最需要补证据的地方。

这一步把 AI 放回到更合适的位置上：帮你暴露漏洞，不替你制造确定感。

3. 审查假设，再跑一遍 what-if

如果 AI 已经给了你计划、大纲或执行路径，不要立刻接受。至少问两轮。

第一轮问假设：

这个方案依赖哪些前提？
哪些前提一旦不成立，整个方案就会失效？

第二轮跑情境：

如果预算减半、时间缩短一半、关键约束变化，这个方案会先在哪一步出错？

Ghosh 等人那篇认知强迫函数研究也指向同样的启发。

4. 保留一个 AI-free 收尾阶段

通常建议留一小段时间，不看 AI，把自己的结论重新说一遍。可以是 3 句话，也可以是一段 150 字以内的摘要。如果你暂时还无法脱离 AI 复述结论，往往说明这套判断还没有真正变成你的。

这个动作看起来慢，但前面几篇研究反复提到的 ownership、回忆、独立整合和判断责任，全靠这一步兜底。

一个可参考的四问模板

记不住完整流程的话，先记住下面四个问题就够了。这四问不是某一篇论文原封不动给出的问卷，只是基于上面五篇研究抽出的一组最低成本检查项，也不是唯一正确的问法。

我现在自己的判断是什么？
这个判断依赖哪些关键假设？
如果它是错的，最可能错在哪里？
哪一步必须由我亲自完成，不能外包给 AI？

这四问只保一件事：最终判断必须仍然属于人。

这篇文章的边界

先谈边界。

第一，这五篇研究的证据强度并不相同。里面既有实验，也有调查、框架论文和预印本。相对更直接的经验材料，主要来自 Lee 等人的调查和 Kosmyna 等人的实验；Khan 等人的工作更像机制启发；Vendrell 与 Johnston、Ghosh 等则分别提供框架与窄场景干预。单独结论未必稳，稳的是它们在方向上的收敛。

第二，目前证据最强的场景，仍然集中在写作、知识工作和教育情境。不同学科背景、原有批判性思维能力、任务熟悉度和组织环境，很可能都会改变结果；把这些结论直接扩展到所有类型的人机协作任务，并不严谨。

第三，这些研究没有一篇支持“不要用 AI”。五篇研究都指向同一件事：重新设计人和 AI 的分工。

第四，这几篇研究都很新，其中还包括预印本，背后的模型版本和交互方式也仍在快速变化。今天的模型能力可能已经不同，但“判断权不要默认外包”这条原则，目前并没有被更强的反向证据推翻。

第五，本文讨论的是一组以风险和边界为中心的研究，不是对全部“AI 是否提升学习或工作表现”文献的均衡综述。它更适合作为使用策略的校准材料，而不是政策或教学制度设计的唯一依据。

换一种问法：“哪些环节可以交给 AI 加速，哪些环节必须保留给人来判断”。

在多数知识工作场景下，搜集材料、生成备选方案、暴露反例、压缩表达，通常都适合让 AI 出力；定义问题、建立标准、权衡证据、承担结论，则一般不建议默认外包。

参考文献

Kosmyna, N., Hauptmann, E., Yuan, Y. T., Situ, J., Liao, X.-H., Beresnitzky, A. V., Braunstein, I., and Maes, P. (2025). Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. arXiv. arXiv
Lee, H.-P., Sarkar, A., Tankelevitch, L., Drosos, I., Rintel, S., Banks, R., and Wilson, N. (2025). The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers. CHI 2025. DOI
Vendrell, M., and Johnston, S.-K. (2026). Scaffolding Critical Thinking with Generative AI: Design Principles for Integrating Large Language Models in Higher Education. Computers and Education: Artificial Intelligence, 10, 100572. DOI
Khan, A., Hughes, J., Valentine, D., Ruis, L., Sachan, K., Radhakrishnan, A., Grefenstette, E., Bowman, S. R., and Perez, E. (2024). Debating with More Persuasive LLMs Leads to More Truthful Answers. arXiv. arXiv
Ghosh, A., Sarkar, A., Lindley, S., and Poelitz, C. (2026). An Experimental Comparison of Cognitive Forcing Functions for Execution Plans in AI-Assisted Writing: Effects On Trust, Overreliance, and Perceived Critical Thinking. arXiv. arXiv

更新于 2026-07-21

AI, 认知科学, 批判性思维, 人机协作, 认知债务, 认知卸载, 大模型, AI使用, 微软, MIT, 研究

返回 | 主页

下一步

如果这篇内容对你有帮助，继续往更完整的路径里走。

你可以从专题页继续系统阅读，也可以通过联系页反馈想跟进的主题、工具和合作方向。

AI Agent 专题 Coding Agent 专题开源 AI 工具联系

目录