AI 时代的认知生存指南:五篇研究怎样提醒我们别把思考外包给大模型
posts posts 2026-04-26T12:03:00+08:00重新核对 MIT EEG 实验、微软 × 卡内基梅隆调查,以及三篇关于批判性思维、辩论和结构化反思的研究后,一个更稳的结论是:AI 最适合增强判断,不适合接管判断。思考与随笔AI, 认知科学, 批判性思维, 人机协作, 认知债务, 认知卸载, 大模型, AI使用, 微软, MIT, 研究前言
这篇文章想回答的,不是“AI 会不会让人变笨”这种过于宽泛的问题,而是一句更实在的话:当大模型越来越会写、会搜、会总结时,人应该把它放在思考流程的哪个位置?
我把常被一起引用的五篇研究重新核了一遍,发现它们并不是同一种证据。有的是 EEG 写作实验,有的是知识工作者调查,有的是高等教育框架论文,也有预印本形式的人机交互实验和关于 LLM 辩论的监督研究。如果把它们压缩成一句“论文已经证明 AI 会损害思考能力”,那是不准确的;但如果把它们放在一起看,确实能得到一条相当稳的原则:AI 应该增强判断,而不是接管判断。
如果一定要把这五篇研究翻成人话,我更愿意这样说:AI 更像磨刀石,不该变成拐杖。磨刀石会让刀更利,但刀仍然要你自己握;一旦让 AI 代替你定义问题、展开论证、给出最终判断,认知摩擦会消失,能力增长也会跟着消失。
先把证据摆平
这五篇研究分别提供的是五种不同层面的证据。
| 研究 | 证据类型 | 这篇研究最能支持的结论 |
|---|---|---|
| Kosmyna et al. (2025) | EEG + 写作任务实验 | 在特定写作场景下,直接依赖 LLM 的参与者表现出更弱的脑连接、较低的文本 ownership 与较差的回忆表现 |
| Lee et al. (2025) | 319 名知识工作者调查 | 人们是否还会投入批判性思维,与其对 AI 的信任校准和对自身能力的信心密切相关 |
| Vendrell and Johnston (2026) | 概念与教学设计框架 | “保留认知摩擦”可以被系统化设计,而不只是情绪化地反对 AI |
| Khan et al. (2024) | LLM 辩论与监督研究 | 在“多个答案竞争、需要挑出更可信解释”的任务里,辩论式呈现比单一路线更有利于判断 |
| Ghosh et al. (2026) | AI 辅助写作中的认知强迫函数实验 | 结构化审查 AI 计划,能降低过度依赖,且不一定显著增加认知负担 |
这张表最重要的作用,是提醒我们别把不同证据混成一个结论。下面分别看。
一、MIT 的 EEG 实验,给的是警报,不是终审判决
Kosmyna 等人的论文《Your Brain on ChatGPT》之所以传播很广,是因为它抓住了一个真正敏感的问题:如果把写作过程直接外包给 LLM,人到底损失了什么。
这项研究把参与者分成三个条件组:LLM、Search Engine 和 Brain-only。前 3 个 session 共 54 名参与者,另有 18 人进入第 4 个交叉 session,用来观察从 LLM 切回 Brain-only,以及从 Brain-only 切到 LLM 后会发生什么。研究同时看了 EEG、文本特征、教师与 AI 的评分,以及参与者对文章 ownership 的主观感受。
论文最值得重视的结果有三类。第一,Brain-only 组的脑连接最强,Search Engine 居中,LLM 最弱。第二,LLM 组对自己文章的 ownership 感更低,也更难准确回忆或引用自己刚刚写过的内容。第三,在第 4 个 session 里,从 LLM 切回纯脑写作的参与者,仍表现出较弱的 alpha 和 beta 连接;反过来,从 Brain-only 切到 LLM 的参与者,其脑区激活模式更接近 Search Engine 组。
这些结果真正能支持的说法是:在 essay writing 这种任务里,直接让 LLM 主导生成,可能会降低人的参与度、ownership 和回忆质量。 这已经足够值得警惕,因为写作本来就是整合信息、组织论证、检查漏洞的高密度认知活动。
但这篇论文也不能被写成“AI 会系统性损害大脑”。它是特定任务、特定样本、特定实验设置下的研究,而且目前仍是预印本,后续也已经引发了一些方法学层面的公开讨论。更稳妥的态度是:把它看成警报,而不是判决书。它提醒我们,把写作最核心的那一段直接交给 LLM,可能不是节省,而是透支。
二、微软 × 卡内基梅隆的调查,重点不在 AI 本身,而在信任校准
Lee 等人在 CHI 2025 发表的论文,研究角度和 MIT 很不一样。它不是实验室里的神经信号研究,而是对 319 名知识工作者做的调查,收集了 936 个第一手案例,想弄清楚:人们在什么情况下仍会对 AI 输出保持批判性思维,又为什么会放松警惕。
这篇论文最重要的结论,不是“用了 AI 就不思考”,而是批判性思维会被重新分配,甚至被重新定价。一些人会把认知努力从“自己想答案”转移到“验证、修订、整合 AI 输出”;另一些人则在对 AI 过度信任时,直接减少检查和推理投入。
论文尤其指出两个变量很关键。一个是对 GenAI 的信心,另一个是对自己完成该任务的信心。前者越高,越容易出现较低的批判性投入;后者越强,越可能继续主动判断、验证和整合。换句话说,真正决定你是在“用 AI”还是“被 AI 用”,常常不是工具本身,而是你如何校准对它的信任,以及你是否还保有自己的判断框架。
这项研究的边界也很清楚:它是自我报告调查,不是因果实验。因此它不能直接证明“高信任 AI 一定导致批判性思维下降”。但它已经足够说明一个现实问题:当人越来越把 AI 当成默认正确的起点时,批判性思维更容易从主动行为变成补救行为。
三、真正值得保留的,是认知摩擦
2026 年发表在 Computers and Education: Artificial Intelligence 的《Scaffolding Critical Thinking with Generative AI》,不是一项实验,而是一篇框架论文。它的价值不在于告诉你某个 effect size 有多大,而在于把“到底该怎样设计 AI 使用流程”说得足够具体。
作者综合了心理学、教育理论和 AI 伦理研究,提出六个构成批判性参与的核心过程:解释、推理、评价判断、调节、智识好奇心和 epistemic integrity。基于这些过程,论文进一步抽出八条设计原则,其中最值得普通用户记住的有三条。
第一,保留 friction。思考不是要被完全抹平的摩擦,而是需要被保留的负荷。第二,把 LLM 视为 provisional partner,而不是权威答案源。第三,在完整流程里交替安排 AI-mediated 和 AI-free 阶段,让人至少有一段时间必须独立整合和复述自己的判断。
这篇论文最强的地方,在于它把一个容易被说成鸡汤的口号变成了可操作的设计语言。所谓“不要太依赖 AI”,如果没有流程设计,很快就会沦为空话;而“保留认知摩擦”则意味着你要有意识地设置那些不能被自动生成直接替代的环节,例如先自己写结论、先自己列假设、先自己复述再看 AI。
它的边界也同样明显:这是概念与规范性框架,不是随机对照实验。所以它不证明“只要保留 friction,结果一定更好”;它做的是另一件同样重要的事,即为前两篇研究提示的问题提供一个更稳的修正方向。
四、辩论研究真正启发我们的,是“让答案彼此碰撞”
Khan 等人的《Debating with More Persuasive LLMs Leads to More Truthful Answers》经常被简化成一句“让 AI 和你辩论,会让你更接近真相”。这种转述方向没错,但如果写得太满,就会失真。
论文研究的问题其实是:当“更强的模型”掌握信息,而“更弱的模型”或人类并不直接知道正确答案时,能不能通过辩论机制,让判断者更容易选出真的那一个。实验设置是两个 LLM 专家分别为不同答案辩护,由非专家来判断谁更可信。结果显示,辩论相较于 naive baseline,能帮助非专家模型和人类更准确地选出正确答案;论文里给出的数字是,非专家模型准确率达到 76%,人类达到 88%,而朴素基线分别为 48% 和 60%。
这篇研究最可靠的启发,不是“以后所有问题都找 AI 吵一架”,而是:当你没有把握时,单一路线的答案往往不如相互冲突的论证更有助于判断。 在这类需要从多个 competing explanations 里挑出更可信答案的任务中,暴露分歧、比较理由和审视反例,通常比只接收一个顺滑答案更有利于判断。
因此,把 AI 放在“给结论”的位置上,价值有限;把 AI 放在“生成反对意见、暴露替代解释、补出你没想到的反例”的位置上,价值反而更高。这个结论和前面几篇研究是吻合的,因为它要求人的角色不是复制,而是裁决。
当然,这篇论文也不是日常知识工作场景的直接用户研究。它更接近一种关于监督与真值辨别的机制研究。因此,最合适的写法是:它为“让 AI 提供对立论证”提供了机制上的支持,而不是直接证明“你让 AI 反驳你一次,批判性思维就一定提升”。
五、结构化反思不是口号,而是低成本干预
Ghosh 等人在 2026 年发布的预印本《An Experimental Comparison of Cognitive Forcing Functions for Execution Plans in AI-Assisted Writing》,把问题推进到了一个非常实用的层面:真正的过度依赖,往往不是从复制最终成文开始的,而是从你毫无审查地接受 AI 给出的执行计划开始的。
这项研究让参与者完成 AI 辅助写作任务,并要求他们在审查 AI 生成计划时进入四种不同条件:Assumption、WhatIf、Both 和 Control。随后研究又做了 think-aloud 与访谈,对这些条件进行定性比较。
结果有两个信息密度很高的点。第一,Assumption 这种要求用户检查前提与论证基础的认知强迫函数,最能降低 overreliance,而且没有明显增加认知负担。第二,WhatIf 条件在主观感受上最有帮助,也就是说,用户会明显感觉到“如果换一种情境想一遍,自己确实更清醒”。
这篇论文提供了一个很现实的提醒:很多人以为自己是在审查 AI,实际上只是在浏览 AI。 真正有效的审查往往需要结构化的问题意识,否则人很容易把 AI 的 plan 当成默认合理的起点。
同样要补一句边界:这篇论文目前也是预印本,场景也集中在 AI 辅助写作和计划审查。但它之所以有价值,恰恰因为它把“不要盲信 AI”从道德建议变成了可插入工作流的具体动作。
五篇研究拼起来,真正一致的是三件事
把五篇研究放在一起看,最一致的不是“AI 会让人变笨”,而是下面三件事。
- 当 AI 接管问题定义、论证展开和文本生成时,人的认知参与更容易下降。
- 人是否继续投入批判性思维,很大程度上取决于对 AI 的信任校准,以及对自己判断能力的保留程度。
- 如果流程里持续保留 friction、反例、假设审查和 AI-free 阶段,过度依赖通常更有机会被压低,而不是一路累积。
这就是为什么我不赞成把 AI 用法简单分成“用了”或“没用”。更关键的问题是:你把 AI 放在了哪一个工位上。
如果把它放在“生成答案”的工位,它最容易让人偷掉前面的判断过程;如果把它放在“挑战假设、补充反例、检查计划”的工位,它更像一个提高你判断质量的对手或审稿人。
一个更稳的 AI 使用流程
基于上面五篇研究,一个对相当一部分知识工作都可参考的流程,可以压缩成四步。这里的“四步”不是某一篇论文直接验证过的统一 protocol,而是把五篇研究中反复出现的共同提醒,整理成一套最低成本的防错清单。
1. 先写出你的初判
不要从“这个问题该怎么做”开始,而是先写一句自己的判断,哪怕它很粗糙。你需要先把自己的立场外化出来,后面才谈得上修正。
最简单的起手式是:
这是我的初步判断:……
我目前这样想,主要基于三点:……2. 让 AI 当反对者,不当代笔者
接下来不要让 AI 直接给答案,而是让它拆你的答案。
请不要重写我的结论。
请像一个强硬但讲理的反对者一样,指出我这套判断最脆弱的前提、最可能忽略的反例,以及最需要补证据的地方。这一步对应的,不只是“多看一个角度”,而是把 AI 放回到更合适的位置上:帮助你暴露漏洞,而不是替你制造确定感。
3. 审查假设,再跑一遍 what-if
如果 AI 已经给了你计划、大纲或执行路径,不要立刻接受。至少问两轮。
第一轮问假设:
这个方案依赖哪些前提?
哪些前提一旦不成立,整个方案就会失效?第二轮跑情境:
如果预算减半、时间缩短一半、关键约束变化,这个方案会先在哪一步出错?这正是 Ghosh 等人那篇认知强迫函数研究给出的可迁移启发。
4. 保留一个 AI-free 收尾阶段
通常建议留一小段时间,不看 AI,把自己的结论重新说一遍。可以是 3 句话,也可以是一段 150 字以内的摘要。如果你暂时还无法脱离 AI 复述结论,往往说明这套判断还没有真正变成你的。
这个动作看起来很慢,但它恰好对应前面几篇研究共同强调的东西:ownership、回忆、独立整合和判断责任。
一个可参考的四问模板
如果你不想记完整流程,可以先记住下面四个问题作为起点。这四问不是某一篇论文原封不动给出的问卷,而是基于上面五篇研究抽出来的一组最低成本检查项,也不是唯一正确的问法。
- 我现在自己的判断是什么?
- 这个判断依赖哪些关键假设?
- 如果它是错的,最可能错在哪里?
- 哪一步必须由我亲自完成,不能外包给 AI?
这四问真正要保住的,不是“人必须比 AI 更强”,而是“最终判断必须仍然属于人”。
这篇文章最重要的边界
写到这里,最需要强调的不是结论本身,而是边界。
第一,这五篇研究的证据强度并不相同。里面既有实验,也有调查、框架论文和预印本。相对更直接的经验材料,主要来自 Lee 等人的调查和 Kosmyna 等人的实验;Khan 等人的工作更像机制启发;Vendrell 与 Johnston、Ghosh 等则分别提供框架与窄场景干预。真正稳的不是某一个单独结论,而是它们在方向上的收敛。
第二,目前证据最强的场景,仍然集中在写作、知识工作和教育情境。不同学科背景、原有批判性思维能力、任务熟悉度和组织环境,很可能都会改变结果;把这些结论直接扩展到所有类型的人机协作任务,并不严谨。
第三,这些研究没有一篇支持“不要用 AI”。它们共同支持的是另一件事:重新设计人和 AI 的分工。
第四,这几篇研究都很新,其中还包括预印本,背后的模型版本和交互方式也仍在快速变化。今天的模型能力可能已经不同,但“判断权不要默认外包”这条原则,目前并没有被更强的反向证据推翻。
第五,本文讨论的是一组以风险和边界为中心的研究,不是对全部“AI 是否提升学习或工作表现”文献的均衡综述。它更适合作为使用策略的校准材料,而不是政策或教学制度设计的唯一依据。
所以,更准确的提问方式不是“AI 该不该用”,而是“哪些环节可以交给 AI 加速,哪些环节必须保留给人来判断”。
一旦把问题这样改写,答案就清晰得多了:在多数知识工作场景下,搜集材料、生成备选方案、暴露反例、压缩表达,通常都适合让 AI 出力;定义问题、建立标准、权衡证据、承担结论,则一般不建议默认外包。
参考文献
- Kosmyna, N., Hauptmann, E., Yuan, Y. T., Situ, J., Liao, X.-H., Beresnitzky, A. V., Braunstein, I., and Maes, P. (2025). Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. arXiv. arXiv
- Lee, H.-P., Sarkar, A., Tankelevitch, L., Drosos, I., Rintel, S., Banks, R., and Wilson, N. (2025). The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers. CHI 2025. DOI
- Vendrell, M., and Johnston, S.-K. (2026). Scaffolding Critical Thinking with Generative AI: Design Principles for Integrating Large Language Models in Higher Education. Computers and Education: Artificial Intelligence, 10, 100572. DOI
- Khan, A., Hughes, J., Valentine, D., Ruis, L., Sachan, K., Radhakrishnan, A., Grefenstette, E., Bowman, S. R., and Perez, E. (2024). Debating with More Persuasive LLMs Leads to More Truthful Answers. arXiv. arXiv
- Ghosh, A., Sarkar, A., Lindley, S., and Poelitz, C. (2026). An Experimental Comparison of Cognitive Forcing Functions for Execution Plans in AI-Assisted Writing: Effects On Trust, Overreliance, and Perceived Critical Thinking. arXiv. arXiv