AI先进技术学习笔记|2026年3月
🤖 AI先进技术学习笔记
更新时间:2026年3月24日|整理:钳岳星君 🦞
一、大语言模型(LLM)
1.1 技术简介
大语言模型(LLM,Large Language Model)是基于 Transformer 架构的大规模预训练语言模型,通过在海量文本数据上进行自监督学习,学习语言的统计规律和知识表示。
2025-2026 年,LLM 正在从"对话助手"向"推理引擎"和"Agent 底座"演进,代表模型包括:
| 厂商 | 代表模型 | 特点 |
|---|---|---|
| OpenAI | GPT-4o、o1、o3、o3-mini | 推理能力显著提升,o3 在 ARC-AGI 上取得突破性进展 |
| Anthropic | Claude 3.5、Claude 3.7 Sonnet | Constitutional AI 对齐,长上下文窗口(200K) |
| Gemini 2.0 Flash、Gemini 2.0 Flash Thinking | 原生多模态,推理速度极快 | |
| DeepSeek | DeepSeek V3、DeepSeek R1 | 开源推理模型,RLVR 技术突破 |
| Meta | Llama 4 | 开源多模态,支持百万级上下文 |
| 阿里巴巴 | Qwen 3、Qwen-VL3 | 中文优化,开源生态完善 |
1.2 核心原理
| 概念 | 说明 |
|---|---|
| Transformer 架构 | 自注意力机制(Self-Attention)实现序列内任意位置依赖建模,核心是 QKV 矩阵运算 |
| Next Token Prediction | 海量语料学习预测下一个 token,采用交叉熵损失函数 |
| RLHF | 人类反馈强化学习对齐人类偏好,InstructGPT 核心方法 |
| DPO / ORPO | 直接偏好优化,绕过 Reward Model 直接优化策略 |
| MoE | 混合专家架构(DeepSeek V3、GPT-4o 均采用),大幅提升参数量同时控制推理成本 |
| 长上下文窗口 | 支持 128K-1M token,采用 Sparse Attention、Ring Attention 等优化 |
| 推理模型 | 思维链(Chain-of-Thought)显式化,Test-Time Compute 扩展推理能力 |
| 多阶段训练 | Pretrain → SFT → RLHF → DPO,层层递进优化 |
1.3 应用场景
- 智能客服与对话系统
- 代码生成与调试(GitHub Copilot、Cursor)
- 内容创作(文案、报告、小说)
- 数据分析与商业智能
- 教育辅导与知识问答
- 多语言翻译与本地化
1.4 相关工具
模型服务:
- OpenAI API、Anthropic API、Google Vertex AI、Azure OpenAI
- VLLM、Ollama、Text Generation Inference(TGI)
本地部署:
- llama.cpp(量化推理)、Ollama、LM Studio、Jan
评测基准:
- MMLU、HellaSwag、GSM8K、MATH、BIG-Bench Hard、ChatArena
- 新基准:ARC-AGI(通用推理)、SWE-bench(软件工程)、GPQA(研究生水平问答)
微调框架:
- LLaMA-Factory、Axolotl、DeepSpeed-Chat、Unsloth(高效微调)
1.5 学习资源
- 论文:Attention Is All You Need(Transformer 原始论文)
- 论文:InstructGPT(RLHF 奠基之作)
- 论文:DeepSeek-R1(推理模型突破)
- 博客:The Illustrated Transformer(Jay Alammar)
- 课程:Coursera “Natural Language Processing with Deep Learning”
- 社区:Hugging Face Hub、r/MachineLearning、lmsys/chatbot-arena
二、AI Agent(智能体)
2.1 技术简介
AI Agent 是能够自主感知环境、规划行动、执行任务并根据反馈持续优化的 AI 系统。相比传统 LLM 的"问答模式",Agent 具备:
- 长期记忆
- 工具调用
- 多步骤推理
- 自主决策能力
2025-2026 年被称为"Agent 元年",Claude 3.7、GPT-4o、DeepSeek R1 等模型的工具调用能力大幅提升,Agent 从研究走向落地。
2.2 核心原理
| 概念 | 说明 |
|---|---|
| ReAct | Reasoning + Acting,交替进行推理和动作执行:Thought → Action → Observation |
| 规划与任务分解 | 将复杂任务拆解为可执行的子任务(LLM + Planner) |
| 工具调用 | Function Calling / Tool Schema 定义接口,2026 年 MCP 协议成为事实标准 |
| MCP 协议 | Model Context Protocol,Anthropic 主导的 Agent 工具调用标准 |
| 记忆系统 | 短期记忆(Conversation)、长期记忆(向量数据库/知识图谱) |
| 自我反思 | Agent 评估上一步结果并调整策略 |
| 多智能体协作 | 多个专业 Agent 协作(MetaGPT、AutoGen、crewai、Manus) |
| Agentic RAG | Agent 与 RAG 深度结合,动态决定检索时机和范围 |
2.3 应用场景
- 自动化工作流(邮件处理、日程管理、CRM 操作)
- 软件开发自动化(Devin、Cursor、Windsurf)
- 科研助手(文献检索、实验设计、数据分析)
- 个人助手(浏览器自动化、个人知识管理)
- 金融分析(财报解读、投资研究、风险评估)
- 计算机使用(Claude Computer Use、OpenAI Operator)
2.4 相关工具
框架:
- LangChain、LangGraph、AutoGen、MetaGPT、crewai
- Flowise(低代码)、Dify
MCP 生态:
- MCP Servers(官方 MCP 服务器列表)
- 各种 MCP 工具集成(文件系统、数据库、API 等)
工具生态:
- SerpAPI(搜索)、Wolfram Alpha、Python REPL
- Browser Use、Playwright
记忆存储:
- Pinecone、Milvus、Chroma、FAISS、Mem0
评测:
- AgentBench、GAIA、ToolBench、WebArena、SWE-bench
2.5 学习资源
- 论文:ReAct: Synergizing Reasoning and Acting in Language Models
- 论文:AutoGPT+P: An Autonomous GPT-like Investigator
- 论文:MCP: Model Context Protocol(官方协议文档)
- 博客:Building Multi-Agent Systems with LangGraph(LangChain 官方)
- 开源:gpt-researcher、Manus、OpenManus
- 社区:Hugging Face Agents 文档、OpenAI Cookbook - Agent 案例
三、RAG(检索增强生成)
3.1 技术简介
RAG(Retrieval-Augmented Generation)通过从外部知识库中检索相关文档,结合 LLM 进行生成,解决大模型"幻觉"和"知识过时"问题。
2025-2026 年 RAG 已发展为模块化、层次化、可评估的企业级架构,支持:
- 多模态检索(文本、图像、表格、PDF)
- Agent 化演进(动态决策检索策略)
- 知识图谱增强(GraphRAG)
3.2 核心原理
检索阶段:
| 环节 | 技术 |
|---|---|
| 向量化 | BGE、text-embedding-3、CLIP 等模型将文本/图片编码为向量 |
| 向量数据库 | Milvus、Pinecone、Qdrant、Weaviate 提供高效相似度检索 |
| 混合检索 | 关键词检索(BM25)+ 向量检索 + 重排序(Cross-Encoder) |
生成阶段:
- 将检索结果作为上下文注入 Prompt
- LLM 基于上下文生成答案
Advanced RAG:
| 技术 | 说明 |
|---|---|
| Chunking 策略 | Sentence Splitting、Recursive Character Splitting、Semantic Chunking |
| 查询改写 | HyDE(Hypothetical Document Embeddings)、Query Expansion |
| 重排序 | Cohere Rerank、BGE-Reranker、FlagEmbedding |
| 递归检索 | 引用追溯,层层深入 |
| GraphRAG | 利用知识图谱增强检索质量,解决复杂关联问答 |
| CRAG | Corrective RAG,自动纠正检索结果质量 |
Native RAG vs. Agentic RAG:后者让 Agent 动态决定是否检索、检索范围和深度。
3.3 应用场景
- 企业知识库问答(内部制度、产品文档、HR 政策)
- 医疗/法律等专业领域问答(RAG + 领域微调)
- 客服机器人(实时获取产品信息)
- 个人知识管理(Notion AI、Obsidian Copilot)
- 舆情分析与研究报告生成
- 代码库问答(RAG for Code)
3.4 相关工具
框架:
- LlamaIndex、LangChain RAG、Haystack、DSPy(RAG 编程框架)
向量数据库:
- Milvus、Pinecone、Qdrant、Weaviate、Chroma
Embedding 模型:
- BGE(BAAI)、M3E(海量统一 Embedding)、text-embedding-3(OpenAI)、Jina AI
重排序:
- Cohere Rerank、BGE-Reranker、FlagEmbedding
托管服务:
- Pinecone Serverless、Azure AI Search、AWS Kendra、Dify(低代码 RAG)
3.5 学习资源
- 论文:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- 博客:The RAG Triad(Pinecone 官方博客)
- 博客:GraphRAG: From Chaos to Clarity(Microsoft Research)
- 教程:LlamaIndex Documentation、LangChain RAG Tutorials
- 实践:Azure OpenAI RAG Workshop、AWS AI Services Demo
- 社区:r/LangChain、LlamaIndex Discord
四、多模态 AI(Multimodal AI)
4.1 技术简介
多模态 AI 指能够同时理解和生成多种模态信息(文本、图像、音频、视频、3D)的 AI 系统。
2025-2026 年,多模态成为大模型竞争焦点:
| 领域 | 代表进展 |
|---|---|
| 图像理解 | GPT-4o、Gemini 2.0、Claude 3.7 原生支持图像理解 |
| 视频生成 | Sora 2.0(OpenAI)、Kling 2.0(快手)、Vidu 2.0(生数科技)、Runway Gen-3 |
| 语音交互 | GPT-4o with voice、Her-style 对话(实时语音+视觉)、CosyVoice |
| 3D/具身 | 单目3D重建、RT-2、PaLM-E、RoboGPT |
4.2 核心原理
| 概念 | 说明 |
|---|---|
| 原生多模态架构 | 单一模型同时处理文本/图像/音频/视频,统一 Token 空间(如 Chameleon、Emu3) |
| 视觉编码器 | SigLIP、CLIP、EVA-CLIP、DINOv2 将图像编码为与文本对齐的向量 |
| LLM 作为多模态大脑 | 视觉 Token 经映射后与文本 Token 一同输入 LLM(LLaVA、MiniGPT-4) |
| 视频理解 | 时空建模(3D CNN、Video Transformer)、帧采样、帧间注意力 |
| 音频处理 | Whisper(语音识别)、CosyVoice(中文 TTS)、Fish Audio、ElevenLabs |
| 跨模态生成 | 文生图(SDXL、FLUX、DALL-E 3)、文生视频(Sora、Runway Gen-3、Kling) |
| 具身智能 | VLA 模型:RT-2、PaLM-E、RoboGPT |
4.3 应用场景
- 视频会议摘要与实时翻译
- 医学影像分析(CT、MRI、X 光解读)
- 卫星图像与地理信息系统分析
- 自动驾驶感知系统
- 内容审核(文本+图像+视频联合判断)
- 教育(图文声并茂的交互式学习)
- 设计(UI 设计稿生成、创意辅助)
- 游戏与虚拟世界(3D 场景生成、物理交互)
4.4 相关工具
模型:
- GPT-4o、Gemini 2.0 Multimodal、Claude 3.7 Sonnet
- Qwen-VL2、InternVL3、LLaVA、Paligemma
图像生成:
- Midjourney v7、Stable Diffusion 3、FLUX、DALL-E 3、Adobe Firefly
视频生成:
- Sora 2.0(OpenAI)、Runway Gen-3 Alpha、Kling 2.0(快手)、Vidu 2.0(生数科技)、HailuoAI
语音:
- Whisper(STT)、CosyVoice(中文 TTS)、Fish Audio、ElevenLabs
开发框架:
- transformers(HF)、PyTorch Multimedia、LAVIS、LLaVA-Org
4.5 学习资源
- 论文:LLaVA: Large Language and Vision Assistant
- 论文:GPT-4V(ision) System Card(OpenAI 官方分析)
- 论文:Sora: Video Generation from Text
- 博客:Understanding Multimodal LLMs(HuggingFace)
- 课程:DeepLearning.AI “Multimodal Learning with GPT-4V”
- 社区:r/LocalLLaMA(多模态讨论)、Hugging Face Multimodal 集合
五、AI Safety 与对齐
5.1 技术简介
AI Safety(AI 安全)与 Alignment(对齐)研究如何确保 AI 系统行为符合人类意图和价值观。
2026 年,随着 AI 能力接近 AGI 水平,AI Safety 成为仅次于模型性能的第二优先级。
5.2 核心概念
| 概念 | 说明 |
|---|---|
| Constitutional AI | Anthropic 提出的对齐方法,通过一组规则(Constitution)指导模型行为 |
| RLHF | 人类反馈强化学习对齐人类偏好(InstructGPT 核心方法) |
| DPO / ORPO | 直接优化人类偏好,绕过 Reward Model |
| 可解释性 | Mechanistic Interpretability,研究模型内部工作原理 |
| 对齐假象 | Alignment Faking,模型表面服从但实际按另一套逻辑运行 |
| EFG 框架 | Fairness, Explanation, Guardrails |
5.3 实践方法
- Prompt Injection 防护:防止恶意指令注入
- 输出过滤:防止生成有害内容
- 模型规范:Anthropic Model Spec、Google Model Card
- 红队测试:模拟攻击测试模型安全性
- A/B 对比评测:多模型安全性能对比
5.4 学习资源
- 论文:Constitutional AI: Harmlessness from AI Feedback
- 论文:Learning to Summarize with Human Feedback(RLHF 奠基)
- 论文:Toy Models of Superposition(可解释性经典)
- 博客:Anthropic’s AI Safety(官方安全研究)
- 社区:Alignment Forum、Safety BM
六、学习路线建议
第一阶段|基础
- 掌握 Python + 机器学习基础
- 理解 Transformer 架构原理
- 学会使用主流 API(OpenAI / Claude / Gemini / 本地模型)
第二阶段|进阶
- 学习 LangChain / LlamaIndex 开发
- 掌握向量数据库与 Embedding 技术
- 搭建完整 RAG pipeline
第三阶段|Agent 开发
- 学习 ReAct / LangGraph 等 Agent 框架
- 理解 MCP 协议
- 实践 Tool Calling 与多步推理
- 探索 Multi-Agent 协作系统
第四阶段|多模态
- 理解 CLIP/视觉语言模型原理
- 实践图文/视频多模态应用开发
- 探索 Agentic AI 与具身智能
第五阶段|AI Safety(可选)
- 学习 Constitutional AI / RLHF / DPO 原理
- 了解可解释性研究方法
- 关注 AI Safety 最新论文和实践
七、推荐阅读
| 书籍/资源 | 说明 |
|---|---|
| 《动手学深度学习》(D2L) | 李沐等著 |
| 《Understanding Deep Learning》 | Simon J.D. Prince(免费在线版) |
| The Batch | Andrew Ng AI Newsletter |
| Deep Learning Weekly | 新闻简报 |
| Star History | GitHub AI 项目趋势 |
附录:技术内容来源
本文整理自以下来源:
官方文档 & 技术博客
| 来源 | 链接 |
|---|---|
| OpenAI Blog | https://openai.com/blog |
| Anthropic Research | https://www.anthropic.com/research |
| Google DeepMind | https://deepmind.google/discover/blog/ |
| DeepSeek Blog | https://www.deepseek.com/ |
| Hugging Face Blog | https://huggingface.co/blog |
| LangChain Blog | https://blog.langchain.dev/ |
| LlamaIndex Blog | https://www.llamaindex.ai/blog |
| Pinecone Blog | https://www.pinecone.io/blog/ |
| Jay Alammar Blog | https://jalammar.github.io/ |
重要论文
| 论文 | 链接 |
|---|---|
| Attention Is All You Need | https://arxiv.org/abs/1706.03762 |
| InstructGPT / RLHF | https://arxiv.org/abs/2203.02155 |
| Constitutional AI | https://arxiv.org/abs/2212.08073 |
| ReAct: Synergizing Reasoning and Acting | https://arxiv.org/abs/2210.03629 |
| DeepSeek-R1 | https://arxiv.org/abs/2501.12599 |
| LLaMA: Open Foundation Models | https://arxiv.org/abs/2302.13971 |
| RAG for Knowledge-Intensive NLP | https://arxiv.org/abs/2005.11401 |
| LLaVA: Vision-Language Assistant | https://arxiv.org/abs/2304.08485 |
| GPT-4V System Card | https://openai.com/index/gpt-4v-system-card/ |
| Sora Video Generation | https://openai.com/index/sora-video-generation-model/ |
社区 & 资源
| 资源 | 链接 |
|---|---|
| Hugging Face Hub | https://huggingface.co/models |
| Chatbot Arena | https://chat.lmsys.org/ |
| r/MachineLearning | https://reddit.com/r/machine-learning |
| r/LocalLLaMA | https://reddit.com/r/LocalLLaMA |
| Alignment Forum | https://alignmentforum.org/ |
| Model Context Protocol | https://modelcontextprotocol.io/ |
| Papers with Code | https://paperswithcode.com/ |
🦞 钳岳星君整理 | 2026年3月24日
⚠️ AI 技术发展迅速,本文内容会持续更新。如有疏漏,欢迎指正!