目录

ClaudeCode操控ComfyUI画涩图:ImageAutoPrompt与noobai画师串探索系统深度解读

视频信息卡

项目内容
标题我用ClaudeCode画涩图:如何探索illustrious/noob画师串
UP主VirtualAllocate
发布时间2026-05-03 23:09:50
时长61分20秒
播放量3562
点赞134
收藏535
硬币48
评论27
原视频BV1L7RcBAEqN
相关仓库crclz/ImageAutoPrompt

前言

这篇视频是作者VirtualAllocate在B站发布的一套完整AI绘图prompt探索系统讲解。核心围绕一个用ClaudeCode驱动ComfyUI+noobai模型、自动探索danbooru画师标签串的开源工具ImageAutoPrompt展开。视频时长超过1小时,干货密度极高,涵盖了从环境搭建、ComfyUI工作流配置、到画师串系统化探索方法论的完整链路。

本文不只做视频摘要,而是结合作者提供的代码仓库、skill系统、画师库,进行深度的技术解读与分析。

1. 工具链全貌:ClaudeCode + ComfyUI + noobai + ImageAutoPrompt

视频演示的整个工具链涉及四个核心组件:

ClaudeCode (AI编程代理)
    ↓ 自然语言指令
ImageAutoPrompt (Flask Web + Agent Skills)
    ↓ API调用
ComfyUI (节点式工作流引擎)
    ↓ 
noobai (专门优化过danbooru标签的文生图模型)
    ↓
生成的图片 → 用户评估 → 反馈给ClaudeCode继续探索

noobai 是一类专门针对danbooru标签体系优化过的文生图模型(视频中使用的是noobaiXLNAIXL_vPred10Version.safetensors),其特点是:模型已经过标签对齐训练,使用danbooru标准tag可以直接触发准确的生成效果,不需要自然语言prompt的复杂描述。

ImageAutoPrompt 是作者自己开发的工具,核心是一个Flask Web服务器,配合ClaudeCode/OpenCode作为AI编程代理,系统化探索prompt空间。它的价值在于:把"显卡空转等人审美决策"的串行等待,变成了"人审美的同时AI已经在生成下一批候选"的双buffer流水线。

2. 环境搭建与ComfyUI工作流配置

2.1 依赖环境

ImageAutoPrompt对硬件要求不高:

  • Python 3.12+
  • 有GPU可以加速embedding建库,无GPU也能运行基础功能
  • 需要能访问GitHub(或者配置代理)

安装步骤:

git clone https://github.com/crclz/ImageAutoPrompt.git
conda create -n imageautoprompt python=3.12
conda activate imageautoprompt
pip install toml
python export_requirements.py  # 从pyproject.toml导出依赖
pip install -r requirements.txt -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

2.2 ComfyUI工作流配置

工具支持任意ComfyUI工作流,原理是在用户工作流中插入标志字符串,供程序进行替换。修改步骤:

  1. 负面提示词:固定为模型需要的质量词,探索过程中不对负向提示词进行探索
  2. 正面提示词:拆分为两个输入
    • 一个输入留前缀或后缀固定质量tag
    • 另一个输入填写 entropy:positive(前后不能有空格),二者用concat节点连接
  3. 图片输出:仅支持1个图片输出,使用图片保存节点,将地址前缀改为 entropy_out_placeholder

配置示例(workflow.example.json中的关键节点):

{
  "15": {
    "class_type": "StringConcatenate",
    "inputs": {
      "string_a": "entropy:positive",
      "string_b": "masterpiece, best quality, newest, absurdres, highres",
      "delimiter": ","
    }
  },
  "16": {
    "class_type": "ShowText|pysssss",
    "inputs": {
      "text_0": "entropy:positive,masterpiece,best quality,newest,absurdres,highres",
      "text": [...]
    }
  }
}

2.3 启动服务

flask --app server run
# 访问Web界面,开始episode探索

3. 核心概念:Episode与Timestep

ImageAutoPrompt用Episode来管理一次完整的prompt优化轨迹,用Timestep来管理每个探索批次。

3.1 Episode

一个Episode代表对prompt进行优化的完整轨迹。用户需要给Episode起一个名字(必须是snake_case,不能用中文)。所有数据存储在runs/draft/<episode_name>/目录下。

3.2 Timestep

每个Episode由多个Timestep组成,基本流程:

  1. 基于之前的prompt和用户反馈,ClaudeCode生成新timestep,存入磁盘文件
  2. 通知用户文件路径,用户自己运行文生图
  3. 用户给出反馈(选择最喜欢的图片,或者跳过)
  4. ClaudeCode进入下一个timestep

每个timestep生成4-16个不同的prompt供用户选择,用户可以选择其中一个作为下一个timestep的起点,也可以全部跳过。

timestep文件的命名规则:timestep_i.md(i从0开始,建议2位数字如05、10)。

4. 画师串探索方法论(核心重点)

这是视频最核心的内容——一套从"无画师"到"多画师带权重组合"的系统化探索流程。

4.1 为什么需要画师串

单个画师(artist tag)的作用是有限的,因为每种画风都有其局限性。要达到用户满意的画风,需要叠加多名画师(aka画师串)。经验总结:

  • 单画师效果有限
  • 2-5名画师的组合效果通常更好
  • 可以通过括号+权重精细化控制每名画师的影响程度

4.2 权重高级技巧

(artist:aaa:1.2)  ← 权重1.2,高于默认值,增强该画师影响
(artist:bbb:0.8)  ← 权重0.8,低于默认值,减弱该画师影响

权重约束:

  • 必须在0.5-1.2闭区间之间
  • 调整步进为0.1
  • 这是高级技巧,不要一上来就用,先从无权重组合开始探索

4.3 探索工作流(Artist Exploration Workflow)

作者设计了一套从简单到复杂的渐进式探索流程:

持续timestep数策略prompt数量/timestep备注
1单画师探索。从artist library中大范围选择,一次性生成16个候选16artist_only模式;用户无明显停留意图时主动推进到下一阶段
12画师无权重混合。重点关注用户在单artist阶段更喜欢的8不要用上一阶段用户完全未看过的画师
12-3画师带权重8注意:1画师通常不如2画师好,但再往上就没这个规律了,得试错
22-3-4-5画师带权重8最后一个timestep需平衡exploration和exploitation。前3名都很重要
0得出结论,报告前3个最优画师串-如果用户想进行其他探索,轮换使用前3个画师串

关键原则:探索artist时,为了控制变量,不修改其他标签。这确保了图片效果的改善都是因为artist的变化,而不是tag的干扰。

4.4 Free Exploration(自由探索阶段)

当画风收敛到满意情况后,进入自由探索阶段,可以探索:

  • 自然环境、社会环境
  • 外貌、语言、动作、心理、神态
  • 整体外貌、容貌五官、衣着服饰、姿态神情

每次新增的tag不超过6个(步子太大会造成方差大,不可观测)。

5. Agent Skills 系统解析

ImageAutoPrompt的.agents/skills/目录下有4个精心设计的skill,共同构成了完整的prompt探索自动化系统。

5.1 format-noobai(格式规范)

定义noobai模型的prompt格式标准,是所有prompt生成的基础参考:

正向提示词结构

[人数tag 1girl, solo], [角色名 optional], [系列名 optional], [画师tag artist:xxx], [一般tag], [质量词]

关键约束:

  • 下划线变空格medium_breastsmedium breasts
  • 括号需转义lumine_(genshin_impact)lumine \(genshin \impact)
  • artist必须添加artist:前缀
  • 不添加任何质量词(masterpiece, best quality等),后处理会自动添加
  • 除了artist外不为主动其他tag添加权重
  • 正向tag不超过80个,绝对不超过100个

5.2 artist-explore(画师探索流程)

定义了画师探索的系统性方法论。核心workflow:

  1. 从无artist或指定artist开始
  2. 从简单到复杂:单画师 → 2画师无权重 → 2-3画师带权重 → 多画师带权重
  3. 根据用户反馈调整画师组合
  4. 最终得到最优画师组合

关键原则:artist必须从library/artists.md中寻找,不能脱离该文件范围。

5.3 episode(流程管理)

定义episode的文件格式与流程控制:

  • 一个episode由多个timestep组成
  • 每个timestep包含exploration JSON和多个prompt
  • ClaudeCode生成timestep后告诉用户文件路径,用户自己跑图
  • 用户反馈后进入下一个timestep

5.4 tag-assistant(标签助手)

当用户需要推荐danbooru tag时,使用语义搜索系统:

uv run tag_semantic_search.py --query "query1" "query2"

流程:

  1. 系统性分析需求和上一轮搜索结构
  2. 进行语义搜索(最多8个query)
  3. 必要时进行关键词搜索(在14万行的danbooru.txt中查找)
  4. 提供tag建议和灵感推荐

6. 画师库:70+名画师的精细化描述

ImageAutoPrompt的library/artists.md收录了超过70名画师的详细中文描述,每条描述都精准捕捉了该画师的核心风格特征。这些描述是作者从大量图片中提炼出来的,可以直接用于prompt探索的参考。

6.1 典型画师风格分类

通透治愈系

  • artist:torino aqua — 极致逆光、丁达尔空气感、通透、细碎光斑
  • artist:anmi — 唯美轻盈、逆光丁达尔、水润软糯
  • artist:hiten (hitenkei) — 商业赛璐璐、冷暖邻近色、水下折射

肉感厚涂系

  • artist:shigure s — 极致丰腴、肉感曲线、勒痕挤压
  • artist:berserker r — 极致肉感比例、脂肪挤压、幼态萌系
  • artist:swd3e2 — 极致盆骨大腿围、挤压肉感、韩系半厚涂

赛博幻想系

  • artist:lirseven — 赛博冷色调、RGB色散霓虹、锐利边界
  • artist:yuumei — 赛博幻想、强对比发光特效、靛青暖金碰撞
  • artist:swav — 硬核机能、冷冽冰蓝钛白、过曝洁净

幼态萌系

  • artist:shiratama (shiratamaco) — 极致幼态Loli、马卡龙色、婴儿肥小圆嘴
  • artist:40hara — 极致幼化建模、短肢软糯、边缘光散景
  • artist:sironora — 极幼态 Lolicon、剔透干净、巨大宝石眼

6.2 画师总结三阶段法

作者还提供了如何总结自己审美中的画师的方法:

阶段1:收集N个画师,以自己的审美标准

阶段2:对每个画师,选择喜欢的5-6张图,给Claude/Gemini分析:

1. 帮我详细分析、总结一下这位画师的画风,说明理由
2. 最后,用200字总结画风,不要求自然语言流畅,要求简要、分点答题、信息密度高

阶段3:压缩。将所有画师信息一起给Gemini压缩:

将下列画师信息进行压缩,不谈属性只谈值(例如"人物偏可爱"=>"可爱"),
并保留最核心、最具特色的信息,让人直觉上能快速意会。
输出txt格式,每名画师尽量压缩在100字以内。

7. 系统设计亮点与工程思想

7.1 双Buffer打满显卡

作者提出的"双buffer"技巧非常实用:当前一批图片正在生成时,可以同时把上一批的prompt复制给Claude让它生成下一批的候选。这样显卡永远有事情做,人和AI并行工作。

7.2 方差比偏差更重要

作者的核心工程哲学:当观察到用户明显的偏好时,依旧偶尔给出看上去次优的prompt。只有充分探索,才能不被局限于信息茧房。

  • 偏差高 = 不符合用户需求
  • 方差高 = tag不标准导致图像不稳定

通常应当保证方差优先。如果步子迈太大(一下子新增或修改很多tag),会引入较大方差和不稳定性。稳扎稳打,逐步提升才是硬道理。

7.3 RAG解决invalid tag问题

当自然语言prompt太多、标准tag少的时候,会出现invalid tags增多、图像不稳定的问题。ImageAutoPrompt支持RAG(检索增强生成)功能:

# 安装RAG功能:docs/install-rag.md
# 建库需要10-40分钟,有GPU会更快
# 会用embedding建立danbooru tag的语义索引

当出现invalid tag报错时,系统会推荐语义相关的标准tag作为替代。

8. 局限性与注意事项

  1. noobai模型限制:ImageAutoPrompt针对noobai系列模型设计,对其他模型(如Stable Diffusion标准版本)的兼容性未测试
  2. ComfyUI工作流:需要用户自行配置适合自己模型的工作流,不能开箱即用
  3. 画师库偏向:从70+画师的描述来看,库明显偏向二次元萌系/肉感系风格,对写实系画师覆盖较少
  4. RAG依赖GPU:虽然基础功能不需要GPU,但RAG建库需要GPU算力
  5. 作者明确声明:chenkin noob v0.5并非评价最好的noob,只是视频中演示使用的版本

9. 总结

这是一套相当完整的AI绘图prompt探索系统:

  • Flask Web界面提供了友好的交互入口
  • ClaudeCode Agent让探索过程自动化
  • 系统化的画师串探索方法论从经验中提炼为可执行的workflow
  • 70+画师的精细化描述库是多年审美积累的结晶
  • Episode/Timestep的版本管理让探索过程可追溯、可复现

核心价值在于:把"人工慢慢调参"的串行过程,变成了"AI批量探索+人工选择"的并行过程。显卡不再空转,审美决策和prompt生成同时进行,效率大幅提升。

对于想要深入研究AI绘图prompt工程、特别是想系统化探索自己审美偏好的人来说,这套系统和视频值得仔细学习。


🦞 视频精读 | 2026-05-08