<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>爬虫 on Text Matrix</title><link>https://txtmix.com/tags/%E7%88%AC%E8%99%AB/</link><description>Recent content in 爬虫 on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/%E7%88%AC%E8%99%AB/index.xml" rel="self" type="application/rss+xml"/><item><title>CloakBrowser：源代码级打补丁的隐身Chromium浏览器</title><link>https://txtmix.com/posts/tech/cloakbrowser-stealth-chromium-bot-detection/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://txtmix.com/posts/tech/cloakbrowser-stealth-chromium-bot-detection/</guid><description>&lt;h1 id="cloakbrowser源代码级打补丁的隐身chromium浏览器">CloakBrowser：源代码级打补丁的隐身Chromium浏览器&lt;/h1>
&lt;!-- raw HTML omitted -->
&lt;p>&lt;strong>CloakBrowser&lt;/strong> 是一个从 Chromium 源代码层面进行指纹修改的隐身浏览器，49个源代码补丁覆盖 canvas、WebGL、audio、fonts、GPU、screen、WebRTC、network timing 等所有自动化信号。能通过 Cloudflare Turnstile、FingerprintJS、BrowserScan 等 30+ 检测平台的测试，在 headless 模式下依然保持人类浏览器级别的 reCAPTCHA v3 评分（0.9分）。&lt;/p></description></item><item><title>CloakBrowser：源码级改写的反机器人 Chromium 分发版</title><link>https://txtmix.com/posts/tech/cloakbrowser-stealth-chromium-browser/</link><pubDate>Thu, 14 May 2026 12:44:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/cloakbrowser-stealth-chromium-browser/</guid><description>&lt;h2 id="项目概览">项目概览&lt;/h2>
&lt;p>CloakBrowser 是 CloakHQ 团队推出的 stealth Chromium 分发版，GitHub 今日新增约 1,835 星。其核心价值在于解决了自动化浏览器被反爬虫系统检测的核心痛点：浏览器指纹。&lt;/p>
&lt;p>大多数反爬虫方案通过检测 &lt;code>navigator.webdriver&lt;/code>、&lt;code>Browserleaks 分数&lt;/code>、`Canvas/WebGL 哈希」或「Headless Chrome 特有行为」来识别自动化脚本。CloakBrowser 从 C++ 源码层面修改了这些检测点，使得目标网站看到的不是一个&amp;quot;被操控的浏览器&amp;quot;，而是一个&amp;quot;真实的普通用户 Chrome&amp;quot;。&lt;/p></description></item><item><title>Photon：极速 OSINT 爬虫——域名发现、敏感信息提取与情报收集从入门到精通</title><link>https://txtmix.com/posts/tech/photon-osint-crawler/</link><pubDate>Tue, 14 Apr 2026 22:35:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/photon-osint-crawler/</guid><description>&lt;h1 id="photon极速-osint-爬虫域名发现敏感信息提取与情报收集从入门到精通">Photon：极速 OSINT 爬虫——域名发现、敏感信息提取与情报收集从入门到精通&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：安全研究员、渗透测试工程师、Bug Bounty 猎人、对 OSINT 感兴趣的开发者
&lt;strong>预计阅读时间&lt;/strong>：40-50 分钟
&lt;strong>前置知识&lt;/strong>：Python 基础、HTTP 协议理解、了解过网络爬虫概念
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item><item><title>cloudscraper：攻克 Cloudflare 反爬的终极武器——Python 反爬从入门到精通</title><link>https://txtmix.com/posts/tech/cloudscraper-cloudflare-bypass/</link><pubDate>Tue, 14 Apr 2026 22:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/cloudscraper-cloudflare-bypass/</guid><description>&lt;h1 id="cloudscraper攻克-cloudflare-反爬的终极武器python-反爬从入门到精通">cloudscraper：攻克 Cloudflare 反爬的终极武器——Python 反爬从入门到精通&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：有 Python 爬虫基础，想深入了解 Cloudflare 反爬机制及破解之道的开发者
&lt;strong>预计阅读时间&lt;/strong>：45-60 分钟
&lt;strong>前置知识&lt;/strong>：Python 基础、HTTP 协议理解、了解过 requests 库
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item><item><title>Scrapling：现代网页爬虫框架·自适应·反反爬</title><link>https://txtmix.com/posts/tech/scrapling-adaptive-web-scraping-framework-guide/</link><pubDate>Sun, 12 Apr 2026 02:31:39 +0800</pubDate><guid>https://txtmix.com/posts/tech/scrapling-adaptive-web-scraping-framework-guide/</guid><description>&lt;h1 id="scrapling现代网页爬虫框架自适应反反爬并发爬取">Scrapling：现代网页爬虫框架——自适应、反反爬、并发爬取&lt;/h1>
&lt;h2 id="一项目概述">一、项目概述&lt;/h2>
&lt;h3 id="11-scrapling-是什么">1.1 Scrapling 是什么&lt;/h3>
&lt;p>&lt;strong>Scrapling&lt;/strong> 是 D4Vinci 开发的&lt;strong>自适应网页爬虫框架&lt;/strong>，能够处理从单次请求到大规模爬取的各类场景。其核心特点是：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>自适应解析&lt;/strong>：网站结构变化时自动定位元素&lt;/li>
&lt;li>&lt;strong>反反爬绕过&lt;/strong>：开箱即用绕过 Cloudflare Turnstile 等反爬机制&lt;/li>
&lt;li>&lt;strong>并发爬取&lt;/strong>：支持 Scrapy 风格的 Spider 框架&lt;/li>
&lt;li>&lt;strong>AI 集成&lt;/strong>：内置 MCP Server，支持 AI 辅助爬取&lt;/li>
&lt;/ul>
&lt;h3 id="12-核心数据">1.2 核心数据&lt;/h3>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>指标&lt;/th>
 &lt;th>数值&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>Stars&lt;/td>
 &lt;td>36.1k ⭐&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Forks&lt;/td>
 &lt;td>3.1k&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>最新版本&lt;/td>
 &lt;td>v0.4.5 (2026-04-07)&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>许可证&lt;/td>
 &lt;td>BSD-3-Clause&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>语言&lt;/td>
 &lt;td>Python 99.9%&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>贡献者&lt;/td>
 &lt;td>17&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h3 id="13-为什么选择-scrapling">1.3 为什么选择 Scrapling&lt;/h3>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>特点&lt;/th>
 &lt;th>说明&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>🤖 自适应解析&lt;/td>
 &lt;td>网站改版后自动重新定位元素&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>🛡️ 反反爬&lt;/td>
 &lt;td>绕过 Cloudflare Turnstile&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>⚡ 性能卓越&lt;/td>
 &lt;td>文本提取 2.02ms（比 MechanicalSoup 快 767 倍）&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>🕷️ Spider 框架&lt;/td>
 &lt;td>Scrapy 风格，支持并发、暂停/恢复&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>🔌 AI 集成&lt;/td>
 &lt;td>MCP Server，AI 辅助数据提取&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>🐳 Docker 支持&lt;/td>
 &lt;td>一键部署，含所有浏览器&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="二技术架构">二、技术架构&lt;/h2>
&lt;h3 id="21-整体架构">2.1 整体架构&lt;/h3>
&lt;div class="code-block code-line-numbers open" style="counter-reset: code-block 0">
 &lt;div class="code-header language-">
 &lt;span class="code-title">&lt;i class="arrow fas fa-angle-right" aria-hidden="true">&lt;/i>&lt;/span>
 &lt;span class="ellipses">&lt;i class="fas fa-ellipsis-h" aria-hidden="true">&lt;/i>&lt;/span>
 &lt;span class="copy" title="复制到剪贴板">&lt;i class="far fa-copy" aria-hidden="true">&lt;/i>&lt;/span>
 &lt;/div>&lt;pre tabindex="0">&lt;code>┌─────────────────────────────────────────────────────────────┐
│ Scrapling │
├─────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Spiders │ │ Fetchers │ │ Parser │ │
│ │ (爬取框架) │ │ (请求引擎) │ │ (解析引擎) │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ └────────────────┼────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────────────────┐ │
│ │ Core Engine │ │
│ │ • Session Management │ │
│ │ • Proxy Rotation │ │
│ │ • Adaptive Element Tracking │ │
│ │ • Checkpoint/Pause &amp;amp; Resume │ │
│ └─────────────────────────────────────────────────┘ │
│ ▼ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Fetcher │ │StealthyFetcher│ │DynamicFetcher│ │
│ │ (HTTP) │ │ (反反爬) │ │ (浏览器) │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
└─────────────────────────────────────────────────────────────┘&lt;/code>&lt;/pre>&lt;/div>
&lt;h3 id="22-核心组件">2.2 核心组件&lt;/h3>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>组件&lt;/th>
 &lt;th>功能&lt;/th>
 &lt;th>适用场景&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>&lt;strong>Fetcher&lt;/strong>&lt;/td>
 &lt;td>HTTP 请求，TLS 指纹伪装&lt;/td>
 &lt;td>静态页面&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>StealthyFetcher&lt;/strong>&lt;/td>
 &lt;td>高级反反爬，Cloudflare 绕过&lt;/td>
 &lt;td>反爬网站&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>DynamicFetcher&lt;/strong>&lt;/td>
 &lt;td>浏览器自动化，JS 渲染&lt;/td>
 &lt;td>SPA/动态加载&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>Spider&lt;/strong>&lt;/td>
 &lt;td>并发爬取框架&lt;/td>
 &lt;td>大规模爬取&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>Selector&lt;/strong>&lt;/td>
 &lt;td>CSS/XPath/文本解析&lt;/td>
 &lt;td>数据提取&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>MCP Server&lt;/strong>&lt;/td>
 &lt;td>AI 辅助爬取&lt;/td>
 &lt;td>智能数据提取&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;hr>
&lt;h2 id="三fetcher-详解">三、Fetcher 详解&lt;/h2>
&lt;h3 id="31-三种-fetcher-对比">3.1 三种 Fetcher 对比&lt;/h3>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>Fetcher&lt;/th>
 &lt;th>速度&lt;/th>
 &lt;th>反反爬&lt;/th>
 &lt;th>JS 支持&lt;/th>
 &lt;th>适用场景&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>&lt;strong>Fetcher&lt;/strong>&lt;/td>
 &lt;td>⚡⚡⚡&lt;/td>
 &lt;td>❌&lt;/td>
 &lt;td>❌&lt;/td>
 &lt;td>静态页面，高速请求&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>StealthyFetcher&lt;/strong>&lt;/td>
 &lt;td>⚡⚡&lt;/td>
 &lt;td>✅ Cloudflare&lt;/td>
 &lt;td>❌&lt;/td>
 &lt;td>反爬网站，无需 JS&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>DynamicFetcher&lt;/strong>&lt;/td>
 &lt;td>⚡&lt;/td>
 &lt;td>✅&lt;/td>
 &lt;td>✅&lt;/td>
 &lt;td>SPA，动态内容&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h3 id="32-http-请求fetcher">3.2 HTTP 请求（Fetcher）&lt;/h3>
&lt;div class="code-block code-line-numbers open" style="counter-reset: code-block 0">
 &lt;div class="code-header language-python">
 &lt;span class="code-title">&lt;i class="arrow fas fa-angle-right" aria-hidden="true">&lt;/i>&lt;/span>
 &lt;span class="ellipses">&lt;i class="fas fa-ellipsis-h" aria-hidden="true">&lt;/i>&lt;/span>
 &lt;span class="copy" title="复制到剪贴板">&lt;i class="far fa-copy" aria-hidden="true">&lt;/i>&lt;/span>
 &lt;/div>&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-python" data-lang="python">&lt;span class="line">&lt;span class="cl">&lt;span class="kn">from&lt;/span> &lt;span class="nn">scrapling.fetchers&lt;/span> &lt;span class="kn">import&lt;/span> &lt;span class="n">Fetcher&lt;/span>&lt;span class="p">,&lt;/span> &lt;span class="n">FetcherSession&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># 单次请求&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">page&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">Fetcher&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">get&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s1">&amp;#39;https://quotes.toscrape.com/&amp;#39;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="n">quotes&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">page&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">css&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s1">&amp;#39;.quote .text::text&amp;#39;&lt;/span>&lt;span class="p">)&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">getall&lt;/span>&lt;span class="p">()&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="c1"># 会话请求（保持 Cookie）&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl">&lt;span class="k">with&lt;/span> &lt;span class="n">FetcherSession&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="n">impersonate&lt;/span>&lt;span class="o">=&lt;/span>&lt;span class="s1">&amp;#39;chrome&amp;#39;&lt;/span>&lt;span class="p">)&lt;/span> &lt;span class="k">as&lt;/span> &lt;span class="n">session&lt;/span>&lt;span class="p">:&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">page&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">session&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">get&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s1">&amp;#39;https://example.com/&amp;#39;&lt;/span>&lt;span class="p">)&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="cl"> &lt;span class="n">data&lt;/span> &lt;span class="o">=&lt;/span> &lt;span class="n">page&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">css&lt;/span>&lt;span class="p">(&lt;/span>&lt;span class="s1">&amp;#39;.item::text&amp;#39;&lt;/span>&lt;span class="p">)&lt;/span>&lt;span class="o">.&lt;/span>&lt;span class="n">getall&lt;/span>&lt;span class="p">()&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;/div>
&lt;p>&lt;strong>特性：&lt;/strong>&lt;/p></description></item><item><title>TikTokDownloader：14K Stars·抖音/TikTok数据采集与下载工具</title><link>https://txtmix.com/posts/tech/tiktok-downloader-douk-guide/</link><pubDate>Sun, 12 Apr 2026 02:31:39 +0800</pubDate><guid>https://txtmix.com/posts/tech/tiktok-downloader-douk-guide/</guid><description>&lt;h1 id="tiktokdownloader14k-stars抖音tiktok数据采集与下载工具批量下载webapi终端交互">TikTokDownloader：14K Stars·抖音/TikTok数据采集与下载工具·批量下载·WebAPI·终端交互&lt;/h1>
&lt;h2 id="一项目概述">一，项目概述&lt;/h2>
&lt;h3 id="11-tiktokdownloader-是什么">1.1 TikTokDownloader 是什么&lt;/h3>
&lt;p>&lt;strong>TikTokDownloader&lt;/strong>（也称为 &lt;strong>DouK-Downloader&lt;/strong>）是 &lt;strong>JoeanAmier&lt;/strong> 开发的 &lt;strong>抖音/TikTok 数据采集和下载工具&lt;/strong>，支持批量下载账号发布、喜欢、收藏、合集作品，以及直播视频及评论数据采集。&lt;/p></description></item><item><title>WeChat Article to Markdown：微信公众号文章转Markdown工具</title><link>https://txtmix.com/posts/tech/wechat-article-to-markdown-conversion-guide/</link><pubDate>Wed, 08 Apr 2026 13:05:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/wechat-article-to-markdown-conversion-guide/</guid><description>&lt;h1 id="wechat-article-to-markdown微信公众号文章转markdown工具">WeChat Article to Markdown：微信公众号文章转Markdown工具&lt;/h1>
&lt;h2 id="1-学习目标">1. 学习目标&lt;/h2>
&lt;p>通过本文你将掌握：&lt;/p>
&lt;ul>
&lt;li>理解 WeChat Article to Markdown 的设计理念和核心价值&lt;/li>
&lt;li>熟练安装和配置工具&lt;/li>
&lt;li>掌握各种使用方式（CLI、Python API、AI Agent Skill）&lt;/li>
&lt;li>理解反检测抓取原理&lt;/li>
&lt;li>定制和扩展工具功能&lt;/li>
&lt;li>最佳实践和常见问题解决&lt;/li>
&lt;/ul>
&lt;h2 id="2-项目概述">2. 项目概述&lt;/h2>
&lt;h3 id="21-什么是-wechat-article-to-markdown">2.1 什么是 WeChat Article to Markdown&lt;/h3>
&lt;p>WeChat Article to Markdown 是一个开源工具：&lt;/p></description></item></channel></rss>