主题
crawler
爬虫
AngleSharp
AngleSharp 是一个 C# 库,主要用于解析和操作 HTML 和 XML 文档,类似于浏览器的 DOM 操作。允许你在 C# 中使用类似浏览器的方式处理网页数据,进行网页抓取、数据提取和处理等任务。
https://mp.weixin.qq.com/s/NyZt_IirgA15fgztEPROWQ
HtmlAgilityPack
- 功能:HTML解析库,用于从HTML页面中提取数据。
- 优点:深入解析HTML,处理不规范HTML,DOM树遍历,XPath兼容。
- 官方文档:HtmlAgilityPack Documentation
AngleSharp
- 功能:HTML解析和DOM操作库,支持CSS选择器和LINQ查询。
- 优点:类似浏览器的DOM操作,CSS选择器支持,LINQ查询兼容。
- 官方文档:AngleSharp Documentation
ScrapySharp
- 功能:基于HtmlAgilityPack的网页内容抓取库,类似Python的Scrapy框架。
- 优点:强大的HTML解析,简化爬取规则定义,Scrapy框架的抽象层。
- 官方文档:ScrapySharp GitHub
PuppeteerSharp
- 功能:控制无头Chrome浏览器的库,用于模拟浏览器行为和抓取网页内容。
- 优点:支持JavaScript渲染,浏览器自动化,精确用户模拟。
- 官方文档:PuppeteerSharp GitHub
HttpClient
- 功能:C#中的基础HTTP请求工具,用于获取网页内容。
- 优点:易用轻量级,支持异步编程,提供HTTP请求/响应控制。
- 官方文档:HttpClient Documentation
CsQuery
- 功能:C#实现的jQuery风格库,用于解析HTML文档和执行DOM操作。
- 优点:类似jQuery的API,复杂选择器查询,功能全面。
- 官方文档:CsQuery GitHub