Crawler[爬虫]
HtmlAgilityPack
- 功能:HTML解析库,用于从HTML页面中提取数据。
- 优点:深入解析HTML,处理不规范HTML,DOM树遍历,XPath兼容。
- 官方文档:HtmlAgilityPack Documentation
AngleSharp
- 功能:HTML解析和DOM操作库,支持CSS选择器和LINQ查询。
- 优点:类似浏览器的DOM操作,CSS选择器支持,LINQ查询兼容。
- 官方文档:AngleSharp Documentation
ScrapySharp
- 功能:基于HtmlAgilityPack的网页内容抓取库,类似Python的Scrapy框架。
- 优点:强大的HTML解析,简化爬取规则定义,Scrapy框架的抽象层。
- 官方文档:ScrapySharp GitHub
PuppeteerSharp
- 功能:控制无头Chrome浏览器的库,用于模拟浏览器行为和抓取网页内容。
- 优点:支持JavaScript渲染,浏览器自动化,精确用户模拟。
- 官方文档:PuppeteerSharp GitHub
HttpClient
- 功能:C#中的基础HTTP请求工具,用于获取网页内容。
- 优点:易用轻量级,支持异步编程,提供HTTP请求/响应控制。
- 官方文档:HttpClient Documentation
CsQuery
- 功能:C#实现的jQuery风格库,用于解析HTML文档和执行DOM操作。
- 优点:类似jQuery的API,复杂选择器查询,功能全面。
- 官方文档:CsQuery GitHub