Skip to content

爬虫

HtmlAgilityPack

  • 功能:HTML解析库,用于从HTML页面中提取数据。
  • 优点:深入解析HTML,处理不规范HTML,DOM树遍历,XPath兼容。
  • 官方文档:HtmlAgilityPack Documentation

AngleSharp

  • 功能:HTML解析和DOM操作库,支持CSS选择器和LINQ查询。
  • 优点:类似浏览器的DOM操作,CSS选择器支持,LINQ查询兼容。
  • 官方文档:AngleSharp Documentation

ScrapySharp

  • 功能:基于HtmlAgilityPack的网页内容抓取库,类似Python的Scrapy框架。
  • 优点:强大的HTML解析,简化爬取规则定义,Scrapy框架的抽象层。
  • 官方文档:ScrapySharp GitHub

PuppeteerSharp

  • 功能:控制无头Chrome浏览器的库,用于模拟浏览器行为和抓取网页内容。
  • 优点:支持JavaScript渲染,浏览器自动化,精确用户模拟。
  • 官方文档:PuppeteerSharp GitHub

HttpClient

  • 功能:C#中的基础HTTP请求工具,用于获取网页内容。
  • 优点:易用轻量级,支持异步编程,提供HTTP请求/响应控制。
  • 官方文档:HttpClient Documentation

CsQuery

  • 功能:C#实现的jQuery风格库,用于解析HTML文档和执行DOM操作。
  • 优点:类似jQuery的API,复杂选择器查询,功能全面。
  • 官方文档:CsQuery GitHub