Skip to content

crawler

爬虫

AngleSharp

AngleSharp 是一个 C# 库,主要用于解析和操作 HTML 和 XML 文档,类似于浏览器的 DOM 操作。允许你在 C# 中使用类似浏览器的方式处理网页数据,进行网页抓取、数据提取和处理等任务。

https://mp.weixin.qq.com/s/NyZt_IirgA15fgztEPROWQ

HtmlAgilityPack

  • 功能:HTML解析库,用于从HTML页面中提取数据。
  • 优点:深入解析HTML,处理不规范HTML,DOM树遍历,XPath兼容。
  • 官方文档:HtmlAgilityPack Documentation

AngleSharp

  • 功能:HTML解析和DOM操作库,支持CSS选择器和LINQ查询。
  • 优点:类似浏览器的DOM操作,CSS选择器支持,LINQ查询兼容。
  • 官方文档:AngleSharp Documentation

ScrapySharp

  • 功能:基于HtmlAgilityPack的网页内容抓取库,类似Python的Scrapy框架。
  • 优点:强大的HTML解析,简化爬取规则定义,Scrapy框架的抽象层。
  • 官方文档:ScrapySharp GitHub

PuppeteerSharp

  • 功能:控制无头Chrome浏览器的库,用于模拟浏览器行为和抓取网页内容。
  • 优点:支持JavaScript渲染,浏览器自动化,精确用户模拟。
  • 官方文档:PuppeteerSharp GitHub

HttpClient

  • 功能:C#中的基础HTTP请求工具,用于获取网页内容。
  • 优点:易用轻量级,支持异步编程,提供HTTP请求/响应控制。
  • 官方文档:HttpClient Documentation

CsQuery

  • 功能:C#实现的jQuery风格库,用于解析HTML文档和执行DOM操作。
  • 优点:类似jQuery的API,复杂选择器查询,功能全面。
  • 官方文档:CsQuery GitHub
最近更新