Skip to content

Crawler[爬虫]

  1. HtmlAgilityPack

    • 功能:HTML解析库,用于从HTML页面中提取数据。
    • 优点:深入解析HTML,处理不规范HTML,DOM树遍历,XPath兼容。
    • 官方文档:HtmlAgilityPack Documentation
  2. AngleSharp

    • 功能:HTML解析和DOM操作库,支持CSS选择器和LINQ查询。
    • 优点:类似浏览器的DOM操作,CSS选择器支持,LINQ查询兼容。
    • 官方文档:AngleSharp Documentation
  3. ScrapySharp

    • 功能:基于HtmlAgilityPack的网页内容抓取库,类似Python的Scrapy框架。
    • 优点:强大的HTML解析,简化爬取规则定义,Scrapy框架的抽象层。
    • 官方文档:ScrapySharp GitHub
  4. PuppeteerSharp

    • 功能:控制无头Chrome浏览器的库,用于模拟浏览器行为和抓取网页内容。
    • 优点:支持JavaScript渲染,浏览器自动化,精确用户模拟。
    • 官方文档:PuppeteerSharp GitHub
  5. HttpClient

    • 功能:C#中的基础HTTP请求工具,用于获取网页内容。
    • 优点:易用轻量级,支持异步编程,提供HTTP请求/响应控制。
    • 官方文档:HttpClient Documentation
  6. CsQuery

    • 功能:C#实现的jQuery风格库,用于解析HTML文档和执行DOM操作。
    • 优点:类似jQuery的API,复杂选择器查询,功能全面。
    • 官方文档:CsQuery GitHub