.NET使用AngleSharp抓取网站信息,超简单

共 2087字,需浏览 5分钟

 ·

2024-04-11 11:50


前言


    最近小编接到一个抓取全国地区的任务,在Github找到了一个开源工具AngleSharp。AngleSharp 是一个强大的 .NET 库,它为我们提供了一种方便且灵活的方式来处理 HTML 和 XML 文档。在这篇文章中,我们将使用 AngleSharp 来抓取全国地区的信息。


准备工作


    首先,我们用Visual Studio 新建一个控制台程序,并安装 AngleSharp。可以通过 NuGet 包管理器控制台或 Visual Studio 的包管理器来安装 AngleSharp:


      
Install-Package AngleSharp


编写抓取代码


    接下来,我们将编写一个简单的 C# 程序,使用 AngleSharp 抓取地区网站信息。我们找到民政局全国区域的网站,循环分级提取地区的信息。示例代码如下:


      
using AngleSharp;


using AngleSharp.Html.Dom;








//民政局网站地区网址



var url = "http://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2022/index.html";


var context = BrowsingContext.New(Configuration.Default.WithDefaultLoader());








// 异步打开指定的URL,并获取返回的文档对象



var dom = context.OpenAsync(url).Result;








// 使用 CSS 选择器选择表格中的所有省级行的超链接元素



var itemList = dom.QuerySelectorAll("table.provincetable tr.provincetr td a");








// 遍历每个超链接元素



foreach (IHtmlAnchorElement item in itemList)


{


// 输出地区的文本内容


Console.WriteLine("地区:" + item.TextContent);







    // 输出下级链接的地址,便于继续循环下级。


Console.WriteLine("下级链接:" + item.Href);


}


打印出来的效果如下:


5f00cae577fc66ff641ed4f42312caa1.webp


上面代码AngleSharp成功抓取了所要的地区。它的优点是可以用CSS选择器来获取元素,减少了代码的使用量及整洁度。


结语


    AngleSharp抓取网页只是其中的一项,它提供了一个强大而灵活的工具集,使开发人员能够以 .NET 平台为基础构建各种 Web 相关应用。通过使用 AngleSharp,开发人员可以轻松地处理 Web 内容,从而更高效地开发和维护其应用程序。


git地址:github.com/AngleSharp/AngleSharp





    

关注公众号DotNet开发跳槽    


浏览 38
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报