tnblog
首页
视频
资源
登录

HtmlAgilityPack 网页数据处理

8900人阅读 2019/1/19 1:38 总访问:3661857 评论:1 收藏:0 手机
分类: .net后台框架

HtmlAgilityPack  网络数据处理


新年新气象!祝大家新的一年里蓬勃发展,飞黄腾达,幸福健康!

今天讲的是一款处理网络数据的框架HtmlAgilityPack ,

相信许多同行都因为处理网页数据写正则表达式而搞得焦头烂额如果你使用这款框架会让你如鱼得水,释放你沉淀已久的复杂心情!


简介:


这是一个敏捷的HTML解析器,它构建了一个读/写DOM,并支持普通的xpath或xslt(您实际上不需要理解xpath或xslt就可以使用它,不用担心…)。

它是一个.NET代码库,允许您解析“离开Web”的HTML文件。

解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.xml的建议非常相似,但对于HTML文档(或流)。

原理:把抓取下来的网页转为Dom文档模型(xml),然后进行元素查找


动手小案例:


(1)首先创建一个 控制台 项目 learningHtmlAgilityPack

(2)选中引用右键-->点击 管理NuGet程序包-->点击浏览-->搜索HtmlAgilityPack

由此我们看到我们这里的最新稳定版为 v1.8.13 然后点击 安装 就可以了

(3)安装完成之后,我们将以百度为案例,从中获取一下 百度搜索 按钮的值


    1,打开开发者工具获取百度搜索按钮的XPath路径 ,确认无误后进行下一步操作 (注意:Chome浏览器可以识别类,id等元素属性;火狐将会从/head开始找起走)

   

 2,通过简洁的代码达成目的

  1. using System.Net;
  2. namespace learningHtmlAgilityPack
  3. {
  4.     class Program
  5.     {
  6.         static void Main(string[] args)
  7.         {
  8.             //实例化常规请求方式
  9.             WebClient wc = new WebClient();
  10.             //获取网页数据
  11.             var vb = wc.DownloadData("https://www.baidu.com/");
  12.             //转码
  13.             var str = System.Text.Encoding.UTF8.GetString(vb);
  14.             //实例化 HtmlAgilityPack 对象模型 
  15.             HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
  16.             //加载文档对象模型
  17.             doc.LoadHtml(str);
  18.             //获取到百度按钮节点  把我们刚刚复制的XPath粘贴上去
  19.             HtmlAgilityPack.HtmlNode htmlnode = doc.DocumentNode.SelectSingleNode("//*[@id='su']");
  20.             //获取值 1,元素名称 2,当没有该元素时返回的内容
  21.             string value = htmlnode.GetAttributeValue("value""");
  22.             System.Console.WriteLine(value);
  23.             System.Console.ReadKey();
  24.             
  25.         }
  26.     }
  27. }


运行结果:

疑难杂症:


(1),实现获取多个标签的集合(通过遍历获取到其中的每一个元素)

  1. HtmlAgilityPack.HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//*[@id='addToCart']//div");
  2.                         foreach (var item in collection)
  3.                         {
  4.                             if (!string.IsNullOrEmpty(item.GetAttributeValue("name""")))
  5.                             {
  6.                                //想怎么干就怎么搞xxxxx
  7.                             }
  8.                         }

(2),如果在item下面还有更多的便签或一个标签时照样这样写,只不过在获取第二层的时候XPath不需要//

  1. HtmlAgilityPack.HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//*[@id='addToCart']//div");
  2. foreach (var item in collection)
  3.                         {
  4.                             if (!string.IsNullOrEmpty(item.GetAttributeValue("name""")))
  5.                             {
  6.                                  //HtmlAgilityPack.HtmlNode htmlnode = item.SelectSingleNode("//*[@id='su']");
  7.                                  HtmlAgilityPack.HtmlNodeCollection childs = item.SelectSingleNode("ul/li");
  8.                                  foreach(var singeitem in childs)
  9.                                  {
  10.                                      //xxxx
  11.                                  }
  12.                             }
  13.                         }



欢迎加群讨论技术,1群:677373950(满了,可以加,但通过不了),2群:656732739

评价

剑轩

2019/1/19 8:45:11

高端

这一世以无限游戏为使命!
排名
2
文章
657
粉丝
44
评论
93
docker中Sware集群与service
尘叶心繁 : 想学呀!我教你呀
一个bug让程序员走上法庭 索赔金额达400亿日元
叼着奶瓶逛酒吧 : 所以说做程序员也要懂点法律知识
.net core 塑形资源
剑轩 : 收藏收藏
映射AutoMapper
剑轩 : 好是好,这个对效率影响大不大哇,效率高不高
ASP.NET Core 服务注册生命周期
剑轩 : http://www.tnblog.net/aojiancc2/article/details/167
ICP备案 :渝ICP备18016597号-1
网站信息:2018-2025TNBLOG.NET
技术交流:群号656732739
联系我们:contact@tnblog.net
公网安备:50010702506256
欢迎加群交流技术