HarserPython 的 HTML 解析器
Harser 是一个简单的 Python HTML 解析器。
安装:pip install harser
示例代码:
>>> from harser import Harser >>> HTML = ''' <html><body> <div class="header" id="id-header"> <li class="nav-item" data-nav="first-item" href="/nav1">First item</li> <li class="nav-item" data-nav="second-item" href="/nav2">Second item</li> <li class="nav-item" data-nav="third-item" href="/nav3">Third item</li> </div> <div>First layer <h3>Lorem Ipsum</h3> <span>Dolor sit amet</span> </div> <div>Second layer</div> <div>Third layer <span class="text">first block</span> <span class="text">second block</span> <span>third block</span> </div> <span>fourth layer</span> <img /> <div class="footer" id="id-foobar" foobar="ab bc cde"> <h3 some-attr="hey"> <span id="foobar-span">foo ter</span> </h3> </div> </body></html> ''' >>> harser = Harser(HTML) >>> harser.find('div', class_='header').children(class_='nav-item').find('text').extract() # Or just # harser.find(class_='nav-item').find('text').extract() ['First item', 'Second item', 'Third item'] >>> harser.find(class_='nav-item').get_attr('href').extract() ['/nav1', '/nav2', '/nav3'] # It is equally >>> harser.find('div', class_='header', id='id-header') >>> harser.find('div', attrs={'class': 'header', 'id': 'id-header'}) >>> harser.find(id__contains='bar').get_attr('class').extract() ['footer'] >>> harser.find(href__not_contains='2').find('text').extract() ['First item', 'Third item'] >>> harser.find(attrs={'data-nav__contains': 'second'}).next_siblings().find('text').extract() ['Third item'] >>> harser.find('li').parent().next_siblings(filters={'text__contains': 'Second'}).clean_extract() ['<div>Second layer</div>'] >>> harser.find('h3', filters={'span.@id__starts_with': 'foo'}).get_attr('some-attr').extract() ['hey'] >>> harser.find('div').children('h3').xpath '//descendant::div/h3'
评论
chtml-matcherLisp的HTML解析器
chtml-matcher 是一个 Lisp 的库用来从 HTML 文档中抽取信息,它使用 clos
chtml-matcherLisp的HTML解析器
0
JerryJava的HTML解析器
Jerry是Jodd工具包中的一个HTML解析工具。它有点像是用Java实现的jQuery。Jerry是一个高效简洁的Java库,用来简化HTML的解析,遍历和操作。Jerry的API在设计的时候完全
JerryJava的HTML解析器
0
jsdomJavaScript 的 HTML 解析器
jsdom是WHATWGDOM和HTML标准的JavaScript实现,主要用于io.js框架。示例代码:// Count all of the links from the io.js build
jsdomJavaScript 的 HTML 解析器
0
BeautifulSoupPython的HTML解析器
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数
BeautifulSoupPython的HTML解析器
0
chtml-matcherLisp的HTML解析器
chtml-matcher是一个Lisp的库用来从HTML文档中抽取信息,它使用closure-html库将HTML解析成lhtml(HTML的列表形式)。
chtml-matcherLisp的HTML解析器
0
jsdomJavaScript 的 HTML 解析器
jsdom 是 WHATWG DOM 和 HTML 标准的 JavaScript 实现,主要用于 i
jsdomJavaScript 的 HTML 解析器
0