Node OsmosisNode.js Web 爬虫
Osmosis 是 Node.js 用来解析 HTML/XML 和 Web 内容爬取的扩展。
示例代码:
var osmosis = require('osmosis'); osmosis .get('www.craigslist.org/about/sites') .find('h1 + div a') .set('location') .follow('@href') .find('header + div + div li > a') .set('category') .follow('@href') .find('p > a', '.totallink + a.button.next:first') .follow('@href') .set({ 'title': 'section > h2', 'description': '#postingbody', 'subcategory': 'div.breadbox > span[4]', 'date': 'time@datetime', 'latitude': '#map@data-latitude', 'longitude': '#map@data-longitude', 'images[]': 'img@src' }) .data(function(listing) { // do something with listing data })
评论