node-crawler入门基础知识一款最好的node.js爬虫工具

node-crawler使用帮助

官方网址:http://nodecrawler.org

node-crawler入门基础知识一款最好的node.js爬虫工具

GitHub:https://github.com/bda-research/node-crawler

简介描述:一款最好的node.js爬虫工具

node-crawler这是一个比较好用的node.js爬虫框架,我们可以使用最亲切的jQuery语法来解析响应返回的页面。

node-crawler安装

npm install crawler

node-crawler使用

var Crawler = require("crawler");

var c = new Crawler({
    maxConnections : 10,
    // This will be called for each crawled page
    callback : function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            var $ = res.$;
            // $ is Cheerio by default
            //a lean implementation of core jQuery designed specifically for the server
            console.log($("title").text());
        }
        done();
    }
});

// Queue just one URL, with default callback
c.queue('http://www.amazon.com');

// Queue a list of URLs
c.queue(['http://www.google.com/','http://www.yahoo.com']);

// Queue URLs with custom callbacks & parameters
c.queue([{
    uri: 'http://parishackers.org/',
    jQuery: false,

    // The global callback won't be called
    callback: function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            console.log('Grabbed', res.body.length, 'bytes');
        }
        done();
    }
}]);

// Queue some HTML code directly without grabbing (mostly for tests)
c.queue([{
    html: '<p>This is a <strong>test</strong></p>'
}]);

海计划公众号
(0)
上一篇 2020/03/06 02:44
下一篇 2020/03/06 02:44

您可能感兴趣的内容

  • Web 应用的内存优化菜鸟知识_内存基础入门

    随着 Web 应用复杂程度越来越高,以及 NodeJS 大规模投入生产环境,许多 Web 应用都会长时间运行, JavaScript 的内存管理显得更为重要。JavaScript 具备自动回收垃圾的机制, 执行环境会负责管理代码在执行环境过程中使用的内存,将某些不再被使用的的变量所占用的内存释放掉,正因如此,大多数情况我们在前端开发的时候,并不是那么关注我们

    2020/03/29
  • 任正非:鸿蒙开源是对全世界小公司创新的支持基础知识_开源基础入门

    自 8 月 9 日在 华为开发者大会 上发布后,鸿蒙系统成为万众瞩目的焦点。华为消费者业务 CEO 余承东曾表示,华为不是要做另一个安卓,鸿蒙要做下一代操作系统,也就是 5G 条件下万物互联的新场景。那么,在复杂环境的影响下,鸿蒙系统的前路将会怎样?华为对于鸿蒙系统又有何计划和展望?昨日,华为心声社区 发布 了任正非近日接受英国天空新闻电视台采访纪要,以下为

    2020/03/26
  • You-Dont-Need-Momentjs入门百科_可用于替换moment.js + ESLint插件的date-fns 或原生函数列表

    You-Dont-Need-Momentjs入门百科 GitHub:https://github.com/you-dont-need/You-Dont-Need-Momentjs …

    2020/03/11
  • Node启动https服务器基础知识入门_node小白入门

    首先你需要生成https证书,可以去付费的网站购买或者找一些免费的网站,可能会是key或者crt或者pem结尾的。不同格式之间可以通过OpenSSL转换,如: openssl x509 -in mycert.crt -out mycert.pem -outform PEMNode原生版本const https = require(‘https’)
    const

    2020/04/05
  • 常用颜色表之中国传统颜色基础指南_颜色零基础入门

    不知道大家觉得如何,舒适的颜色,很多人都会喜欢,但主要还是看实用性。今天给大家分享中国传统颜色有那些?中国传统的颜色之美,美如其名:蔚蓝、竹青、绯红、月白、石青、紫檀、霜色、黛绿、胭脂、藕荷、豆绿、宝蓝、秋香、玄色、牙色、黄栌、靛蓝、明黄、朱砂、石绿。。。。。。颜色名称十六进制红绿蓝色相饱和度亮度蔚蓝#70f3ff112243255185°100.0%71.

    2020/03/26
  • 快速学会Dart语言菜鸟教程下载_语言入门基础知识

    Dart语言1.在Dart中,一切都是对象,一切对象都是class的实例,哪怕是数字类型、方法甚至null都是对象,所有的对象都是继承自Object2.虽然Dart是强类型语言,但变量类型是可选的因为Dart可以自动推断变量类型3.Dart支持范型,List 表示一个整型的数据列表,List 则是一个对象的列表,其中可以装任意对象4.Dart支持顶层方法(如

    2020/03/24
  • Koa中间件小白入门_Koa基础教程

    前言Koa 应用程序是一个包含一组中间件函数的对象,它是按照类似堆栈的方式组织和执行的。当一个中间件调用 next() 则该函数暂停并将控制传递给定义的下一个中间件。当在下游没有更多的中间件执行后,堆栈将展开并且每个中间件恢复执行其上游行为。以上两句话,是我在官方文档中找到其对 Koa 中间件的描述。在Koa中,中间件是一个很有意思的设计,它处于reques

    2020/03/24
  • AR / MR / VR / XR有什么区别?入门百科_VR小白攻略

    新兴技术往往有一个缩略词与之对应,虚拟现实(VR)、增强现实(AR)、混合现实(MR)和扩展现实(XR)也不例外。接下来的任务就是要理清这些缩略词背后的真正含义。需要特别注意的是,虽然这些技术来源不一,实现目标不一,但都用到了类似的技术。如,3D和AI都是必须的。那么这些词代表的概念和定义到底是什么呢?虚拟现实(Virtual Reality VR)虚拟现实

    2020/04/05
  • 前端工程之CDN部署基础入门前端为什么非要动静分离?说一下CDN托管的意义_CDN入门攻略

    大型Web应用对速度的追求并没有止步于仅仅利用浏览器缓存,因为浏览器缓存始终只是为了提升二次访问的速度,对于首次访问的加速,我们需要从网络层面进行优化,最常见的手段就是CDN(Content Delivery Network,内容分发网络)加速。通过将静态资源缓存到离用户很近的相同网络运营商的CDN节点上,不但能提升用户的访问速度,还能节省服务器的带宽消耗,

    2020/04/05
  • 总结vue实用技巧入门教程_技巧小白常识

    总结vue实用技巧入门教程 vue 作为目前前端三大框架之一,对于前端开发者可以说是必备技能。那么怎么系统地学习和掌握 vue 呢?为此,我做了简单的知识体系体系总结,不足之处请各…

    2020/03/19
  • jquery-steps新手入门_一个功能强大的jQuery向导插件

    jquery-steps新手入门 官方网址:http://www.jquery-steps.com GitHub:https://github.com/rstaib/jquery-…

    2020/03/06
  • 工程化小白基础前端静态资源缓存策略_缓存菜鸟教程网

    增量更新是目前大部分团队采用的缓存更新方案,能让用户在无感知的情况获取最新内容。具体实现方式通常是(一般我们通过构建工具来实现,比如webpack):构建产出文件hash(如:index.d94f83fac22c203b788c.css)更新html文件里静态资源的引用URL由于其他资源是由html文件直接或间接引用才可以被加载,如果html里的静态资源UR

    2020/03/31
  • 小白如何入门编程入门基础知识_编程使用攻略

    本人于2010年开始从事WEB领域相关开发岗位,先后从事过ASP#net、PHP、JAVA、前端、项目管理、技术总监等岗位。参与研发重构互联网产品60多项,领导负责项目12例。职业生涯算是中国互联网中生代开发者中比较常规的路线选择:初级工程师>中级工程师>高级工程师>全栈工程师>项目管理>技术团队管理,曾经也的在A/T等厂子工作过,也完成了基础的财富积累。总

    2020/03/20
  • javascript实现数组或对象的深拷贝基础指南_拷贝基础知识入门

    第一(简单粗暴):let arr = [1, {a: 2}];
    let copyArr = JSON.parse( JSON.stringify(arr) );
    console.log(copyArr ) // [1, {a: 2}]
    arr[1].a = 3;
    console.log(copyArr ) // [1, {a: 2}]
    copyArr[1

    2020/03/31
  • Yaml小白指南_模块化的CSS框架,

    Yaml小白指南 官方网址:http://www.yaml.de/ GitHub:https://github.com/yamlcss/yaml 简介描述:模块化的CSS框架, 模…

    2020/03/06
  • 使用wepack、typescript创建一个angularjs项目使用说明_angular使用帮助

    使用wepack、typescript创建一个angularjs项目使用说明 angularjs是一个非常老的框架,如果你准备用angular启动新项目,完全可以使用angular…

    2020/03/20