爬取链家网数据卡壳的问题



  • hi~我在爬取房子信息的时候发现每次运行v9的时候都卡壳没办法爬到所有数据。这个问题原因是什么?要怎么解决呢?0_1477886342986_屏幕快照 2016-10-31 上午11.48.24.png



  • 之前好像也有人出现这个问题。 http://community.bittiger.io/topic/447/爬虫v9-js-程序在运行过程中卡顿-必须手动ctrl-c退出怎么破

    我怀疑是内存问题, 但是也无法帮忙debug。可以在卡的时候看看process和本地的内存/CPU使用情况。另外多加logging来判断到底在哪里卡住。



  • 你好:
    我这里写下我对于程序的理解以及我如何在原始代码上爬到更多数据的。
    请在程序v9.pool.js中Pool.prototype中的函数query()中request.get中输入函数中最后加入一行 - this.onProcessed();
    我认为原始程序无法大量爬取数据的原因是上面提到的这段程序中变量queryingIndex只增加不会减少,而函数query()入口处是立即通过queryingIndex是否小于给定上限来决定是否继续运行process,也就是执行parser中的主要内容。而onProcessed()函数在适当的延迟后会减少queryingIndex,从而使得parser能够继续。
    这个是我的一点看法,欢迎讨论!😊


 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待