我正在使用开发一个Web爬行项目 蟒蛇 和 Scrapy 框架。它抓住了通道 10k网页 来自电子商务购物网站。整个项目工作正常但在将代码从测试服务器移动到生产服务器之前我想选择一个更好的代理ip提供商服务,这样我就不用担心我的 IP阻止 或拒绝访问我的蜘蛛网站。
到目前为止,我在Scrapy中使用中间件手动从各种网站提供的免费代理ip列表中旋转ip 喜欢这个
现在我对我应该选择的选项感到困惑
购买 高级代理列表 从 http://www.ninjasproxy.com/ 要么 http://hidemyass.com/
使用 TOR
使用 VPN服务 喜欢 http://www.hotspotshield.com/
任何选项都优于上述三项
以下是我目前使用的选项(取决于我的需求):
- proxymesh.com - 小型项目的合理价格。从来没有与服务有任何问题,因为它与scrapy开箱即用(我不隶属于他们)
- 一个自构建脚本,可在Amazon上启动多个EC2微实例。然后我将SSH连接到机器并创建一个SOCKS代理连接,然后通过管道连接这些连接 下放 创建可用于scrapy的普通http代理。 http代理可以使用像haproxy之类的东西进行负载均衡,也可以自己构建一个旋转代理的自定义中间件
后一种解决方案是目前最适合我的解决方案,每天可以提供大约20-30GB的流量而没有任何问题。
以下是我目前使用的选项(取决于我的需求):
- proxymesh.com - 小型项目的合理价格。从来没有与服务有任何问题,因为它与scrapy开箱即用(我不隶属于他们)
- 一个自构建脚本,可在Amazon上启动多个EC2微实例。然后我将SSH连接到机器并创建一个SOCKS代理连接,然后通过管道连接这些连接 下放 创建可用于scrapy的普通http代理。 http代理可以使用像haproxy之类的东西进行负载均衡,也可以自己构建一个旋转代理的自定义中间件
后一种解决方案是目前最适合我的解决方案,每天可以提供大约20-30GB的流量而没有任何问题。
Crawlera 专为Web爬网项目而构建。例如,它实现了智能算法以避免被禁止,并且它用于抓取非常大和高调的网站。
免责声明:我为母公司工作 Scrapinghub,他也是Scrapy的核心开发人员。