问题 代理检查python


我在python中编写了一个使用cookie和POST / GET的脚本。我还在脚本中包含了代理支持。但是,当一个人进入死代理代理时,脚本崩溃。在运行我的其余脚本之前,有没有办法检查代理是否死/活?

此外,我注意到一些代理不能正确处理cookie / POST头。有没有什么办法解决这一问题?


5684
2018-04-19 12:01


起源

你不能抓住异常吗? - marcog
我认为捕获异常并不是最好的方法,请查看我在dbr中留下的评论。你能告诉我你的意见吗?因为我打算自己写一个代理检查器(我刚刚开始使用python,这将是我的第二个python脚本)。 - jahmax


答案:


最简单的方法是从urllib中捕获IOError异常:

try:
    urllib.urlopen(
        "http://example.com",
        proxies={'http':'http://example.com:8080'}
    )
except IOError:
    print "Connection error! (Check proxy)"
else:
    print "All was fine"

另外,来自 这篇博客文章 - “检查状态代理地址” (略有改进):

import urllib2
import socket

def is_bad_proxy(pip):    
    try:
        proxy_handler = urllib2.ProxyHandler({'http': pip})
        opener = urllib2.build_opener(proxy_handler)
        opener.addheaders = [('User-agent', 'Mozilla/5.0')]
        urllib2.install_opener(opener)
        req=urllib2.Request('http://www.example.com')  # change the URL to test here
        sock=urllib2.urlopen(req)
    except urllib2.HTTPError, e:
        print 'Error code: ', e.code
        return e.code
    except Exception, detail:
        print "ERROR:", detail
        return True
    return False

def main():
    socket.setdefaulttimeout(120)

    # two sample proxy IPs
    proxyList = ['125.76.226.9:80', '213.55.87.162:6588']

    for currentProxy in proxyList:
        if is_bad_proxy(currentProxy):
            print "Bad Proxy %s" % (currentProxy)
        else:
            print "%s is working" % (currentProxy)

if __name__ == '__main__':
    main()

请记住,这可能会使脚本占用的时间加倍,如果代理已关闭(因为您将不得不等待两个连接超时)。除非您特别需要知道代理有问题,否则处理IOError会更简洁,更简单更快..


14
2018-04-19 13:41



但是一些代理可以连接到url,但是它们不会从该url打开实际的html,它们会显示自定义错误,因此你无法在那里捕获异常,在req.read中检查字符串会不会更好()? - jahmax
有什么区别 socket.setdefaulttimeout() 和 urllib 参数 timeout? - User
@macdonjo非常确定urllib timeout参数在Python 3中是新的。它可能比它更好 socket.setdefaulttimeout 适用于全球 - dbr


我认为更好的方法就像dbr所说,处理异常。

在某些情况下可能更好的另一种解决方案是使用外部 在线代理检查器 检查代理服务器是否处于活动状态的工具,然后继续使用您的脚本而不进行任何修改。


1
2017-08-20 23:10





有一个很好的包 所以,如果你没问题,你可以写这样的东西(简单有效的代理检查器生成器):

from grab import Grab, GrabError

def get_valid_proxy(proxy_list): #format of items e.g. '128.2.198.188:3124'
    g = Grab()
    for proxy in proxy_list:
        g.setup(proxy=proxy, proxy_type='http', connect_timeout=5, timeout=5)
        try:
            g.go('google.com')
        except GrabError:
            #logging.info("Test error")
            pass
        else:
            yield proxy

0
2018-06-05 21:55



文档几乎不是英文 - User