襄阳门户网

搜索
襄阳门户网 襄阳门户 企业宣传 查看内容

分析:各家代理ip的优缺点都是什么?2023/4/26 15:27:47

2023-4-26 15:17| 发布者: 天若有情| 查看: 112| 评论: 0

摘要:   目前市场上代理IP的提供商如雨后春笋般,一夜之间冒出了诸多。商家提供的产品和服务差不多,但是还是有各自的优缺点,品质嘛也是值得讨论的。对于越来越被应用的代理IP,咱们到底该怎么选?百度排名靠前的商家的 ...
网站出售

  目前市场上代理IP的提供商如雨后春笋般,一夜之间冒出了诸多。商家提供的产品和服务差不多,但是还是有各自的优缺点,品质嘛也是值得讨论的。对于越来越被应用的代理IP,咱们到底该怎么选?百度排名靠前的商家的可靠程度如何?我们来一一盘点一下。代理iphttps://www.kuaidaili.com的具体问题可以到我们网站了解一下,也有业内领域专业的客服为您解答问题,值得您的信赖!

  目前市场上代理ip主要有两种:

  一种是转发服务,只需要挂上一个固定的服务器地址作为代理,服务会自动切换不同的代理来作为出口为我们转发请求。这个还是比较适合程序采集的,可以免去维护本地代理池。缺点是拿不到真实的ip和port,复用率较低。

  另一种就是传统的直接给ip和port。通过请求一个接口直接返回,有些则会返回二次封装过的虚拟ip。我们上一个项目也是使用这种动态短效代理,几个比较主流的产品也都使用过。但是此类型结合现有政策稍微有点敏感,后面我们就放弃了。

  我们目前一个采集项目使用的是:微秒云:http://www.weimiaocloud.com,这个平台比较新,新平台的好处就是可能蓄客量较少,ip还没有被“万人骑”。接入也比较简单,配置白名单即可。缺点是代理限速,不适合流量较大的场景。

  不管使用哪种产品,一定要结合自己的项目做实际业务测试。因为各家都有一些不同的限制,有的限并发,有的限流,还有的限制访问域名等。总之多测试,谨慎购买。

  测试结果展示https://www.zhihu.com/video/1502295505685757953

  我是一名爬虫工程师,使用过国内大部分的免费/付费代理IP提供商,这里挑选用过的几个代理IP的提供商给大家参考下吧。

  1.蜻蜓代理 proxy.horocn.com

  这家我是通过 V2EX 这个网站上了解到的。

  买的是私密代理包天套餐,15元,每10秒可以提取10个IP,一天去重大概有8万左右的代理IP,可用率94.40%,平均延迟1.48秒 。

  从2018年的2月份使用到现在,接近一年,目前主要用这家,服务比较稳定,性价比高。

  2.大象代理 www.daxiangdaili.com

  这家应该是著名的免费代理IP提供商西刺代理有关系,西刺代理的首页有这家的推荐广告。 我买了专业版,包天19元,测试下来:代理可用率56.80%,平均延迟6.87秒。 总体来说,不满意。

  另外,大象代理返回的许多代理IP是国外的代理IP,如果你要抓取国内的一些数据,速度会有影响。

  3.站大爷 ip.zdaye.com

  站大爷的百度搜索排名很靠前,一开始就注意到了。

  我买的是短效优质代理API包天,25元。代理的可用率97.60%,平均延迟1.56秒,一天不重复代理数4万。 站大爷的质量很好,只可惜价格较贵。

  现在,我主要拿站大爷作为备用。

  4.快代理 www.kuaidaili.com

  快代理和站大爷一样,百度搜索的排名很靠前,SEO 优化得很好。

  我测试的是私密代理 - 包天,60元。代理可用率35.60% ,平均延迟16.63秒,一天可用ip数1000+。 只能说质量很一般,然后价格偏高。

  还有其他家的还没有测试,好了再更新上来,希望对大家有帮助。

  最后更新时间:2019/7/18

  1、匿名保平安!

  2、各种损同行吹自己的!

  讲道理,这个行业水深火热,各种营销,各种名词,各种私密代理、公开代理等等,其实都是质量残次不齐的表现,讲几个关键词

  住宅IP:高匿是付费代理的基本要求,不是高匿的就不在本次讨论范围,就好像我们讨论哪款汽车好,不应该考虑自行车一样,那什么是住宅IP?我们可以理解成IP真人率的问题,你获取的IP代理,通过检测网站:https://ip.rtbasia.com/,显示如下:

  我们再输入一个阿里云的服务器地址,注意对比我红框框选的内容有什么区别,结果如下:

  那么问题来了,如果你是目标网站,你发现访问你网站的IP都来自于数据中心,你会认为它是正常用户吗?当你认为它是爬虫程序时,你还会给它返回正常的数据吗?拒绝访问、返回空白这些都还是轻的,有些网站会返回给你“加工”过的数据,而你自己还不自知,这才是最恐怖的,当你利用了这些不正确的数据,后果你细品。

  这里要说明一点,检测是不是真实宽带或者数据中心的IP,一定要检测发送请求的IP,而不是服务器的ip,服务器的IP一定是显示数据中心的,因为有些二次转发的模式,返回给你的IP都是服务器IP,但是请求IP会另外分配。

  独享IP:是指当你获取IP后,这段时间内,这个IP就只提供给你使用而不会分配给其他人使用,这样保证了IP的稳定性,同时确保了带宽,不会受到其它用户干扰,如果是共享IP,那同时有很多人在使用这个IP发送请求,速度就得不到保证,如果同时有另外一个用户也在爬取跟你一样的网站,同一个IP发送多个请求,你细品会发生什么?那么如何区分独享还是共享呢?很简单,提取不收费,使用才收费的,就都是共享的,因为IP放在哪里,你不用别人在用,我没什么损失,独享IP一般都是提取就计费的,因为分配给你之后,这个IP就被你占用了,我无法卖给其它人,所以无论你用不用,我都会收费,现在你还觉得提取不扣费,使用才扣费的就是好产品吗?

  IP池大小:现在声称几十万、几百万、几千万IP的都有,但是重复调用的和真实IP要区分开,有些有1万IP,重复调用每天能有几十万,会声称自己几十万IP,有些有十万IP,重复调用每天可到百万级别,会吹嘘自己有几百万IP,我目前用到过的,真实IP每天能获取240万左右,重复调用在4000万左右,避免广告嫌疑,我就不说是哪家了,不过真有这么大需求的话,我想你也不会轻易下手购买,市面上主流的都测试一遍,你就知道我说的是哪家了。无论广告怎么吹嘘,一测就什么都出来了,所以重要的事情说三遍:多测试多对比!多测试多对比!多测试多对比!

  并发量:并发是什么意思大家都懂,测试一家供应商实力除了看IP池,其实看并发量也是很好的一个指标,小打小闹的,并发量肯定是不高的,我用过最高的并发可以达到万级的。同样是上面的那家。

  分布:真正离散分布的住宅IP,分布肯定是遍布全国所有的城市,或者全球几乎所有互联网覆盖的国家和地区,只是数量多与少的问题,这样与网民IP高度重合的,才是网站反爬程序最无解的。

  时效:其实爬虫对于IP时效要求很低,因为一个IP一般短时间内根据反爬,发送几次请求就需要更换了,所以对时效要求不高,短的几十秒1分钟就够,长的也就十几分钟半个小时。所以这点对爬虫不那么重要。

  所以,爬虫程序在选择IP代理的时候,一定要选择住宅IP,而且必须独享,一分钱一分货,一块钱五分货是没错的,所以那些几百块钱包月不限量提取的,你问问为什么那么便宜。那些所谓的开放代理、私密代理,如果你是个人小需求,可以试试看,大公司就别去浪费时间了,一来它没那么大量满足你,二来质量也满足不了你的要求。

  另外,所谓的不限量,实际上是限量的,因为它池子有限,所以会限制你提取频率,限制并发,比如每10秒才能提取50个IP,那你算算一天最多是多少IP?这叫不限量吗?

  我刚做了价格分析,可以移步我的链接看

  月亮邮差:韭菜觉醒!干货|各大代理商隧道代理IP价格对比,内附截图

  系统:CentOS Linux release 7.9.2009 (Core)语言:Python 2.7gevent==1.1.2requests==2.18.4pymysql==0.9.3prettytable==1.0.1toml==0.10.2数据库:MySQL

  九家代理供应商的隧道代理产品:

  快代理隧道动态版阿布云隧道动态版青果云隧道动态版小象代理隧道动态版品易代理隧道动态版极光代理隧道动态版无忧代理隧道动态版蜻蜓代理隧道动态版熊猫代理隧道动态版

  以下测试网站除了少部分验证 header 中某些参数以外,没有其他反爬,具体表现是同一个 IP 频繁请求会出现验证码、403、跳转登录、返回 JS 二次设置 Cookie 等情况,测试中已排除其他反爬,保证了测试结果只与 IP 的质量有关:

  小红书:社区精选,随机文章详情页:xiaohongshu.com/discove亚马逊:随机商品详情页:amazon.com/product-revi天眼查:随机公司详情页:tianyancha.com/company/58同城:招聘搜索结果页:bd.58.com/job/pn1/?安居客:二手房随机小区:beijing.anjuke.com/comm拼多多:网页端随机商品分类详细信息接口:yangkeduo.com/proxy/api百度贴吧:首页:tieba.baidu.com/

  数据量:

  统一 50 并发,测试时间 2 天每个代理商累计请求量均 > 50 万,部分 > 300 万

  主要指标解释:

  请求成功:指成功请求 URL 并拿到响应,不管是否返回的是反爬内容业务成功:指在请求成功的前提下,拿到正确的数据,连接失败、超时、被反爬均视为失败反爬识别:出现验证码、403、跳转登录等情况请求超时:timeout=10代理报错:基本上是 502、503、SSLError 报错

  由上表可知(排名分先后,从左到右):

  请求成功率:1. 小象 2. 快代理 3. 青果云业务成功率:1. 快代理 2. 青果云 3. 小象反爬识别率:1. 蜻蜓 2. 阿布云 3. 快代理请求超时占比:1. 阿布云 2. 快代理=小象 3. 蜻蜓代理报错占比:1. 青果云 2. 快代理 3. 小象平均响应(s):1. 快代理 2. 阿布云 3. 青果云

路过

雷人

握手

鲜花

鸡蛋

文热点