精华内容
下载资源
问答
  • 爬虫究竟是合法还是违法的?

    千次阅读 2019-10-27 18:21:52
    之前朋友圈和各大公号传播了一篇文章,讲述程序员因写爬虫而被刑侦的事件。很多爬虫工程师看了之后感觉人心惶惶的,当时大家讨论最热是:爬虫究竟是合法还是违法的?这篇文章我个人觉...
    之前朋友圈和各大公号传播了一篇文章 ,讲述程序员因写爬虫而被刑侦的事件。很多爬虫工程师看了之后感觉人心惶惶的,当时大家 讨论最热是: 爬虫究竟是合法还是违法的?

    这篇文章我个人觉得总结得不错,大家可以看看。另外我们 NightTeam 的 Loco 写了一篇

    640?wx_fmt=jpeg

    阅读本文大概需要 5 分钟。

    据说互联网上 50%以上的流量都是爬虫创造的,也许你看到很多热门数据都是爬虫所创造的,所以可以说无爬虫就无互联网的繁荣。

    这个话题涉及到我们很多程序员的日常工作,所以有必要和大家细聊一下。
    01.技术无罪?
    很多朋友给我留言: 技术是无罪的 ,技术本身确实是没有对错的,但使用技术的人是有对错的,公司或者程序员如果明知使用其技术是非法的,那么公司或者人就需要为之付出代价。
    在今年国家颁布《中华人民共和国网络安全法》之后,很多以前处于灰色地带的业务都不能做了。
    君不见之前曾经非常火的各种社工库网站,现在绝大部分都已经消失匿迹了吗?因为最新的安全法强调: 贩卖个人信息超过50条属于“情节严重”,需要追求其法律责任。
    很多草根站长都纷纷主动关闭了网站;还有很多涉及版权信息的网站,比如书籍、影视剧、课程等后期也会面临越来越严格的审查,这就是目前大的形势。
    2014年12月20日,人人影视字幕站发布微博称,人人影视正式关闭,并表示或将继续为正版商提供翻译服务,也可能转变为讨论社区的形式。
    2019年6月,吾爱破解因版权问题关站整改...
    .....
    随着中国经济的不断往前走,知识产权问题会越来越重视,非法爬虫是现在一个重要的打击部分,
    如果有程序员走在灰色的边缘尽早收手,不要因为一点小的收益导致触犯法律,从而得不偿失。
    技术是无罪的,但是用到了错的地方代价也是非常巨大的。
    02.爬虫岗位人人自危
    我在拉钩上搜索:爬虫工程师,显示有 217 条相关招聘信息,薪资从10-60k 都有,说明市场上对爬虫的需求是很大的。
    640?wx_fmt=png
    前天文章发出去之后有很多程序员给我留言:
    • 我们领导安排我爬取公司内部的信息,这算不算犯罪呢?
    • 爬取网上公开的信息,这算不算犯罪呢?
    • 写了一段代码上传到 Github,被人用了犯法吗?
    简单回答一下这些问题:
    1. 爬取公司内部信息有公司授权当然不算犯罪的,但是公司内部不用接口而用爬虫不知道是为什么?

    2. 爬取网上公开信息不犯法,但如果大量开启爬虫导致对方服务器崩溃也是违法的,这属于暴力攻击的范畴了。

    3. 写了一段代码上传到 Github 上面,有人利用你的代码做了其它非法的事情,绝大多数都没有问题的,但如果你写的软件涉及到入侵、暴力破解、病毒等就不好说了。

    还有朋友认为这事责任在企业不在程序员,日常工作中项目初期设计和最后上线需要通过公司的法务批准,所有代码必须有其他程序员同事评审通过才能提交。
    这位朋友说的挺对的,按道理每个公司都应该有法务和风控在前面,后面才是产品设计和程序员开发的事情,但如果一家公司为了利益,老板可以直接让这两个部门闭嘴,后面程序员可以不干吗?
    更甚至很多公司其实就没有这两个部门或者说形同虚设。那么做为程序员自己也需要操一份心,凡是涉及到入侵类的程序都不能干,因为有一个东西叫做: 单位犯罪
    单位犯罪 ,是指公司、企业、事业单位、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当负刑事责任的危害社会的行为。
    我国刑法对单位犯罪原则上采取双罚制度,即单位犯罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员判处刑罚
    03.什么样的爬虫是非法的?
    爬虫不能涉及个人隐私!
    如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
    也就是说你爬虫爬取信息没有问题,但不能涉及到个人的隐私问题,如果涉及了并且通过非法途径收益了,那肯定是违法行为。
    另外,还有下列三种情况,爬虫有可能违法,严重的甚至构成犯罪:
    1. 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。

    2. 爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”

    3. 爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。

    现在网上有很多付费的课程,比如极客时间、Gitchat、慕课网、知识星球等等,这些付费内部信息如果被非法爬取手法出售获利,一种违法行为。
    之前我就遇到一个网友,把各个知识星球的内容都抓下来,合到一起自己去卖,自作聪明觉得发现了一个大的商机,其实自己不知道这个行为其实很危险,风险和收益明显不对等。
    我这两天看的时候,他的一个公众号都被封了,后来又转移了一个小号继续搞,迟早又是被封的命运,真的很不值当。最可怜是那些买他服务的用户,因为他宣传时承诺永久,肯定永久不了。
    04.什么样的爬虫是合法的?
    1、 遵守 Robots 协议
    Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
    Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
    2、不能造成对方服务器瘫痪
    但不是说只要遵守 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫导致对方服务器瘫痪,这等于网络攻击。
    2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制:
    网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
    3、不能非法获利
    恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。
    举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。
    一般情况下,爬虫都是为了企业获利的,因此需要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。
    05.最后
    最近看了很多关于程序员出事的事件,东南亚程序员被打,多个大数据公司被查等等。做为一名普通的程序员,希望大家也可以多关注此类事件,从而提醒自己。
    有风险的行业谨慎进入,比如现金贷、不合规的P2P、赌博类游戏、黑五类产品的行业。如果公司安排入侵某个网站数据,或者有同事/朋友邀请泄露公司信息的都需要保持警惕,有时候一个很小的动作都有可能导致出问题。
    我们绝大多数公司和个人使用的爬虫都是没有问题的,不必人人自危,只要把握住不要爬取个人信息,不要利用爬虫非法获利,不要爬取网站的付费内容,基本上不会有问题。
    程序员是世界上最单纯的一批人,也是一批高智商低情商的人,工作是工作但也需要适当保持谨慎,对于一些游走在法律边缘的事情请保持距离。

    敬畏法律,遵纪守法,从我做起。

    参考:

    https://www.zhihu.com/question/291554395

    好文和朋友一起看~
    展开全文
  • 爬虫究竟是合法的还是违法

    千次阅读 2019-10-21 10:49:55
    就是说你爬虫爬取信息没有问题,但能涉及到个人的隐私问题,如果涉及了并且通过非法途径收益了,那肯定是违法行为。 另外,还有下列 三种情况 ,爬虫有可能违法,严重的甚至构成犯罪: 爬虫程序规避网站经营者...
    640?wx_fmt=jpeg
    据说互联网上 50%以上的流量都是爬虫创造的,也许你看到很多热门数据都是爬虫所创造的,所以可以说无爬虫就无互联网的繁荣。
    前天写了一篇文章 ,讲述程序员因写爬虫而被刑侦的事件。 文章传播很广,评论中讨论最热是: 爬虫究竟是合法还是违法的?
    这个话题涉及到我们很多程序员的日常工作,所以有必要和大家细聊一下。
    01.技术无罪?
    很多朋友给我留言: 技术是无罪的 ,技术本身确实是没有对错的,但使用技术的人是有对错的,公司或者程序员如果明知使用其技术是非法的,那么公司或者人就需要为之付出代价。
    在今年国家颁布《中华人民共和国网络安全法》之后,很多以前处于灰色地带的业务都不能做了。
    君不见之前曾经非常火的各种社工库网站,现在绝大部分都已经消失匿迹了吗? 因为最新的安全法强调: 贩卖个人信息超过50条属于“情节严重”,需要追求其法律责任。
    很多草根站长都纷纷主动关闭了网站; 还有很多涉及版权信息的网站,比如书籍、影视剧、课程等后期也会面临越来越严格的审查,这就是目前大的形势。
    2014年12月20日,人人影视字幕站发布微博称,人人影视正式关闭,并表示或将继续为正版商提供翻译服务,也可能转变为讨论社区的形式。
    2019年6月,吾爱破解因版权问题关站整改...
    .....
    随着中国经济的不断往前走,知识产权问题会越来越重视,非法爬虫是现在一个重要的打击部分,
    如果有程序员走在灰色的边缘尽早收手,不要因为一点小的收益导致触犯法律,从而得不偿失。
    技术是无罪的,但是用到了错的地方代价也是非常巨大的。
    02.爬虫岗位人人自危
    我在拉钩上搜索:  爬虫工程师,显示有 217 条相关招聘信息,薪资从10-60k 都有,说明市场上对爬虫的需求是很大的。
    640?wx_fmt=png
    前天文章发出去之后有很多程序员给我留言:
    • 我们领导安排我爬取公司内部的信息,这算不算犯罪呢?
    • 爬取网上公开的信息,这算不算犯罪呢?
    • 写了一段代码上传到 Github,被人用了犯法吗?
    简单回答一下这些问题:
    1. 爬取公司内部信息有公司授权当然不算犯罪的,但是公司内部不用接口而用爬虫不知道是为什么?
    2. 爬取网上公开信息不犯法,但如果大量开启爬虫导致对方服务器崩溃也是违法的,这属于暴力攻击的范畴了。
    3. 写了一段代码上传到 Github 上面,有人利用你的代码做了其它非法的事情,绝大多数都没有问题的,但如果你写的软件涉及到入侵、暴力破解、病毒等就不好说了。
    还有朋友认为这事责任在企业不在程序员,日常工作中项目初期设计和最后上线需要通过公司的法务批准,所有代码必须有其他程序员同事评审通过才能提交。
    这位朋友说的挺对的,按道理每个公司都应该有法务和风控在前面,后面才是产品设计和程序员开发的事情,但如果一家公司为了利益,老板可以直接让这两个部门闭嘴,后面程序员可以不干吗?
    更甚至很多公司其实就没有这两个部门或者说形同虚设。 那么做为程序员自己也需要操一份心,凡是涉及到入侵类的程序都不能干,因为有一个东西叫做: 单位犯罪
    单位犯罪 ,是指公司、企业、事业单位、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当负刑事责任的危害社会的行为。
    我国刑法对单位犯罪原则上采取双罚制度,即单位犯罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员判处刑罚
    03.什么样的爬虫是非法的?
    爬虫不能涉及个人隐私!
    如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
    也就是说你爬虫爬取信息没有问题,但不能涉及到个人的隐私问题,如果涉及了并且通过非法途径收益了,那肯定是违法行为。
    另外,还有下列三种情况,爬虫有可能违法,严重的甚至构成犯罪:
    1. 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
    2. 爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”
    3. 爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。
    现在网上有很多付费的课程,比如极客时间、Gitchat、慕课网、知识星球等等,这些付费内部信息如果被非法爬取手法出售获利,一种违法行为。
    之前我就遇到一个网友,把各个知识星球的内容都抓下来,合到一起自己去卖,自作聪明觉得发现了一个大的商机,其实自己不知道这个行为其实很危险,风险和收益明显不对等。
    我这两天看的时候,他的一个公众号都被封了,后来又转移了一个小号继续搞,迟早又是被封的命运,真的很不值当。 最可怜是那些买他服务的用户,因为他宣传时承诺永久,肯定永久不了。
    04.什么样的爬虫是合法的?
    1、 遵守 Robots 协议
    Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
    Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
    2、不能造成对方服务器瘫痪
    但不是说只要遵守 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫导致对方服务器瘫痪,这等于网络攻击。
    2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制:
    网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行; 此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
    3、不能非法获利
    恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。 实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。
    举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。
    一般情况下,爬虫都是为了企业获利的,因此需要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。
    05.最后
    最近看了很多关于程序员出事的事件,东南亚程序员被打,多个大数据公司被查等等。 做为一名普通的程序员,希望大家也可以多关注此类事件,从而提醒自己。
    有风险的行业谨慎进入,比如现金贷、不合规的P2P、赌博类游戏、黑五类产品的行业。 如果公司安排入侵某个网站数据,或者有同事/朋友邀请泄露公司信息的都需要保持警惕,有时候一个很小的动作都有可能导致出问题。
    我们绝大多数公司和个人使用的爬虫都是没有问题的,不必人人自危,只要把握住不要爬取个人信息,不要利用爬虫非法获利,不要爬取网站的付费内容,基本上不会有问题。
    程序员是世界上最单纯的一批人,也是一批高智商低情商的人,工作是工作但也需要适当保持谨慎,对于一些游走在法律边缘的事情请保持距离。
    敬畏法律,遵纪守法,从我做起。
    参考:
    https://www.zhihu.com/question/291554395


    推荐阅读




    640?wx_fmt=png
    你点的每个“在看”,我都认真当成了喜欢
    展开全文
  • 爬虫到底违法吗?这位爬虫工程师给出了答案

    万次阅读 多人点赞 2019-07-02 08:13:33
    大家好,本期将为大家来采访一位爬虫工程师,与他相识是在一个技术号主群中,只有他怼了我的文章,所以相识!他便是 小周码字 号主:Loco。 文章主要分为三部分,第一部分为Loco自述:简单讲述一下他是...

    六月分享主题:爬虫
    HTTP详解
    网页结构简介
    一文带你了解爬虫

    大家好,本期将为大家来采访一位爬虫工程师,与他相识是在一个技术号主群中,只有他怼了我的文章,所以也算不打不相识!他便是小周码字号主:Loco。
    在这里插入图片描述
    文章主要分为三部分,第一部分为Loco自述:简单讲述一下他是如何从大学生一步一步走到现在。第二部分为提问解答:猪哥收集了近100个问题,然后由Loco大佬自行选择回答,快看看你有没有被翻牌吧!第三部分是猪哥从Loco回答中提取的一些关键字,希望能加深大家的记忆。

    一、自述

    1.关于大学

    我读的大学是个野鸡学校,虽说是一个计算机专业,但实际的课程内容很杂。CAD、3DMAX、Office全家桶之类的都会有,所以在校期间对编程方面的成长并不大,当时也就只有写个批量改文件名的工具这种水平。

    毕业以后到目前为止也就在两家公司工作过,一家是上家公司,另一个是现在这家,总体路程还算顺利吧,没遇到过什么大的挫折,各种需求也能逼着自己成长。

    2.接触爬虫

    我接触爬虫这方面的起因,其实是因为找实习,当时快毕业了嘛,要先找个实习锻炼锻炼。但是因为我认为我能做的方向比较多,也还没有想好到底往哪个方向发展比较好,所以就开始看知乎的相关回答,然后发现数据相关的好像都不错,爬虫这个方向看起来也挺有意思的,就边学边开始海投简历。

    投着投着我就发现了一个问题,投简历这个事情太机械化了,能不能写个程序帮我自动投?我就可以腾出这部分时间来干点别的事情了,这样还能顺便练一练写爬虫的技术。

    万幸的是,当时的拉勾、智联、实习僧、58等招聘网站的反爬基本没有,对于一个初学爬虫的人来说还是可以轻松地自己解决:搜索-> 获取职位详情->投递简历这个操作的。

    于是,一个自动投简历的小工具就诞生了,虽然代码十分简陋,完全就是用requests库以一个流程化的方式写下来的,但已经足够达到我想要的效果了。在那之后,我每天就只需要等待面试通知和电话面试,发现有合适的就去面试一下就好了,节省了大量的时间用在搞项目上。
    在这里插入图片描述

    3.第一家公司

    然后大概这么投了一个多星期吧,中间面了十多个公司,有大有小,但都是要么不太满意、要么对应方向的技术深度还不够,直到碰到了上家公司。那是一家创业公司,可能因为创始人是做技术出身的关系吧,公司氛围很不错,跟老板聊起来也很舒服,然后公司本身也是专门做爬虫相关产品的,所以就去了这家公司。

    在这家公司的那段时间应该是我技术水平成长最快的时候了,因为每天做的事情就是写爬虫,当时我们团队将应用商店排名前100的所有APP都“弄”了。什么乱七八糟的问题都有碰到过,然后因为团队里每个人有天赋的方向都不同,一边被需求逼着查各种资料、挑战自己,一边互相补充知识,成长速度就非常快了
    在这里插入图片描述

    4.目前

    从那离职以后我进了现在这家公司,目前做的主要就是区块链搜索引擎的数据收集。看似简单但实际还是很有挑战性的,因为区块链的特性会导致数据量非常大,而且区块链还不像传统互联网网站那样有个标准化的HTML,存在着各种麻烦的问题。所以对于我自己的技术水平增长速度也是有很大的影响的。

    总结一下其实还是那句话,需求逼的。
    在这里插入图片描述

    二、解答

    在采访大佬的时候,我在朋友圈征集了大概100个问题,以下是大佬随机挑选的21个比较有代表性的问题进行解答。

    注:以下“爬虫”均指“垂直爬虫”

    1.非爬虫方向的技术转行做爬虫是否可行?

    可行,而且有一定的基础会很容易上手,至于深入的部分就看自己了。

    2.非技术转行做爬虫是否可行?

    可行,但我认为较难,因为爬虫做深了以后是需要你了解各种相关领域知识的,而你现在对这些领域的东西一无所知,甚至可能连编程都还不知道怎么开始,起点会比有基础的人低很多。

    3.爬虫工作日常如何?加班多不多?

    这个得看公司的,有些公司搞得都是些天天更新反爬的平台(比如工商信息相关的),那基本就是得一直盯着看会不会出问题,一不小心就会要加班。

    4.爬虫对于学生党的用处体现在哪些地方?

    这个问题看个人,因为爬虫技术可用的地方太多了,没法一个一个地都拿出来说。比如你想搞个自动签到的工具,这其实本质上就是爬虫;比如你想搞个自动回复设定内容的机器人,这其实本质上也是爬虫。

    5.学到什么程度才能入职爬虫工程师?

    我觉得首先发请求不用说了吧?抓包工具的使用也不用说了吧?熟练掌握XPath、正则表达式这种解析工具也是基本的,然后JSON之类的传输格式至少要了解过长啥样吧,再就是JS逆向总得会一点吧(从只改变量名函数名混淆级别的代码中找出加密参数生成部分的程度)。差不多会这些以后,再自己做几个项目,应聘个初级爬虫工程师没啥问题。

    6.如何成为一名优秀的爬虫工程师?

    垂直爬虫做到后面本质上就是逆向,你需要有良好的逆向思维方式,并且对一些安全领域的骚东西也有一定的了解,这样你才能游刃有余地处理高难度的反爬。

    7.学爬虫的学习路线?

    上面的入职水平了解一下?然后就是可以关注一下我的公众号「小周码字」(猪哥强力推荐)学习进阶内容,网上其他的教程绝对没有讲得这么细的。

    8.大约学习并从事爬虫几年才可以达到一个不错的高度?

    这个问题也很看个人,我觉得主要看有没有需求逼迫成长吧。之前招人的时候,很多三年经验的也就比入门水平稍微好一点,他们在工作时所遇到的难点几乎全是依靠自动化测试工具,对逆向水平毫无增长。所以建议还是多依靠逆向手段去解决问题,成长速度会很快

    9.薪资方面如何,在几年内可以达到15K?

    同上,标15K及以上的招聘JD还是挺多的,看看招聘需求就知道大概到什么程度了。

    10.面试爬虫哪些技能点是加分项?

    丰富且有深度的逆向经验、熟悉通信协议底层实现、做过骚东西等各种,但主要还是逆向经验。
    在这里插入图片描述

    11.作为一名爬虫工程师,对该岗位的前景如何看待?

    未来主要内容在APP上的平台应该会越来越多,难度也会越来越高,所以对于爬虫工程师的逆向水平要求会越来越高,只会简单逆向甚至不会逆向的人找工作会越来越难。

    12.爬虫和数据挖掘是一样的吗?

    不一样,爬虫只是将数据取回来,具体怎么分析才是数据挖掘的事情。

    13.爬虫是否和黑客差不多?

    差很多,与上个问题类似,只不过“黑客”这个词太宽泛了,黑客也是有具体方向的。

    14.千奇百怪的验证码只能对接打码平台吗?有啥其他办法?

    自己破呗,逆向+机器学习。

    15.现在有用pyppeteer吗?还是一直是selenium?

    都不用,因为效率太低了。

    16.如何爬xx平台?

    涉及法律问题,这种针对某个平台的东西是不能细说的。

    17.爬虫违法吗?如何避免过线导致的违法?怎么规避法律风险?

    算是擦边球吧,其实你即使遵守规则去爬别人的网站,只要人家想搞你,还是可以让你做的事情变成违法的。所以建议不要做太过分的事情,毕竟狗急了也会跳墙。

    还有就是不要为一些明显是做灰黑产的人/公司写代码,一旦他们出事了,你也会被牵连。

    知乎上之前那个很火的被抓了的人,从回答内容中来看其实就是做打码平台的那个微凉,他这一个平台据说赚了至少千万,主要应该是提供给做黑产的人使用了,这种其实被抓是迟早的事。最好的避免违法的办法就是明显觉得不太好的事情就不要去碰,基本就不会有啥问题。

    18.如何有目的地爬取到真正想要的数据?

    让需要数据的人提需求,如果你自己就是那个需要数据的人,那就去做市场调研,看看你需要的数据在哪里能找到。
    在这里插入图片描述

    19.反爬虫最先进的技术是什么?最有效的技术是什么?

    最先进的技术其实就是使用在PC平台上已经玩烂的各种反破解技术将行为监测点(设备指纹、用户操作等)隐藏起来,然后传给服务端做行为识别,如果操作非人类或者缺少某些东西就触发风控。

    最有效的技术其实不是技术而是方法,这个方法就是账号收费,将你的数据变成需要花多少钱才能看到这样子的,就能做到啥高端技术都不用上、轻松提高爬虫方的获取数据成本的效果,当然这也需要结合良好的产品设计,否则普通用户的体验会很差。

    20.请问在xx领域有哪些应用?

    这个应该是对应领域的人自己思考一下自己拿到那些公开数据究竟可以做什么。

    21.需要大量账号的平台成本过高该怎么办?

    人家就是依靠这种方式来提高你成本的,你如果觉得成本过高要么放弃要么换一条路线获取数据。

    三、关键字

    1.实践

    Loco在投简历时直接使用爬虫进行投简历,实习就有这种骚操作,让我明白一个道理:实践是获得高薪的一个捷径!

    2.需求逼的

    和Loco大佬深有同感,尤其在最开始工作的那几年,需求是推动学习成长最快的方法,不逼一把自己,怎么知道你的上限有多高?

    3.逆向

    和多位爬虫工程师交流过,一致认为逆向是最重要的一项技能,后面猪哥也会多学习并写一些逆向方面的教程!

    4.法律意识

    爬虫本身就是打法律的擦边球,所以作为技术人我们更应该守住底线,向灰黑色产业说不。如果有些东西你不能确认是不是违法,可以向身边朋友咨询或者百度,切莫存侥幸心理!

    四、感谢

    最后感谢Loco大佬在百忙中抽出时间接受猪哥的采访,猪哥也看过他的一些爬虫教程,目前很少有人会讲爬虫的逆向,而他是其中一位!

    更多爬虫知识及案例,敬请扫描下方二维码关注猪哥爬虫专栏!
    在这里插入图片描述

    展开全文
  • 爬虫到底合不合法

    2021-10-26 08:02:19
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 ...程序员聚集的论坛里总是能看从入门到入狱的教程,程序员们经常自己调侃自己再干下去就要入狱了。 虽然里面的人个个都是人才
      
    


    前言

    作为一个爬虫萌新,老师在第一节课就告诉大家要注意爬虫的界限和法律规范,让大家不要因为爬虫而锒铛入狱。原来程序员不仅面临秃发威胁,一不小心还会步入万丈深渊。
    近年来,我们总是能在各种各样的新闻里看到程序员因为爬虫程序而被抓的新闻。程序员聚集的论坛里也总是能看从入门到入狱的教程,程序员们也经常自己调侃自己再干下去就要入狱了。
    虽然里面的人个个都是人才,说话又好听,但是谁也不愿意大好青春在铁窗里度过。虽然我们还处在爬虫萌新阶段,没有能让我们锒铛入狱的水平。但是在学习爬虫之前,我们还是有必要了解爬虫的一些规范和职业道德,来规避风险。(万一以后成大佬了呢)


    首先我们有必要先来了解一下什么是爬虫?

    一、爬虫

    爬虫产生的背景

    随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性
    为了解决这些问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。(来自百度百科)

    爬虫是什么?

    网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。


    技术本身是中立性的,技术开发出来是为了让大家使用更便捷。爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所以具体问题具体分析,要看是否违法,就要看人们如何利用爬虫了。


    作为一个和爬虫打交道的程序员,一定都会接触到robots协议,那么什么是robots协议呢?

    二、Robots协议

    定义

    Robots 协议是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,这个协议用来告诉通用型爬虫,哪些页面是可以抓取的,哪些不可以。

    位置

    它的位置就在网站根目录下的robots.txt文件中。

    查看方式

    大多数网站都有 Robots 协议,那如何查看网站的 Robots 协议呢 ?
    可以在网站的根目录域名后加上/robots.txt。
    例如:https://www.douban.com/robots.txt,这个链接可以查看豆瓣的 Robots 协议。
    豆瓣robots协议
    这其中:
    *代表所有,/代表根目录
    User-agent:指定对哪些爬虫生效(这里关于爬虫的User-agent查相关搜索引擎的资料可以得到官方的数据)
    Allow 代表允许访问,Disallow 就是禁止访问

    常见的搜索引擎爬虫有:
    谷歌 Googlebot
    百度 Baiduspider
    360 360Spider
    必应 bingbot
    搜狗综合爬虫Sogou spider


    关于robots协议的具体内容可以查看CSDN上大佬的总结。
    robots协议详解

    关于robots协议有一个比较著名的案例就是百度诉奇虎违反Robots协议案。案件具体经过和审判结果可以查看:百度诉奇虎360违反Robots协议案一审宣判 360赔偿百度70万元


    爬取数据操作分为爬取的行为和爬取获得的数据两方面,在这里我们将结合具体案例分别论述。

    三、具体案例分析

    爬虫行为

    如果大量的爬虫在同一时间对网站进行访问,很容易导致网站服务器过载或崩溃,造成网站经营者的损失。开发者使用爬虫技术,如果请求频率过高,一旦造成目标服务器瘫痪或不能访问,这个就不是爬虫行为,而是黑客行为,必定要承担相应的责任。

    反爬措施

    由于爬虫会批量访问网站,因此许多网站会采取反爬措施。
    例如:
    1.IP频率、流量限制;
    2.Ajax动态加载;
    3.识别爬虫;
    4.验证码或模拟登陆等。
    但这些手段都无法阻止爬虫开发人员用各种各样的方式来规避反爬措施,实现大批量的数据抓取。但是如果开发者强行突破以上这些措施,同样会被界定为黑客行为。

    爬取内容

    爬取的内容同样有严格的限制,以下几种属于不应该爬取的内容:
    1、爬取公民个人信息谋利
    2015年6月,张某某为了谋取私利委托他人针对某网站漏洞编制批量扒取数据的恶意程序,在未经网站授权的情况下,进入该网站后台管理系统,从中非法获取客户订单信息12503条,通过QQ等联络方法将上述客户信息分数次卖给被告人姚某某,获利人民币5359元。被告人姚某某购得上述订单信息后,又在网络上分别加价倒卖从中牟利。
    侵犯公民个人信息
    2、爬取知识产权数据
    大众点评网起诉爱帮网大量复制大众点评网上的商户简介和用户点评内容,侵犯了其著作权。最后,法院认定爱帮公司侵犯了汉涛公司的著作权,判令停止侵权、赔偿25000元。
    大众点评起诉爱帮网
    3、爬取商业数据
    武汉元光科技有限公司为了提高其开发的智能公交应用程序“车来了”的市场份额及信息查询的准确度,指使公司员工利用网络爬虫技术大量获取竞争对手深圳市谷米科技有限公司经营的同类公交应用程序“酷米客”的实时公交信息数据,无偿使用于其“车来了”应用程序,并向公众提供查询服务。最后判决被告元光公司向原告谷米公司赔偿经济损失及合理维权费用 50 万元。
    深圳市谷米科技有限公司与武汉元光科技有限公司等不正当竞争纠纷

    四、爬虫涉及到的相关法律规定

    其实关于爬虫的合法性规范问题在很早以前就被程序员们关注了,在GitHub 里就有一个爬虫库,这个库整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。
    https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China

    以“爬虫”为关键字在中国裁判文书网进行检索,其中四分之三的案件集中在民事领域,刑事案件和行政案件占比四分之一。民事案由主要为“知识产权与竞争纠纷”,而刑事案由主要为刑法第二百五十三条之一规定的“侵犯公民个人信息罪”和第二百八十五条、二百八十六条规定的计算机网络犯罪。

    国家很早就发现了爬虫可能存在的问题。在2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制。其中就提到了数据收集的规则、数据的使用处理、数据安全监督管理等方面的内容。
    如果爬虫行为不当或者爬取内容不当,可能涉及到一下法律风险。

    非法获取计算机系统数据罪

    根据《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第285条第2款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

    侵犯商业秘密罪

    第二百一十九条规定,侵犯商业秘密罪是指,有下列侵犯商业秘密行为之一,情节严重的,处三年以下有期徒刑,并处或者单处罚金;情节特别严重的,处三年以上十年以下有期徒刑,并处罚金:
    (一)以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密的;
    (二)披露、使用或者允许他人使用以前项手段获取的权利人的商业秘密的;

    非法侵入计算机信息系统罪

    非法侵入计算机信息系统罪,是指自然人或者单位违反国家规定,侵入国家事务国防建设、尖端科学技术领域的计算机信息系统的行为。
    违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
    提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。

    侵犯公民个人信息罪

    第二百五十三条之一 【侵犯公民个人信息罪】违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
    违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。
    窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。
    单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。

    侵犯著作权罪

    根据《 中华人民共和国刑法 》第二百一十七条规定,侵犯著作权罪,是指以营利为目的,未经著作权人许可复制发行其文字、音像、计算机软件等作品,出版他人享有独占出版权的图书,未经制作者许可复制发行其制作的音像制品,制作、展览假冒他人署名的美术作品,违法所得数额较大或者有其他严重情节的行为。

    五、总结

    所以对于广大程序员来说,如何避免爬虫所带来的法律风险?(重点!!!)
    1.严格遵守网站设置的robots协议,爬取网站允许爬取的数据(公开数据);
    2.在规避反爬虫措施的同时,尽量避免干扰被访问网站的正常运行;
    3.在抓取图片、音乐等可能拥有著作权的数据时应该谨慎;
    4.严格审查所抓取的内容,如发现有属于用户的个人信息、隐私或者他人的商业秘密的内容,应及时停止并删除;
    5.对于网站的明显反爬措施不能强行突破,否则属于黑客行为。


    参考链接:
    [1]中国爬虫违法违规案例汇总!
    [2]你的爬虫会送你进监狱吗?
    [3]程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
    [4]网络爬虫?你可能面临的法律责任

    展开全文
  • 提交表单数据 ...就是说在在表单元素的onclick事件里用this.form.submit(); 即可提交数据 ) 阻止表单数据提交 1submit按钮onclick()事件处理函数返回false(阻止事件的默认行为); 2`Form对象的o...
  • 刚完成了任性动图V2.7版本 这个动图软件,心情很不错,于是出去逛逛。  今天在路上走 ,刚过桥时,迎面驰来两辆摩托车,每辆做着两个警察,突然在我面前... 其中,一个人出示了挂在脖子上的证件,我也不知道,那是
  • 自2019年初监管机构开展App违法违规收集使用个人信息专项治理以来,多次重点针对App无隐私协议、收集使用个人信息范围描述清、超范围采集个人信息和非必要采集个人信息等情形,进行通报、责令期限整改、处以警告...
  • 目前,虽然该病毒已经得到有效控制,但是对于网络安全建设仍能掉以轻心。特别是在互联网金融网贷行业,信息系统的安全与否将直接影响到600多万活跃投融资客户的个人信息以及交易安全。在网络安全法即将生效之际,...
  • 【TechWeb】6月2日,备受关注的“《庆余年》超前点播”案一审宣判,法院认定“超前点播”模式本身并无不妥,但应损害会员已有权益。因此判定爱奇艺需向原告吴某连续15日提供原告享有的...
  • 很多伙伴私信问:我们平时的爬虫究竟是合法还是违法的?有跟部分伙伴解释! 这个话题涉及到我们很多程序员的日常工作,所以有必要和大家细聊一下。 01.技术无罪? 很多朋友给我留言:技术是无罪的,技术本身确实是...
  • 很多伙伴私信问:我们平时的爬虫究竟是合法还是违法的?有跟部分伙伴解释! 这个话题涉及到我们很多程序员的日常工作,所以有必要和大家细聊一下。 01.技术无罪? 很多朋友给我留言:技术是无罪的,技术本身确实是...
  • 网络爬虫是否合法

    2021-01-20 11:52:22
    而如果数据属于商业盈利范畴,就要就事而论,有可能属于违法行为有可能违法。 1.2.1 Robots协议 Robots协议(爬虫协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉...
  • 一、以下行为可被认定为“未公开收集使用规则” 1.1、在APP中没有隐私政策,或者隐私政策中没有收集使用个人信息规则。 【解读】 该条主要明确应有隐私政策和收集使用个人信息规则。 从建议的角度,可以在用户...
  • 总结遇到违法犯罪行为,第一是拍摄视频而不是录音,录音一般比较扯皮无法识别, 第二保存好证据,第三优先使用行政手段解决,最末通过法律手段解决,权衡利弊,劳动仲裁是支持劳动者的,但是违法企业会上诉陷入无限...
  • Rambler 集团侧称,(侵权)可能已经给这家公司造成了 5100 万卢布(约 81.55万美元)的财产损失,如果这一违法行为被证实,当事人将成为重罪犯。 Rambler 集团将对 Nginx 公司的侵权索赔权,交给了 Lynwood ...
  • 全文共2663字,预计学习时长5分钟 图片联盟/Getty图片社 想象一下,你正在一辆新型特斯拉自动驾驶汽车中兜风,...对于特斯拉汽车而言,这些印记就如同马路上存在的弯道,可能会夺走你的生命。 今年4月,科...
  • 网络爬虫是否合法

    2020-02-21 14:46:23
    网络爬虫合法吗? 网络爬虫领域目前还属于早期的...而如果数据属于商业盈利范畴,就要就事而论,有可能属于违法行为有可能违法。 1.2.1 Robots协议 Robots协议(爬虫协议)的全称是“网络爬虫排除标准”(R...
  • 这部分涉及证券一级市场和二级市场两部分内容,一级市场五种行为,二级市场六种行为,重点在二级市场,之后进行详细说明。需要注意的是,在涉及刑事犯罪行为时,会包含客体要件、客观要件、主题要件、主观要件、刑事...
  • 昨日,国家市场监管总局发布关于《价格违法行为行政处罚规定(修订征求意见稿)》公开征求意见的公告,称为贯彻落实1月20日国务院常务会议部署,加快修订价格违法行为行政处罚等方面法规,及时修改或...
  • 昨日晚间,微信支付官方表示,支持虚拟货币交易,从未开放虚拟货币的类目商户接入。如发现任何把微信支付用于虚拟货币交易的行为,将予以清退处理。同时,欢迎用户举报,我们将根据相关监管规定坚决配合打击。...
  • 爬虫是否违法

    千次阅读 2019-11-14 13:25:34
    爬虫究竟是否违法 前言: 9月份参加一个某银行的数据相关岗位面试的时候,面试官直接问道:你之前的实习经历中有一段这个爬虫实习生的经历,能简单的说一下你对这个爬虫数据的看法,当时回答技术肯定没有问题的,想...
  • 网信办今日发布通告,就《App违法违规收集使用个人信息行为认定方法(征求意见稿)》面向社会公开征求意见,专项治理App强制授权、过度索权、超范围收集个人信息等问题。 《App违法违规收集使用个人信息行为认定...
  • 9月14日消息,据爱库存官微发布的消息,针对唯品会强迫商家“二选一”的正当竞争行为,爱库存方面已在9月11日通过邮递的形式向国家市场监督管理总局等四家机构提交实名举报。爱库存称,在9月...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,198
精华内容 2,079
关键字:

不合法也不违法的行为