精华内容
下载资源
问答
  • 深圳中院判决:利用网络爬虫技术抓取他人数据构成不正当竞争
    千次阅读
    2018-07-31 22:19:51

    深圳中院判决:利用网络爬虫技术抓取他人数据构成不正当竞争

    数据保护官

    昨天

    广东省深圳市中级人民法院

    民事判决书

    (2017)粤03民初822号

    当事人信息

    原告:深圳市谷米科技有限公司

    法定代表人:龙桂阳,董事长。

    委托诉讼代理人:张泽吾,北京市炜衡(广州)律师事务所律师。

    委托诉讼代理人:梁震,男,该司技术总监。

    被告:武汉元光科技有限公司

    法定代表人:孙熙,总裁。

    被告:邵凌霜、陈昴、刘江红、刘坤朋、张翔

    六被告共同委托诉讼代理人:迟杰,北京尚伦律师事务所律师。

    审理经过

    原告深圳市谷米科技有限公司(以下简称谷米公司)与被告武汉元光科技有限公司(以下简称元光公司)、邵凌霜、陈昴、刘江红、刘坤朋、张翔不正当竞争纠纷一案,本院于2017年4月12日立案后,依法适用普通程序,不公开开庭进行了审理。原告委托诉讼代理人张泽吾、梁震,六被告共同委托诉讼代理人迟杰到庭参加诉讼。本案现已审理终结。

    原告诉称

    原告深圳市谷米科技有限公司向本院提出诉讼请求,请求判令六被告:1.立即停止获取、使用原告实时公交位置数据的不正当竞争行为;2.连带赔偿原告经济损失人民币3000万元;3.连带赔偿原告因制止不正当竞争行为所支付的合理费用人民币100万元;4.连带在新浪、腾讯等网站和《深圳特区报》、《楚天都市报》首页显著位置发表声明,公开向原告赔礼道歉,以消除影响、恢复名誉;5.连带承担本案全部诉讼费用。事实和理由:自2013年6月起,原告发布并运营一款名称为“酷米客”的实时公交APP。该实时公交APP的运行需要后台大量汽车实时公交位置数据的支持。为此,原告通过与公交公司合作在公交车上安装定位器以获得海量数据。由于原告的“酷米客”APP后台拥有强大的数据服务支持,因而具有定位精度高、实时误差小等明显优势,使得原告的“酷米客”APP在短时间内即在实时公交领域异军突起。“酷米客”APP现拥有超过5000万用户,每日活跃用户超过400万,被用户及媒体誉为“公交神器”和“上班族必备神器”。2015年11月左右,被告元光公司为了提高其开发的智能公交“车来了”APP在中国市场的用户量和信息查询的准确度,公司法定代表人被告邵凌霜授意被告陈昴指使被告刘江红、刘坤朋、张翔等人利用网络爬虫软件获取原告公司服务器内的公交车行驶信息、到站时间等实时数据。其中,张翔负责编写爬虫软件程序;刘坤朋负责不断更换爬虫软件程序内的IP地址,使用变化的IP地址获取数据以防原告察觉;刘江红负责编写程序,利用刘坤朋设置的不同IP地址及张翔编写的爬虫程序向原告发出数据请求,大量获取原告开发的智能公交APP“酷米客”的实时数据,日均300万-400万条。在被告开始非法获取原告数据之际,张翔破解“酷米客”客户端的加密算法没有成功,陈昴便出面聘请其他公司的技术人员帮忙将原告APP的加密系统攻破,使刘江红、刘坤朋、张翔得以顺利非法获取原告服务器中的大量公交车行驶实时数据。原告认为,原告的“酷米客”APP与被告的“车来了”APP都是为客户提供实时公交信息服务的实时公交数据系统,因此双方存在直接竞争关系。原告后台的汽车实时位置数据是其花费巨大的人力、时间和经济成本获得的信息,具有巨大的商业价值,能给原告带来明显的竞争优势。现被告通过技术手段非法获取原告的海量数据,势必削减原告的竞争优势及交易机会,攫取其相应市场份额,并给其造成了巨大经济损失。被告的行为违背了公认的商业道德和诚实信用原则,构成不正当竞争。

    被告辩称

    被告元光公司、邵凌霜、陈昴、刘江红、刘坤朋、张翔答辩称:

    一、五自然人被告非本案适格被告。1.“车来了”APP是由被告元光公司开发,软件著作权人也是该公司。2.邵凌霜等五人均供职于元光公司。3.五自然人利用网络爬虫二次获取公交车辆实时信息的行为均系执行工作任务、履行工作职责,五人均为公司利益实施上述行为,未谋取个人私利。4.深圳市南山区人民法院(2017)粤0305刑初153号(以下简称南山区人民法院153号)刑事判决也已认定邵凌霜等五人的行为为单位犯罪,该刑事判决认定五自然人被告构成犯罪,并不必然导致该五人构成民事侵权。

    二、被告元光公司的行为不构成不正当竞争。1.首先,元光公司不属于《中华人民共和国反不正当竞争法》(以下简称反不正当竞争法)中的经营者,原、被告的APP也不存在任何市场交易,反不正当竞争法第2条明确规定经营者从事的商品或者服务必须具备营利性,且同时其行为必须是在市场交易中实施。元光公司虽然为私营企业,但是,国家工商总局出具多份文件确认反不正当竞争法中对经营者的认定,采用的不是资格认定法,而是行为认定法。就本案涉及的行为来看,原告的“酷米客”APP和被告元光公司的“车来了”APP均为公益性质的软件,均面向社会公众,用户只需注册、登录即可实现免费在线查询。而且,从双方的APP上线至今,未向社会公众收取任何形式的费用。2.原、被告之间不存在直接的竞争关系。双方客户群并不相同,主营业务也不同。原告主要从事GPS定位仪的销售与开发,被告主要从事软件的开发。

    三、被告并未实施原告诉称的违反公认的商业道德和诚实信用原则的行为。1.原告在深圳东、西部公交公司的公交车上安装了GPS定位,能够收集公交数据,原告将上述数据提交给深圳市交通运输委员会(以下简称深圳市交委),深圳市交委再将上述数据开放给被告等多个公司。因此,被告对上述数据本身有合法的使用权。当发现原告提供给深圳交委的数据存在滞后性,为了更好的查明原因,元光公司利用网络爬虫软件二次获取公交数据,其目的主要用于数据对比。2.案涉公交车辆行驶信息属于社会信息,由政府统一向社会开放,故原告对案涉公交数据没有所有权。3.原告与公交公司所签订的协议第4条因严重损害社会公众利益且涉嫌垄断,应属无效。4.原告仅和深圳东部公交公司签定了协议,没有和深圳西部公交公司以及深圳市交委达成协议。因此,不能认定原告对两公交公司的车辆数据拥有所有权。

    四、依据深圳北斗应用技术研究院有限公司出具的《情况说明》可以证明深圳市交委也不认可原告对公共车辆数据享有所有权。

    五、从其它相关协议来看,唯有政府部门及国有交通企业才有权对数据享有所有权和处分权。

    六、根据被告提交的《情况说明》及被告与深圳市交委授权的各个部门签订的多份协议,被告元光公司对所获取的公交车数据有合法的使用权。

    七、被告的行为目的仅为对比数据,系为社会公众谋益,并不具备主观恶意,也没有与原告竞争,在前述刑事判决中对此也有认定。

    八、原告并未对数据的访问权限进行限制或者加密,任何人都可以自由访问。被告在没有逾越其权限的前提下,亦有权取得数据。

    九、被告的行为未给原告造成实际损失。1.原告APP为社会公众可免费使用的APP,不向用户收取任何费用,故原告没有营业收入上的损失。2.公交数据有很强的时效性,原告自身都未保存涉案数据,故其不会有数据的损失。3.被告提交的专家意见可以证实被告的行为不会导致服务器无法响应,不会影响原告客户端的正常服务,也不会损害原告服务器的可用性。4.被告行为仅涉及深圳郊区的公交数据,且仅涉及部分数据,范围较小。

    十、被告行为持续时间非常短,即前述刑事判决认定的2015年11月至2016年5月五自然人被刑事拘留时止,故对原告没有任何损害。同时,因被告也是提供免费的APP服务,故被告亦未获取任何利润。此外,原告也没有为阻止不正当竞争行为支付任何费用,其主张100万元维权支出无任何依据。前述刑事判决认定的24.43万元损失,与被告亦无任何关系。

    十一、如果法院认定本案构成不正当竞争,原告也存在过错,希望能够以此减轻被告的侵权责任。

    综上,请求依法驳回原告的诉讼请求。

    举证质证

    当事人围绕诉讼请求依法提交了证据,本院组织当事人进行了证据交换和质证。

    为支持其诉讼请求,原告谷米公司向本院提交了如下证据材料:

    1.南山区人民法院153号刑事判决书,证明原告对“酷米客”APP中的实时公交位置数据享有合法权益;六被告共同实施了非法获取、使用“酷米客”APP中实时公交数据的不正当竞争行为,给原告造成了直接经济损失。

    2.《广东鑫证声像资料司法鉴定所检验报告书(粤鑫证司法鉴定所(2016)司鉴字3号)》,证明六被告实施不正当竞争行为时间较长,给原告造成了巨大的经济损失。

    3.被告张翔的《年度述职报告》,证明六被告从2015年7月就开始爬取原告的数据,张翔在该个人述职报告中陈述其自2015年6月29日正式入职之后,自7月开始至11月一直从事数据爬取工作。

    4.被告元光公司与广州交通信息建设投资营运有限公司签订的《数据技术维护服务合同》,合同中约定基础维护服务费用为220万元,证明该部分款项实际上就是购买数据的对价。

    庭后,谷米公司补充提交了《计算机软件著作权登记证书》,证明其系案涉“酷米客”软件的著作权人。

    为支持其答辩主张,被告元光公司、邵凌霜、陈昴、刘江红、刘坤朋、张翔向本院提交了如下证据材料:

    1.《计算机软件著作权登记证书》,证明元光公司系案涉“车来了”APP软件的著作权人,被告邵凌霜等五人的行为是职务行为,如果本案涉嫌侵权,应由元光公司承担侵权责任。

    2.《询问笔录》,证明原告委托代理人邵志君报案时自认的侵权人不包括邵凌霜、陈昴、刘江红、刘坤朋、张翔,上述五人非本案适格被告。

    1. 南山区人民法院153号刑事判决书,证明:首先,南山区人民法院已经查实五名自然人被告均系元光公司员工,且认定本案系单位犯罪;其次,法院认定被告获取信息主要用于数据对比,动机不恶劣;第三,法院认定原告因被非法侵入计算机信息系统所造成的直接经济损失为24.43万元,原告对此也认可;第四,原告员工确认只对GPS定位设备享有所有权;第五,被告对案涉数据享有合法使用权;第六,原告存在提供信息不准确及延时的过错。

    4.(2016)鄂洪兴内证字第11713号公证书,证明原告的“酷米客”APP(ios系统)属于公益性软件,原告不是反不正当竞争法中的经营者。

    5.(2016)鄂洪兴内证字第11714号公证书,证明原告的“酷米客”APP(安卓系统)属于公益性软件,原告不是反不正当竞争法中的经营者。

    6.“APP用户协议”,证明被告“车来了”APP属于非营利性APP,被告不是反不正当竞争法中的经营者。

    7.百度百科中有关原告公司经营情况简介,证明原告主营智能定位终端硬件设备的研发和销售,与被告并不构成直接竞争关系。

    8.百度百科中有关被告公司经营情况简介,证明被告主营软件开发,与原告并不构成直接的竞争关系。

    9.警方对李文静所作《询问笔录》,证明被告对公交车辆实时数据信息享有合法使用权。

    10-13.被告与东莞、惠州、中山、佛山等地有关单位签订的数据使用协议,证明只有政府部门或者政府部门授权的单位有权处分公交车辆实时数据。

    14.深圳北斗应用技术研究院有限公司出具的《情况说明》,证明被告对公交车辆实时数据有合法的使用权;深圳市交委并不认可公交车辆实时数据归原告单独所有,并已将公交车辆实时数据授权给除原、被告之外的其他第三方使用。

    15.《深圳市公交信息服务运营合作框架协议》,证明目的同证据14。

    16.《深圳公交信息服务合作框架协议》,证明目的同证据14。

    17.《基于广东省城市交通信息服务合作框架协议》,证明目的同证据14。

    18.《技术开发(委托)合同》,证明目的同证据14。

    19.(2017)鄂洪兴内证字第113号公证书,证明涉案数据信息为公开信息,通过搜狗浏览器、IE浏览器直接访问原告公司的链接地址,不需要进行任何身份验证操作,即可获取公交车辆实时数据信息,且该数据与通过“酷米客”APP获取的数据一致。

    20.(2017)京国信内民证字第02165号公证书,证明目的同证据19。

    21.(2017)京国信内民证字第02166号公证书,证明目的同证据19。

    22.《专家论证法律意见书》,证明被告所采用的网络爬虫技术遵循网络服务协议,被告模拟用户提交服务请求,既没有破坏系统防火墙,也没有利用系统漏洞进入服务器系统,亦未取得服务器的控制权,更没有修改系统程序或者数据,不会损害“酷米客”服务器功能的完整性。同时,该技术行为的访问量、频率,相对于“酷米客”的日常请求处理规模而言很小,不会导致服务器无法响应“酷米客”客户端的正常服务,也不会损害“酷米客”服务器的可用性,因此原告没有任何实际损失。

    23.深鹏建行资评字(2016)第ZC-09004号《评估报告书》,证明若法院认定本案构成不正当竞争,原告有损失且该损失与被告的行为有关联,则应当以该报告中的24.43万元作为赔偿金额的计算依据,并同时考虑原告过错等其他情况适当减轻被告责任。

    24.“交通在手”APP截图,证明“交通在手”APP的版权人为深圳市交委,其自身需要运营APP,故一定需要完整、准确的数据,不可能对数据的完整性和准确性没有要求。

    25.(2017)京国信内民证字第12234号公证书,证明深圳市交委对于公交车辆GPS实时数据自2013年起便要求数据真实、完整,且应保证车辆GPS终端实时在线,因此原告在本案中具有过错;被告发现涉案数据存在延迟和不准确的现象后,积极与深圳市交委授权的公司进行沟通。

    26.(2017)鄂江天内证字第16924号公证书,证明原告对提供给深圳市交委的数据进行了延迟技术处理,同一时期“酷米客”APP数据与“交通在手”APP和“车来了”APP数据不同,但“交通在手”APP和“车来了”APP的数据是一致的,说明原告对于本案争议的发生存在严重的过错。

    27.被告“车来了”APP公交实时数据与佛山、天津、成都等地区的公交实时数据对比表,证明原告在技术上对GPS数据进行了技术处理,存在过错。

    28.邵凌霜、陈昴、刘江红、刘坤朋、张翔的毕业证、学位证及获奖证书,证明五自然人被告受过良好的教育,在工作和学习中为国家和社会作出贡献。

    29.元光公司获得的奖励及证书,证明该公司是武汉市东湖高新区的高新技术企业,在公共交通应用领域取得了成绩。

    30.原告与深圳市东部公共交通有限公司签订的GPS设备协议,证明前述刑事判决关于数据所有权的认定是错误的。

    庭后,针对其当庭主张的“车来了”APP市场占有份额远高于“酷米客”APP的该事实,被告元光公司提交了(2017)鄂江天内证字第17396、17397号公证书,该两份公证书记载:2017年12月5日,湖北省武汉市江天公证处公证员叶紫君、公证员助理盛圆珍与被告元光公司委托代理人程贤欢在该公证处使用该处电脑登陆移动互联网数据平台“Talking Data”以及“腾讯应用宝”,查询到案涉“车来了”APP在“应用排行”中的综合排名为第273名,行业分类排名为第6名;“酷米客”APP在“应用排行”中的综合排名为第440名,行业分类排名为第13名。“车来了”APP下载量2259万人,“酷米客”APP下载量为785万。上述证据证明“车来了”APP应用排名及下载量均远高于“酷米客”APP。

    对双方当事人无异议的证据和事实,本院予以确认并在卷佐证:

    一、原告谷米公司、被告元光公司以及双方当事人案涉软件的相关情况

    原告谷米公司成立于2009年6月8日,经营范围为:电子产品、通信产品、计算机软硬件及电脑周边产品的技术开发与销售;国内贸易(不含专营、专控、专卖商品);经营进出口业务。

    被告元光公司成立于2010年2月4日,经营范围为:软件开发、咨询和批发兼零售;互联网应用开发、咨询;服装及生活用品的网上批发兼零售;广告制作、设计、发布及代理。

    原告谷米公司是“酷米客公交iPhone版软件(简称:酷米客公交)V1.0.6”和“酷米客公交Android版软件(简称:酷米客公交软件)V1.0.5”(上述两软件以下简称“酷米客”)的计算机软件著作权人。谷米公司就上述两软件于2013年9月9日取得《计算机软件著作权登记证书》,该证书载明软件开发完成日期及首次发表日期均为2013年7月2日,权利取得方式为“原始取得”。

    被告元光公司是“车来了实时公交查询软件V1.0”(以下简称“车来了”)的计算机软件著作权人。元光公司就上述软件于2014年6月9日取得《计算机软件著作权登记证书》,该证书载明软件开发完成日期为2014年3月31日,首次发表日期为“未发表”,权利取得方式为“原始取得”。

    谷米公司和元光公司经核准的经营项目中均包含“软件开发”,两公司各自开发“酷米客”APP软件和“车来了”APP软件均为用户提供定位、公交路线查询、路线规划、实时公交信息地理位置等服务。上述软件均可由用户免费下载使用。

    2015年5月,谷米公司与深圳市东部公共交通有限公司签订《谷米GPS设备安装协议》,约定在该公司所属深圳市内行驶路线的所有公交车上安装GPS设备用于获取公交车运行线路、到站时间等数据信息。谷米公司述称,为满足深圳市交通行政管理部门的监管要求,曾向深圳市交委提供过实时公交数据。与其“酷米客”软件后台中的数据相比,一方面,谷米公司仅向深圳市交委提供其中部分数据即可满足监管要求;另一方面,由于双方使用的网络通信线路不同,造成谷米公司向深圳市交委传输的数据存在时滞性情形。

    元光公司提交深圳北斗应用技术研究院有限公司于2017年1月19日出具的《情况说明》,其中载明:“我院是中国科学院深圳先进技术研究院的外溢机构,在深圳从事位置信息服务和交通大数据分析等研发工作。我院长期参与深圳市交委的信息化、智能化建设工作,为市交委提供数据分析挖掘、数据接口及信息技术服务……经市交委同意,免费将公交电子站牌数据测试接口(含巴士集团、东部公交、西部公交三家公交企业的车辆实时数据)开放给武汉元光科技有限公司“车来了”APP应用(2015年8月至今)及厦门搜谷信息科技有限公司的“掌上公交”APP应用(2016年1月至今)。”此外,元光公司还提交了该司或其子公司及关联公司与深圳交投科技有限公司、广东车联网信息科技服务有限公司、深圳北斗应用技术研究院有限公司在2014年下半年至2016年下半年间所签订的数份合作协议,证明元光公司已经取得深圳市交委及其授权机构的同意,对案涉实时公交数据信息享有合法使用权。

    二、邵凌霜、陈昴、刘江红、刘坤朋、张翔犯非法获取计算机信息系统数据罪【案号为(2017)0305刑初153号】一案的审理情况

    南山区人民法院153号刑事判决书查明以下事实:2015年11月左右,邵凌霜、陈昴为了提高元光公司开发的智能公交APP“车来了”在中国市场的用户量及信息查询的准确度,保证公司更好的经营,邵凌霜授意陈昴,指使公司员工刘江红、刘坤朋、张翔等人利用网络爬虫软件获取包括谷米公司在内的竞争对手公司服务器里的公交车行驶信息、到站时间等实时数据。张翔负责编写爬虫软件程序;刘坤朋负责不断更换爬虫程序内的IP地址,使用变化的IP地址获取数据,以防元光公司察觉;刘江红负责编写程序,利用刘坤朋设置的不同IP地址及张翔编写的爬虫程序向谷米公司发出数据请求,大量爬取谷米公司开发的智能公交APP“酷米客”的实时数据,日均300万至400万条。起初,张翔破解“酷米客”客户端的加密算法没有成功,陈昴便出面聘请其他公司技术人员帮忙将谷米公司APP的加密系统攻破,使刘江红、刘坤朋、张翔顺利爬取到谷米公司服务器里的大量公交车行驶实时数据。爬取的数据直接为元光公司所用,使该公司的智能公交APP“车来了”准确度提高。经评估:谷米公司因被非法侵入计算机信息系统所造成的直接经济损失为24.43万元人民币。

    南山区人民法院153号刑事判决书认定:邵凌霜、陈昴、刘江红、刘坤朋、张翔违反国家规定,采用其他技术手段,获取计算机信息系统中储存的数据,情节特别严重,其行为已构成非法获取计算机信息系统数据罪。在共同犯罪中,邵凌霜系“车来了”APP的主要负责人,起组织、领导作用,系主犯。陈昴、刘江红、刘坤朋、张翔作为具体实施者,分工配合,共同完成犯罪行为,其等在犯罪活动中起次要作用,系从犯,依法对从犯予以从轻处罚。邵凌霜、陈昴、刘江红、刘坤朋、张翔非法获取数据的目的主要系用于数据比对,其犯罪动机尚不属恶劣,且均当庭表示认罪,对其宣告缓刑。综上,综合涉案金额、手段、性质及认罪态度等情节,依照《中华人民共和国刑法》第二百八十五条第二款、第四款、第三十条、第三十一条、第二十五条第一款、第二十六条第一款、第四款、第二十七条、第七十二条第一款、第三款、第七十三条第二款、第三款之规定,判决:一、邵凌霜犯非法获取计算机信息系统数据罪,判处有期徒刑三年,缓刑四年,并处罚金人民币十万元。二、陈昴犯非法获取计算机信息系统数据罪,判处有期徒刑二年,缓刑三年,并处罚金人民币五万元。三、刘江红犯非法获取计算机信息系统数据罪,判处有期徒刑一年六个月,缓刑二年,并处罚金人民币四万元。四、刘坤朋犯非法获取计算机信息系统数据罪,判处有期徒刑一年四个月,缓刑二年,并处罚金人民币三万元。五、张翔犯非法获取计算机信息系统数据罪,判处有期徒刑一年四个月,缓刑二年,并处罚金人民币三万元。

    南山区人民法院153号刑事判决书已经发生法律效力。

    三、其他事实

    被告获取原告案涉公交实时数据信息的行为在邵凌霜、陈昴、刘江红、刘坤朋、张翔被警方抓获时已经停止。

    本院查明

    围绕原告指控六被告不正当竞争行为的相关争议事实,本院认定如下:

    一、案涉被诉不正当竞争行为的持续时间

    原告主张被告案涉行为的持续时间从2015年6月底至2016年5月。对此,原告提交被告张翔《年度述职报告》作为证据。张翔在该报告中述称其于:“2015年6月29日正式入职,7月到11月上旬主要从事爬虫方面的工作,破解的第三方APP有:E路通、车到哪、酷米客……”。原告以此主张应以被告张翔《述职报告》中的入职时间作为案涉被诉行为时间的起算点。关于被告被诉侵权行为的起始时间问题,经查,已生效的南山区人民法院153号刑事判决书认定被诉行为始于2015年11月。鉴于原告举证的《年度述职报告》系张翔个人所作,故该证据的内容不能作为推翻前述已被生效刑事判决认定事实的反证。据此,本院对原告有关被诉行为起始时间的主张不予采纳,相应的,案涉被诉行为的持续时间应认定为从2015年11月持续至2016年5月。

    二、关于被告元光公司是否使用了其所获取的原告软件数据的问题

    被告元光公司述称当其发现原告提供给深圳市交委的数据存在滞后性问题时,为了更好的查明原因,遂利用网络爬虫软件二次获取原告公交数据,其目的主要用于对比己方的数据。被告当庭否认将原告数据用于其“车来了”软件并对外发布。对此本院认为,根据本案被告陈昴、刘江红、刘坤朋、张翔在南山区人民法院153号案件所作的下列供述和辩解,可以证明元光公司前述就获取谷米公司数据仅用于对比己方数据的说法并非事实:

    陈昴供述称“我们把程序放在我们客户端,就可以直接爬谷米公司的数据来用,邵凌霜也知道这个情况,具体的实施者就是我,刘江红、刘坤朋、张翔四个人”;刘江红供述称“我们之前是想向谷米公司购买他们的公交车GPS数据,但是谷米公司不同意,后来大概是2015年11月份的时候陈昴就找到了外面的黑客攻破了谷米公司客户端安装包,相当于我们模拟了酷米客的客户端,也可以拿到同样的实时数据并使用。刘坤朋主要负责维护代理IP,我主要是写了一个程序,将用户的请求加上代理IP发送给张翔的爬虫程序,这样就可以完成从谷米公司调取的公交车实时数据发送给用户”;刘坤朋供述称“2015年底刘江红从外面找人把酷米客服务器端破解了,我公司在谷米公司没允许的情况下自由获取谷米公司的公交车数据……有了密钥之后,公司在阿里云租用了两台服务器,服务器就发请求获取谷米公司的公交车数据,数据到了阿里云服务器之后公司又转发杭州公司的算法分析部,没有在阿里云服务器上保存”;张翔供述称“谷米公司的公交车GPS数据被攻破以后,我就负责创立一个后台,给谷米公司发送请求,这样就可以把酷米客的实时公交数据拿来存放在我们自己公司的阿里云服务器上,我们自己用。刘坤朋负责转发我们用户的请求到阿里云服务器上,用户就能收到公交车的实时信息了”。此外,根据2016年6月15日侦查机关对被告陈昴所作的讯问笔录,陈昴在警方讯问其参与非法获取谷米公司计算机信息系统数据的详细情况时回答:“我就负责联系了高德地图的程序员,对方将酷米客的客户端反编译出来,然后破解了加密算法,然后把模拟好的完整的程序给了我们,然后我们把该程序放在我们的服务端,就可以直接爬谷米公司的数据来用,我们的APP用户在我们自己的客户端“车来了”,通过我们的服务端,就可以直接调取谷米公司的数据来用。这样我们的用户查询的公交车实时数据就比较准确了”、“我只是记得爬谷米公司的数据是从去年的11月份前后,我们爬过来的数据也是用于我们自己公司的APP的经营(提高准确率,增加用户量),没有出售给其他公司。”

    综合上述证据,本院依法认定以下事实:自2015年11月至2016年5月,时任元光公司法定代表人邵凌霜和技术总监陈昴为了提高元光公司开发的智能公交APP“车来了”在中国市场的用户量及信息查询的准确度,保证公司更好的经营,由邵凌霜授意陈昴,指使公司员工刘江红、刘坤朋、张翔利用网络爬虫软件获取谷米公司服务器中的实时数据,日均300万至400万条。被告在获取原告“酷米客”软件的实时公交信息数据之后,将数据用于自己开发的智能公交APP软件“车来了”并对外提供给公众进行查询。相对于此前“车来了”数据经常迟滞于“酷米客”数据的劣势,被告元光公司使用了更为精准的“酷米客”实时公交数据后,使“车来了”软件产品的信息准确度得到提高,用户的使用满意度随之提升,亦促进元光公司的整体经营。因此,本院对于被告就其获取原告数据的使用目的仅为比对己方数据的主张不予采信。

    本院认为

    本院认为,本案系不正当竞争纠纷。根据双方当事人的诉、辩主张,本院总结本案争议焦点为:1.原告谷米公司及被告元光公司是否系反不正当竞争法中的经营者及两公司之间是否存在竞争关系;2.被告元光公司利用网络爬虫技术获取原告谷米公司“酷米客”软件的实时公交信息数据的行为,是否构成对原告的不正当竞争;3.五自然人被告在本案中有关其被诉行为系履行职务行为的抗辩能否成立;4.如果被告元光公司构成对原告谷米公司的不正当竞争,其应当承担的法律责任。

    关于争议焦点一,经查,谷米公司和元光公司均系经过企业登记部门合法核准成立的商品或服务的提供者,属于我国反不正当竞争法中规定的“经营者”。判断某相关市场主体是否系经营者,并不以其所提供的某项商品或者服务是否具有营利性为标准。因此,被告以用户使用双方案涉软件不需支付任何费用为由,主张谷米公司和元光公司并非反不正当竞争法中的“经营者”,本院不予采纳。谷米公司和元光公司各自开发的“酷米客”APP软件和“车来了”APP软件,均系为用户提供定位、公交路线查询、路线规划、实时公交信息地理位置等服务,二者用途相同,故谷米公司和元光公司在提供实时公交信息查询服务软件的服务领域存在竞争关系。被告有关两公司不存在竞争关系的主张依据不足,本院亦不予采纳。

    关于争议焦点二,自1993年12月1日起施行的反不正当竞争法于2017年11月4日经第十二届全国人民代表大会常务委员会第三十次会议修订,并自2018年1月1日起施行。修订后的反不正当竞争法对“不正当竞争行为”的涵义作了相应的调整。基于谷米公司指控的侵权事实发生于现行反不正当竞争法施行之前,故本案应当适用修订前的反不正当竞争法。由于本案被诉行为不属于原反不正当竞争法第五条至第十五条所规定的各类不正当竞争行为的法定情形,故应援引原反不正当竞争法第二条的规定对本案被诉行为进行认定:“经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。本法所称的不正当竞争,是指经营者违反本法规定,损害其他经营者的合法权益,扰乱社会经济秩序的行为。”本案中,认定被诉行为是否构成不正当竞争,关键在于该行为是否违反了诚实信用原则和公认的商业道德,并损害了原告的合法权益。本院对此分述如下:

    首先,本案查明的事实表明,安装有谷米公司自行研发的GPS设备的公交车在行驶过程中,定时上传公交车实时运行时间、地点等信息至谷米公司服务器,当“酷米客”APP使用者向谷米公司服务器发送查询需求时,“酷米客”APP从后台服务器调取相应数据并反馈给用户。公交车作为公共交通工具,其实时运行路线、运行时间等信息仅系客观事实,但当此类信息经过人工收集、分析、编辑、整合并配合GPS精确定位,作为公交信息查询软件的后台数据后,其凭借预报的准确度和精确性就可以使“酷米客”APP软件相较于其他提供实时公交信息查询服务同类软件取得竞争上的优势。而且,随着查询数据越准确及时,使用该款查询软件的用户也就越多,软件的市场占有份额也就越大,这也正是元光公司爬取谷米公司数据的动机所在。鉴于“酷米客”APP后台服务器存储的公交实时类信息数据具有实用性并能够为权利人带来现实或潜在、当下或将来的经济利益,其已经具备无形财产的属性。谷米公司系“酷米客”软件著作权人,相应的,也就对该软件所包含的信息数据的占有、使用、收益及处分享有合法权益。未经谷米公司许可,任何人不得非法获取该软件的后台数据并用于经营行为。因此,六被告有关谷米公司“酷米客”软件实时公交数据属于公共信息的主张不能成立。

    其次,被告元光公司还主张其经过深圳市交委许可,享有“酷米客”软件数据的使用权,但被告未提交与深圳市交委签订的协议或由深圳市交委出台的文件等证据予以证明。被告在本案中所提交的相关协议均系与并非政府交通管理部门的案外人签订,不能用以证明其前述主张,故本院对被告元光公司该项主张不予采纳。退一步而言,即使元光公司获得案外人的许可,可以大量使用谷米公司“酷米客”软件的数据,其亦未提交证据证明该案外人已经获得谷米公司的许可使用该软件的数据,且该被许可人可以再授权他人使用。

    第三,谷米公司“酷米客”软件实时公交信息数据虽然系免费提供公众查询,但获取数据的方式须以不违背该软件著作权人即谷米公司意志的合法方式获取,即应当通过下载“酷米客”手机APP或者登录谷米公司网站等方式来查询,而非未经谷米公司许可,利用网络爬虫技术进入谷米公司的服务器后台的方式非法获取,故被告元光公司以原告谷米公司的数据可自由访问来证明其获取方式合法性的主张不能成立。

    第四,如前所述,谷米公司的“酷米客”软件实时公交运行信息数据可为公众制定公共交通工具出行计划提供参考和帮助。在同类查询软件中,查询结果越准确,用户对该款软件的使用满意度就越高,相应的,用户对软件的依赖度也就越高,此即被告爬取“酷米客”数据而用于其“车来了”软件的原因所在。市场经济要求市场在资源配置中起决定性作用,自由竞争能够确保市场资源优化配置,但市场经济同时要求竞争公平、正当和有序。这也正是反不正当竞争法规制不正当竞争行为的立法本意所在。在市场竞争环境中,用户粘性强弱是衡量产品或服务竞争力的重要评价指标。某项产品或服务即便推出之时是免费的,但随着用户对产品依赖度稳步提升,经营者往往后续会推出相应增值服务或衍生产品,这在市场实践中并不鲜见。本案中,被告元光公司利用网络爬虫技术大量获取并且无偿使用原告谷米公司“酷米客”软件的实时公交信息数据的行为,实为一种“不劳而获”、“食人而肥”的行为,具有非法占用他人无形财产权益,破坏他人市场竞争优势,并为自己谋取竞争优势的主观故意,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争行为。被告以南山区人民法院153号刑事判决所认定的“五被告人非法获取数据的目的主要系用于数据比对”来说明其不具有不正当竞争的主观故意。对此本院认为,南山区人民法院153号刑事案件审理的是公诉机关指控本案五名自然人被告采用技术手段,获取他人计算机信息系统中储存的数据,构成非法获取计算机信息系统数据罪的犯罪事实,因此其认定五被告的行为目的主要用于数据比对系以其前述获取他人数据的行为为事实基础。而本案审理的是被告获取原告数据,进而将数据用于其自己开发的软件并对外提供查询的行为,是否构成针对原告的不正当竞争,既与前述刑事判决的评价对象及评判标准有别,亦不与该刑事判决的相关认定相左。因此,对于被告该项抗辩主张,本院不予采纳。被告还述称其“车来了”软件的市场占有率高于原告“酷米客”软件,其根本没有必要实施针对原告的不正当竞争行为,并于庭后提交了有关手机软件市场排名情况的(2017)鄂江天内证字第17396、17397号公证书作为证据。本院认为,该两份公证书记载的事实均发生于2017年12月,并非案涉行为发生之时。被告亦未提交证据证实前述公证书中出具排名的网站“Talking Data”和“腾讯应用宝”为案涉软件同业人员公认的权威评比机构。因此,上述证据无法真实客观反映原、被告双方的手机应用APP在案涉行为发生时的市场排名情况。退一步而言,即使被告“车来了”APP确如被告而言在案发时的行业排名高于原告“酷米客”APP,并不能以此否定被告案涉被诉行为的可责难性。这是因为,不正当竞争行为的认定与具有竞争关系的商品或者服务其本身的市场份额占有率并不具有直接关系,是否构成不正当竞争,其评定标准是竞争方式是否符合同业者遵循的商业惯例、是否违背公认的商业道德,不能排除在某时期市场占有率高的一方采取不正当行为方式针对市场占有率低的一方实施竞争行为的可能性,更不能排除市场占有率高的原因是以不正当手段谋取自身竞争优势所致的可能性。故,对于被告有关其经营业绩优于原告,则没有必要实施针对原告的不正当竞争行为的抗辩理由,本院亦不予采纳。

    关于争议焦点三,本案五自然人被告邵凌霜、陈昴、刘江红、刘坤朋、张翔在被诉行为发生时均系被告元光公司员工。原告谷米公司主张被告邵凌霜作为元光公司总裁,要求其他自然人被告破解谷米公司APP获取数据,因此五自然人与元光公司具有共同的意思联络,该六人构成共同侵权。由于谷米公司没有提交证据证明六被告对此具有共同的意思联络,本院对原告有关六被告构成共同侵权的主张不予采纳。被告主张该五自然人被告的案涉行为均系职务行为,且南山区人民法院153号刑事判决书已认定该五人采用网络技术手段获取原告实时公交数据信息属于单位犯罪,因此,被告认为邵凌霜、陈昴、刘江红、刘坤朋、张翔五人均非本案适格被告。经查,为了提高元光公司“车来了”APP信息查询的准确度,保证公司更好的经营,由时任元光公司法定代表人并任职总裁的邵凌霜授意技术总监陈昴,指使公司员工刘江红、刘坤朋、张翔利用网络爬虫技术获取了谷米公司服务器中的实时数据并使用于元光公司“车来了”APP,由此增加了“车来了”APP的用户量,提高了公司的经营业绩。邵凌霜作为元光公司的法定代表人,其指示其他人获取谷米公司数据的目的,是为公司利益而非其个人利益,其前述行为亦是以公司名义为之,故邵凌霜的行为应认定属于公司行为。陈昴、刘江红、刘坤朋、张翔的案涉行为均系由元光公司指派,属执行其任职单位的工作任务,其行为利益归属于被告元光公司,故该四人的案涉行为应认定为职务行为。故本院认定邵凌霜、陈昴、刘江红、刘坤朋、张翔的案涉被诉行为,均不构成针对谷米公司的不正当竞争行为。

    关于争议焦点四,鉴于被告元光公司的侵权行为已经停止,再行判令元光公司停止侵权已无必要,故,对谷米公司有关判令元光公司停止侵权的诉讼请求,本院不予支持。

    依据《中华人民共和国侵权责任法》第十五条的规定,民事侵权责任的承担方式既包括“赔礼道歉”,也包括“消除影响、恢复名誉”。谷米公司诉请本院判令被告在多家媒体发表声明,公开向其赔礼道歉,以消除影响、恢复名誉,可见谷米公司该项诉请的核心内容为要求被告“赔礼道歉”,其提出该诉讼请求的目的在于消除被告案涉行为对其造成的影响以及恢复其自身的名誉。因此,谷米公司要求元光公司赔礼道歉应以该公司对其商誉造成损害作为前提条件。由于谷米公司在本案中没有提交证据证明元光公司的案涉行为对其造成负面影响或对其声誉造成损害,因此对其要求元光公司赔礼道歉的诉讼请求,本院不予支持。

    关于被告元光公司的侵权行为给原告谷米公司所造成的经济损失的确定问题。谷米公司当庭述称南山区人民法院153号案件中对其损失的评估结论24.43万元系为修复被元光公司破坏的系统程序所需要的费用,此系该司的直接损失。此外,被元光公司所获取并使用的公交运行信息数据的价值,系该司的间接损失。谷米公司提交了被告元光公司(甲方)和广州交通信息化建设投资营运有限公司(乙方)所签订的《武汉元光科技实时公交项目的数据技术维护服务合同》,该合同的服务内容为“乙方负责为甲方的‘武汉元光科技实时公交项目’提供实时公交到站查询的数据技术维护服务”,维护服务费用约定为220万元,合同有效期为2015年6月30日至2016年6月30日。元光公司分三次支付合同款项,并在付款凭证上备注为“数据费”。原告主张参照上述同类实时公交信息服务费,以及被诉行为的持续时间这两方面因素,可以计算出被告被诉侵权行为对其造成的经济损失。由于无法确定其损失的具体数额,元光公司还向本院提交《财产损失鉴定申请书》,请求本院委托有资质的评估鉴定机构对其因被告的不正当竞争行为对其造成的损失数额进行鉴定评估。关于原告诉请被告赔偿其维权合理费用100万元,原告未提交证据证实其维权费用实际支出的情况。

    被告认为,如果其案涉行为构成针对原告的不正当竞争,其也未给原告造成任何实际损失。理由如下:1.原告“酷米客”APP为免费软件,故原告没有营业收入的损失;2.基于被告对公交实时数据有使用权的前提下,被告无论是否二次获取,“酷米客”APP均能正常运营;3.被告所采用的网络爬虫技术不会损坏原告“酷米客”APP服务器功能的完整性;4.被告二次获取数据的行为未导致原告数据丢失或者损坏;5.被告获取数据的范围小和数量少,行为持续时间短,且被告并未因此实际获利;6.被告“车来了”APP与原告“酷米客”APP数据相比延时一分钟,不会必然导致用户使用习惯的改变,且由于一部手机可安装多个APP,亦不会导致客户量的此消彼长;7.《武汉元光科技实时公交项目的数据技术维护服务合同》中基础维护服务费用的数额不能作为计算原告损失的依据;8.南山区人民法院153号刑事判决书认定的24.43万元损失与被告无任何关系。

    首先,关于原告谷米公司就其损失的评估申请应否采纳的问题。本院认为,谷米公司既然主张因为被告实施的被诉不正当竞争行为而蒙受重大经济损失,并为此向被告主张索赔。按照“谁主张,谁举证”的原则,谷米公司作为原告自当负有举证证明自身所受实际损失的义务。谷米公司通过采取第三方评估、鉴定或其他在先生效法律文书业已认定的事实来举证说明自己的实际损失,均当为法律所许。只是其所提交的证明损失的证据应当经过对方当事人的质证,并由本院在双方举证、质证的基础上对原告提交的该类证据的三性和证明力予以审查,并在此基础上对损失额的最终确定作出评价。谷米公司在本案中要求本院对其损失进行评估,实为懈怠、转移自身本应积极履行的举证义务,应为此承担相应的法律后果。而且,本案中,被元光公司获取的数据也并未保存于服务器中,该类数据的范围和数量无法确定,因此亦不具有在本案中开展评估的条件。故,对于谷米公司关于对其损失进行评估的申请,本院不予支持。

    其次,关于谷米公司请求参照元光公司向广州交通信息化建设投资营运有限公司(乙方)支付的“数据费”220万元作为计算本案经济损失依据的问题。本院认为,元光公司与广州交通信息化建设投资营运有限公司签订的合同为《武汉元光科技实时公交项目的数据技术维护服务合同》,虽然元光公司在支付该合同款项的付款凭证上注明为“数据费”,但该款项的对价亦即广州交通信息化建设投资营运有限公司需要向元光公司履行的合同义务,系向对方提供为期一年的实时公交到站查询的数据技术维护服务。因此,上述合同项下的数据技术维护服务费与谷米公司在本案中所受经济损失并不具有同一性质,上述款项数额不能用于确定谷米公司经济损失数额的参考。

    再次,关于被告元光公司主张谷米公司在本案中不存在任何经济损失的抗辩意见。本院认为,虽然,谷米公司“酷米客”APP为免费软件,元光公司爬取数据的行为不会导致谷米公司有营业收入的直接损失;元光公司的二次获取行为亦不会导致谷米公司数据丢失或者损坏;同时,由于一部手机可安装多个APP,元光公司使用谷米公司数据不会必然导致用户会立即卸载“酷米客”APP。但是,更为准确及时的后台信息系谷米公司实时公交软件相对于同类产品的竞争优势,元光公司使用了谷米公司的后台数据后,势必削弱谷米公司的竞争优势,进而造成“酷米客”软件APP的流量减少、投放于谷米公司“酷米客”软件APP的广告收入减少、“酷米客”软件品牌价值降低等后果,因此,谷米公司要求元光公司赔偿因其不正当竞争行为造成经济损失的诉讼请求符合法律规定,本院予以支持。元光公司关于谷米公司在本案中不存在任何经济损失的抗辩意见,本院不予采纳。

    最后,关于元光公司主张谷米公司在本案中故意向深圳市交委提供延时数据,谷米公司对此具有过错,故即便法院认定元光公司构成对谷米公司的不正当竞争,也应当相应减轻其在本案中侵权责任的问题。本院认为,元光公司未经谷米公司许可,非法获取谷米公司后台数据并使用于其“车来了”智能软件APP,谋取该软件在实时公交信息查询软件中的竞争优势,谷米公司的上述行为违反了诚实信用原则和公认的商业道德,构成不正当竞争。元光公司侵权行为的发生与谷米公司是否向深圳市交委提交数据,以及是否故意提交延时数据的行为之间并不具有因果关系,并不符合《中华人民共和国侵权责任法》第二十六条所规定的“过失相抵”情形的适用条件。因此,对于元光公司以谷米公司亦存在过错为由减轻其侵权责任的抗辩主张,本院不予采纳。

    鉴于谷米公司未能提供证据证明其自身损失的具体数额,也未提供证据证明元光公司的侵权获利,本院综合考虑以下因素来确定元光公司的赔偿数额:1.谷米公司本案存在直接损失24.43万元;2.元光公司获取数据的范围系深圳东部公交集团下属公交车的实时运行数据;3.元光公司侵权行为的持续时间系自2015年11月至2016年5月,长达7个月、获取数量日均300万至400万条;4.谷米公司虽然未提交其维权支出的相关证据,但其委托律师出庭,必然会对此支出相关费用;5.元光公司具有明显的不正当竞争的主观恶意。据此,本院酌情确定被告元光公司赔偿原告谷米公司经济损失及合理维权费用共计50万元。谷米公司提出的赔偿金额过高部分,本院不予支持。

    裁判结果

    综上,依照《中华人民共和国反不正当竞争法》第二条、《中华人民共和国民事诉讼法》第六十四条第一款的规定,判决如下:

    一、被告武汉元光科技有限公司于本判决生效之日起七日内向原告深圳市谷米科技有限公司赔偿经济损失及合理维权费用50万元;

    二、驳回原告深圳市谷米科技有限公司的其他诉讼请求。

    如果未按本判决指定的期间履行给付金钱义务,应当按照《中华人民共和国民事诉讼法》第二百五十三条之规定,加倍支付迟延履行期间的债务利息。

    本案案件受理费196800元,由被告武汉元光科技有限公司负担150000元,由原告深圳市谷米科技有限公司负担46800元。

    如不服本判决,可在判决书送达之日起十五日内,向本院递交上诉状,并按对方当事人的人数提交副本,上诉于广东省高级人民法院。

    审 判 长   孙 虹

    审 判 员   费 晓

    审 判 员   欧宏伟

    二〇一八年五月二十三日

    书 记 员   麦迪淇

    更多相关内容
  • 使用抓取技术获取今天的城市天气。 将抓取的数据保存到CSV文件 · 目录 用法 路线图 贡献 执照 接触 致谢 关于该项目 详尽的描述:使用抓取技术获取今天的城市天气。 将抓取的数据保存到CSV文件 建于 您将需要: ...
  • 技术路线 IP代理池 多线程 爬虫与反爬 编写思路 首先,开始分析天天基金网的一些数据。经过抓包分析,可知: ./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况。 ...
  • 激光雷达与汽车技术路线

    千次阅读 2022-03-29 05:32:36
    激光雷达量产与汽车搭载路线 对于现在的汽车来说,智能驾驶即体现在代客泊车、不同等级辅助驾驶等具体的智能使用场景,核心代表能力就是自动驾驶。 想要让汽车变得智能,就必须为其构架起具备“感知、决策、执行”...

    激光雷达与汽车技术路线
    对于现在的汽车来说,智能驾驶即体现在代客泊车、不同等级辅助驾驶等具体的智能使用场景,核心代表能力就是自动驾驶。
    想要让汽车变得智能,就必须为其构架起具备“感知、决策、执行”三位一体的智能系统。感知主要由安装在汽车上的各类环境监测传感器探测,决策主要依赖于算法、软件和芯片,执行则由各种控制器和零部件完成。
    在这里插入图片描述

    在自动驾驶场景中,智能汽车需要对车辆、行人、交通信号灯、障碍物等行车环境做出准确的识别,必须借助车载摄像头、超声波雷达、毫米波雷达、激光雷达等车载传感器来实现。
    本文参考了以下两篇文章
    焉知新能源汽车
    https://mp.weixin.qq.com/s/yOVWNVepQru0GlDvZG6LHA
    与亿欧网
    https://baijiahao.baidu.com/s?id=1715559306625289798&wfr=spider&for=pc
    不同的车载传感器有着迥异的特点。
    摄像头可以采集外部数据并根据算法进行图像识别,技术成熟度高,价格便宜,同时图像识别也是人工智能的一条实现路径,潜力更大。但容易受到恶劣天气影响,逆光和光影复杂环境下效果较差,难以精确测距。
    毫米波雷达通过毫米波测距,不受天气影响,探测距离可达200米。但成本较高,对非金属物体探测能力弱,同时难以识别行人。
    超声波雷达利用超声波测距,造价低,但有效探测距离通常小于5米,角度分辨率较差,容易受到天气影响。
    激光雷达通过激光测距,成本最高,但探测距离远,角度测量精度极高,可以实时建立3D模型,这一功能暂无有效替代方案。
    在这里插入图片描述

    这些不同的车载传感器,各有优势,在一定程度上可以实现互补。但在实现智能驾驶这一目的上,各家车企的选择却截然不同,基本上形成了两类方案路线:
    第一类以特斯拉为代表,采用的是“纯视觉+算法方案”方案,一般只采用摄像头和低成本雷达,依靠决策层的强大算法算力来实现准确判断行车状况。
    这种方案依赖大量数据,以及顶级的图像识别算法,能够形成优势壁垒,同时成本极低。但缺点也很明显,目前的图像识别算法容易出现误判,进而引发交通事故。
    第二类是以激光雷达为核心的感知方案,是除特斯拉外整车厂的普遍选择。激光雷达能够更远距离测距,辅以其他传感器,基本能够实现整车全范围感知。由于具备更远距离路况感知,汽车有更长时间完成进一步探测、算法分析和决策,从而够弥补算法方面的缺陷。
    从目前来看,第二类路线是大多数整车厂的选择,激光雷达自然也就成为L3及其以上自动驾驶系统不可或缺的感知器件。
    在这里插入图片描述

    2022,车载高规激光雷达量产元年
    在这里插入图片描述

    自动驾驶兴起后,视觉摄像头、毫米波雷达、激光雷达等均在迅速演进。
    于激光雷达而言,逐渐分化出三大主流路线,分别是:机械旋转式激光雷达、混合固态激光雷达以及固态激光雷达。
    机械旋转式激光雷达最早出现,常见于 Waymo、百度 Apollo、小马智行等早期的自动驾驶测试车上。
    固态激光雷达刚刚进入前装量产阶段初期,开始被上汽等主机厂押注。
    混合固态激光雷达最为值得说道,无论在性能、满足车规、安全性和量产等方面均更有竞争力。因此在这一技术路线中,出现了全球首款量产激光雷达车小鹏 P5,以及后来的极狐阿尔法 S HI 版、飞凡 R7、蔚来 ET7、理想 L9 和沙龙机甲龙等等。
    在这里插入图片描述

    虽然这些车型的定位和售价各不相同,搭载的激光雷达产品各有自身的考量,但这不妨碍从性能维度,大致对比各家的激光雷达技术实力究竟如何。
    • 从测距和角分辨率两个指标看,蔚来 ET7 和飞凡 R7 搭载的激光雷达并列居于第一名。
    • 从量产时间看,小鹏 P5 最早,蔚来 ET7 处于第二名,飞凡 R7 等其它激光雷达量产车大多在今明两年交付。
    随着蔚来 ET7 正式交付,2022,也正式开启了车载高规激光雷达量产前装的元年。
    接下来让从蔚来 ET7 开始,一窥市面上的激光雷达是如何内卷的。
    01
    图像级激光雷达,究竟是什么?
    在了解蔚来 ET7 的激光雷达之前,不妨先看一下技术原理。
    激光雷达的技术原理是,由激光发射器发射出一束超短激光脉冲,激光投射到目标物上,发生漫反射,再由激光接收器收到漫反射光,通过测量激光束在空中的飞行时间,计算出目标问题到传感器的距离。
    汽车行业向高阶自动驾驶演进过程中,不断地需要对周围的复杂道路环境进行准确感知,视觉摄像头、毫米波雷达均有其硬件局限性,比如针对大光比、暗光、静止障碍物等难以进行可靠地识别,激光雷达却因较少受到这些因素的干扰,一跃成为自动驾驶感知硬件的「宠儿」。
    通过收集反射光脉冲,重构三维空间数据,激光雷达不仅可以识别前方车辆,还能有效识别路面凸起、井盖缺失、抛洒物、大型静止障碍物等目标物,这些都是当下的摄像头难以完成的任务。
    目前,激光雷达赛道兴起了各种路线,不过主流路线一共有三类:机械旋转式激光雷达、混合固态激光雷达和固态激光雷达。
    每种路线各有优劣,只不过在进行自动驾驶量产落地时,混合固态激光雷达是最为合适的。
    在这里插入图片描述

    因为,机械旋转式激光雷达搭载在很多 Robotaxi 上面,架构很难在对成本有着严苛要求的的量产车上搭载应用。固态激光雷达,由于达不到自动驾驶所需的性能,即长距离、高分辨率,所以有着很大的提升空间。
    混合固态激光雷达,其发射器接收装置固定,光源、探测器同样固定,通过一个旋转或振动的镜子对空间进行扫描。优势在于,一方面,收集光路的口径较大,更易于实现更远的探测距离,分辨率很高。另一方面,上游产业链相对成熟,比如电机、反射镜、透镜等已经比较成熟,适合在现阶段进行大规模的量产。
    由此,综合性能、安全性、和量产等因素,混合固态激光雷达发展最快,已经成为众多新车搭载的产品。
    蔚来 ET7 搭载的激光雷达,采用就是一种混合固态激光雷达,由图达通(Innovusion)提供。
    这款激光雷达与其它 32 个高性能感知硬件,包括:
    • 7 个 800 万像素高清摄像头;
    • 4 个 300 万像素高感光环视摄像头;
    • 5 个毫米波雷达;
    • 12 个超声波雷达;
    • 2 个高精度定位单元;
    • 1 个车路协同感知和 1 个增强主驾感知等。
    这些共同构成了蔚来的超感系统 Aquila。
    蔚来 ET7 的激光雷达采用多边形棱镜设计,专利图如下:
    在这里插入图片描述

    抛开复杂的解释,直接看这款激光雷达的一些特性。蔚来将 ET7 的激光雷达称为 「图像级激光雷达」。所谓的图像级,就是指这款激光雷达生成足够高清的「点云」图像。
    这款激光雷达的两个核心特点是:
    • 探测距离远;
    • 高分辨率。
    根据蔚来公布的信息,ET7 的激光雷达的最远探测距离可以达到 500 米,10% 反射率下能够实现探测距离达 250 米,拥有 120° 超广视角和 0.06°x0.06°超高分辨率,全球首款实现大规模量产的 1550 nm 激光雷达,全球首款向终端用户交付的超远距高精度激光雷达。
    最远探测 500 米的数据,硬件本身能够具备的能力。
    据行业人士透露,「这款激光雷达并没有为了探测到 500 米,去刻意地牺牲其他性能。针对 5 米、10 米、250 米等不同目标物进行探测时都可以达到厘米级的精度,这是硬件本身的特点。」
    蔚来 ET7 与其他车型上的激光雷达相比,到底处于何种水平?
    02
    谁是最强激光雷达?
    一款激光雷达的技术核心是:探测距离和分辨率。
    车辆进入自动驾驶状态时,激光雷达会不断对前方车辆进行实时感知,当遇到危险后(车辆)会选择自动变道或自动减速,乃至自动紧急制动。
    图达通 CEO 鲍君威曾介绍,「车辆想要安全制动,需要留有 100-150 米的提前预警距离。激光雷达收集数据时,1 秒可以收集 10 帧到 15 帧,为了降低误报率和漏报率,必须收集到多帧的数据,这就需要积累 0.5 秒到 1 秒的数据」。
    在这里插入图片描述

    这一过程中:
    • 感知规划决策,需要 0.5 秒到 1 秒;
    • 执行指令制动需要 2.5 秒到 4 秒;
    • 当车辆以 120 公里/小时行驶时,制动刹停的距离需要 50 到 60 米。
    所以,整个距离需要 100 - 150 米左右。要保证留有 100 米提前预警距离,就需要 250 米的标准探测距离。
    然后看下面这张对比图。
    在这里插入图片描述

    目前能够满足 250 米探测距离的激光雷达量产车,仅有蔚来 ET7 和飞凡 R7 两款。剩下的激光雷达中,除了理想 L9 达到了 200 米,其它激光雷达的探测距离主要为 150 米。
    从满足安全性上来讲,硬件上能够提供的探测距离是一个可量化的基础,理论上肯定是探测距离越长,留给车辆决策的时间越冗余。
    另一指标是角分辨率。
    角分辨率主要由扫描模式决定,如上图所示,目前市面上的激光雷达角分辨率主要为 0.2°x0.2°。
    举个例子,一个 20 厘米 x 20 厘米大小的盒子,在 100 米以外的张角大概是 0.1°,如果分辨率只有 0.2°,这个距离上大概率会漏检盒子。如果分辨率为 0.2°,需要在 40 米处才能看到盒子,再积累多帧数据,可能刚刚进入决策环节,车就已经来到盒子前,从而会导致事故发生。
    在这里插入图片描述

    不同于市面上的激光雷达,蔚来 ET7 的激光雷达角分辨率最高为 0.06°。在遇到同样的盒子时,激光雷达可以保证在盒子上探测到至少 4 个点,积累 5 到 10 帧数据后,大概用时 1 秒,距离盒子还剩 70 米,开始进行决策制动,并且留有充足的时间进行制动。
    至于激光雷达的波长,其实各有优劣。
    汽车上的激光雷达波长通常为 905 纳米和 1550 纳米两种。
    根据《九章智驾》的调研显示:
    目前,TOF 激光雷达的激光器以 905 纳米为主,Luminar、图达通及一径科技等用的是 1550 纳米,FMCW 激光雷达的激光器,全部都是清一色的 1550 纳米。
    原因是:
    根据洛微 CTO Andy Sun 说:做任何一个产品,首先要看供应链的成熟度吧,不可能所有零部件都自己造。具体到 FMCW 激光雷达,从原理上来说,激光器不是非得用 1550 nm,905 nm 也可以,用1550 nm 做还是 905 nm 做,技术上没有本质区别;只不过,在光通信领域,跟 FMCW 搭配的都是基于1550 nm 波段的器件,这些器件的供应链相对成熟,成本也可控,相比之下,基于 905 nm 做 FMCW 的成本就太高了。
    考察连续光的人眼安全要求,1550 nm 的光功率上限要比 905 nm 大 40 倍,在 FMCW 的相干放大原理下,理论上 1550 nm 可以比 905 nm 测试 40 倍远的距离。
    据业内资深人士周彦武撰文指出,「高功率激光源需要考虑人眼安全,因此只能选择 1550 纳米激光。1550 纳米激光雷达比传统的 905 纳米激光雷达安全 10 万倍」。
    哪怕在 TOF 中,1550 nm 克服阳光噪声的能力也比 905 nm 强。不过,1550 nm 波长激光雷达的缺点是价格贵。
    在整套感知系统中,激光雷达对于太阳光的直射影响是会比视觉摄像头受到的影响更低,所以在一些特殊场景下激光雷达对于补充视觉缺点有天然的优势。
    最后一个问题,激光雷达的数量,到底是 1 颗好,还是 2 颗好,甚至搭载 3 颗、4 颗会更好?这是影响激光雷达实际效果的最后因素。
    蔚来 ET7 搭载了 1 颗激光雷达,小鹏 G9 搭载 2 颗,阿维塔 11 搭载了 3 颗,沙龙机甲龙甚至搭载了 4 颗激光雷达。
    理论上,搭载更多的激光雷达一定会带来更精准的感知能力,多颗激光雷达可以互为冗余,但也会带来客观上的成本上涨。如果不计成本的话,激光雷达的数量放得越多,肯定对于提升感知有帮助。但量产车毕竟是民用市场,要考虑维保、标定等因素。
    根据某海外自动驾驶公司负责人所说:「数量的多少还是要根据定义整车的时候,主机厂需要激光雷达解决哪些问题,只要这款激激光雷达能够满足这辆车的生命周期,持续支持软件 OTA 能力,一颗二颗都是视情况而定, ET7 和飞凡 R7 的雷达潜力很大。」
    综合以上分析,以性能参数来看,蔚来 ET7、飞凡 R7 的激光雷达最强,理想 L9 以及搭载两款激光雷达的小鹏 G9 次之,剩下的车型在单颗激光雷达表现上会相对较差。至于搭载多颗激光雷达后会带来怎样的性能提升,需要等量产车真正上路后才能进一步对比。
    03
    上路,最强激光雷达表现如何?
    搭载了激光雷达的蔚来 ET7,用户能够感受到怎样的变化呢?
    这个月底,蔚来ET7将正式交付给用户,车上的激光雷达会同步启用,相信大家很快就能在试驾中感受到。
    正式交付给用户之前,仍然先从理论角度上进行剖析。
    先与传统的视觉感知方案作对比。
    相对传统以视觉摄像头、毫米波雷达为主要感知方案的车型来说,搭载激光雷达本身会有一些特别之处。
    当前,视觉摄像头面临「大光比」的行业难题。
    当车辆在白天进入隧道,或者在夜间道路上,在没有夜灯时突然进入隧道,隧道内的光会让光线突然变亮,摄像头会出现几帧到十几帧曝光,这时摄像头感知到的数据就是无效数据,对行车安全产生一定影响。
    在这里插入图片描述

    由于激光雷达的自身特性,蔚来 ET7 的激光雷达基本上不受光线影响。这一点是激光雷达量产车都能做到的。
    在应对异型车时,激光雷达的感知会更为精准。据蔚来方面介绍,「在面对一些常规形态的异型车时,比如平板拖车,会让摄像头在对距离的判断时出现误差,搭载激光雷达的蔚来 ET7,对于这些异型车的距离检测会非常精准」。
    进入城市自动辅助驾驶时,通常还会遇到大型车(公交车、大货车)近距离 cut in,对于视觉摄像头来说,由于很难完整地识别,或者在采集数据时会形成畸变,所以对于目标物的位置、姿态的误差会比较大,导致车辆系统的响应会比较慢。由于蔚来 ET7 不需要通过摄像头对距离进行估算,直接通过激光雷达对近距离检测,测量结果会非常精准。
    由于图达通的激光雷达原始点云的成像质量非常高,不太容易出现跳变,对于目标物的切入路线轨迹的预测会更好。
    可以合理猜测,未来,城市十字路口上的行人在等红灯时,行人的运动姿态变化,蔚来 ET7 可能会通过激光雷达进行感知和预测,对要过十字路口的人进行预测,这些功能最终会通过 OTA 推送给用户。
    在极端场景下,激光雷达也会有更好的表现。
    比如,城市街道内,没有路灯的情况下,如果刚好遇到对面车辆开了远光灯,有行人突然横穿出现,就是俗称「鬼探头」,摄像头是很难捕捉到这一目标的。激光雷达对于光照几乎没有影响,所以可以及时捕捉到目标物,对用户做出警告,如果用户没有给出反应后,车辆就会触发AEB自动紧急制动功能。
    当然,蔚来 ET7 的激光雷达也面临一大行业难题,就是「拖影」。这是指,在对高反射率物体进行扫描时,一些激光雷达不仅会对真实位置进行成像,还有可能在其他位置产生形状类似的虚假成像。拖影又被称为 「鬼影」。
    据行业人士透露,蔚来 ET7 的激光雷达,从硬件层面其实并没有把握百分百保证解决「拖影」问题,如果激光雷达无法进行很好的处理,对于后面的自动驾驶算法会有一定的挑战。不过,在测试中,极小量的鬼影不会对目标物检测造成太大影响。
    与其它激光雷达车相比,蔚来 ET7 在理论上也会有更好的表现。
    由于蔚来 ET7 的探测距离和角分辨率表现更好,猜测,这款车在实际的自动驾驶状态下,对于目标物的漏报率会更低。由于这款车的激光雷达硬件足够好,会带来更高的分辨率,有助于降低误报率。
    鲍君威曾经举过一个例子,如果从车上抛一个 20 厘米 x 40 厘米的枕头,在 100 米以外,图达通的激光雷达探测后可以返回 5 到 7 个点。图达通的激光雷达可以探测到 100 米之外 20 厘米 x 40 厘米大小的抛洒物,点云清晰。同等条件下,标准探测距离为 150 米的激光雷达,点云较难探测到同样距离处的抛洒物。
    在面对同一个抛洒物时,探测能力更强的蔚来 ET7 对目标物的感知会更加精准,为自动驾驶准确地给出自动减速或者自动变道的指令提供依据,最终让自动驾驶的运行更加接近人类老司机。
    小结
    除了特斯拉坚持依赖视觉感知方案外,更多的车企正在加入激光雷达大军。
    蔚来 ET7 的激光雷达会在车辆行驶过程中一直处于启动状态,对周围环境进行实时扫描感知,与视觉摄像头互为冗余,从而补足单一感知硬件的补足。当规模量产后,相信激光雷达的成本是可以被摊薄的。
    朝未来看,激光雷达硬件正在飞速发展。
    据行业人士透露,如果激光硬件能力不足,需要探测的信息抓取不到的。蔚来 ET7 的这一代激光雷达硬件在未来三到五年,甚至十年都不过时。接下来需要等待的,就是蔚来 ET7 的自动驾驶软件的持续迭代。至于其它激光雷达车型,可能要考虑到硬件换代的因素。
    作为一款对标宝马 7 系的车,蔚来 ET7 的定位决定了,这款车的激光雷达基本代表了现有量产车的能力天花板。有这款车跑在前面,会更早看到自动驾驶时代的大规模普及。

    参考链接
    https://mp.weixin.qq.com/s/yOVWNVepQru0GlDvZG6LHA
    https://baijiahao.baidu.com/s?id=1715559306625289798&wfr=spider&for=pc

    展开全文
  • 大家好!今天的内容很硬核!优质公众号「数据STUDIO」号主云朵君给大家整理了这篇数据分析师/数据挖掘工程师等数据工作者必备技能学习路线,并免费分享给大家他私藏已久的各种资料,包括电子书...

    大家好!今天的内容很硬核!

    优质公众号 数据STUDIO号主云朵君给大家整理了这篇数据分析师/数据挖掘工程师等数据工作者必备技能学习路线,并免费分享给大家他私藏已久的各种资料,包括电子书、思维导图、南京大学入门视频教程!

    文中蓝色下划线部分可直接点击跳转到相应文章。

    数据分析职业晋升路径。

    供大家参考

    职业薪资
    数据分析专员8-15K
    数据分析师12-20K
    资深数据分析师20-35K
    数据分析专家35-60K
    数据科学家60K-

    数据分析在企业管理运营中的应用

    主要看在战略规划、市场营销、生产管理、物流采购、财务管理、人力资源等方面的应用。

    数据分析项目参与角色


    项目成员参与角色
    业务人员业务人员主要负责提出业务需求、
    从业务角度检验分析结果的准确性、
    使用分析结果指导业务工作
    分析人员分析人员负责数据的分析挖掘及制作分析报表、
    汇报分析成果等工作
    IT技术人员技术人员提供必要的IT 技术支持,
    比如应用网络爬虫搜取数据、创建数据仓库、取重要字段等

    数据人才工作中的技能需求

    一、必备技能

    数据分析基础技能、数据库应用技能、商业智能分析技能、数据挖掘数学基础

    数据分析基础技能

    此部分主要是针对运用EXCEL工具,对一般小数据进行数据分析。

    你需要的Excel常用函数都在这里!
    看完这篇Excel数组简介,你也是Excel高手了!
    VLOOKUP很难理解?或许你就差这一个神器!

    分享一个Excel常用函数思维导图

    关注????公众号:数据STUDIO   
    后台回复【excel函数】获取。

    数据分析思维技能

    这里送给大家分享一本《精益数据分析》

    关注????公众号:数据STUDIO  
    后台回复【电子书】获取。

    数据库应用技能

    主流关系型数据库

    数据库特点
    Oracle运行稳定、可移植性高、功能齐全、性能超群,适用于大型企业
    DB2速度快、可靠性好、适用于海量数据、恢复性极强,适用于大中型企业
    MySQL开源、体积小、速度快,适用于中小型企业
    SQL server全面高效、界面友好易操作,但是不跨平台,适用于中小型企业

    这里可以从MySQL学起,其使用人数相对较多。只要掌握SQL语言即可。SQL 是一种结构化查询语言 Structure Query Language ),它是国际标准化组织( ISO )采纳的标准数据库语言。

    擅用子查询,让复杂问题简单化
    MySQL中的通配符与正则表达式
    MySQL高频面试题:一维表转二维表
    一文搞定MySQL多表查询中的表连接(join)

    这里送给大家一本《MySQL必知必会》

    关注????公众号:数据STUDIO 
    消息后台回复【电子书】获取

    商业智能分析技能

    这部分主要是学习一些BI工具,将数据分析结果漂亮的可视化出来,很多公司运用的BI工具不相同,Tableau、PowerBI、MicroStrategy、Qlikview、FineBI、永洪 BI。所有工具都是无关紧要,重要的是如何运用这些工具,将数据分析师的数据分析结果完美可视化出来。

    我这边用了两款(Tableau、PowerBI)网上有挺多测评,这里就不多说。但使用Macbook的小伙伴需要注意了,PowerBI只能在Win系统上使用;Tableau两个系统都可以使用。

    这本分享大家一本7天入门PowerBI


    还有可能需要数据化运营、用户增长等相关知识:

    关注????公众号:数据STUDIO 
    消息后台回复【电子书】获取

    数据挖掘数学基础

    这部分注意是统计基础知识,包括

    • 微积分基础(函数、微分、积分)

    • 线性代数基础(向量、行列式、矩阵、特征值与特征向量等)

    • 描述性统计方法(集中趋势、离散程度等)

    • 抽样估计(抽样分布、样本均值与方法分布)

    • 假设检验、列联分析、方差分析、相关分析、回归分析等

    这里送大家两本书一个思维导图:《深入浅出统计学》《统计学》

    关注????公众号:数据STUDIO 
    消息后台回复【电子书】获取

    二、Python相关

    Python编程基础、Python数据清洗、Python数据可视化、Python统计分析、Python机器学习

    Python编程基础

    只需七步!零基础入门Python变量与数据类型
    IF-While-For 轻松掌握Python流程控制语句  
    入门必备!面向对象编程之Python函数与类  
    一文搞懂文件操作与异常模块   
    Python八种数据导入方法,你掌握了吗?

    Python数据清洗

    利用Python进行数据预处理,Python 完成数据获取、数据清洗、数据探索、数据呈现、数据规模

    利用Python进行数据预处理,Python 完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python 基础知识,如何从 CSV、Excel、XML、JSON 和 PDF 文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和 API 中提取数据。

    需要学会如何利用各种 Python 库(包括 NumPy、pandas 等)高效地解决各式各样的数据分析问题。

    6个步骤搞定金融数据挖掘预处理
    超级攻略!Pandas\NumPy\Matrix用于金融数据准备
    进阶法宝!掌握这些NumPy\Pandas方法,快速提升数据处理效率 

    时间序列 | pandas时间序列基础
    时间序列 | 字符串和日期的相互转换
    时间序列 | 时期(Period)及其算术运算
    时间序列 | 重采样及频率转换
    时间序列 | 从开始到结束日期自增扩充数据

    Python数据可视化

    常用的可视化第三方库,包括matplotlib、seaborn、PyEcharts

    这里需要掌握常用的可视化图形,包括饼图、条形图、柱状图、线性图、散点图等

    当Sklearn遇上Plotly,会擦出怎样的火花?
    Pandas+Seaborn带你玩转股市数据可视化  
    用可视化探索数据特征的N种姿势
    太厉害了!Seaborn也能做多种回归分析,统统只需一行代码
    就是这么简单!Pyecharts绘制可视化地图专辑

    Python机器学习

    这里需要学习机器学习基本思路、常用算法分类、算法库等。

    这里可以重点学习机器学习算法库Scikit-Learn。

    2007年,Scikit-learn首次被Google Summer of Code项目开发使用,现在已经被认为是最受欢迎的机器学习Python库。

    如果你正在学习机器学习,那么Scikit-learn可能是最好的入门库。其简单性意味着很容易入门,通过学习Scikit-learn的用法,我们还将掌握典型的机器学习工作流程中的关键步骤。

    需要重点掌握简单线性回归、K-近邻算法、特征提取、多元线性回归、逻辑回归、朴素贝叶斯、非线性分类、决策树回归、随机森林、感知机、支持向量机、人工神经网络、K-均值算法、主成分分析等。

    机器学习 | KNN, K近邻算法
    机器学习 | KMeans聚类分析详解
    机器学习 | 简单而强大的线性回归详解
    机器学习 | 线性回归中的多重共线性与岭回归
    机器学习 | 深度理解Lasso回归分析
    机器学习 | 多项式回归处理非线性问题
    机器学习 | 朴素贝叶斯理论
    机器学习 | Sklearn中的朴素贝叶斯全解
    机器学习 | 决策树模型(一)理论
    机器学习 | 决策树模型(二)实例
    机器学习 | 逻辑回归算法(一)理论
    机器学习 | 逻辑回归算法(二)实例
    机器学习 | 支持向量机1--线性SVM用于分类原理
    机器学习 | 支持向量机2--非线性SVM与核函数
    机器学习 | 一文掌握sklearn中的支持向量机
    机器学习 | 集成算法
    集成算法 | AdaBoost
    集成算法 | 随机森林分类模型
    集成算法 | 随机森林回归模型
    机器学习|关联规则与购物篮分析实战

    Python网络爬虫

    网络爬虫通过爬虫技术自动高效地获取互联网中指定的信息。如果你是入行数据采集人员、或你在需要掌握一定的数据采集能力的职位、或对数据非常感兴趣的小伙伴们,这个技能最好了解下。

    这部分内容需要对于不同目标的小伙伴们要求不尽相同。

    如果你只是获取一些简单的网页数据,你只需要对网络爬虫有一定的认识、了解Web前端、多种网络请求模块中的一种、网页数据的多种解析方式中的一种、了解爬取动态渲染的信息。

    如果你对网络爬虫有更加浓厚的兴趣,或更多的岗位需求的小伙伴们,你可以学习更多的爬虫技术,可以再了解多线程与多进程爬虫技术、App抓包工具,识别验证码、Scrapy爬虫框架等。

    网络爬虫 | XPath解析
    网络爬虫 | Beautiful Soup解析数据模块  
    requests 扩展 | Requests-HTML(增强版)
    requests 扩展 | Requests-Cache(爬虫缓存)
    网络爬虫 | 动态渲染信息爬取--Ajax
    网络爬虫 | selenium 爬取动态加载信息
    多线程与多进程 | 多线程
    多进程与多线程 | 多进程
    运用Python爬取并分析全国5w+新楼盘近况
    运用Python抓取二手房数据的两种常用方法
    爬取24w+弹幕信息后,我果断去追剧了

    30+ Python 经典电子书

    关注????公众号:数据STUDIO 
    消息后台回复【福利六】获取

    四、数据分析项目

    分享一个能够写在简历里的企业级数据挖掘实战项目
    开放三胎了!我用Excel可视化分析了政策背后的用意
    2021高考热度最高专业,大数据分析告诉你

    五、南京大学公开课

    向大家推荐一个南京大学的Python数据分析公开课,由浅入深,非常适合入门,每章都配有代码和练习题!

    课程大纲

    视频及课件

    B站:  
    https://www.bilibili.com/video/BV1Y7411o7JP/

    课件获得方式:

    关注????公众号:数据STUDIO 
    消息后台回复【南京大学】获取

    长按????关注- 数据STUDIO - 选择星标,干货速递

    展开全文
  • Python抓取百度地图的数据

    千次阅读 2020-11-25 20:42:15
    但架不住它实在挺有趣的,因为它带来的是短时间内能看到的最大可视化可利用的成果,可以极大增加你学习路线上的乐趣。虽然我说没技术含量,我的意思不是说大家不要去学这个东西,而是说,身为程序员(划重点)不要把这...

    受一个跨专业在努力学习Python的好朋友所托,算一个约稿。

    我之前发朋友圈(大概)说我认为爬虫是最没技术含量的东西...包括现在也这么觉得,因为这个东西对程序员来说可能是最简单的东西了...但架不住它实在挺有趣的,因为它带来的是短时间内能看到的最大可视化可利用的成果,可以极大增加你学习路线上的乐趣。

    虽然我说没技术含量,我的意思不是说大家不要去学这个东西,而是说,身为程序员(划重点)不要把这个看成是什么很厉害的东西,它只是一个辅助工具,真正的难点是对你爬取的数据的后续处理...

    我前段时间看到一篇文章,是通过Python把微博上薛之谦和李雨桐微博底下的评论全部扒了下来,然后通过jieba分词,最后生成词云来看广大网民在想些什么,最后是脑残粉依旧无脑支持,路人怕反转等实锤...不过说实话这场战斗我真的看吐了,我不想看每天刷刷微博虎扑都强行给你往眼睛里灌……

    说了这么多废话,总是意思就是我自己打自己脸了,爬虫虽然没技术含量,但真的有点好玩儿...接下来进入正题说说怎么用Python去爬百度地图的东西。

    简单来说,对于一个动态页面,浏览器获取数据无非是通过GET或POST两种方式,然后用参数告诉它我想要什么。

    那么怎么去获取这些参数呢?以百度地图为例。

    最粗暴的方法就是,进入map.baidu.com,摁下F12,然后切换到Network下,随便搜一点东西,就会看到有源源不断的东西流进来。

    20170929171502_603.jpg

    注意到,上方URL后面跟着的是 ?newmap=1&s=con%26wd%3D

    字样,我们通过排序方式找到和这个字样相同的文件,通常选择第一个,当然其他的也可以看看有没有我们想要的参数。

    然后看到这里就是我们想要的参数啦:

    20170929171508_878.jpg

    参数意义是不明的,得自己去试,最后我用了这么几个参数,发现应该是可以用的:

    20170929171513_81.png

    以字典的形式存储在Python文件里,这里要注意的是城市代码,这个要通过百度官方提供的文档去获取,靠猜是猜不到的。

    接下来就是一些很常规的步骤,用正则表达式去匹配我们想要的结果,这里我对参数的设置是看看有一个城市的必胜客数量,地址和联系方式:

    20170929171534_171.png

    最后通过改变字典对应键的值来更改希望搜索的城市:

    20170929171523_420.jpg

    整个爬虫就完成了,总结一下就是先获得参数,然后通过代码模拟浏览器提交给服务器,最后得到服务器返回的结果,所以要获得结果并不难,如何去处理这些结果然后提取你想要的东西才是关键。

    展开全文
  • 基于RGB-D相机的机械臂无序抓取系统

    千次阅读 2021-01-24 00:00:00
    ▲长按加微信群或投稿 ▲长按关注公众号 3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。...
  • python爬虫之技术路线

    2020-03-14 20:26:29
    介绍下从最寒碜的抓取静态页面到最后成为分布式的爬虫大神要经历啥
  • 随着信息化进程的加快,传统数仓越来越无法适应海量数据存储和分析的需求,天下苦数据仓库久矣!只能存储结构化数据,无法采集存储非机构化数据无法存储原始数据,所有数据须经过ETL清洗过滤离线数仓...
  • &二、通过指定url获取,网页部分想要的数据。package www.seach.test;import java.io.BufferedInputStream; import java.io.CharArrayWriter; import java.io.IOException; import java.io.InputStreamReader; ...
  • 数据抓取是一门艺术,和其他软件不同,世界上不存在完美的、一致的、通用的抓取工具。为了不同的目的,需要定制不同的代码。不过,我们不必Start from Scratch,已经有许多的基本工具、基本方法和基础框架可供使用。...
  • 别说是要在MAC上抓取数据,你就是手机上都没有问题。 神箭手 是一站式大数据开发平台,所以你可以在上面开发云爬虫程序,拥有技术基础的同学可以大显身手,实现非常强大的网络爬虫。 没有开发经验的小白同学一...
  • 数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby    数据抓取是一门艺术,和其他软件不同,世界上不存在完美的、一致的、通用的抓取工具。为了不同...
  • 数据爬取到可视化分析

    千次阅读 2021-01-06 21:57:09
    文章目录一、数据爬取1.python简介2.什么是网路爬虫3.网页解析4.数据爬取流程二、数据清洗1.数据格式统一处理2.信息标题特殊字符处理三、数据分析以及可视化1.什么是pandas和可视化2.数据文件的读取和写入3.数据分析...
  • 本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第二部分,第一部分实验了用xslt方式一次性提取静态网页内容并转换成xml格式。留下了一个问题:javascript管理的动态内容怎样提取?那么本文就回答这...
  • 1、 数据抓取 巧妇难为无米之炊,我们首先要做的第一步是想办法抓取到评论数据。这里我们抓取的是豆瓣网上关于《大秦赋》的所有评论数据,选择豆瓣网原因很简单,首先是数据比较齐全,其次反爬难度并不大。 其次来...
  • 导读:回顾2021年,由于技术变革、行业理念创新以及政策风向的变化,在数据中台领域兴起了许多热门概念。我们盘点了过去一年中数据中台行业十大热门关键词,包括了云原生、隐私计算这类热门技术;国...
  • 数据采集技术简介

    千次阅读 2020-04-13 12:28:00
    数据采集技术简介前言本系列的技术文章不涉及实现细节,仅探讨实现思路。由于数据仓库不仅仅是一个理论概念,其数据质量等原则包含了大量的技术实现细节,因此从数据采集开始,到数据处理,至最终的...
  • ▲长按加微信群或投稿 ▲长按关注公众号 3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、...点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕...
  • 数据抓取是一门艺术,和其他软件不同,世界上不存在完美的、一致的、通用的抓取工具。为了不同的目的,需要定制不同的代码。不过,我们不必Start from Scratch,已经有许多的基本工具、基本方法和基础框架可供使用。...
  • 作者 |李一鸣编辑 |杨怡(AI科技评论)抓取是人类和物体最基础的交互方式,机器人和物体之间的关系也是一样。然而,让机器人具有比肩人类的抓取能力并非易事,尤其是杂乱场景下对通用物体的抓...
  • 2020年数据术语的故事

    2021-01-21 00:00:00
    点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源2020年整个技术圈子要说话题最多的,应该是大数据方向。新感念层出不穷,数据湖概念就是其中之一。这篇文章是关于数据仓库、数据湖、...
  • 通过多线程抓取招标数据2.  精准提取需求目标数据3.  数据解压标注,IO优化4.  数据清洗5.  分析标的数据,招标发布日期频率,标的物金额,标的物类型6.  数据...
  • 针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的...
  • python 抓取网页数据

    2016-06-06 21:03:19
    利用python进行简单的数据分析 在中关村在线进行抓取数据,所使用...1、首先要进行分析网页的HTML,我们所要抓取数据是根据销量排名的手机信息,所以主要需要抓取手机的型号、价格、销量,按照“由小见大”的方法来

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,921
精华内容 1,968
关键字:

数据抓取技术路线