精华内容
下载资源
问答
  • 数据新闻报道必备的六款开源工具

    千次阅读 2017-09-01 10:50:00
    文章讲的是数据新闻报道必备的六款开源工具,上世纪八十年代在新闻院校里求学时,为故事收集数据意味着需要拿出大量时间研讨纸质文档或者观看缩微胶片。  但随着时间推移,如今的状况已经天翻地覆。尽管印刷资料...
    文章讲的是 数据新闻报道必备的六款开源工具上世纪八十年代在新闻院校里求学时,为故事收集数据意味着需要拿出大量时间研讨纸质文档或者观看缩微 胶片

      但随着时间推移,如今的状况已经天翻地覆。尽管印刷资料仍然有其独特作用,但越来越多的信息开始以网络为载体呈现在新闻工作者面前。在技术成果的有力推动下,数据新闻迎来了辉煌的繁盛时期。从基本概念上讲,数据新闻是指利用人口普查数据、犯罪统计以及其它统计结果了解并讲述事件的活动。

    盘点:面向数据新闻领域的六款开源工具

      目前市面上存在大量强劲但却价格不菲的工具,足以帮助记者同志们收集、精简、分析事件数据并以可视化方式呈现结果。但也有不少规模较小或者预算紧张的新闻机构甚至是独立记者无力承担这些工具。不过没必要担心,上帝关上一道门的同时、总会为我们留下一扇窗。

      在开源阵营中,同时存在着不少足以帮助数据记者们高效快捷完成日常任务的优秀工具。在今天的文章中,我们将着眼于其中的六款佼佼者,看看它们如何切实帮助数据记者获得自己需要的信息。

      数据获取

      记者们能够在网络上找到的数据大多数能够以电子表格或者CSV、PDF文件的形式进行下载。但也有不少信息内嵌于网页当中。相对于手动复制并粘贴这些信息,大多数数据记者不约而同地选择了直接保存页面。这种处理方式实际上是利用自动化工具获取内嵌于网页当中的信息,并将结果保存为HTML表格形式。

      如果大家或者所在企业中的其他同事对技术充满好奇,那么Scrapy(官方网站:http://scrapy.org/)应该会成为一款理想的工具。Scrapy利用Python编写而成,属于一款命令行工具,能够快速从网络当中提取结构化数据。Scrapy在安装与设置方面难度比较高,但一旦投付运行、大家就能够充分享受它所带来的多种便利功能。精通Python的程序员还可以对这些功能进行快速扩展。

      电子表格可以说是数据记者们不可或缺的基本工具之一。在开源领域,LibreOffice Calc(官方网站:http://www.libreoffice.org/discover/calc/)可算应用范围最广的电子表格编辑工具了。Calc的作用并不限于查看并修改数据,其网页查询导入过滤器允许大家将Calc指向特定网页,并提取包含于其表格中的数据甚至页面内的全部表格。尽管它在处理速度与效率上无法与Scrapy相提并论,但Calc仍然能够很好地完成我们交给它的任务。

      处理PDF文档

      也许是无心之举、也许是有意为之,目前网络上有不少数据都以PDF文件的形式存在。事实上,大多数PDF文档都包含着重要的有价值信息。如果大家在工作中处理过这类文档,就会意识到从中提取数据有多么困难。

      这时候就轮到DocHive出场了,这款工具由Raleigh Public Record开发,专门用于从PDF文档中提取数据。DocHive能够根据PDF的现有内容生成扫描文档。它会对PDF进行分析,将其划分成多个细小片段,而后利用光学字符识别技术读取其中的内容并将文本信息整理成CSV文件。感兴趣的朋友可以点击此处了解更多关于DocHive的细节信息。

      Tabula(官方网站:http://tabula.nerdpower.org/)与DocHive比较相似。它的设计目的在于获取PDF当中的表格信息并将内容转化为CSV文件或者微软Excel电子表格。大家需要做的只是在PDF中找到需要的表格并加以选定,Tabula会自动完成后续工作。其执行速度很快,效率也相当高。

      数据整理

      通常情况下,大家提取到的数据当中可能包含拼写与格式错误或者字符编码问题,这会直接导致数据信息变得不一致且无法正常使用——这时候就需要数据整理工具出场了。

      如果大家需要处理的数据集规模较小,其中只包含几百行信息,那么完全可以使用LibreOffice Calc配合人工检查的方式完成整理。但如果大家面对的数据集规模庞大,那么人为处理将成为漫长、缓慢而且效率低下的痛苦过程。

      下面请出OpenRefine(官方网站:http://openrefine.org/)。它能自动对数据内容进行修正与整理。OpenRefine可以实现数据排序、自动查找重复条目并完成数据记录。OpenRefine的真正能力体现在facets身上。Facets类似于一款电子表格过滤器,能够轻松找出其中的空白单元格与重复数据,并掌握特定数值在数据中的出现频率。

      以上还仅仅是OpenRefine工具的一小部分功能。感兴趣的朋友可以点击此处查看官方说明文档,从而了解更多与OpenRefine相关的细节信息。

      数据可视化处理

      获取到数据之后,编写新闻报道就变得非常顺畅易行了。不过如果大家需要对数据内容加以汇总、沟通与理解,那么可视化处理同样不可或缺。维基百科对信息图(即infographic概念)的重要意义与作用进行了深入阐述,大家不妨找机会读读看。

      要想创建出行之有效的可视化成果,大家不一定要拥有出色的图形设计能力。如果我们的实际需求不太复杂,那么Data Wrapper(官方网站:https://datawrapper.de/)已经足以满足大家的对可视化的期望。这是一款在线工具,能够将可视化成果创建任务分成四步来进行:从电子表格中复制数据、对数据加以描述、选择需要的图像类型、最后创建图像。Data Wrapper当中提供的可选图像类型算不上丰富,但整个操作过程极为简单。

      很明显,我们发布的这份数据新闻开源工具清单还远称不上全面。不过其中提到的各类选项完全能够为预算紧张的新闻单位或者独立单干的新闻工作者提供坚实的业务平台,帮助他们利用数据勾勒出报道思路并最终构建起完善的新闻稿件。


    作者:核子可乐 编译

    来源:IT168

    原文链接:数据新闻报道必备的六款开源工具

    展开全文
  • 2019全球数据新闻奖揭晓

    千次阅读 2019-06-16 12:40:55
    大数据文摘授权转载自RUC新闻坊编辑:刘长宇、刘畅、段钇男、葛书润、肖鳕桐、姚思妤、欧阳婕、马冰莹2019年全球数据新闻奖于当地时间6月14日(北京时间6月15日)在希腊揭晓,本次评选共收到参赛作品607件,经过初选...

    大数据文摘授权转载自RUC新闻坊

    编辑:刘长宇、刘畅、段钇男、葛书润、肖鳕桐、姚思妤、欧阳婕、马冰莹


    2019年全球数据新闻奖于当地时间6月14日(北京时间6月15日)在希腊揭晓,本次评选共收到参赛作品607件,经过初选,103件作品入围决赛并参与12个奖项的角逐,作品来自美国、英国、德国等26个国家和地区,囊括了包括华尔街日报、卫报、路透社在内的73个媒体组织,财新网和解放日报等中国媒体同样榜上有名。经过最终评选,来自美国、阿根廷、德国等国家的13件作品获奖。


    本届大赛概览


    2019年全球数据新闻奖的作品来源地是2012年以来覆盖最广的,囊括的国家和地区数量创造了历史记录,数据新闻正在走向全球。从来稿作品数量上看,美国以139件投稿作品排名第一,英国和德国紧随其后,中国大陆以45件投稿作品排名第四位。相比去年,本届大赛有许多新加入的成员,突尼斯,约旦,巴西,蒙古等国家也纷纷加入并投稿参赛。



    数据新闻业在亚洲成长迅速,2019年收到的608件投稿参赛作品中,有30%即181件来自亚洲,相比2018年增长了4%,而在2017年,这一比率只有20%。


    本次评选共有十二个奖项类别,以表彰数据新闻领域的优秀调查报道,个人记者,突发新闻报道及优秀团队。 从各类别的投稿量来看,今年热度最高的奖项是“年度最佳数据可视化”,收到了127件投稿作品。


    (以上文字编译及基础数据来自2019全球数据新闻奖官方网站稿件,稿件链接:https://datajournalismawards.org/2019/04/26/discover-new-actors-of-data-journalism/)


    以下小编为大家整理了各奖项获奖作品及其简要介绍:


    年度最佳数据可视化奖


    拯救恒河的竞赛


    机构:路透社美国分社

    国家/地区:美国

    通过使用令人震撼的照片,动态地图和大量数据,该作品质疑了印度政府能否兑现承诺:在明年之前对污染恒河的大量工业废水和让4亿人饮用水处于不安全状态的未经处理的污水进行有效地治理。作品既通过生动的照片呈现了成千上万忠实教徒在恒河边洗澡、饮水、播撒骨灰的情况,又通过具体的数据展示了恒河的受污染情况,每天约有来自160多个主要城市下水管道的60亿升有毒废水,蔓延2500公里,流进恒河。


    作品截图


    作品二维码链接


    年度调查报道奖


    《谁死于飓风玛利亚》(Hurricane Maria’s Dead)


    机构:美联社、调查性新闻中心、Quartz网

    国家/地区:美国

    飓风玛利亚真实死亡人数上千人,然而波多黎各政府只公开了64名死者的信息。《谁死于飓风玛利亚》收集了来自波多黎各人的数百个故事,他们称其亲属死于飓风玛丽亚,但被政府忽视了,死者姓名与波多黎各政府在回应波多黎各调查性新闻机构诉讼时公布的政府死亡记录相匹配。该报道采访了约300个死者家属,并使用疾病控制和预防中心的灾害相关死亡证明审查了近200个死者的记录。鉴于波多黎各政府对飓风玛丽亚的死亡人数统计不力,波多黎各调查性新闻机构、Quartz网和美联社调查了死于飓风的死者详情和死亡原因。该项目调查基于大型调查、电话采访和政府诉讼,通过在线调查创建死亡者数据库,对玛丽亚死亡人数的范围和性质进行了史无前例的分析,是一种将现场报道与众包和数据新闻结合的新颖方式。


    作品截图


    作品二维码链接


    谷歌最佳大型数据新闻团队 


    阿根廷民族报数据团队


    机构:阿根廷民族报

    国家/地区:阿根廷

    民族报数据团队擅长使用公开数据敦促政府承担起应尽之责,以及进行连续不断的数据监测,以倒逼公共部门透明度的提升。该团队致力于通过自身作品,将开放的社会理念传递给公民,并通过与NGO和高校合办的编程马拉松、线下交流会和工作坊等活动,建立一个更为开放、紧密的社群。他们将所有的工作都基于技术、数据、开放和合作,并为数据公开摇旗呐喊。同时,他们也十分注重数据挖掘的能力,认为“每一个应用程序或数据平台都应被充分地开掘利用”。其最近的创新技术应用包括数据科学和内容的自动化。


    团队代表作《司机笔记》截图


    作品二维码链接


    美联社最佳小型数据新闻团队


    “仇恨式犯罪”观察(Hate crime watch)


    机构:印度“事实核查网”(FactChecker.in)

    国家/地区:印度

    印度公民因宗教仇恨而产生的犯罪行为观察(简称“仇恨式犯罪”观察)是印度致力于记录由于宗教偏见导致的仇恨式犯罪行为的数据库,是这一领域的先驱者。近几年来,印度的宗教冲突暴力行为持续上升,由于数据的缺乏,这类犯罪行为被称为“遗失的事件”而远离公众视野。“仇恨式犯罪”观察为这类暴力行为的增长提供了一手的统计视角,此外,该项目通过地图映射及过滤器的使用,展现了“仇恨式犯罪”的一些特定的地理、时间和动机模式,这些模式具有象征意义和指示作用,能够帮助公民社会有效的应对日益增多的暴力事件。


    作品截图


    作品二维码链接


    突发新闻数据使用奖(36小时以内)


    印度尼西亚坠机事故


    机构:路透社美国分社

    国家/地区:美国

    去年,一架载有189人的狮航客机从印尼首都雅加达起飞后不久坠入大海。在24小时内,路透社图表部门就将飞行跟踪数据拼合在一起,发布了一份深入的、直观的报告。


    飞行跟踪数据来自Flightradar24和波音公司的事故数据,地图绘制主要运用QGIS,在处理数据时,团队还和各个机构和专家进行了交谈,收集了多媒体内容,并绘制了飞机结构的矢量图。


    评审认为,“这是一个突发新闻视觉呈现的教科书般的案例,以一种美丽的方式,让你一眼就知道需要知道的一切。”


    作品截图


    作品二维码链接


    荣誉题名:一表记录福特和卡诺瓦回避问题的时刻


    机构:Vox网站

    国家/地区:美国

    Vox网站认为,最高法院提名人布雷特·卡瓦诺在被指控性侵犯后,在参议院听证会上没有直接回答相关问题。与此同时,指控人福特(Christine Blasey Ford)的回答却直截了当。为了捕捉这种差异,他们在24小时内分析了证词,将不可感的文本变成直观的颜色条。具体来说,他们用记录下福特和卡诺瓦回答问题的情况,用蓝色代表回答问题,用粉色代表拒绝回答或没有直接回答。


    评审认为,报道含糊其辞的答案很难,把它形象化就更难了,而Vox的图表优雅而有效地讲述了这个故事。


     (可交互的图表:读者能点进每一个细颜色条,然后查看该部分的听证文本)


    作品二维码链接


    约翰·S·奈特新闻奖学金 数据新闻创新奖


    雷德梅瑟(Radmesser )


    机构:Der Tagesspiegel

    国家/地区:德国

    害怕汽车过于靠近自己是人们不敢在城里骑自行车的重要原因之一,Radmesser项目的发起就是为填补柏林地区骑车安全距离相关信息的空缺。工作团队由记者,物理学家和机器学习专家跨界组建,他们独立研发的100个测量汽车超车距离的传感器分配给100名志愿者,经过两个月的数据收集和三个月的数据分析和可视化处理,于12月上传了这组交互式数据新闻。


    Radmesser项目将测量报告、民意调查、公民科学、数据新闻和创新技术相结合,收集到了柏林地区第一份可靠的骑自行车安全距离的可靠数据。在超过13.000公里的记录距离上,总计测量到16.700次超车,其中56%为非法靠近,证明了公众以往的主观恐惧感——超车的确是柏林街头的一个重要问题。


    在风格俏皮的交互式新闻网页中,作品综合考量了包括停车、道路建设、骑行受伤状况在内的诸多相关因素,围绕着骑行安全的主题划分出九个小专题。Radmesser呈现以多图像、少文字、图表作为核心叙事的整合模式。骑行者视角的实景路况视频、精细可交互的街区交通网络图,这些主体性极强的设计将吸引读者走上“柏林街头”,展开一场干货满满的线上漫游。


    作品截图


    作品二维码链接


    Mytilineos最佳个人作品集


    Eva Belmonte


    机构:Civio

    国家/地区:西班牙

    Eva Belmonte 最知名的项目“我们的每日公报”致力于为广大普通受众解读诸如法令、任命、补贴等政府公文。她认为报道“政策而非政治”将对报道政府行为大有裨益。技术在她的报道中扮演着重要的角色,作为一名专注于数据新闻的记者,她推动了数据库的建立。例如制药行业向医生付款的数据库使Civio成为了西班牙唯一能够报道相关主题的媒体。她认为,通过公共服务途径、开放透明的方法创造性地使用普通的许可使信息被重新利用起来是她工作的核心价值。



    获奖者照片


    作品二维码链接


    SEMRush年度最佳数据新闻网站


    The Pudding


    机构:The Pudding

    国家/地区:美国

    今年SEMrush最佳数据新闻网站奖颁给了The Pudding,评委会评价其“设定了媒介的高水位线”。The Pudding项目致力于对那些兼具信息量和娱乐性的争议性话题进行视觉化,来努力使复杂的观点变得容易理解。其目标是推动公共话语形成,避免媒介的“回声室效应”(Media Echo Chambers)。


    The Pudding由6名全职记者和工程师组成的团队进行运作。2019年2月,他们对网站进行了改版:通过对“Greatest Hits”部分增加多种标签,使得每条视觉作品的衡量标准更多元。例如 “MostBuzzworthy”表示社交媒体上最吸引人分享的作品,“Most Engaging”意味着观众在页面上花费的时间更多等。


    The Pudding网站作品的代表特点是庞大的数据收集、复杂的数据处理和奢华但不失直接的设计。在The Pudding网站(https://pudding.cool/)最新发布的作品Best Year in Music中,作者便收集了1960年以来Billboard历年榜单前五名来探究音乐领域的变革情况。读者可以自行选择感兴趣年份,在聆听音乐的同时回顾音乐变迁史。


    网站截图


    网站二维码链接


    开放数据奖


    OCCRP数据


    机构:有组织犯罪和腐败报告项目 (OCCRP)

    国家/地区:波黑

    为了调查诈骗、贿赂、政府捕获和洗钱等案件,有组织犯罪和腐败研究项目(OCCRP)及其成员中心将泄露的文件集、公开发表的记录和搜集到的数据整合到了一个平台中,使资金流向得以追踪。OCCRP的数据规模在调查性新闻界是前所未有的——一共有21 TB的文件和1180个数据库表,涉及公共利益数据的总规模为1.2 TB。OCCRP的数据收集和分析具有较大的规模和丰富的多样性,提供了一个独特的经济和政治权力搜索平台。该平台是用户友好型平台,支持多种语言和字母,具有光符识别、指定实体提取等实用功能。该平台在利用开放数据方面做出了领先的示范,通过增强数据集的可用性、质量和可访问性使自身更加强大。


    作品截图


    作品二维码链接


     年度数据新闻应用奖


    《罪犯移民的神话》TheMyth of the Criminal Immigrant


    机构:马歇尔计划非盈利新闻机构(The MarshallProject)

    国家/地区:美国

    特朗普政府称美国社会许多罪行是移民导致的,这一点其实是错误的。特朗普政府却以此推动其移民政策:限制入境、旅行和签证;加强边境执法;计划沿墨西哥边境修建一堵墙。《罪犯移民的神话》这篇报道证明这些说法不准确。


    通过四所大学的大规模合作,由纽约州立大学布法罗分校的Robert Adelman领导的一个研究小组研究了全国200个大都市40年间的统计区域,得出结论:高移民人口与高犯罪率之间没有相关性。基于本报告中的数据,马歇尔计划与报告的作者合作,将数据扩展到2016年,然后将这些数据用作进一步深度时间序列分析和可视化移民人口与暴力犯罪率趋势的基础。


    此项目分析发现,目前所研究的大都会地区的移民人数比1980年多,暴力犯罪也少。截至最新可读取的2016年数据显示,虽然移民人口几乎全面增长,但犯罪率下降的频率高于上升的频率。移民增加最多的前十名地区在2016年的犯罪率都低于1980年。


    马歇尔计划通过可视化的方式进行呈现,逐个城市公开数据和结果。该项目的目标不是简单地让读者相信原始学术论文的统计结果和时间序列分析的结果,而是给读者提供工具,让读者亲自从自己的城市看到数据,并做出自己的判断。


    作品截图


    作品二维码链接


    微软年度学生及青年记者奖


    Dada Lyndell


    机构:俄罗斯商业咨询

    国家/地区:俄罗斯

    Dada表示,她所感兴趣的是腐败、卫生、经济和商业这几个领域,而她希望通过自己的数据新闻作品,让看不见的东西“变得透明”,用数据证明公众的一些猜测并非空穴来风。其获奖作品为《老年和“他人”:俄罗斯的死因统计数据出了什么问题》。


    作品截图


    作品二维码链接


    公众选择奖


    为了成为模特,你需要有多瘦?


    机构:荷兰国家电视台(NOS)

    国家/地区:荷兰

    尽管在荷兰出现的“模特健康保证”运动承诺了变革,但时尚行业仍然要求模特的臀围不超过90厘米。为了走上T台,模特需要有理想的身材。为了确保观众能理解这是怎样一种要求,获奖作品运用现有的数据爬取软件OutWit Hub收集了25家模特公司的数据,将1000多名模特的臀围与荷兰20多岁女性的平均臀围进行了比较。呈现结果的Youtube视频获得了80多万的点击量,除此之外,该视频下方有1200条评论,模特健康话题成为讨论的中心,这表明该作品成功地吸引了一批年轻的受众。


    作品截图


    作品二维码链接

    展开全文
  • 1.获取大量数据,用于做数据分析 2.公司项目的测试数据,公司业务所需数据 企业获取数据的方式 1.公司自有数据 2.第三方数据平台购买(数据堂,贵阳大数据交易所) 3.爬虫爬取数据 可以用于做爬虫的程序语言 ...

    目录

    爬取数据的目的:

    1.获取大量数据,用于做数据分析

    2.公司项目的测试数据,公司业务所需数据

    企业获取数据的方式

    1.公司自有数据

    2.第三方数据平台购买(数据堂,贵阳大数据交易所)

    3.爬虫爬取数据

    可以用于做爬虫的程序语言

    1.Python

    2.PHP

    3.JAVA

    4.C/C++

    爬虫分类

    1.通用网络爬虫(搜索引擎使用,遵守robots协议)

    2.聚焦网络爬虫

    爬虫爬取数据的步骤

    1.确定需要爬取的URL地址

    2.由请求模块向URL地址发出请求,并获得响应

    3.从响应类容中获取数据

    4.数据分析和二次爬取


    爬取数据的目的:

    1.获取大量数据,用于做数据分析

    当公司想要开发一个新的项目,肯定需要做市场调研,这就需要大量的数据,可以从同类型项目历年来的数据爬取下来,把数据经过处理后得到可观的图表,从而预测项目开发后可能获得的收益。

    2.公司项目的测试数据,公司业务所需数据

    当公司开发了一个新项目或新模块,在没有测试数据的情况下,就会要求爬虫工程师去各大网站上爬取热点数据。比如开发了一个新闻网站,爬虫工程师就会去各大成熟的新闻网站上爬取实时的热点新闻,经过数据加工处理后发布到自己的新闻网站。然后再由测试工程师测试网站的网络负载量、流量、CPU负载等信息。

     

    企业获取数据的方式

    1.公司自有数据

    顾名思义,就是公司以往的数据,可能是纸质的,这时候需要将纸质数据录入到计算机中。也可能是公司数据库中的,只是没有经过加工处理。

    2.第三方数据平台购买(数据堂,贵阳大数据交易所)

    如果想要买到如房产,金融,医疗,消费,工业等数据,可以去一些比较正规的售卖数据的公司去购买。如数据堂和贵阳大数据交易所,当然,根据你想要数据的珍稀程度,价格也相对来说不菲。总而言之,在第三方平台购买数据是非常昂贵的。

    3.爬虫爬取数据

    当然,我们也可以通过爬虫工具来爬取数据,这样的方式相对来说较为廉价,也更加灵活,缺点也比较明显,首先是数据的来源和有效性不能保证,二是涉及某些违法的操作是不允许的,三是能否爬取到有价值的数据绝大程度上取决于该爬虫工程师的技术水平。公司里会设置这样的爬虫工程师岗位,专门来做数据的爬取,如果一个爬虫工程师一年的工资是20W,那么当公司去购买第三方数据的价格小于20W时,公司多半就不会设置爬虫工程师的岗位,当然,这也取决于公司的财力与规模,较成熟的公司一般都会设有爬虫工程师的岗位。

     

    可以用于做爬虫的程序语言

    1.Python

    请求模块,解析模块丰富成熟,拥有Scrapy网络爬虫框架

    2.PHP

    对多线程、异步支持不太好

    3.JAVA

    代码笨重,代码量大

    4.C/C++

    效率高,但是开发速度慢

     

    爬虫分类

    1.通用网络爬虫(搜索引擎使用,遵守robots协议)

    国内像百度,360,搜狐等公司,就是利用的爬虫来爬取页面,实际上我们几乎天天都在使用百度的搜索功能,那么实质上也是在使用网络爬虫来爬取数据,而这里的数据其实是我们想查看的某个网站的相关信息,或者某一类型网站的相关信息。

    robots协议:

    robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

    如淘宝网站的robots.txt:https://www.taobao.com/robots.txt

    robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

    2.聚焦网络爬虫

    聚焦网络爬虫就是自己写的爬虫程序,不需要遵守robots协议,你可以根据自己的想法来编写爬虫程序。

     

    爬虫爬取数据的步骤

    1.确定需要爬取的URL地址

    爬取数据的前提是获取URL地址,URL是统一资源定位符,它规定了某个页面(文件)存放在何处。只有获取了这个网页文件后,才可以对后续的数据进行爬取。

    2.由请求模块向URL地址发出请求,并获得响应

    委托相关语言的请求模块,模拟人的操作去发送请求。

    3.从响应类容中获取数据

    获得完数据后,保存到本地。得到的数据就是如图 下所示的。

    4.数据分析和二次爬取

    经过了前三步后,此时我们已经有整个网页的数据文件了,只不过数据的格式可能是不友好的。这时候就需要爬虫工程师对数据进行处理,按照编排的格式收集数据。在这个过程中,一个网页下面可能有其他的URL地址,如果需要进一步跟进(爬取),那么又会重复第二步到第四步去处理,如何循环(这个又叫做递归爬虫)。

    展开全文
  • python flask web开发入门与项目实战

    千人学习 2019-12-15 19:02:04
    如果采用成熟、稳健的框架,那么一些诸 如安全性、数据流控制等类型的基础性工作都可以让框架来处理,而程序开发人员则可以把更多的精力放在具体业务逻辑功能的实现和优化上。        使用Flask...
  • 本文旨在分享编程经验,非炒股指导软件。 一、Tushare数据介绍 Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、...

    前言

    本文旨在分享编程经验,非炒股指导软件。

    一、Tushare数据介绍

    Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。

    二、IDE环境介绍

    1、python 3.7

    tushare接口为python接口,为了比较方便的获取数据,该系统为python+java环境。python主要用于股票数据获取和数据分析,java主要用于网站的搭建及结果的展示。

    2、mysql数据库

    用于存储历史股票数据(近3年)和新闻舆论信息。

    注意:若mysql数据库中存储中文,请使用utf8的方式创建:

    CREATE DATABASE tushare DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

    3、工具环境配置(pycharm + anaconda)

    为了使用pyhton tushare工具包,安装了anaconda工具,在pycharm中需要配置anaconda所在的环境,如图:

    三、数据存储

    本博客主要使用3张表,股票列表、行业分类和历史数据3张表

    1、股票列表(沪深上市公司的基本情况)

    code,代码
    name,名称
    industry,所属行业
    area,地区
    pe,市盈率
    outstanding,流通股本(亿)
    totals,总股本(亿)
    totalAssets,总资产(万)
    liquidAssets,流动资产
    fixedAssets,固定资产
    reserved,公积金
    reservedPerShare,每股公积金
    esp,每股收益
    bvps,每股净资
    pb,市净率
    timeToMarket,上市日期
    undp,未分利润
    perundp, 每股未分配
    rev,收入同比(%)
    profit,利润同比(%)
    gpr,毛利率(%)
    npr,净利润率(%)
    holders,股东人数

    将数据存储到数据库python代码

    def getStockBasic():
        df = ts.get_stock_basics()
        engine = create_engine('mysql://root:root@127.0.0.1/tushare?charset=utf8')
        df.to_sql('stock_basics', engine, if_exists='append')

    注意1:若没有提前建立数据表,该方法会自动在数据库中创建表。但可能没写字段无法自动对应,需要后期修改数据表。

    注意2:该数据库请使用utf8的方式创建,否则在存储中文的时候,会失败。

    CREATE DATABASE tushare DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

    2、行业分类表

    • code:股票代码
    • name:股票名称
    • c_name:行业名称

    行业分类信息如下

    将数据存储到数据库python代码

    def getIndustryClassified():
        df = ts.get_industry_classified()
        engine = create_engine('mysql://root:root@127.0.0.1/tushare?charset=utf8')
        df.to_sql('industry_classified', engine, if_exists='append')

    3、历史数据表(该接口提供最近3年的历史成交数据)

    • date:日期
    • open:开盘价
    • high:最高价
    • close:收盘价
    • low:最低价
    • volume:成交量
    • price_change:价格变动
    • p_change:涨跌幅
    • ma5:5日均价
    • ma10:10日均价
    • ma20:20日均价
    • v_ma5:5日均量
    • v_ma10:10日均量
    • v_ma20:20日均量
    • turnover:换手率[注:指数无此项]
    #获取所有股票的历史数据
    def getHistDataAll():
        #从数据库读取所有股票代码
        # 打开数据库连接
        db = MySQLdb.connect("localhost", "root", "root", "tushare", charset='utf8')
        # 使用cursor()方法获取操作游标
        cursor = db.cursor()
        # 使用execute方法执行SQL语句
        sql = "select code from tushare.stock_basics"
        cursor.execute(sql)
        # 使用 fetchone() 方法获取所有数据
        data = cursor.fetchall()
        for da in data:
            getHistData(da[0])
        # 关闭数据库连接
        db.close()
    
    # 获取每只股票的历史数据
    def getHistData(code):
        df = ts.get_hist_data(code)
        if df is not None:
            df.insert(0, 'code', code)
            engine = create_engine('mysql://root:root@127.0.0.1/tushare?charset=utf8')
            # 存入数据库
            df.to_sql('hist_data', engine, if_exists='append')

    该表大约有200W条数据,在获取数据时,需要等待一段时间。

    若考虑到每天自动同步历史数据的话,需要写一个定时任务,来自动同步每天数据。

    (后续补充...)

    若需要获取其他数据,可以从tushare网站自主选择添加。

    相关问题,可QQ交流:1931969006

    展开全文
  • 数据可视化工具软件哪个最好

    千次阅读 2020-09-22 18:55:06
    ​大数据正在走进人们的生活。虽然获取数据问题不大,但有很多人不知道如何得出结论,因为数据太多。...许多记者和新闻机构使用Datawrapper将实时图表嵌入到他们的文章中。这是非常容易使用和生产有效的图形。 2、T
  • 最近同学找工作,在百度搜索...下面这篇文章就详细讲述了一条数据新闻是如何产生的?遗憾的是没有论述如何探索一条信息是有价值的新闻。但同样希望对你有所帮助,尤其是从事搜索引擎、信息挖掘相关的专业或面试的同学。
  • 26种数据挖掘软件比较及介绍

    万次阅读 2014-04-18 09:27:06
    1、数据挖掘软件之ANGOSS软件公司 KnowledgeSTUDIO 平台:NT , Windows 9X 功能:CHAID算法,支持PMML,留有与SAS、S-Plus的接口,能够灵活地导入外部模型和产生规则,包含神经网络建模的能力 优点:响应快,...
  • 引入pandas库,将新闻标题和超链接数据导入到dataframe,便于观察和分析处理 import pandas as pd news_df=pd.DataFrame(news_dic) news_df title url 0 ...
  • 软件工程uml画图期末考试(新闻发布系统)

    千次阅读 多人点赞 2020-09-21 17:15:16
    学校的软件工程考试,基本都是画uml图,不知道其他学校是什么样子。这里就在学习的同时,从考试角度把各种图简单分析下,在网上找了找确实也不太好找各类图的画法,觉得我写的有问题的可以指出来,有帮助的点个赞呗...
  • 清华新闻分类已处理数据.zip ,解压时选择 解压到当前文件夹 。 请务必确保 content_list文件夹 、 label_list文件 、 代码文件 这3者处于相同路径,代码才能运行成功。 import time import pickle import os ...
  • 介绍几款网页数据抓取软件

    千次阅读 2015-08-07 18:09:21
    近年来,随着国内大数据战略越来越...在此,本文列出当前信息采集和数据抓取市场最具影响力的软件,供各大数据和情报中心建设单位采购时参考:  TOP.1 乐思网络信息采集系统(www.knowlesys.cn)  乐思网络信息采
  • JavaWeb笔记

    千次阅读 多人点赞 2019-09-06 10:42:23
    3、万维网是无数个网络站点和网页的集合,它们在一起构成了因特网最主要的部分(因特网也包括电子邮件、Usenet以及新闻组)。 七、tomcat服务器的各个目录的功能 bin:启动、关闭脚本 lib:日志 conf:配置文件 ...
  • 移动端app开发,原生开发与混合开发的区别

    万次阅读 多人点赞 2019-09-26 18:47:01
    目前市场上主流的APP分为三种:原生APP、Web APP(即HTML5)和混合APP三种,相...原生开发(Native App开发),是在Android、IOS等移动平台上利用提供的开发语言、开发类库、开发工具进行App软件开发。比如Android是...
  • 30款常用的大数据分析工具推荐(最新)

    万次阅读 多人点赞 2019-09-27 10:37:32
    数据挖掘和数据分析的能力在当今时代相当重要, 智能的工具是你与竞争对手对抗并为公司业务增加优势的必备条件。我列出了30个最热门的大数据工具,供大家参考。 Part 1:数据采集工具 Part 2:开源数据工具 Part ...
  • 网络教学软件中的教学设计与应用6.小型教育网站的开发与建设7.基于图像的风景旅游模拟漫游系统8.网上报名系统9.电脑配件网络购物10.房产网站11.计算机组成原理网站12.软件下载系统网站13.图书管理系统14.网络办公系....
  • 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 ...
  • 最受推荐的10本Python书籍

    万次阅读 多人点赞 2019-10-29 11:21:32
    本文作者Luciano Ramalho是一名Web开发人员,他通过Python与巴西一些最大的新闻门户网站合作,并拥有自己的Python培训公司。 10、《Programming Python》 非常适合那些已经了解了Python编程的基本原理并准备...
  • 本文所收集的数据集来自互联网,并将学习数据挖掘、机器学习、深度学习过程遇到的一些数据集加入其中,可能有些数据集随着时间的流逝链接会失效。 1,气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b  2...
  • 软件工程-数据字典

    千次阅读 2009-11-05 11:14:00
    如前所述,分析模型包括数据模型、功能模型和行为模型。在上述任何一种模型中,数据对象或控制信息都有重要作用。因此,需要有一种系统化的方式来表示每个数据对象和控制信息的特性,数据字典正是用来完成这项任务的...
  • 前几天笔者偶然在微博上刷到一则新闻,文章标题是《00后女学生高考完直播40天挣2万》,阅完不经汗颜,现在的“00后”可太强了!好奇心驱使下,笔者就“00后收入”问题在百度上进行了搜索,得到的结果触目惊心,9102...
  • Python 数据科学手册

    千次阅读 2018-11-06 11:56:00
    本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个 Python 数据科学中的重点工具包。 第1章 从 IPython 和 Jupyter 开始,它们提供了数据科学家需要的计算...
  • 免费软件尝试-后裔采集器 软件特点:免费,全平台(Windows、 Mac、 Linux),操作简单无需技术。 使用流程: 下载软件打开->输入抓取数据的网址->职能采集->等待自动采集完毕->导出 输出:多种格式...
  • DBA学习计划

    万次阅读 多人点赞 2018-06-17 13:11:24
    一、DBA技术  1、作为一个DBA,你必须要精通SQL命令、各种数据库架构、数据库管理和维护、数据库调优,... 3、你还需要掌握服务器硬件、软件技术理论。便于数据库基于服务器问题出现的时候,能够及时提出解决方案...
  • WPF开发教程

    万次阅读 多人点赞 2019-07-02 23:13:20
    WPF 中的所有显示是通过 DirectX 引擎完成的,可实现高效的硬件和软件呈现。WPF 还要求对内存和执行进行精确控制。milcore 中的组合引擎受性能影响关系大,需要放弃 CLR 的许多优点来提高性能。 本主题的后面...
  • 微信小程序调用新闻类API

    千次阅读 2019-05-27 08:49:31
    做过微信小程序的伙伴都知道,当我们需要实现一个小程序中类似于新闻资讯的功能时,需要我们调用一个外部实时更新的新闻数据接口,从而将数据展示在我们的手机页面上。那么我们该如何实现这个功能呢?下面我们来实现...
  • 数据挖掘数据集汇总

    万次阅读 多人点赞 2017-06-30 11:52:49
    整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间。欢迎数据达人加入QQ群 565136792 交流。 金融 美国劳工部统计局官方发布数据 沪深股票除权除息、配股增发全量数据,截止 2016....
  • Spark 高级数据分析(第2版)

    千次阅读 2018-11-06 11:55:07
    本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合 Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产...
  • 过了几天,博主又匿起来开发了一款新闻阅读器,新闻来源是百度APIStore里的免费API接口,开发的灵感和思路来自今日头条。   有的时候,模范别人应用其实就是一种开发的学习手段,因为如果自己去开发,没有UI没有...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 103,918
精华内容 41,567
关键字:

数据新闻软件