精华内容
下载资源
问答
  • 深度学习 自然语言处理 怎么获得数据集 中文语料集?深度学习 自然语言处理 怎么获得数据集 中文语料集 爬虫 数据平台 1 数据堂 2 搜狗实验室 3 自然语言处理与信息检索共享平台 4 聚数力 人工收集的 现如今构件人工...

    深度学习 自然语言处理 怎么获得数据集 中文语料集?

    现如今构件人工智能、机器学习甚至深度学习系统,变得越来越容易。

    但是让这些模型或者系统真正有价值的却是“数据”。那么如果刚刚上手机器学习或者深度学习,怎么寻找合适的数据集呢?

    下面就介绍一些获取数据的方法:

    1 爬虫

    最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。

    但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。

    跟着下面这个教程可以很快的实现一个强大的爬虫:

    CSDN 爬虫教程
    http://blog.csdn.net/u012052268/article/category/6889435

    2 数据平台

    国内一些机构贡献了一些数据集出来,大家可以在上面下载。

    2.1 数据堂

    数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/

    2.2 搜狗实验室

    搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
    http://www.sogou.com/labs/

    2.3 自然语言处理与信息检索共享平台

    是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
    http://www.nlpir.org/?action-category-catid-28

    2.4 聚数力

    http://dataju.cn/Dataju/web/home

    3 人工收集的

    这是几个博主自己总结的,质量很高。

    https://zhuanlan.zhihu.com/p/25138563

    https://www.zhihu.com/question/53655758/answer/146351918

    https://www.douban.com/note/269081724/

    展开全文
  • 喜欢使用手机便签的人,通常会将一些比较容易忘记的事情...可是每一部手机都是有寿命的,或者大家因为各种各样的原因,想换一部新手机,这时比较关注的就是更换手机便签怎么传输数据的问题,毕竟在旧手机的便签中记...

    喜欢使用手机便签的人,通常会将一些比较容易忘记的事情记录在手机便签中,部分品牌的手机便签还支持设定时间提醒,可以按时提醒大家什么时间需要做哪些事情。当将一些重要的信息记录在便签后,随着时间的推移,便签中记录的内容越来越多,大家就会越来越依赖便签。

    可是每一部手机都是有寿命的,或者大家因为各种各样的原因,想换一部新手机,这时比较关注的就是更换手机便签怎么传输数据的问题,毕竟在旧手机的便签中记录了很多重要的东西。

    e4f257b44edc1f126cc9e81930f8b890.png

    究竟更换手机便签怎么传输数据呢?今天小编给大家介绍一种可以同步新旧手机便签的软件——敬业签,不论是更换同一品牌的手机,还是不同品牌的手机,都可以使用敬业签来同步便签数据。敬业签支持在Windows电脑、安卓手机、苹果手机、iPadweb端以及苹果Mac端多端同步记事内容。

    第一种方法:在旧手机上安装敬业签,注册一个账号,或者使用QQ或者微信快捷登录,将手机便签内容通过逐条复制粘贴或者分享的形式在敬业便签上存储,新手机上登录同一账号的敬业便签,即可查看便签中存储的数据。

    第二种方法:如果旧手机上记录的便签内容比较多,通过逐条复制粘贴或者分享的方法显然不现实,这个时候可以将旧手机便签中记录的内容整理成TXT文档或者Excel表格,在敬业签web端导入数据,随后在新手机上登录同一账号的敬业便签,即可同步查看旧手机上记录的便签内容。

    21f1c10ff5218fc2642a590a4f9dda5e.png

    更换手机后,便签传输的方法是比较简单的,大家无需过于担心换手机后,旧手机便签中存储的数据该怎么传输呢?无法同步便签内容怎么办了?有了手机电脑多端同步的敬业签,手机便签同步便不再是难事。

    展开全文
  • 今天我们来继续处理从API获取到到数据,开始吧~处理响应字典将API调用返回的信息存储到字典中后,就可以处理这个字典中到数据了。下面来生成一些概述这些信息的输出。这是一种不错的方式,可确认收到了期望的信息,...

    今天我们来继续处理从API获取到到数据,开始吧~

    60bcfccb4583518262b2dd6db2341ffe.gif60bcfccb4583518262b2dd6db2341ffe.gifeb22d38b040552a99928484e69ff4c5d.gif

    处理响应字典

    将API调用返回的信息存储到字典中后,就可以处理这个字典中到数据了。下面来生成一些概述这些信息的输出。这是一种不错的方式,可确认收到了期望的信息,进而可以开始研究感兴趣的信息。

    import requests#执行API调用并存储响应url = 'https://api.github.com/search/repositories?q=language:python&sort=stars'r = requests.get(url)print("Status code:",r.status_code)#将API响应存储在一个变量中response_dict = r.json()print("Total repositories:",response_dict['total_count'])#探索有关仓库的信息repo_dicts = response_dict['items']print("Repositories returned:",len(repo_dicts))#研究第一个仓库repo_dict = repo_dicts[0]print("\nKeys:",len(repo_dict))for key in sorted(repo_dict.keys()):print(key)

    首先,我们打印除了与‘total_count’相关联的值,它指出了GitHub总共包含多少个Python仓库。

    与item相关联的值是一个列表,其中包含很多字典,而每个字典都包含一个有关Python仓库的信息。我们将这个字典列表存储在repo_dict中。接下来,我们打印repo_dicts的长度,以获悉我们获得了多少个仓库的信息。

    为更深入地了解返回的有关每个仓库的信息,我们提取了repo_dicts中的第一个字典,并将其存储在repo_dict中。接下来,我们打印这个字典包含的键数,看看其中有多少信息。最后,我们打印这个字典的所有键,看看其中包含哪些信息。

    b95837c19137947b2cbbb687b74258e9.png

    下面来提取repo_dict中与一些键相关联的值:

    #研究第一个仓库repo_dict = repo_dicts[0]print("\nSelected information about first repository:")print('Name:',repo_dict['name'])print('Owner:',repo_dict['owner']['login'])print('Stars:',repo_dict['stargazers_count'])print('Repository:',repo_dict['html_url'])print('Created:',repo_dict['created_at'])print('Updated:',repo_dict['updated_at'])print('Description:',repo_dict['description'])

    在这里,我们打印了表示第一个仓库的字典中与很多键相关联的值。首先我们打印了项目名称,项目所有者是用一个字典表示的,因此我们用owner来访问表示所有者的字典,再使用键key来获取所有者的登录名。接着我们打印项目获得了多少个星的评级,以及项目在GitHub仓库的URL。接下来,我们显示项目的创建时间和最后一次更新的时间。最后,打印仓库的描述。运行一下~

    5063eb0228015b54b13d38606f54f11f.png

    60bcfccb4583518262b2dd6db2341ffe.gif60bcfccb4583518262b2dd6db2341ffe.gifeb22d38b040552a99928484e69ff4c5d.gif

    概述最受欢迎的仓库

    对这些数据进行可视化时,我们需要涵盖多个仓库。下面就来编写一个循环,打印API调用返回的每个仓库的特定信息,以便能够在可视化中包含所有这些信息。

    print("\nSelected information about first repository:")for repo_dict in repo_dicts:    print('Name:',repo_dict['name'])    print('Owner:',repo_dict['owner']['login'])    print('Stars:',repo_dict['stargazers_count'])    print('Repository:',repo_dict['html_url'])    print('Description:',repo_dict['description'])

    首先我们打印了一条说明性消息。接着我们遍历所有字典。在这个循环中,我们打印每个项目的名称,所有者,星级,GitHub上的URL以及描述:

    4cb9586e33de107aae2e2a5374619802.png

    好了,明天开始我们进行数据可视化,期待一下~

    dbe85e9ba8a25ce6e2aa99349add94e8.png58879f2d834ca57d26b319644842504d.png
    展开全文
  • 搬家后的第一天,上班真是...由于这样编写到程序始终使用最新到数据来生成可视化,因此即便数据瞬息万变,它呈现到信息也都是最新的。使用Web APIWeb API是网站的一部分,用于与使用非常具体的URL请求特定信息定程序...

    搬家后的第一天,上班真是经历了从天黑到天亮到过程。我只想说,早睡早起身体棒!开始吧!

    今天开始我们将学习如何使用Web应用变成借口(API)自动请求网站到特定信息而不是整个网站,再对这些信息进行可视化。由于这样编写到程序始终使用最新到数据来生成可视化,因此即便数据瞬息万变,它呈现到信息也都是最新的。

    d5f670ef728e97c27048d976ad54e8f7.gifd5f670ef728e97c27048d976ad54e8f7.gifdb3f14282b1ba228a7196e8c58fb1c41.gif

    使用Web API

    Web API是网站的一部分,用于与使用非常具体的URL请求特定信息定程序交互。这种请求称为API调用。请求的数据将以易于处理的格式(如JSON或CSV)返回。依赖于外部数据源的大多数应用程序都依赖于API调用,如集成社交媒体网站的应用程序。

    d5f670ef728e97c27048d976ad54e8f7.gifd5f670ef728e97c27048d976ad54e8f7.gifdb3f14282b1ba228a7196e8c58fb1c41.gif

    Git和Github

    本章的可视化将基于来自Github的信息,这是一个让程序员能够协作开发项目的网站。我们将使用Github的API来请求有关该网站中Python项目的信息,然后使用Pygal生成交互式可视化,以呈现这些项目的受欢迎程度。关于Git的详细内容,后续我会出一篇独立的分享,这次我们只使用Github的API就可以啦。

    d5f670ef728e97c27048d976ad54e8f7.gifd5f670ef728e97c27048d976ad54e8f7.gifdb3f14282b1ba228a7196e8c58fb1c41.gif

    使用API调用请求数据

    Github的API让你能够通过API调用来请求各种信息,要知道API调用是什么样的,请在浏览器地址栏输入如下地址并回车:

    https://api.github.com/search/repositories?q=language:python&sort=stars

    这个调用返回GitHub当前托管了多少个Python项目,还有有关最受欢迎的Python仓库的信息。下面来仔细研究这个调用。第一部分(https://api.github.com/)将请求发送到GitHub网站中响应API调用的部分:接下来的一部分(search/repositories)让API搜索GitHub上的所有仓库。

    repositories后面的问号指出我们要传递一个实参。q表示查询,而等号让我们能够开始指定查询(q=)。通过使用language:python,我们指出只想获取主要语言为Python的仓库信息。最后一部分(&sort = stars)指定将项目按其获得的星级进行排序。

    下面显示来响应的一部分,从响应可知,该URL并不适合人工输入。

    42b72b511c2f6c200b2c9187e3da4316.png

    从第二行可知,目前GitHub总共有6174026个Python项目。“incomplete_results” 的值为True,证明GitHub无法全面处理该API,这里我们只分析部分数据。接下来的列表中展示了返回的“items”,其中包含GitHub上最受欢迎的Python项目的详细信息。

    d5f670ef728e97c27048d976ad54e8f7.gifd5f670ef728e97c27048d976ad54e8f7.gifdb3f14282b1ba228a7196e8c58fb1c41.gif

    安装requests

    requests包让Python程序能够轻松地向网站请求信息以及检查返回的响应,首先来新建一个项目并安装requests包。

    pip3 install requests
    处理API响应

    下面来编写一个程序,它执行API调用并处理结果,找出GitHub上星级最高的Python项目:

    import requests#执行API调用并存储响应url='https://api.github.com/search/repositories?q=language:python&sort=stars'r = requests.get(url)print("Status code:",r.status_code)#将API响应存储在一个变量中response_dict = r.json()#处理结果print(response_dict.keys())

    首先我们导入模块requests,接着我们存储API调用的URL,然后使用requests来进行调用。我们调用get()并将URL传递给它,再将响应对象存储在变量r中。响应对象包含一个名为status_code的属性,它让我们知道请求是否成功了(状态码200表示成功)。最后我们使用方法json()将这些信息转换为一个Python字典,并将转换得到的字典存储在response_dict中,打印response_dic中的键,输出如下:

    9aa26eb762da1c41d7889769608358f5.png

    2bdc6c7517f2567b7f372768bb22bd5d.png39946ccc6f942d0c6a9537c25e242982.png
    展开全文
  • 点击蓝字,一键关注走进《公共交通资讯》,及时掌握公交领域的行业政策、管理理论、科技信息、专家观点和先进经验... ...伦敦2050年交通发展计划抓好公交场站建设 助推公交优先发展——常州公交集团场站建设经验分享...
  • 新手不是很会,想请教大家。 比如说不同的用户登录后,把json中的ID数据携带到新的页面,然后新的页面根据这个ID数据再发AJAX请求到后台获得这个ID的用户详细信息,请问这个功能如何写?
  • 程序大概分成三个部分: 1.获取手机已安装的所有应用package的信息(其中包括用户自己安装的,还有系统自带的);...首先,我们定义一个数据结构,来保存应用程序信息(icon,name,packageName,versionN...
  • 怎么从物联网云中取数据 根据IDC的最新报告,“全球大数据和业务分析收入将从2015年的近1,220亿美元增长到2019年的1,870亿美元,在五年预测期内增长超过50%。” 企业IT部门中的任何人都已经知道大数据很重要。 ...
  • 最近在做一次MySQL数据迁移的时候,突然发现自己遗漏了一个地方,那就是权限信息没有导出,如果我们使用mysqldump--all-databases的时候没有添加--flush-privileges的时候,导出的数据中是不会包含mysql数据库的。...
  • 从上一讲中我们知道,正交解调会产生两个基带波形,这些波形合在一起可将编码后的信息传送到接收信号的载波中。 更具体地说,这些I和Q波形等效于复数的实部和虚部。 包含在调制信号中的基带波形对应于原始数据的幅度...
  • 本文以调用Tushare包获得股票的各种信息数据为案例,介绍日期数据的处理。文章目录:1. 获取数据2. 日期型数据处理2.1. 按日期切片筛选数据2.1.1. 按年度2.1.2. 按月度2.1.3. 按具体天2.2. to_period按日期显示数据...
  • 景点的信息需要自己手动输入到数据库中吗?还是有接口之类的工具能够直接获得?感觉手动输入的话不是很智能,以后如果再要添加数据的话,还得需要手动输入。请问有什么比较好一点的方法。
  • 怎么样来利用IP数据来分析用户数据呢?其中最好挖掘的肯定非地理位置信息莫属了 地理位置信息有很多用途,就比如现在新冠疫情在全球大肆传播,粗略追踪用户是否到过某些疫情高发地区等 一般情况下,IP地址定位可以...
  • Spring相关APIApplicationContext继承体系applicationContext:接口类型,代表应用上下文,可以通过其实例获得Spring容器中的Bean对象ApplicationContext的实现类ClassPathXmlApplicationContext他是从类的根路径下...
  • 经典的以频散分析为核心的面波勘探方法的数据处理流程可以描述为:1)采集多道地震记录; ​ 2)利用波场变换等方法形成记录的频散能量图; ​ 3)按频散能量的聚焦趋势从频散能量图中拾取各阶面波频散曲线; ​4)...
  • 通过使用数据上的不同功能,可以获得有关数据的大量信息。但是,如果我们希望获得有关数据的所有信息,则可以使用“描述”功能。此函数将提供诸如“计数”,“平均值”,“标准偏差”,第25个百分点,第50个百分点和...
  • hadoop 管理数据的机制  hadoop 用来存储文件是很好,但是要去对存储好的文件进行update,delete,操作,相对就不是那么好操作了,但是非要 做这样的操作,该如何办呐 ?  a. 先去看hadoop 存文件是怎么存的,是...
  • 要求:获得详细信息近100000某个网站的数据记录。分析:数据的基本信息是存储在近10000页,有10个记录在每个页面。如果你想获得一个特定的数据记录的详细信息,您需要点击相应的记录条目的基本信息页面跳转到详细信息...
  • 从海量数据获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 想把从后台获取的list数据显示在指定的标签位置,比如从后台获取到了某门课程的章节列表,然后将他们分别输出到对应的位置,并且为每个章节设置对应的链接,点击这个链接就可以访问相应的章节视频。 如果要把js的...
  • 如何通过SQL 的方式获得数据库中的一些关键信息,是一个DB最正常的工作,如何通过一些SQL来获得PG的一些关键的参数和信息或者是数据库中的一些信息是需要知道的一件事情。以下是部分 1一般来说每种数据库中都有一个...
  • 数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,...
  • 本发明属于大数据清洗技术领域,涉及一种...这些脏数据会扭曲从数据获得信息,影响信息系统的运行效果,也为企业构建数据仓库、建立决策支持系统、应用商务智能化带来隐患。为提高信息系统的数据质量,数据清理...
  • 可以说增加数据的独立性和减少数据冗余为企业范围信息资源管理和大规模信息系统获得成功的前提条件。数据冗余会妨碍数据库中数据的完整性(integrality),也会造成存贮空间的浪费。尽可能地降低数据冗余度,是数据库...
  • 用GET还是POST 提交数据用POST 打开输入和输出流 获取上传信息 字节大小以及长度 设置请求体的类型是文本类型 获得输出流 向服务器输出数据 获得服务器响应的结果和状态码 如果 返回码等于200 得到服务器返回的输入...
  • 怎么监听新的ArcSDE数据连接

    千次阅读 2011-01-11 16:45:00
    怎么监听新的ArcSDE数据连接 对ArcSDE管理员来说,对一些新的ArcSDE数据连接的检查也是有必要的,所以我们有必要监听新的ArcSDE数据连接,那么怎么实时动态监听呢...管理员可以查看SDE命令获得详细信息(什么机器) 如
  • JSON 数组 怎么数据拼成json

    千次阅读 2016-07-13 10:57:33
    ////根据openid获得用户信息 //// alert(data); ////$(document).ready(function() { ////json数组 //var arr = new Array(); //for (var i = 0; i // var info = { "openid": data[i], "lang":

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 589
精华内容 235
关键字:

怎么获得数据信息