精华内容
下载资源
问答
  • :newspaper: 西班牙假新闻语料库 :loudspeaker: 呼吁参与2021年西班牙共享任务...西班牙假新闻语料库包含从网络上的多种资源中收集的新闻集合:已建立的报纸网站,媒体公司的网站,专用于验证假新闻的特殊网站
  • 京都大学网络文档负责语料库 概述 这是一个日语文本语料库,由带有各种语言注释的Web文档的前三个句子组成。 通过收集Web文档的前三个句子,该语料库包含具有各种流派和样式的文档,例如新闻文章,百科全书文章,...
  • 搜集网络上比较好的中文语料库

    千次阅读 2020-10-11 13:07:38
    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。 古代汉语语料库...

    国内可用免费语料库

    组织,机构发布

    国家语委

    国家语委现代汉语语料库http://www.cncorpus.org/

    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

    古代汉语语料库http://www.cncorpus.org/login.aspx

    网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

    北京大学计算语言学研究所

    ###《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

    《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

    北京语言大学

    汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

    语言研究所:北京口语语料查询系统(B J K Y)

    http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

    台湾中央研究院

    中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。

    现代汉语平衡语料库

    http://www.sinica.edu.tw/SinicaCorpus/

    专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性 的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

    古汉语语料库

    http://www.sinica.edu.tw/ftms-bin/ftmsw

    古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

    近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/

    为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的 重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。

    树图数据库

    http://treebank.sinica.edu.tw/

    「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

    http://bow.sinica.edu.tw/

    结合词网,知识本体,与领域标记的词汇知识库。

    搜文解字

    http://words.sinica.edu.tw/
    包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

    文国寻宝记

    http://www.sinica.edu.tw/wen/

    在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

    唐诗三百首

    http://cls.admin.yzu.edu.tw/300/

    以 国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作 者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入 诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

    汉籍电子文献

    http://www.sinica.edu.tw/~tdbproj/handy1/

    包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

    红楼梦网络教学研究数据中心

    http://cls.hs.yzu.edu.tw/HLM/home.htm

    元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

    中国传媒大学

    中国传媒大学文本语料库检索系统

    http://ling.cuc.edu.cn/RawPub/

    在线分词标注系统

    http://ling.cuc.edu.cn/cucseg/

    新词语研究资源库

    http://ling.cuc.edu.cn/newword/web/index.asp

    音视频语料检索系统

    http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)

    哈尔滨工业大学

    哈工大信息检索研究室对外共享语料库资源

    http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

    该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

    清华大学

    汉语均衡语料库TH-ACorpus:
    http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)

    香港教育学院

    语言资讯科学中心及其语料库实验室
    http://www.livac.org/index.php?lang=sc

    自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。 本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

    中国科学院计算技术研究所

    跨语言语料库
    http://mtgroup.ict.ac.cn/new/resource/index.php

    目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。

    中文语言资源联盟

    http://www.chineseldc.org/

    ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。

    Chatopera

    中文心理咨询问答语料库

    中文保险行业语料库

    网络,开源社区,个人

    dgk_shooter_min.conv.zip

    中文电影对白语料,噪音比较大,许多对白问答关系没有对应好。

    The NUS SMS Corpus

    包含中文和英文短信息语料,据说是世界最大公开的短消息语料。

    ChatterBot中文基本聊天语料

    ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高。

    Datasets for Natural Language Processing

    这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用

    小黄鸡

    据传这就是小黄鸡的语料。

    白鹭时代中文问答语料

    由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。

    展开全文
  • 前言 今天是2021年10月6日,从9月份开学好像一直什么都没有学习,可能也只有每天...在python中可以直接读) 中文自然语言处理的基本过程 (一)获取预料 我们下载好搜狗新闻语料库之后,会发现我们的数据是这样的: ...

    前言

    今天是2021年10月6日,从9月份开学好像一直什么都没有学习,可能也只有每天刷点力扣题了吧,一天当中很多的时间都浪费了,本来想的是平平淡淡的过完研究生的生活,但好像发现如果一开始的目标就很低的话,那很可能这个目标完成不了,所以说我的目标就是成为优秀毕业生顺利毕业,与此同时希望自己能找到一个好工作。
    那么从现在开始,我不仅仅要每天刷力扣题,而且还要准备论文和项目了,java方面的我是不太可能了,因为对此没有一点兴趣,所以还是选择python吧,计算机视觉方面的不管是图像识别、图像分割等等相对来说都是比较成熟的,也很难做出一些什么来,当然,这可能也是我在为自己找借口,但是计算机视觉的应用还是很多的,所以暂时先默认自己会用那些东西了,转战NLP,特别是文本方向。
    

    在这里插入图片描述

    入门博客:https://www.jianshu.com/p/b87e01374a65
    有帮助的博客:https://blog.csdn.net/md_Ji/article/details/112688029
    语料库:http://www.sogou.com/labs/resource/ca.php(直接下载到本地就行,解压缩就是.dat文件,在python中可以直接读)
    

    中文自然语言处理的基本过程

    (一)获取预料

    我们下载好搜狗新闻的语料库之后,会发现我们的数据是这样的:

    </doc>
    <doc>
    <url>http://news.163.com/12/0727/13/87E4GD4600014JB5.html</url>
    <docno>c3a2c1b2db10c944-b345d9a362314a50</docno>
    <contenttitle>宏皓:中国企业如何应对奥运赛场外的"品宣战"</contenttitle>
    <content></content>
    </doc>
    

    用以下代码读取数据:

    import codecs
    import re
    from tqdm import  tqdm
    
    file_path=r"D:\pythonworkspace\NLP_project\news_tensite_xml.dat"  #原始的语料信息
    save_path=r"D:\pythonworkspace\NLP_project\SougouNews_dataset.txt"   #处理后只有文章内容的语料
    seg_save_path=r"D:\pythonworkspace\NLP_project\SougouNews_daraset_Seg.txt"   #文章内容分析后的语料
    
     #read file
    print("read news dataset:",file_path)
    with open(file_path, encoding='gb18030') as f:
        news_data = f.read().encode('gbk', 'ignore').decode('gbk')
        #print(news_data)
    

    读取完之后,就要进行下一步的工作了。

    (二)语料预处理

    file_path=r"D:\pythonworkspace\NLP_project\news_tensite_xml.dat"  #原始的语料信息
    save_path=r"D:\pythonworkspace\NLP_project\SougouNews_dataset.txt"   #处理后只有文章内容的语料
    seg_save_path=r"D:\pythonworkspace\NLP_project\SougouNews_daraset_Seg.txt"   #文章内容分析后的语料
    

    1.语料清洗

    数据清洗,就是在语料中找到我们感兴趣的东西,把不感兴趣的、视为噪音的内容清洗删除,包括对于原始文本提取标题、摘要、正文等信息,对于爬取的网页内容,去除广告、标签、HTML、JS 等代码和注释等。
    常见的数据清洗方式有:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。
    在这个例子中,我们所说的语料清洗,指的就是只获取content标签之间的内容:

    #抽取content之间的内容(即  预料清洗)
    print("extract news content....")
    news_content = re.findall('<content>.*</content>',news_data)
    
    #将刚才处理好的只有文本内容的语料存入刚才设定的文件夹中
    print("write content to text file ...")
    with codecs.open(save_path, 'w', encoding='utf8') as fw:
    	# 注意tqdm只是一个进度条 也可以不需要
        for item in tqdm(news_content):
            item = re.sub(r'<content>|</content>|\s', '', item)
            # item = stringQ2B(item) # 全部全角转半角
            item = stringpartQ2B(item) # 只有数字字母全角转半角
            if item != "":
                fw.write(item + '\n')
    

    可以看到上面有两个函数:stringQ2B和stringpartQ2B这两个函数是处理文本内容的,具体的我还没有看,等回头看了再重新写个专题补上:

    
    def is_Qnumber(uchar):
        """判断一个unicode是否是全角数字"""
        if uchar >= u'\uff10' and uchar <= u'\uff19':
            return True
        else:
            return False
    
    def is_Qalphabet(uchar):
        """判断一个unicode是否是全角英文字母"""
        if (uchar >= u'\uff21' and uchar <= u'\uff3a') or (uchar >= u'\uff41' and uchar <= u'\uff5a'):
            return True
        else:
            return False
    
    def Q2B(uchar):
        """单个字符 全角转半角"""
        inside_code = ord(uchar)
        if inside_code == 0x3000:
            inside_code = 0x0020
        else:
            inside_code -= 0xfee0
        if inside_code < 0x0020 or inside_code > 0x7e: #转完之后不是半角字符返回原来的字符
            return uchar
        return chr(inside_code)
    
    def stringQ2B(ustring):
        """把字符串全角转半角"""
        return "".join([Q2B(uchar) for uchar in ustring])
    
    def stringpartQ2B(ustring):
        """把字符串中数字和字母全角转半角"""
        return "".join([Q2B(uchar) if is_Qnumber(uchar) or is_Qalphabet(uchar) else uchar for uchar in ustring])
    
    

    2.分词

    分词可以直接用python中的jieba库:

    with codecs.open(seg_save_path, 'w', encoding='utf8') as fw:
        for content in tqdm(news_content):
            content = re.sub(r'<content>|</content>|\s', '', content)
            # content = stringQ2B(content) # 全部全角转半角
            item = stringpartQ2B(item) # 只有数字字母全角转半角
            if content != "":
                # 这里分词调用的是jieba 也可以使用其它分词工具
                content_seg = jieba.cut(content.strip())
                fw.write(" ".join(content_seg) + "\n")
    

    3.词性标注

    4.去停用词

    词性标注和去停用词还没有动手去实践,所以在这里先不写。
    这里有一个详细讲解各种预处理的博客:https://blog.csdn.net/qq_35273499/article/details/79098689

    (三)特征工程

    做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。显然,如果要计算我们至少需要把中文分词的字符串转换成数字,确切的说应该是数学中的向量。有两种常用的表示模型分别是词袋模型词向量

    词袋模型(Bag of Word, BOW)

    即不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合(如 list),然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式,TF-IDF 是词袋模型的一个经典用法。

    词向量

    词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。
    还有 Google 团队的 Word2Vec,其主要包含两个模型:跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words,简称 CBOW)
    以及两种高效训练的方法:负采样(Negative Sampling)和层序 Softmax(Hierarchical Softmax)。值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量的表示方式,如 Doc2Vec、WordRank 和 FastText 等。

    这个后面肯定是还要再学习的,只不过在今天,也学习了一点,就是说在对语料进行预处理之后,我们就可以构建词向量了,今天用的是word2vec模型,直接用gensim库中的word2vec函数就可以实现:
    首先定义词向量模型的训练函数:

    #NLP的基本处理步骤就是:首先获取语料库,然后对语料库进行语料的清洗、分词、去停用词等等一些预处理,那么在预处理之后
    #我们就算是得到了要输入的数据的样子,那么怎么将数据转化为计算机可以看懂的呢?两种方法:词袋模型 、词向量
    #由于这一part只是辅助我来理解NLP的一个大致过程,所以对于这两种方法先不去细细研究是怎么回事,就直接上代码去体会一下:
    #以词向量为例子,用的是word2vec
    import logging
    import gensim.models as word2vec
    from gensim.models.word2vec import LineSentence
    def train_word2vec(dataset_path, model_path, size=100, window=5, binary=True):
        #设置输出日志
        logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
        # 把语料变成句子集合
        sentences = LineSentence(dataset_path)
        # 训练word2vec模型
        model = word2vec.Word2Vec(sentences, window=window, min_count=5, workers=4)
        # 保存word2vec模型
        if binary:
            model.wv.save_word2vec_format(model_path, binary=True)
        else:
            model.wv.save_word2vec_format(model_path, binary=False)
    

    然后加载词向量模型,其实我一直对词向量模型都不太理解,但是今天实践了之后,我觉得和神经网络中的什么vgg,resnet其实都差不多,只不过是说我们训练的vgg和resnet之后,有一个权重保存为.h5文件了,模型本身是没有变的,而词向量模型就类似于神经网络模型中的权重文件,个人理解.

    def load_word2vec_model(w2v_path){
    # load word2vec
        model = word2vec.KeyedVectors.load_word2vec_format(w2v_path, binary=True)
        return model
    }
    
    dataset_path=r"D:\pythonworkspace\NLP_project\SougouNews_daraset_Seg.txt"
    save_model_path =r"D:\pythonworkspace\NLP_project\word2vec_model.bin"
    
    train_word2vec(dataset_path, save_model_path, size=100, window=5, binary=True)
    

    当用word2vec训练完语料库的词向量之后,就可以用它来做一些事情了:
    (1)找出某一词向量最相近的集合
    (2)查看两个词向量的相近程度
    (3)找出一组集合中不同的类别

    #加载模型
    model =load_word2vec_model("./word2vec_model.bin")
    
    #应用
    # (1)计算两个词向量的相似度
    sim1 = model.similarity(u'美丽', u'漂亮')
    print(u'美丽 和 漂亮 的相似度为 ', sim1)
    
    
    # (2)与某个词(李达康)最相近的3个字的词
    print(u'与北京最相近的3个字的词')
    req_count = 5
    for key in model.similar_by_word(u'北京', topn=100):
        if len(key[0]) == 3:
            req_count -= 1
            print(key[0], key[1])
            if req_count == 0:
                break
    
    # 计算某个词(侯亮平)的相关列表
    print(u'和 新华社 与相关的词有:\n')
    sim3 = model.most_similar(u'新华社', topn=5)
    for key in sim3:
        print(key[0], key[1])
    
    
    # 找出不同类的词
    sim4 = model.doesnt_match(u'北京 上海 人民 石家庄'.split())
    print(u'北京 上海 人民 石家庄')
    print(u'上述中不同类的名词', sim4)
    
    
    

    结果:

    美丽 和 漂亮 的相似度为  0.6385814
    
    与北京最相近的3个字的词
    石家庄 0.636853039264679
    北京市 0.5878795385360718
    哈尔滨 0.5805991888046265
    北京站 0.5749763250350952
    五棵松 0.5512964129447937
    
    和 新华社 与相关的词有:
    中新社 0.7977388501167297
    新华网 0.6743009686470032
    中新网 0.6310275793075562
    胡续 0.6224453449249268
    中国日报 0.6152859330177307
    
    北京 上海 人民 石家庄
    上述中不同类的名词 人民
    

    (四)特征选择

    (五)模型训练

    (六)评价指标

    (七)模型上线应用

    展开全文
  • 现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。 2.古代汉语语料库...

    国内可用免费语料库(凡没有标注不可用的链接均可用)

    (一) 国家语委
    1.国家语委现代汉语语料库http://www.cncorpus.org/

    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

    2.古代汉语语料库http://www.cncorpus.org/login.aspx

    网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

    (二) 北京大学计算语言学研究所

    《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

    《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

    (三) 北京语言大学

    汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

    语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

    (四)台湾中央研究院

    中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。

    1.现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus

    专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

    2.古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw

    古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

    3.近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/

    为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。

    4.树图数据库http://treebank.sinica.edu.tw/

    「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

    5.中英双语知识本体词网http://bow.sinica.edu.tw/

    结合词网,知识本体,与领域标记的词汇知识库。

    6.搜文解字http://words.sinica.edu.tw/

    包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

    7.文国寻宝记http://www.sinica.edu.tw/wen/

    在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

    8.唐诗三百首http://cls.admin.yzu.edu.tw/300/

    以国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

    9.汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/

    包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

    10.红楼梦网络教学研究数据中心http://cls.hs.yzu.edu.tw/HLM/home.htm

    元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

    (五)中国传媒大学

    1.中国传媒大学文本语料库检索系统

    http://ling.cuc.edu.cn/RawPub/

    2.在线分词标注系统

    http://ling.cuc.edu.cn/cucseg/

    3.新词语研究资源库

    http://ling.cuc.edu.cn/newword/web/index.asp

    4.音视频语料检索系统
    http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)

    (六)哈尔滨工业大学
    哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

    该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

    (七)清华大学

    汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)

    (八)香港教育学院

    语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc

    自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

    (九)中国科学院计算技术研究所

    跨语言语料库http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升级)

    目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。

    (十)中文语言资源联盟

    中文语言资源联盟http://www.chineseldc.org/

    (Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源。

    国外语料库资源(链接皆可用,内有语料库简介,会持续更新,最新更新日期11-05-10)

    1. 杨百翰大学

    杨百翰大学语料库http://view.byu.edu/杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。

    1. 联合国官方资料库

    联合国文件数据库(提供80万份六种语言平行文档)http://documents.un.org/simple.asp
    本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

    1. 兰开斯特大学

    兰开斯特汉语语料库 (LCMC) http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
    应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。 LCMC 语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过该网址可以免费索取LCMC预料用于研究之用。http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474

    1. 语言开放典藏社群(OLAC)

    OLAC(Open Language Archives Community)http://search.language-archives.org/index.html语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。理论上,用户希望透过单一接口便可以取得任何需要的资源,其中资源种类涵盖:①资料(Data):任何描述语言的相关信息;②工具(Tool):有助于创造、浏览、查询或使用语言数据的计算器资源;③建议(Advice):譬如,告知使用者什么资源具有高可靠度?在此情境中哪一种工具适合采用?当新的数据衍生出时该如何创造?但实际上,却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字(Name)造成召回率(recallrate)低,在其他领域有相同意义,造成正确率低(precision rate)、许多语言资源并非以文字为基础、不确定是否有建议适当软件,以及所提出的建议是否中肯…等问题。OLAC由此诞生。藉由下列步骤进行创造世界性语言资源的虚拟图书馆:针对语言资源数字典藏发展一致性的实践指引;发展网络上具有互操作性且提供存取相关语言资源的储存器(Repositories)和服务中心。简介可以参看http://140.109.18.114/blog/?p=1049

    1. SKETCHENGINE多语言语料库

    www.sketchengine.co.uk

    每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。

    1. COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)

    http://www.americancorpus.org/

    由美国B righam Young University的M ark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。

    (以上来自:http://blog.sina.com.cn/gjxyxkgy)

    国内外语料库建设一览

    北京大学语言信息工程系捷译双语语料库Web对齐工具(自动+手动)开放注册

    访问地址在 http://aligner.pkucat.com

    文档:http://aligner.pkucat.net/doc/html/

    如果有需要者可以给 yjs@pkucat.com 老师写信申请,说明身份和理由即可。
    http://bbs.pkucat.com/modcp.php?action=moderate&op=members

    已证实可用的英汉平行语料库(部分)

    –TEC

    http://www.umist.ac.uk/ctis/research/research-overview.htm

    翻译语料库方面则以英国曼彻斯特大学科技学院(UMIST) 翻译研究中心1995年创建的世界上第一个翻译语料库( Translational EnglishCorpus , TEC) 最为著名。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料(目标是5 千万词) ,分小说(约占80 %) 传记、报纸和期刊4 个子库。它并不要求必须双语对齐。

    该库不仅对语料进行了附码标注,还带有许多超语言信息的标注,如对译者情况(包括译者姓名、性别、民族、职业、翻译方向等) 、翻译方式、翻译类型、源语、原书情况、出版社等等均一一予以标注。

    –北大双语语料库

    北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。

    –中英双语在线(CEO)测试开通

    网址为 http://www.fleric.org.cn/ceo/

    –紅樓夢漢英平行語料庫

    http://score.crpp.nie.edu.sg/hlm/index.htm

    — The Babel English-Chinese Parallel Corpus
    http://www.lancs.ac.uk/fass/projects…abel/babel.htm
    The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.

    The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.

    The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.

    –上海交通大学语言工程研究所目前有JDEST,LOB,BROWN,CLEC四个语料库共计700万词可供网上检索, 并可以对检索和统计数据结果下载.

    http://corpus.sjtu.edu.cn/WebCast/

    –The Translational English Corpus (TEC)

    http://www.llc.manchester.ac.uk/ctis/research/english-corpus/

    http://ronaldo.cs.tcd.ie/tec/jnlp/

    –English Chinese Parallel Concordancer (E-C Concord)

    The Hong Kong Institute of Education.

    Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun

    http://ec-concord.ied.edu.hk/paraconc/index.htm

    –Academia Sinica Balanced Corpus of Modern Chinese 中央研究院现代汉语平衡语料库

    http://www.sinica.edu.tw/SinicaCorpus/

    –Lancaster Corpus of Mandarin Chinese

    http://bowland-files.lancs.ac.uk/cor…gi-bin/conc.pl

    may be changed to

    http://www.lancs.ac.uk/fass/projects/corpus/LCMC/

    –People’s Daily 2000 corpus

    some related information here

    http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm

    –A Parallel Corpus of Chinese Legal Texts 中國法律文件漢英平行語料庫

    http://score.crpp.nie.edu.sg/law/index.htm

    –语料库语言学与英语教育教学。华南师范大学外国语言文化学院语料库语言学研究室

    http://sfs.scnu.edu.cn/corpus4u/default.aspx

    语料库工具

    http://www.fleric.org.cn/crg/tools.htm 北外语料库语言学沙龙

    Beiwai Corpus Research Group (CRG)

    Corpus tools developed by group members

    Chi-square and loglikelihood Calculator, (卡方检验和对数似然率计算工具)

    TreeTagger for Windows, (语料库词性标注工具TreeTagger的Windows界面)
    Colligator 1.0 & 2.0, (语料库类联接分析工具)
    PatternBuilder 1.0, (赋码语料库检索辅助工具)
    The Edinburgh Associative Thesaurus (EAT) for Windows,(爱丁堡联想词库Windows查询工具)
    Wordlist Tools 1.0 Beta,(词表分析工具)
    My Good Old Blackboard,(我的电子黑板)
    BFSU Stanford Parser 1.0,(英文自动句法分析工具)。
    BFSU Stanford POS Tagger 1.0,(英文自动词性赋码工具)。
    BFSU Sentence Collector 1.0,(例句提取工具)。
    BFSU NewWord Marker 1.0,(生词标注工具)。
    BFSU Sentence Segmenter 1.0,(英文自动分句工具)。
    Web Colligator。
    Collocator 1.0: A collocation extraction tool,(搭配分析工具)。
    Log-likelihood ratio calculator,(对数似然率计算器)。
    Readability Analyzer 1.0 ,(英文文本可读性分析工具)。

    Other free corpus tools
    AntConc: A free concordancer(跟WordSmith主要功能接近的语料库索引工具)
    Range: Vocabulary coverage tools(基于底表的分级词汇测量工具)

    语料库检索软件Paraconc 和Multiconcord:

    Paraconc由Barlow制作(该软件的演示版可在网上下载),该软件的特点是可以进行多达四种语言的同时检索,或者是一个原文的三个译本的检索。这一软件的特点是可以灵活定义语言、索引行的大小、标注符号的隐显,而且支持通配符检索。

    Multiconcord也是一个在Windows窗口下运行的软件。这种软件和Paraconc在检索功能上相似,但检索结果在呈现方式上不同。另外,Paraconc可以检索纯文本格式的文件;Multiconcord 则需要一个Minimark 程序来最低程度地标记文本,如< p > (段落) 和< s > (句子)。




    参考资料:
    NLP 语料库 大全

    展开全文
  • 语料库的建设与开发(一)总体设计首先语料库的建设目的要明确,建库的目的决定着语料的选取。如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库目的是:1、通过...

    语料库的建设与开发

    (一)总体设计

    首先语料库的建设目的要明确,建库的目的决定着语料的选取。

    如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库目的是:1、通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系,为中国外语教学,尤其是英语写作教学,提供积极反馈;2、对学习者语料库与英语本族语语料库进行对比分析。

    语料库的规模设计。在规模上,只要条件允许,应该是语料库的规模越大越好。就语料库发展趋势来看,建立固定规模的语料库并非语料库发展的大趋势,因为语言本身是动态发展的,语料库也应当是动态的,可以不断扩充的。

    语料库的内容。如果说规模是针对量的问题,那么,内容就是要解决质的问题。

    对于内容,最根本的是要真实,它包括两个方面,1、要收集实际使用中的文本,而不能是研究者杜撰的;2、要收集符合条件的文本。如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。

    (二)具体实施

    1、语料的搜集

    现代计算机技术和网络资源使得语料库语料的获得变得方便容易。

    传统的语料库建设,

    语料输入工作极为浩繁,基本上靠手工键盘输入和扫描输入,费时费力,且容易出现错误,需要校对。如今大量的在线语料资源、光盘资料、因特网资源,包括新闻、邮件列表、电子邮件等,使语料库的建设和扩充变得非常快捷方便。

    当然,用于不同研究目的的语料库对其语料来源可能要求不同,会影响到语料的采集。

    2、抽样

    语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡,要考虑每一文类、体裁、

    语域、主题类型等的抽样比例。乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性。目前,计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。

    决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围,再就是确定语料的分层结构,进行分层抽样,如把语料按文类(如小说、新闻报道、科学论文、法律文书、诗歌、散文等)和信道(如书面语和口语)进行分层抽样。

    在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。

    3、语料库的加工

    文本输入计算机后,一般需要进行一些加工,主要包括语料的标识和语料的赋码。

    1)语料库的标识

    标识主要分两类:一类是对文本的性质和特征进行标识,另一类是对文本中的符号、格式等进行标识。

    如CLEC语料库标注了以下主要信息,包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的,因为它们可以用来对文本进行必要的分类,为灵活提取文本进行各类目的研究提供便利,而且它们可以标注在文本开头或者作为另一个文件保存,丝毫不破坏语料的完整性和原始性。

    至于第二类标识可以视研究和应用的目的而定。但不管怎样,保存一份未标识的原文本是很有必要的。

    2)赋码

    一些研究不需要赋码语料库,而有些研究需要赋码语料库。

    当前,语料库的赋码主要有两类:一类是词类码,又称语法码;另一类是句法码。

    词类赋码就是对文本中每一个词标注词类属性,这项工作通常是在传统语法对词类的划分的基础上进行的,只是分类适应要求做得更细。

    如在LOB语料库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的单数形式,如Englishman ,以NNS代表普通名词的复数形式,如desks,以VB代表动词的基本形式,如write、see,以VBD 代表动词的过去式,如wrote 、saw,以VBG代表动词的现在分词形式,如reading 、eating ,以 VBN 代表动词的过去分词形式,如written 、seen,等等。

    目前自动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋码正确率在96%—97%左右。

    句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例,其句法赋码系统分三个步骤:第一步,对文本中每一个词赋以可能的句法码。

    该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步,寻找一些特殊的语法码形式和句法片断,对句法结构作必要的修改。最后,完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最大的句法分析作为每句的分析结果。

    词类赋码和句法赋码为语言的量化研究创造了条件,为进一步研究自然语言的概率性特征提供了方便,为进一步的语义、语法和语用分析等打下了基础。

    4、语料库引擎

    通常意义上的计算机语料库一般包括语料库本体(即语料库电子文本)和语料库引擎(即

    语料库索引程序)两个部分。

    索引工具的基本功能包括词频统计、词表生成、语篇统计、关键词索引、排序、搭配词统计、词语型式统计、主题词提取、词丛统计、词图统计等等。

    网上提供了一些可以利用的工具软件,包括MicroConcord、Wordsmith Tools、TACT、Concordance 1。1。3 、TEC Concordancing Tools 具有提供词语索引、搭配词表以及各词语索引行的扩展语境的功能,允许用户把索引结果存储在自己的硬盘上。

    MicroConcord 可进行带语境的关键词索引。 利用它可以观察关键词所在语篇,获得左右搭配词表。

    Wordsmith Tools 具有下列功能:1)生成词表、可按词频、字母顺序分别排列,并提供各种统计信息;2)关键词提取。可进一步统计分析关键词在语篇中的分布,再生成该语料库的主要关键词,还可以查出某一关键词的联想词汇。

    3)提供词汇词语型式表和搭配词位置分布等极有价值的信息,使研究者可以从多种角度对词汇运用进行分析。4)查询结果可以很方便地转换为表格形式,并读入到MS Access、Excel 等数据库中进行相关的分析统计。

    TACT是一个语料库索引软件包,它具有全文索引、语境中的关键词索引、词表生成、词频统计、搭配词自动提取、语料比较等强大的功能。

    Concordance 除了一般文本索引软件所具有的功能外,其独特之处是能够把索引结果自动生成HTML网页,供在线浏览。它是一个独立软件,可利用它对任何语料库文本进行索引分析。

    全部

    展开全文
  • 【自然语言处理】浅谈语料库

    万次阅读 多人点赞 2018-11-05 10:19:29
    文章目录【自然语言处理】浅谈语料库前言一、浅谈语料库1、语料和语料库2、语料库语言学3、 建议语料库的意义二、语料库深入了解1、语料库划分与种类2、语料库构建原则3、语料标注的优缺点三、自然语言处理工具包:...
  • 国内可用免费语料库

    千次阅读 2020-03-23 17:59:38
    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。 2古代汉语语料库...
  • Quootstrap:通过自举从大型新闻语料库中可扩展地无监督地提取说话人对说话人。 在2018年第12届国际网络和社交媒体会议(ICWSM)的会议记录中。 抽象的 我们建议使用Quootstrap,这是一种从大型新闻语料库中提取...
  • NLP浅谈语料库

    千次阅读 2020-07-23 20:28:21
    NLP浅谈语料库 1. 浅谈语料库 1.1 预料和语料库 ​ 语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的...
  • 中文语料库有哪些

    万次阅读 2018-05-04 11:21:43
    中文自然语言处理开放平台 由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试...文本语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=16&...
  • 文章目录语料库技术概述语料库语言学的发展早期的语料库语言学沉寂时代复苏与发展时期语料库的类型平衡语料库和平行语料库共时语料库和历时语料库汉语语料库建设中的问题一般语料库设计需要考虑的问题汉语语料库建设...
  • 国内免费汉语语料库-NLP

    万次阅读 2018-10-29 15:50:45
    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。 2古代汉语语料库...
  • 语料库与语言知识库

    2019-08-22 20:50:31
    语料库技术 语料库(corpus base)就是存放语言材料的数据库。那么,顾名思义,语料库语言学(corpus linguistics)就是 基于语料库进行语言学研究的一门学问。具体一点讲,语料库语言学是研究自然语言机读文本...
  • NLP 语料库 大全

    万次阅读 2017-03-04 16:46:42
    语料库清单包括了中文与英文,...现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注
  • 国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为...
  • 国内可用语料库

    万次阅读 2017-09-05 10:38:56
    国内可用语料库
  • 语料库

    千次阅读 2018-03-16 10:00:04
    转自:http://www.cnblogs.com/mo-wang/p/4444858.html(一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时...
  • ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化...
  • 语料库收集

    千次阅读 2017-03-28 16:41:18
    美国当代英语语料库 Corpus of Contemporary American English (COCA) 柯林斯语料库 http://www.collins.co.uk/Corpus/CorpusSearch.aspx (最近这个链接失效了) 其他语料库相关链接,包括日文: Links to corpus ...
  • 语料库语料库资源汇总

    万次阅读 2013-12-19 08:52:27
    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。 2古代汉语语料库...
  • 通过对网络资源的梳理,我们整理出一份表单,机翻从业者的终极福音——25个平行语料库数据集(选自gengo.ai) Aligned Hansards of the 36th Parliament of Canada:包含130万英语-法语句对。地址:...
  • 对国际传播等相关领域的语料进行数据化处理和加工,建立系统对外传播党政文献,领导人著作、讲话及外宣图书,期刊及网络新闻等宣传内容为主的语料数据库,并在此基础上建立国际传播综合人工智能语料库。 经过 60 ...
  • 一些文本语料库

    万次阅读 2016-07-24 17:06:05
    一、语料库链接 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。...(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484 ...搜狗的中文新闻语料库 http://www.s
  • NLTK常用操作和语料库

    万次阅读 2018-01-19 20:30:05
    布朗语料库是第一个百万词级别的英语电子语料库,这个语料库包含500个不同来源的文本,按文体分类有新闻、社论等, 完整列表 。 from nltk.corpus import brown brown.categories() outputs: [ u'adventure...
  • 搜狗互联网语料库2.0

    2008-03-26 14:07:47
    网页链接关系分析,基于互联网语料的中文信息处理研究等
  • 【汇总】语料库资源

    2019-02-24 15:23:16
    感谢豆友prayever分享:...国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提...
  • NLTK(语料库

    千次阅读 2018-05-21 22:13:35
    一、古腾堡语料库 古腾堡语料库主要包含一些文学书籍。 先看一个例子,查看古腾堡语料库包含的文本名称: import nltk nltk.corpus.gutenberg.fileids() Out[82]: [u'austen-emma.txt', u'austen-persuasion....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,454
精华内容 1,781
关键字:

网络新闻语料库

友情链接: oasys_public.rar