精华内容
下载资源
问答
  • 2021-06-23 11:56:44

    随着计算机技术、网络技术及通信技术的迅猛发展,人类已进入网络信息时代。计算机技术、网络技术、通信技术以及多媒体技术的密切结合,带来了一场新的信息革命。这场革命正以前所未有的深度和广度渗透到工业、农业、国防、军事、航天、医学等各个方面以及社会生活、工作、文化、娱乐等各个角落。这场信息革命也正以前所未闻的速度促进着人类文明的发展、改变着现代人类的生活,引领人类迈向美好未来。

    有关计算机技术、网络技术、通信技术以及多媒体技术的英语图书、期刊杂志、专利、论文、学术报告以及网络信息资源,浩如烟海, 繁若星辰。为了及时汲取国外的有关先进技术,促进我国计算机工业和信息技术的快速发展,跟上信息时代快速发展的脚步,以及为了向国外快速推广我国的先进计算机技术和信息产业技术,抢占国际市场,对于我国广大信息产业科技工作者来说,熟练掌握乃至精通计算机英语是十分必要的。

    计算机英语短语和习惯用法是计算机英语的精髓,也是计算机英语文献阅读、理解、翻译和写作的一大难点,因此,认真学习和熟练掌握它们是至关重要的。《计算机英语短语与习惯用法词典》正是为适应这一需要而编写的。本词典所用的短语,也叫片语或词组,是不含主语和限定动词的一组词,用做句子的一部分,达到言简意赅的效果。本词典所用的习惯用法,也叫惯用法或习惯表达方式,是符合英语用法习惯的一组词。此类习惯用法是在语言使用过程中逐渐提炼而约定俗成的。

    编者于2003—2005年访问美国密西根大学期间,阅读了有关计算机技术、网络技术、通信技术和多媒体技术及其应用等学科和领域的最新的原版英语专著300余册,期刊杂志、论文、会议录、专利文献以及特种报告400余篇,计算机词典等20余部,从中精选了计算机英语中使用频率最高的基础短语和习惯用法2130余条以及与之搭配的英语例句5000余条,又经过两年精心加工,多方吸取一些专家和学者的意见, 才完成了该词典的编写。

    计算机英语短语的筛选基于常用性和标准性两原则,即使用频率高和符合规范语言标准;与之搭配的英语例句则基于广泛性和专业性两原则,即广泛佐证短语的各种用法和尽量表述计算机专业知识。

    书中每条短语和习惯用法依次附有释义、例句和例句汉译,必要时还补充了用法说明或词义辨析。短语和习惯用法的释义力求做到罗列全面,以便读者根据语言环境挑选恰当的释义。例句翻译尽量做到准确无误,文从字顺,言简意赅,符合科技表达习惯。例句中出现的专业术语的翻译尽量做到吻合国内通用的说法。

    编者奉献给读者这本实用的《计算机英语短语与习惯用法词典》,旨在帮助计算机技术、网络技术以及通信技术等领域的广大从业人员、大专院校师生、中小学校教师,以及广大英语爱好者加速掌握计算机英语,快速提高科技英语阅读、理解和翻译水平,改进科技英语写作能力和教学水平。

    在本词典的资料收集和编写过程中, 编者得到杜德涛、田野和秦凤环等许多专家和学者的指点和帮助, 在此一并表示衷心感谢。

    由于编者水平所限,专业知识不甚全面,词典中定然存在缺点和不足之处,期盼读者和同行不吝指正。

    鲁人

    于北京大学燕北园

    2007年3月

    more >

    更多相关内容
  • 包含2100多条计算机英语短语、习惯用法和5000多条英文例句及其中文翻译。比如: [hand down ,to 下发,传给,发给] The FCC handed down its computer I decision in 1971. 联邦通信委员会于1971年下发了它的计算机...
  • 东西挺好的 总结的很全面。觉得还不错来出来分享下。
  • 英语常用短语词典
  • java编写英汉小词典

    2019-03-31 13:10:41
    JTextField 添加汉语解释_文本条, 添加英语单词_文本条; JButton addbtn, cancelbtn; Connection Con = null; Statement Stmt = null; public AddWin() { super("添加单词"); this.setBounds(250, 250, 250,...
  • 牛津英语搭配词典.mdx

    2016-07-11 10:55:36
    牛津英语搭配词典.mdx
  • 《牛津高阶英语词典(第8版)》原来是牛津大学出版社于2010年推出的《牛津高阶英语词典(第8版)》,与7版相比,8版:1、新增32页的Writing Tutor;2、新增主题框;3、增加1000新词新义;4、标出最重要的3000词与义;5...
  • VB英语短语翻译软件源码,短语存储在Access数据库里,使用有第三方控件。本软件可以翻译出一些短语的汉语意思,界面漂亮,模仿了OFFICE的风格界面。
  • 《牛津英汉词典》txt格式,采用英文字母分类统计。 收录单词、短语及释义总计约360000条,是收词量丰富的英汉双解词典; 精选本世纪以来的新词新义7000余条,反映语言的新发展; 汇集科技术语52000余项、百科知识...
  • 英语常用短语词典

    2007-12-26 13:55:49
    这是在网上好不容易找到的啊,在看英文文档时必备的工具啊,我个人感觉很不错(因为我的英文水平很低^_^)
  • 词典显示了与每个词条组合使用的常用词:名词、动词、形容词、副词和介词、常用短语。 搭配词典基于1亿词的英国国家语料库。 超过 50,000 个示例显示了搭配/搭配如何在上下文中使用,并在有用的地方提供语法和...
  • 优词英语词源词典.7z

    2021-03-10 19:31:54
    互联网上最好、最权威的英语词源词根词典,收录超过五万英文单词、短语的词源词根,查询词源能帮你科学、快速地理解与记忆英语单词。
  • BeFluent为您提供正确的工具,让您在有针对性的练习中精通Eglish。 以您正在学习的语言访问网页,然后双击要查看其定义的任何单词,包括例句和单词关系。...英语,学习英语英语词汇,英语词典 支持语言:English
  • 给力英语词典 v1.1.0

    2019-11-10 06:17:42
    给力英语词典为绿色免费软件,是一部英汉-汉英双解词典,收录单词及词组60万条。每个词条都有详细的例句与用法以及词形...给力英语词典是一个学习英文的好工具。 更新内容 词条更新至60万,优化查询方式,检索更快。
  • 给力英语词典.zip

    2019-07-16 08:56:16
    给力英语词典为绿色免费软件,是一部英汉-汉英双解词典,收录单词及词组30万条。每个词条都有详细的例句与用法以及词形变化和短语词组,可按词首、词尾、精确、模糊检索单词,...给力英语词典是一个学习英文的好工具。
  • Erudite Dictionary 是结合了双语词典,翻译器,抽认卡,短语集和小部件的最佳语言学习应用程序。如果您想最有效地学习英语,西班牙语,法语,德语,意大利语,葡萄牙语,荷兰语,希腊语,俄语,中文,日语,韩语,...
  • 剑桥双解词典.txt

    2019-05-22 22:22:32
    覆盖面广,具备多种功能:学习词典,近6000条习语助力英语学习,附录特设"习语索引",查找一步到位;搭配词典,例证中呈现25000余条词语、400余处专栏搭配;精选约3000条短语动词,剖析常见错误,设200余处"学习者常见...
  • 牛津英汉词典(完整版)牛津英汉词典(完整版)牛津英汉词典(完整版)牛津英汉词典(完整版)牛津英汉词典(完整版)
  • 中文短语抽取/挖掘

    2022-03-05 19:50:11
    短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的短语,形成短语词典,提供给下游使用,这更多叫做短语挖掘。 而短语抽取更关注抽取,侧重于无条件抽取应用,类似关键词抽取那样,...

    中文短语抽取/挖掘

    概述

    短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。
    短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的短语,形成短语词典,提供给下游使用,这更多叫做短语挖掘。
    而短语抽取更关注抽取,侧重于无条件抽取应用,类似关键词抽取那样,使用者无条件抽取一篇文章中的短语,例如通用NLp工具中HanLP1.x的函数extract_phrase。
    短语抽取/挖掘与新词发现类似,都是发现“新词”【未登录词】,最大的不同点在于,中文词语长度一般为2/3/4,而短语往往更长【本文默认4-10的词语为短语】,因此也有一些新特性。

    在这里插入图片描述

    坦率的说,中文短语抽取/挖掘任务的发展并不是令人鼓舞的,也没有那么乐观,仅仅有31 papers with code, 2 datasets。

    前言

    • 和几乎其他所有的自然语言处理NLP任务一样,早期,20世纪80年代以前,短语提取的形式也是基于规则的【语言学】,比如说分块chunk、词性标注pos等 + 规则依然不失为一种短语提取的基础方案,短语,如主谓短语、动宾短语、偏正短语、中补短语、联合短语,通常由动词v、名词n、形容词adj作中心语。
    • 20年代80年代开始,计算机领域发生了一系列深刻的变革,尤其是集成电路的发展、微机的崛起,不仅是算力的提升,计算机不再高不可攀,它的迅速普及也使得各种奇思妙想集中迸发出来。 尤其是80年代末,传统统计机器学习开始兴起,其能够非线性、概率地进行计算,很快成为时代的宠儿。1980年代提出的TF-IDF、BM25、决策树DT、主成分分析PCA等算法,至今仍然被人们广泛用于关键词【短语】抽取中。
    • 进入90年代,统计机器学习如日中天,这一时期,隐马尔可夫模型HMM、支持向量机SVM、集成学习Ensemble等各种算法层出不穷,代表了传统有监督学习的巅峰【dog-SVM】,也被广泛用于短语的打分函数中。值得注意的是,互联网开始兴起,尤其是90年代末,未登录词的状况也愈发凸显。
    • 到了新世纪,00年代,由PageRank领衔的基于图网络算法数不胜数,TextRank、SingleRank、PositionRank、TopicRank、EmbedRank、SIFRank…与此同时,互联网开始进入Web2.0时代,数据激增,大数据开始星期。值得一提的是,搜狗基于搜索引擎技术的新一代的搜狗拼音输入法开始横扫。
    • 进入10、20年代,人工智能再次迎来高潮,“人工”+"智能"的范式取得了极大的成功。这一时期,技术再次得以突破,有Word2Vec词向量发展而来的EmbedRank、SIFRank、KeyGames;有浅层神经网络的CNN、BiLSTM、CopyRNN;有弱/远程监督抽取的韩家炜团队三部曲TopMine、SegPhrase、AutoPhrase;也有预训练模型BERT发展而来的Roberta、UCPhrase;此外还有一些生成式、多任务的方法例如One2Seeq、One2Set;BERT-KPE。
    • 除此之外,HanLP1.x实现的短语抽取,即论文《利用统计量和语言学规则提取多字词表达》。2012年间Matrix67在博客《互联网时代的社会语言学:基于SNS的文本数据挖掘》一文中,提出了一种影响广泛的、基于统计学概率【左右熵/凝固度】的新词发现算法。Kavita Ganesan2018、2019年苏建林相继给出的,基于高质量种子词聚类的方法。丁香园基于字典进行切割N-Gram、远程监督、词性标注、BERT字向量等获取短语候选集【很迷糊,不理解怎么获取候选集的】,然后采用GDBT进行打分。

    在这里插入图片描述

    技术

    定义

    短语,在早期的一些论文中被称为”多字词表达“【multi-word expressions】。《利用统计量和语言学规则提取多字词表达》论文中支指出多字词表达包括动词短语(爆发、取决于) ,复合名词(机器翻译、警用车辆) ,成语(雨后春笋、三人 行必有我师) 等等。

    百度百科中的定义为,短语是由句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,又叫词组,它是大于词而又不成句的语法单位。其基本短语包括主谓短语【粮食//丰收(名//动)】、动宾短语【想//他 (动//代)】、偏正短语【定中短语—他//的马 (代//名)、状中短语—刚//回来 (副//动)】、【中补短语 打量//一番 热//死了】、【联合短语 今天//和//明天(名//名 并列)】。

    可以发现,语言学中的短语,与我们NLP中短语提取并不完全重合。比如说,一般NLP中我们会把2-3的词叫做"词语"、4-?的才称为短语【直觉中我们不大会认为"热起来"是短语】。此外,我们更加偏向于抽取有意义的短语【如有动词、名词的,”今天和明天“我们一般也不认为这是"短语"】。

    开源方案

    从更一般的角度而言,短语提取技术方案可以分为两个步骤: 1.候选短语生成、2.短语打分两个阶段,早期的算法可能融合起来只有一个步骤,比如说基于规则。
    同时每个步骤的算法又可以分为无监督、半监督、有监督这三种形式,无论是传统机器学习、亦或是深度学习模型,都可以用于这两个步骤。

    • Jieba tfidf/textrank, 抽取的主要是关键词, 而不是短语
    • textrank4zh textrank, 还是jieba分词的问题, 抽取的是关键词
    • HanLP1.X 词典 + 熵, 依赖语料, Java
    • JioNLP=CKPE tfidf【pkuseg】 + 融合连续的动词-名词 + 重新计算权重 + 过滤【词性、LDA主题】
    • CKPE 分词 + 词性标注 + tfidf + 连续词融合 + lda
    • pke 更多的是支持英文
    • Macropodus 新词发现长词(长度大于2), 词频-凝固度-左右熵, 过滤通用词库, 存在噪声, 阈值过滤,以及后期打分并不容易过滤
    • EmbedRank sent2vec句子/短语 +MMR
    • SIFRank+ 候选短语占句子的权重, ELMO + 向量的余弦相似度
    • 种子词+聚类 二段式【词向量聚类】(候选集使用熵等, 然后根据一定的种子词作为聚类初始化), 需要构建种子词, 候选短语切割不是那么准确
    • TopMine 二段式【上下文迭代合并】(候选集用新词发现方法, 频次过滤, 类似PMI合并上下文短语, LDA约束打分)
    • SegPhrase 二段式【远程监督】200-300个数据进行随机森林RF分类
    • AutoPhrase 二段式【随机森林RF】, wiki/Freebase构建高质量词典, 鲁棒-正样本远程监督训练, POS-Guided短语分割
    • 丁香园总结-实践tricks 二段式,分词使用领域语料-ngram+pos统计+远程监督+bert, 排序选择GBDT(样本为词典+ngram), 无法保证分词的效果, 需要领域词典
    • One2Seq 生成式,顺序[present [存在于原文中的内容]前,absent[不存在于原文]后],对keyphrase 分割, 结束。Semantic Coverage保留语义。
    • One2Set 生成式,无序,引入Control code 每个控制编码对应生成一个集合元素,匈牙利算法
    • BERT-KPE 多任务, candidate chunking【CRF/SPAN/CNN-SoftMax】和ranking【Max】
    • UCPhrase 二段式,当前State-of-the-Art, 预训练, mlm样本为单篇文章中出现频次高的n-gram, 分类器选择为Light-Wise分类器【CNN/LSTM】

    实践建议

    • 分类模型的高质量短语, 可以来源于百科词条【百度、维基】, 知识图谱【开放知识图谱】, 输入法词典【搜狗, 百度】, 开源项目词典【funNLP, Thunlp, 领域词典】;
    • 候选短语生成最好还是严格些, 否则分类模型就需要处理各种奇奇怪怪的问题;
    • 分类模型负样本的构建最好是随机N-Gram, 可以过滤上面所说的词典, 也可以用各种经典统计量过滤, 比如新词发现的统计量就很不错;

    参考

    希望对你有所帮助!

    展开全文
  • 随着互联网的普及,纸质词典不再受大家的追捧。于是,我们发现很多同学在手机上安装了各种各样查词软件,如:有道词典、金山...但是,我更建议利用地道权威的主流英文词典(牛津双解、柯林斯双解、朗文词典、麦克米...

    8956ff177577bfbd5fcb5168bfaef1a9.png

    随着互联网的普及,纸质词典不再受大家的追捧。于是,我们发现很多同学在手机上安装了各种各样查词软件,如:有道词典、金山词霸、百度翻译,遇到生词只是简单的输入并查看汉语意思。有的同学为了背单词,应该也下载了不少的软件,如:百词斩、不背单词、极光单词。当然,只要你能够利用以上软件坚持查词、背词,词汇量肯定也会增长。但是,我更建议利用地道权威的主流英文词典(牛津双解、柯林斯双解、朗文词典、麦克米伦等)进行词汇深度学习。纸质词典不方便携带,查词相对低效,如何解决呢?今天,我给大家分享3款平时高频使用的查词软件,提高查词效率。可以说有了这3款软件,你真的没有理由记不住单词了!

    071303b31070ab9955e51b90c6cce4c6.png

    灵格斯

    官网:http://www.lingoes.cn

    优点:可以同时加载多款主流词典(牛津高阶英汉双解、朗文当代英语词典、柯林斯高级英语词典、韦氏词典、麦克米伦词典);视觉效果极佳,短语表达和例句分别用不同颜色字体标注,也是我个人最喜欢的查词软件。

    缺点:只有Windows版本(但是兼容所有 Windows 操作系统)。

    温馨提示:需要预先安装上述词典的词库,否则只能使用预装词典—维科英汉/汉英词典(简), 句酷双语例句, 互动百科, 即时翻译。

    d8da290c28b3e0c566507425e29c95f0.png

    例如:有的同学无法辨别 desert 和 dessert 两个单词,可以利用地道英文词典的例句和表达进行深度记忆,desert 作为动词和 dessert 发音相同,读作 /dɪˈzɜːt/,但前者的意思为抛弃,后者的意思为甜点;desert作为动词读作/ ˈdezət /,意思为甜点。

    0d3b471a605da095abbf8ea97071cb69.png

    af138734a6b2bb9fab17554e4385dfe9.png

    朗文当代英语词典,柯林斯高级英语词典,韦氏词典和麦克米伦词典均为"英语释义",查询界面如下:

    629a408404ca1e005646e6cee9ca05bf.png

    a36b46f1bb5cfced211a07743f120e76.png

    9aa4978013b4ad48f13cdd9abc3b018f.png

    5c487cb4abeb26aaff6e512f4ece7ab6.png

    b13a504c819ee24c062b8315889d7eeb.png

    MDict

    官网:https://www.mdict.cn

    优点:支持多个平台,可以在安卓,IOS手机及Windows PC等设备上使用。百度搜索:掌上百科论坛mdx资源大本营,可以查询到海量词库,更有大神制作的个性化词库(需要付费购买),也可自制词库(具体参考官网)。

    缺点:不能同时查询多个词典,查询界面视觉效果一般。

    温馨提示:需要预先导入各类词典的词库,否则只能使用基础词库。

    61d32b6a5ef36f992d05eb52f0524c54.png

    33beda1d2db768ccd8a8270bb8ead9e6.png

    除此之外,只要大家能够找到对应词汇书籍的mdx库,均可以导入其中,极大的提高了单词以及常用搭配的查询效率,比如把《英语常用词疑难用法手册》、《葛传椝英语惯用法词典》导入MDict,可以迅速查询出一个单词有几方面不同的词义和相应搭配:

    9cc56ca1715990c3f8725b6e9f085518.png

    268649dbd1f7c151261e7f59111fe007.png

    苹果手机端如何导入词库?

    1.将设备连接到电脑并运行Itunes后,在Itunes里选中设备

    2.在右边窗口选"应用程序"

    3.拖动窗口滚动条到底部,直到显示出"文件共享"

    4.在应用程序列表中选中"MDict"

    5.将需要加入设备的资料库文件拖入"MDict的文档"窗口里。如果要删除文件,可以选中窗口中的文件后按"Delete"键

    6.如果设备上的MDict正在运行的话,需要退出重新运行。

    192dc9ca08fb82dd8433ee86f1e73ec5.png

    欧陆词典

    官网:https://www.eudic.net

    优点:支持多个平台,可以在安卓,IOS手机及Windows PC等设备上使用。附加英文学习资源多,如每日英语听力,查过的单词可加入生词本,方便日后复习,也可自制词库(具体参考官网)。

    缺点:部分词库不支持,需要购买专业版。

    f29afdd23ba8e3bfb1c5bf32918a7b9c.png

    18de9500d4a79d162d9f5786d4297ad0.png

    0ccc36512b7d910ddfa984c6d51815ae.png

    分享6个免费学习雅思的外教网站

    推荐2个英文写作免费修改网站

    推荐一个免费学习口语的网站

    9a1c9891878b0b0ac3ce659a0b6613c5.png

    词库下载

    公众号后台回复:词典

    按照步骤即可免费领取

    3515f84cd76cb9750d90687101a2648e.png

    展开全文
  • 离线英汉词典-crx插件

    2021-04-03 13:52:41
    语言:中文 (简体) 工具栏按钮, 弹窗显示选中词或... 修正: https://github.com/program-in-chinese/webextension_english_chinese_dictionary/issues/5#issuecomment-4332964842. 续0.0.5的#2, 弹窗中显示处理后的英文,
  • 短语抽取专利汇总

    2022-02-28 09:37:44
    短语抽取专利汇总 利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 + rake + 向量相似度】 摘要:本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。 本发明通过挖掘中文...

    短语抽取专利汇总

    利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 + rake + 向量相似度】

    摘要:本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。
    本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,实现对无效信息的高性能过滤;
    此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;
    进一步利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用所抽取短语与文档主题的语义相似度,和短语语义重要程度进行计算与排名,完成对关键短语的进一步筛选。
    该方法可支撑多种下游任务和应用,包括科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索等场景。

     1.一种利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,步骤如下:/n
     S1、获取科技创新领域的多种中文文档,并转换为统一中文编码格式,形成科技创新领域文档库;/n
     S2、对科技创新领域文档库中的文档进行分句、分词和词性标注后,利用符合科技创新领域中文文档特征的中文停用词及停用模式库进行候选短语的抽取,
         并针对每个抽取出的候选短语,利用Rake算法计算候选短语的关键程度;
         再对抽取得到的候选短语列表,通过基于科技创新文档统计分析得到的关键短语过滤规则,对候选短语进行过滤筛选,得到初步筛选后的关键短语列表;/n
     S3、利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码,得到向量化编码文档;
         然后针对每一篇科技创新文档,将对应的所述关键短语列表进行向量化编码,然后计算文档与关键短语列表之间的语义相似度,
         所述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度;
         再基于所述语义相似度,利用图网络构建候选短语之间的语义相似度网络,并利用语义网络重要度计算算法得到候选短语的语义重要度,
         用于表示候选短语在文档中的重要程度;最后,对所述候选短语的关键程度、所述候选短语与文档主题之间的语义相似度以及所述候选短语的语义重要度进行综合,
         得到候选短语的综合得分,并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。/n
    

    一种主题短语抽取方法 【切词/链接/名词短语 + 中心词 + 主题模型】

    摘要:本发明涉及一种主题短语抽取方法,包括:
    文档预处理;求文档‑主题集、全文词汇链集及名词短语集;求中心词集;求候选主题短语集;求主题短语集。
    本发明提供的主题短语抽取方法,通过LDA模型与词汇链相结合来进行主题短语抽取,可以利用语料库之外的具有较完备语义信息的知识库WordNet,
    通过语义相关度计算和强链规则筛选可以得到强词汇链,从而在很大程度上减少主题词二义性问题;
    同时,利用中心词提取方法和N‑P规则合并、去重等步骤完成主题短语的提取,借助具有更丰富语义信息的主题短语来表达主题,从而解决了主题词粒度过小、辨识度低等问题,
    且能够保证主题抽取的准确率和召回率,减少了主题漂移现象,可以很好地满足实际应用的需要。

     1.一种主题短语抽取方法,其特征在于,包括以下步骤:
     步骤1)文档预处理;
     步骤2)求文档‑主题集、全文词汇链集及名词短语集;
     步骤3)求中心词集;
     步骤4)求候选主题短语集;
     步骤5)求主题短语集。
    

    一种技能短语抽取方法 【 规则 + 删除/分词 】

    摘要:本发明涉及计算机自然语言处理中短语抽取技术领域,具体的讲是一种技能短语抽取方法,
    首先获取文本内容,对获取的文本进行预处理,即删除文本主题前方带有的数字或者特殊索引符号,然后利用分隔符将文本分割成句子片段,之后构造抽取规则,
    运行抽取规则抽取技能短语片段,再对抽取的片段进行清洗,删除词语序列中的修饰词等没有实际意义的词语,然后进行分词处理,
    最后针对分词后的词语序列进行短语构建,形成技能短语。
    本发明可以应用在非结构化数据中,例如企业招聘等领域,在实施中不需要构建训练集和分类器,降低了数据预备与算法训练成本,能够自动确定技能短语的长度,
    避免主观性,避免了统计法中阈值选择的难题。

     1.一种技能短语抽取方法,其特征在于:包括如下步骤:/n
     S1预处理文本;/n
     S2抽取技能短语片段;/n
     S3清洗包含技能短语的结构;/n
     S4构建技能短语;/n
     S5生成技能短语。/n
    
    • [一种技能短语抽取方法 审中-实审](一种技能短语抽取方法 审中-实审)
    • 上海硕恩网络科技股份有限公司(2020-12-04)

    一种关键短语抽取方法和装置 【词对的共现信息】

    摘要:本发明提供了一种关键短语抽取方法和装置,涉及文本处理技术领域。
    本发明提供的关键短语抽取方法和装置,在确定关键短语的时候,能够确定词对的共现信息并根据词对的共现信息,确定文本的关键短语。
    共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,
    以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。

    一种关键短语抽取方法,其特征在于,所述方法包括:
    对文本进行预处理,得到多个分词;
    将所述多个分词中每两个相邻的分词组合,得到多个词对;
    通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
    根据所述每个词对的共现信息,确定所述文本的关键短语。
    

    文本短语抽取方法、装置、计算机设备及存储介质 审中-实审 【基于词法的名词抽取 + 向量相似度权重】

    摘要:本申请实施例属于人工智能领域,涉及一种文本短语抽取方法,
    包括获取待处理文本和预设语言模型, 输入所述待处理文本至所述预设语言模型中,计算得到长文本特征;
    获取预设词法工具,根据所述预设词法工具对所述待处理文本进行名词抽取,得到候选短语,
    对所述候选短语进行特征编码,得到所述候选短语对应的候选向量;
    计算所述候选向量和所述长文本特征的相似度,选取所述相似度最大的候选向量对应的候选短语,作为所述待处理文本的目标抽取文本。
    本申请还提供一种文本短语抽取装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,
    目标抽取文本可存储于区块链中。本申请实现了对文本短语的高效抽取。

    一种语义短语抽取方法及相关装置【向量聚类 + 正则 + 名词性短语】

    摘要:本申请实施例公开了一种语义短语抽取方法,包括:对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,输入文本信息为用于训练的信息;
    将所述待处理文本信息进行转换得到文本向量矩阵;
    基于激活函数,根据所述文本向量矩阵计算文本向量;
    对所述文本向量进行聚类得到第一正则表达式;
    根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。

    一种从文档集中抽取热词短语的方法和装置 【词典切词 + 【细粒度词】基于熵的新词发现】

    本发明公开了一种从文档集中抽取热词短语的方法和装置,其中分词单元对所述文档集中的每个分句进行分词;
    判断单元为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
    热词短语抽取单元为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
    与现有技术相比,本发明提供的方法和装置可以更准确地从各种语料库中抽取热词短语。

     一种从文档集中抽取热词短语的方法,包括:
     对所述文档集中的每个分句进行分词;
     针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
     基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出;
     其中,判断短语边界明显度包括:通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;
     或通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,
     并与相应阈值比较,判断短语边界明显度;
     其中,通过以下公式计算所述短语的左、右信息熵:
       所述短语的左信息熵的计算如下:
         或其中,w表示所述短语,ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,m>1,
         C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数,LCE(w)表示短语w的左信息熵;
       所述短语的右信息熵的计算如下:
         或其中,w表示所述短语,bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词,
         N(w)表示短语w在所述文档集中出现的总次数,n>1,C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数,RCE(w)表示短语w的右信息熵。
    

    文本处理方法、装置、设备及存储介质 【seq2seq生成式】

    摘要:本申请实施例涉及人工智能领域,公开一种文本处理方法包括:
    通过训练后的文本处理模型对目标文本进行编码处理,得到目标文本的表示向量;
    通过第一堆叠关系网络对目标文本的表示向量进行关键短语抽取处理,得到目标文本对应的第一关键短语的表示向量,以及通过第一堆叠关系网络对目标文本的表示向量进行关键短语生成处理,得到目标文本对应的第二关键短语的表示向量;
    对目标文本对应的第一关键短语的表示向量进行解码处理,得到目标文本对应的第一关键短语,并对目标文本对应的第二关键短语的表示向量进行解码处理,得到目标文本对应的第二关键短语;
    生成目标文本对应的关键短语集合,可提高根据文本预测关键短语的预测精度。

     1.一种文本处理方法,其特征在于,包括:/n
     通过训练后的文本处理模型对目标文本进行编码处理,得到所述目标文本的表示向量;/n
     通过第一堆叠关系网络对所述目标文本的表示向量进行关键短语抽取处理,得到所述目标文本对应的第一关键短语的表示向量,
         以及通过所述第一堆叠关系网络对所述目标文本的表示向量进行关键短语生成处理,得到所述目标文本对应的第二关键短语的表示向量,
         其中,所述第一堆叠关系网络为所述训练后的文本处理模型中的网络,所述目标文本对应的第一关键短语为存在于所述目标文本中的关键短语,
         所述目标文本对应的第二关键短语为不存在于所述目标文本中的关键短语;/n
     对所述目标文本对应的第一关键短语的表示向量进行解码处理,得到所述目标文本对应的第一关键短语,并对所述目标文本对应的第二关键短语的表示向量进行解码处理,
         得到所述目标文本对应的第二关键短语;/n
     生成所述目标文本对应的关键短语集合,所述关键短语集合包括所述目标文本对应的第一关键短语和所述目标文本对应的第二关键短语。/n
    

    基于主题模型的领域标签获取方法 【词典切词 + LDA】

    摘要:本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,
    分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。
    其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。
    实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,
    说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。

    基于中文短语串的细粒度主题信息抽取方法 无权-驳回 【多种方式候选集 + 正则/词频 + 种子词拓展】

    摘要:本发明提出了一种基于中文短语串的细粒度主题信息抽取方法,首先对输入的原始文本集进行预处理,主要分为中文分词、停用词处理和词性标注。
    在进行预处理的同时,进行扩展词汇输入,从而提高中文分词的准确度。
    预处理阶段完成后,得到处理后的结构化文本集合。
    然后进行基于词性的正则表达式匹配,得到一个初步的短语筛选结果。然后统计每个词语的串频信息,选取种子词,对短语进行扩展,最终得到短语抽取结果。
    通过实验证明,该文本抽取方法能够有效且精炼地抽取文本短语,具有一定的可靠性和应用性。

    (a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;
    (b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;
    (c)利用步骤(a),(b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;
    (d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;
    (e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;
    (f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。
    

    一种基于最大凝聚系数和边界熵的未登录词识别方法 【 基于熵的新词发现 】

    摘要:本发明提供了一种基于最大凝聚系数和边界熵的未登录词识别方法,其特征在于:
    包括以下步骤:预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加;
    本发明中实验表明,本发明中所提出的算法准确率为66.67%相比于汪龙庆等在计算机应用与软件期刊中所发表的论文:
    基于未登录词识别的微博评价短语抽取方法中所提出的算法准确率为60.05%有较大程度的提高,提升了6.62个百分点,
    并且分别在未登录词识别的精确率、召回率和F1值也有所改善,推测结果提高的原因是左右邻接边界熵这两个参数对未登录词识别都有影响,
    但汪龙庆等的论文中中将左右邻接边界熵最小值设为一个参数,只是取其中最小值为影响未登录词识别算法的因素。

    预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加;/n
    参数计算包括以下步骤:/n
        S1、计算语料库中的WB2、WB3的词频tfi2和tfi3;/n
        S2、使用公式计算语料库中的WB2、WB3的凝聚系数和/n
        S3、使用公式计算语料库中的WB2、WB3的左邻接边界熵和/n
        S4、使用公式计算语料库中的WB2、WB3的右邻接边界熵和/n
        S5、对每一条文本都循环进行步骤2-1到2-4的unigram计算并在unigram词计算的基础上计算bigram的四个参数并保存。/n
    

    专利中技术短语的自动抽取方法 【 短语抽取+实体识别工具 】

    摘要:本发明公开了一种专利中技术短语的自动抽取方法,包括:
    根据专利数据库,获得各领域专利文本以及类别信息;
    利用诸多既有的短语抽取、实体识别工具,构建专利中的候选技术短语的集合;
    根据技术短语的语义、统计特点,设计相应的评价指标来量化候选短语是技术短语的可能性;
    根据专利的多层级结构特点,设计了一种多层的抽取模型来抽取技术短语;
    最后在每个层级上筛选的到技术短语,合并得到专利的技术短语集合,即此专利的技术画像。

     1.一种专利中技术短语的自动抽取方法,其特征在于,包括:/n
     通过专利数据库,获得各个领域内的专利文本信息,以及专利之上的技术类别描述信息;/n
     对于每一份专利,按照专利文本的结构将专利文本信息分为N个层级,使用无监督方法对每一层级进行候选技术短语的抽取,并利用每一层级的候选技术短语各自构建短语图结构;/n
     逐层级的为候选技术短语进行评分,再利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系,迭代计算每个候选技术短语的最终分值,
         按照最终分值的大小筛选出技术短语,其中上一层级筛选出的技术短语用于当前层级候选技术短语的评分计算,第一层级则结合技术类别描述信息进行候选技术短语的评分计算;/n
     综合所有层级选出的技术短语,并进行去重合并,得到一份专利中技术短语。/n
    

    一种文本处理方法及装置 【 词级别中转英 + 英文关键短语抽取】

    摘要:本申请涉及文本处理技术领域,尤其涉及一种文本处理方法及装置。
    本申请通过将获取到的中文文本进行分词处理,得到多个中文词语,在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列,
    进而将中文文本转化为对应的英文文本,进一步地,从英文文本中抽取出多个英文关键短语,并根据中英文映射表,分别将每个英文关键短语转化为中文关键短语。
    与现有技术中只基于中文文本抽取中文关键短语的方法相比,本申请通过预设规则将中文文本转化为英文文本,并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取,
    进而将英文关键短语转化为中文关键短语,可以提升中文关键短语抽取的准确率和效率。

     1.一种文本处理方法,其特征在于,所述文本处理方法包括:/n
     将获取到的中文文本进行分词处理,得到多个中文词语;/n
     在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列;/n
     根据查找出的多个英文字母序列,将所述中文文本转化为对应的英文文本;/n
     从所述英文文本中抽取出多个英文关键短语;/n
     根据所述中英文映射表,分别将每个英文关键短语转化为中文关键短语。/n
    
    • 一种文本处理方法及装置 审中-实审
    • 北京嘀嘀无限科技发展有限公司( 2020-10-30)
      查找出与每个中文词语分别对应的英文字母序列;/n
      根据查找出的多个英文字母序列,将所述中文文本转化为对应的英文文本;/n
      从所述英文文本中抽取出多个英文关键短语;/n
      根据所述中英文映射表,分别将每个英文关键短语转化为中文关键短语。/n
     - [一种文本处理方法及装置 审中-实审](http://www2.soopat.com/Patent/201910269029)
     - 北京嘀嘀无限科技发展有限公司( 2020-10-30)
    
    希望对你有所帮助
    
    展开全文
  • 按照的英文短语

    2020-12-31 05:24:51
    下面就由小编为大家带来关于按照的英语短语集锦,希望大家能有所收获。关于按照的相关短语按照according to按照in accordance with按照on the basis of按照in light of按照in terms of按照规定 by the book ; as ...
  • 写在前面市面上英英词典的种类和数量可谓非常多,但这些不同品牌和类型的英英词典之间具体有什么区别?对学习者来说,究竟哪一本英英词典才适合自己?带着这些疑问,我们挑选了市面上相对主流的针对语言学习者开发的...
  • 有道手机词典

    2017-12-24 10:11:58
    内置超过10万中英文单词短语,无需上网即可轻松查单词。 ◆支持即时提示。在您输入单词的前几个字母后,根据提示即可找到您想要输入的单词。 ◆支持网络释义。从数十亿网页中自动萃取最新单词解释,永不过时的超大...
  • 其中牛津词典内容详实全面,其他词典辅助学习英语;每个词条都有详细的例句与用法以及词形变化和短语词组。词典中的词条都可以进行真人语音朗读;另外还有句子文章翻译功能,支持英汉互译。本词典可离线查询词条150...
  • 下次,将自定义单词和短语添加到词典中,以使它们不会被更改。 从键盘添加单词 (Add a Word from the Keyboard) The easiest way to add a word to your dictionary is right from the keyboard. Say you’re ...
  •  // 将十万个随机组成的6位数英文单词作为字典存进set集合里面  for (int i = 0; i ; i++) {  String a = ranDom();  list1.add(a);  }  String[] a2 = list1.toArray(new String[0]);  // String[] ...
  • MDict中最好用的英语、汉语词典

    千次阅读 2015-03-22 22:14:22
    正因为如此,从英语词典、汉语辞典,到唐诗宋词赏析,到维基百科,能够找到的资源浩如烟海。如今,MDict格式的词典文件俨然成立一个行业标准,各个平台皆有软件支持: 安卓平台:Android版的MDict,深蓝词典...
  • 词典英语学习中扮演着重要角色,用好词典能让你学英语事半功倍。今天给大家分享的是朗文当代LDOCE6双解词典。具体来讲,朗文六有以下几个特点:(1)使用9000词标记朗文六与朗文五相比最大的亮点在于新增了英语中最...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,632
精华内容 1,852
关键字:

英文短语词典

友情链接: s_xy801291.zip