-
2021-06-06 22:35:40
提取中文短语
也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,文档的简介生成等。
利用互信息和左右信息熵,我们可以轻松地将新词提取算法拓展到短语提取。只需将新词提取时的字符替换为单词, 字符串替换为单词列表即可。为了得到单词,我们依然需要进行中文分词。 大多数时候, 停用词对短语含义表达帮助不大,所以通常在分词后过滤掉。
代码如下:
from pyhanlp import * """ 短语提取""" text = ''' 算法工程师 算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。 如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、 空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。 1职位简介 算法工程师是一个非常高端的职位; 专业要求:计算机、电子、通信、数学等相关专业; 学历要求:本科及其以上的学历,大多数是硕士学历及其以上; 语言要求:英语要求是熟练,基本上能阅读国外专业书刊; 必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。 2研究方向 视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师 3目前国内外状况 目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。 算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、 雷达信号处理、生物医学信号处理等领域的一维信息算法处理。 在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心; 另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法 (Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling), 锐化处理算法(Sharpness),超分辨率算法(Super Resolution) 手势识别(gesture recognition) 人脸识别(face recognition)。 在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。 另外数据挖掘、互联网搜索算法也成为当今的热门方向。 算法工程师逐渐往人工智能方向发展。''' phrase_list = HanLP.extractPhrase(text, 5) print(phrase_list)
运行结果如下:
[算法工程师, 算法处理, 一维信息, 算法研究, 信号处理]
目前该模块只支持提取二元语法短语。在另一些场合,关键词或关键短语依然显得碎片化,不足以表达完整的主题。这时通常提取中心句子作为文章的简短摘要,而关键句的提取依然是基于 PageRank 的拓展。不需要标注语料的参与,满足了人们“不劳而获”的欲望。然而必须指出的是,这些算法的效果非常有限。对于同一个任务,监督学习方法的效果通常远远领先于无监督学习方法。
更多相关内容 -
中文短语抽取/挖掘
2022-03-05 19:50:11短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。 短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的...中文短语抽取/挖掘
概述
短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。
短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的短语,形成短语词典,提供给下游使用,这更多叫做短语挖掘。
而短语抽取更关注抽取,侧重于无条件抽取应用,类似关键词抽取那样,使用者无条件抽取一篇文章中的短语,例如通用NLp工具中HanLP1.x的函数extract_phrase。
短语抽取/挖掘与新词发现类似,都是发现“新词”【未登录词】,最大的不同点在于,中文词语长度一般为2/3/4,而短语往往更长【本文默认4-10的词语为短语】,因此也有一些新特性。坦率的说,中文短语抽取/挖掘任务的发展并不是令人鼓舞的,也没有那么乐观,仅仅有31 papers with code, 2 datasets。
前言
- 和几乎其他所有的自然语言处理NLP任务一样,早期,20世纪80年代以前,短语提取的形式也是基于规则的【语言学】,比如说分块chunk、词性标注pos等 + 规则依然不失为一种短语提取的基础方案,短语,如主谓短语、动宾短语、偏正短语、中补短语、联合短语,通常由动词v、名词n、形容词adj作中心语。
- 20年代80年代开始,计算机领域发生了一系列深刻的变革,尤其是集成电路的发展、微机的崛起,不仅是算力的提升,计算机不再高不可攀,它的迅速普及也使得各种奇思妙想集中迸发出来。 尤其是80年代末,传统统计机器学习开始兴起,其能够非线性、概率地进行计算,很快成为时代的宠儿。1980年代提出的TF-IDF、BM25、决策树DT、主成分分析PCA等算法,至今仍然被人们广泛用于关键词【短语】抽取中。
- 进入90年代,统计机器学习如日中天,这一时期,隐马尔可夫模型HMM、支持向量机SVM、集成学习Ensemble等各种算法层出不穷,代表了传统有监督学习的巅峰【dog-SVM】,也被广泛用于短语的打分函数中。值得注意的是,互联网开始兴起,尤其是90年代末,未登录词的状况也愈发凸显。
- 到了新世纪,00年代,由PageRank领衔的基于图网络算法数不胜数,TextRank、SingleRank、PositionRank、TopicRank、EmbedRank、SIFRank…与此同时,互联网开始进入Web2.0时代,数据激增,大数据开始星期。值得一提的是,搜狗基于搜索引擎技术的新一代的搜狗拼音输入法开始横扫。
- 进入10、20年代,人工智能再次迎来高潮,“人工”+"智能"的范式取得了极大的成功。这一时期,技术再次得以突破,有Word2Vec词向量发展而来的EmbedRank、SIFRank、KeyGames;有浅层神经网络的CNN、BiLSTM、CopyRNN;有弱/远程监督抽取的韩家炜团队三部曲TopMine、SegPhrase、AutoPhrase;也有预训练模型BERT发展而来的Roberta、UCPhrase;此外还有一些生成式、多任务的方法例如One2Seeq、One2Set;BERT-KPE。
- 除此之外,HanLP1.x实现的短语抽取,即论文《利用统计量和语言学规则提取多字词表达》。2012年间Matrix67在博客《互联网时代的社会语言学:基于SNS的文本数据挖掘》一文中,提出了一种影响广泛的、基于统计学概率【左右熵/凝固度】的新词发现算法。Kavita Ganesan2018、2019年苏建林相继给出的,基于高质量种子词聚类的方法。丁香园基于字典进行切割N-Gram、远程监督、词性标注、BERT字向量等获取短语候选集【很迷糊,不理解怎么获取候选集的】,然后采用GDBT进行打分。
技术
定义
短语,在早期的一些论文中被称为”多字词表达“【multi-word expressions】。《利用统计量和语言学规则提取多字词表达》论文中支指出多字词表达包括动词短语(爆发、取决于) ,复合名词(机器翻译、警用车辆) ,成语(雨后春笋、三人 行必有我师) 等等。
百度百科中的定义为,短语是由句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,又叫词组,它是大于词而又不成句的语法单位。其基本短语包括主谓短语【粮食//丰收(名//动)】、动宾短语【想//他 (动//代)】、偏正短语【定中短语—他//的马 (代//名)、状中短语—刚//回来 (副//动)】、【中补短语 打量//一番 热//死了】、【联合短语 今天//和//明天(名//名 并列)】。
可以发现,语言学中的短语,与我们NLP中短语提取并不完全重合。比如说,一般NLP中我们会把2-3的词叫做"词语"、4-?的才称为短语【直觉中我们不大会认为"热起来"是短语】。此外,我们更加偏向于抽取有意义的短语【如有动词、名词的,”今天和明天“我们一般也不认为这是"短语"】。
开源方案
从更一般的角度而言,短语提取技术方案可以分为两个步骤: 1.候选短语生成、2.短语打分两个阶段,早期的算法可能融合起来只有一个步骤,比如说基于规则。
同时每个步骤的算法又可以分为无监督、半监督、有监督这三种形式,无论是传统机器学习、亦或是深度学习模型,都可以用于这两个步骤。- Jieba tfidf/textrank, 抽取的主要是关键词, 而不是短语
- textrank4zh textrank, 还是jieba分词的问题, 抽取的是关键词
- HanLP1.X 词典 + 熵, 依赖语料, Java
- JioNLP=CKPE tfidf【pkuseg】 + 融合连续的动词-名词 + 重新计算权重 + 过滤【词性、LDA主题】
- CKPE 分词 + 词性标注 + tfidf + 连续词融合 + lda
- pke 更多的是支持英文
- Macropodus 新词发现长词(长度大于2), 词频-凝固度-左右熵, 过滤通用词库, 存在噪声, 阈值过滤,以及后期打分并不容易过滤
- EmbedRank sent2vec句子/短语 +MMR
- SIFRank+ 候选短语占句子的权重, ELMO + 向量的余弦相似度
- 种子词+聚类 二段式【词向量聚类】(候选集使用熵等, 然后根据一定的种子词作为聚类初始化), 需要构建种子词, 候选短语切割不是那么准确
- TopMine 二段式【上下文迭代合并】(候选集用新词发现方法, 频次过滤, 类似PMI合并上下文短语, LDA约束打分)
- SegPhrase 二段式【远程监督】200-300个数据进行随机森林RF分类
- AutoPhrase 二段式【随机森林RF】, wiki/Freebase构建高质量词典, 鲁棒-正样本远程监督训练, POS-Guided短语分割
- 丁香园总结-实践tricks 二段式,分词使用领域语料-ngram+pos统计+远程监督+bert, 排序选择GBDT(样本为词典+ngram), 无法保证分词的效果, 需要领域词典
- One2Seq 生成式,顺序[present [存在于原文中的内容]前,absent[不存在于原文]后],对keyphrase 分割, 结束。Semantic Coverage保留语义。
- One2Set 生成式,无序,引入Control code 每个控制编码对应生成一个集合元素,匈牙利算法
- BERT-KPE 多任务, candidate chunking【CRF/SPAN/CNN-SoftMax】和ranking【Max】
- UCPhrase 二段式,当前State-of-the-Art, 预训练, mlm样本为单篇文章中出现频次高的n-gram, 分类器选择为Light-Wise分类器【CNN/LSTM】
实践建议
- 分类模型的高质量短语, 可以来源于百科词条【百度、维基】, 知识图谱【开放知识图谱】, 输入法词典【搜狗, 百度】, 开源项目词典【funNLP, Thunlp, 领域词典】;
- 候选短语生成最好还是严格些, 否则分类模型就需要处理各种奇奇怪怪的问题;
- 分类模型负样本的构建最好是随机N-Gram, 可以过滤上面所说的词典, 也可以用各种经典统计量过滤, 比如新词发现的统计量就很不错;
参考
- 限定域文本语料的短语挖掘(Phrase Mining), https://mp.weixin.qq.com/s/2_6_5i-ycoj4XBS-J6kgDw
- 关键短语抽取及使用BERT-CRF的技术实践, https://zhuanlan.zhihu.com/p/148502336?from_voters_page=true
- 专业领域词汇的无监督挖掘, https://spaces.ac.cn/archives/6540
- keyphrase抽取论文在聊什么? https://mp.weixin.qq.com/s/gfDYHdE_wHDg5YNeJckj5A
希望对你有所帮助!
-
学术英语词汇、短语
2020-05-25 10:08:31一个辅助的分类器 we explicity involve loss1 into loss2 我们将损失1引入到损失2中 sth has impeded the wide deployment of sth in real application 阻碍...在实际应用的广泛应用 is responsible...an auxiliary classifier 一个辅助的分类器 we explicity involve loss1 into loss2 我们将损失1引入到损失2中 sth has impeded the wide deployment of sth in real application 阻碍...在实际应用的广泛应用 is responsible to 对...有责任 aligns to the very first intuition 符合最初的直觉 ten-fold better efficiency 十倍的效率 a drop-in replacement of sth ... 的替代品 start from 从...开始 we start from the vanilla depthwise convolution 我们从普通的深度卷积开始 For simplicity, 为简单起见 it is straightforward to generalize to ca 很容易推广到ca yielding an end-to-end solution 产生一个端到端的方案 Generally speaking/in general 一般来讲 It is worth noting that/It is noteworthy that 值得注意的是 Researchers have put plenty of efforts into doing sth 研究人员付出了大量的努力做某事 be becoming increasingly popular 变得越来越受欢迎 we revisit the fundamental question 我们重新思考了了这个基础性问题 it has been well-known that ... sth 是众所周知的 be integrated into 被整合到 solve the problem arising from this challenge 解决这个挑战带来的问题 achieve encouraging results 取得令人鼓舞的结果 so as to 以便,以致 In this paper, we extend the two-stage architecture of the Faster-RCNN 我们扩展了fasterrcnn的结构 be based on 基于 particularly difficult 相当困难 have been widely used 被广泛应用 is widely applicable across detector architectures 在探测器结构上被广泛应用 surpass all detectors on the challenging COCO dataset. 在coco上超越了所有的方法 e. g. exempli gratia 例如 in principle 原则上 To simplify the notation 为了简化符号 As illustrated/shown in Fig. 2 如图2所示 element-wise multiplication 点乘 one impeding factor of deep learning is ... 一个深度学习的阻碍因素是... many variants of attacks 攻击的许多变体 boils down to 归结为 Machine learning techniques have deeply rooted in our everyday life 深深扎根在生活中 be heavily engaged in 忙于 reduce the demand for sth 减少对...的需求 sth have emerged as a hot topic sth 某事已成为...的热点话题 sth give birth to a new research area sth 产生了一个新的领域 till now 到现在为止 sth is heavily with sth 和...密切相关的the above success comes at a great price 以上成功付出了巨大代价 by this means 用这种方式 resource-consuming and time-consuming 资源消耗和时间消耗 the memory consumption and computation time increase quadratically 呈平方增加 to solve the aforementioned problems 为了解决前面的问题 seek for 寻求 degrade the performance of sth 降低了...的性能 criterion 标准,准则,原则 utilize 使用,利用,运用,应用 appreciable 可观的 existing 现存的,现行的 improvement 改进 gain 获得 initial 最初的 since then 从那时起 investigate 调查 shortcoming 缺点 alleviate 缓解 major 专业 advancement 促进;推动;发展;前进;(工作、社会等级等的)提升,晋升 subside 平息,减弱 fundamental 基本的 overestimation 高估 notable 值得注意的 generalized 广义的 employ 应用 identically 相同地 enhance 增强 signal-to-noise ratio 信噪比 it can be noticed 可以注意到 respectively 分别地 indicate 表明 for the other instance 另一个例子 flowchart 流程图 consequently 因此,所以 evident 显然的 approximately 大约 it can be seen that 可以看出 hence 因此 occurrence 发生 force 迫使 mitigate 减轻 presented 提出 moreover 此外 considerably 相当地 involve 包含 dramatically 戏剧地,显著地 challenging 挑战性的 redundant 冗余的 novel 小说,新颖的 jointly 连带地 relevant 相关的 pattern-specific 特定模式的 measure 度量 in addition 此外 latent 潜在的 correlation 相关性 capture 捕获 consisting of 包括 optimize 优化 real-life 真实的 performance 性能 demonstrated 证明 promising 有前途的 handle 处理 effective 有效的 curse of dimensionality 维数灾难 aggravate 加重 approach 方法 shared 共享的 fail to 未能 significant 重要的 ensemble strategy 集成策略 accordingly 因此 simultaneously 同时 via 通过 in all 总计 discrimination capability 辨别能力 identify 识别 recognition capability 识别能力 on the contrary 相反的 negligible 微不足道的 particular 特别的 namely 即 treat...equally 同等看待 in particular, 特别地 tackle 处理 scenario 场景 embedded 嵌入的 conducted 进行 impose a consistent constraint 施加一致性约束 canonical correlation analysis 典型性分析 methodology 方法 arouse 激起 coefficient 系数 intermediate 中间的 with respect to 关于 partition into 分成 intergroup 组间 individual 单独的 impact 影响 denote as 表示为 be encouraged to proportional 成比例的 whereas 然而 fast-convergent procedure 快速收敛法 equality-constraint 相等约束 splice 剪接 for notational simplicity 为了表示简单 scheme 方案 be presented as 呈现为 Note that 注意 majority voting 多数投票 evaluate 评估 categories 类别 distinguish 区分 histogram 直方图 as well as 并 be undertaken 采取 abbreviate 缩写 phase 阶段 irrelevant 无关的 disclose 揭露 in contrast 相反 outstanding for 杰出的 stable 稳定的 according to our experimental validation 根据我们的实验验证 be comparable with 与。。。可比较 three evaluation indices 三项评价指标 be significantly different from 明显不同于 result in 导致 be slightly superior to 略优于 validate 证实 outperform 超越 in terms of 在。。。方而 it is observed that 结果表明 To illustrate 说明 suggests that 表明 fluctuation 波动 be undesirable with low values of accuracy 不理想 we engage in a discussion about。。。 对。。。进性讨论 implicitly 含蓄地 explicit 明确的 be consistent with 与……相一致 prevent..from 防止 sufficient 足够的 equivalent 相等的 agree well with 吻合 terrain classification 地物分类 apparently 显然地 derived from 来源于 feasible 可行的 terrain types 地物类型 a stream of 一系列 aim to 旨在 take advantage of 利用 vast majority 绝大多数 originally 起初 prominent 突出的 apparent to us 对我们来说显而易见 be confused with 与……相混淆 convey 传递 fall into two categories 分为两类 semantic representation 语义表征 hierarchical 层次结构的 be showcased 展示 algebraic 代数 be projected into 投影到 concatenate 连接 justify 证明……正确 conventional 传统的 discretized 离散化 overall 总体的 SAR image is handle as 400x400 图像被处理为400x400 a SAR image taken over San Diego 拍摄于 various types of terrain 各种地形 it is interesting that 有趣的是 efficacy 功效 distinct 不同的;确定无疑的 reveal 揭示 built-up area 密集建筑区 subjects for visualization 可视化对象 show, reflect, reveal 反映 intrinsic 内在的 tend to be 倾向于 be listed in 列在 qualitative evaluation 定性评价 quantitative assessment 定量评价 interference 干扰 nevertheless 然而 subtle 不易察觉的 except that 除了 discrepancies 差异 as previously discussed 如前所述 underestimation 低估 indicator 指标 Bartlett distance be rooted from 源于 be subjected to 遭受 subsequently 随后 validity 有效性 ablation study 消融研究 verify 证明,证实 however nevertheless nonetheless still 然而 osscillation 振荡 et al, 等e and lastly 最后 et. 等 ie. 即 amalgamate 合并 elaborate 详细阐述 the remainder 其他人员,剩余物 different, various, distinct, strange, unlike, unequal, diverse 不同 on this account 为了这个缘由 benefit from 受益于 a huge number of 大量 additionally 此外,进一步 a large amount of 大量 innovative 创新的 trickly 巧妙的 fulfill 执行,完成 over the past two decades 在过的二十年里 ta tackle these issues 解决这个问题 muddle,
obscure,
blur,
confuse,
alias,
mix up,
mix,
mingle,
confound
混 at the same time,
simultaneously,
concurrently,
in the meantime,
meanwhile,
in the interim,
per interim,
while
同时
besides,
in addition,
furthermore,
besides that
此外 indicate,
illustrate,
demonstrate,
shows that,
suggests that
表明 so that,
in order that,
lest
incase,
for the purpose that,
to the end that,
in the hope that,
by way of,
in the interest of
目的状语 put forward,
raise,
project,
advance
提出 though,
although,
despite,
notwithstanding
虽然 owing to,
thanks to,
as a result of,
due to,
in virtue of,
because of,
in that,
on account of,
since
由于 it is easy to see 很容易看出 prove,
testify,
attest,
certify
证明 obviously,
apparently,
clearly
显然 accuracy,
veracity,
exactitude,
precision
准确性 cause,
give rise to,
bring about,
creat,
result in
造成 remarkable,
marked,
notable,
striking,
markedness
显著 typeset 排版 be susceptible to
易受影响的 benchmark 基准 voluntary 自动的 accordingly 因此 In many real situations 在许多实际情况下 echo 回声,启示 Its advantages lie in three points 它的优点有三点 self-adaptively 自适应 therefore,
hence,
thus,
accordingly.
consequently,
for this reason
因此 thereupon,
as a result,
and then
于是 By the same token, 同样,出于同样的原因,出于同样的道理 as one of the most advanced detectors 做为最先进的探测器之一 all-weather and all-time 全天候全天时 as the basis of 作为……的基础 as one of the representative methods 作为了一个代表性方法 hand-engineered filters 手机滤波器 with the rise of 随着……的兴起 with the rising of 随着……的兴起(过程) in the stage of rapid development 快速发展阶段 task characteristics and data form 任务特征和数据形式 manually
手动 mainstream 主流 objective 目标 hinder 妨碍 in parallel 同时 decouple 分离,解偶 eliminated 消除 The proposal has inspirations for 这个方案对……有启发 briefly analyze 简要分析 graphical illustrations are used to facilitate understanding 为了便于理解,使用了图解 it is not conducive to process the data 不利于数据的处理 simulate 模拟 Such divide-and-conquer heuristic modeling ideas 这种分而治之的启发式建模思想 tailored 定制的 adverse effect 负面影响 mine 挖掘 backbone 骨干 boost 促进 symposia 英 [sɪmˈpəʊzjə] 研讨会 incorporate英 [ɪnˈkɔːpəreɪt] 美 [ɪnˈkɔːrpəreɪt] v.将…包括在内;包含;吸收;使并入;注册成立 Fig.3 also discloses that 图3也表明 to illustrate the significance of 为了说明……的重要性 apart from 除了 region uniform,
regionconsistency,
regional consistency,
region homogeneity,
local consistency,
region homogenous,
region harmony,
区域一致性 comparison methods,
comparison experiments,
compared methods,
comparative experiments对比方法,
对比实验
practically 几乎 successive layers,
layer by layer,
Product quality gradually the layer resolve, carrying out to each employee.
将产品质量逐层分解,落实到每个员工
hierarchically,
逐层 annotate 标注 -
英文技术文档阅读指北系列21(看懂句子)阶段(一)技能JA1:会分析短语与分句
2022-05-29 16:52:02讲解时,会将总的阅读技能拆解为一系列细分技能,理论与训练相结合,循序渐进。同时会谈论无障碍逛英文技术博客/社区、阅读技术类英文原版书的方法。希望能帮助程序员提高英语水平,提升开发效率,了解国外最新技术...关注本博客,后台自动发送Java英语高频词800、
Python英语高频词700(PDF链接)。查看消息。
(按照总目录阅读更系统↓↓)
=>返回专栏总目录
3. 必备技能
3.1 句子层面总技能:扫一眼句子,就秒懂含义
现在进入到英文句子分析的实战。我们前面费尽力气啃掉那些语法难点,就是为了能够在实际分析句子时,做到轻而易举。
句子分析分为三个阶段,先用纸笔分析,然后过渡到脱离纸笔,只用目光。最后将语法知识和技能封装到大脑中,让分析称为隐式的自动反应,实现看到句子就秒懂,而无须再去刻意分析。
这三个阶段环环相扣,理解速度要越来越快。注意别太着急,跳过基础的纸笔训练阶段,还是一步一步扎实推进比较好。
3.2 阶段(一):使用纸笔分析句子
在本阶段,为了取得更好的效果,最好把练习打印出来,拿笔去分析。也可以将练习文档保存为pdf文件,用wps打开,用它的“随意画”功能去分析句子。别光看不练,毕竟几乎任何一项技能的掌握,都依赖于一定量的训练。
技能JA1:会分析短语与分句
1.能区分短语与分句
相对于分句,短语表达的信息更单一,不能完整地描述一件事。这里回顾一下短语的类别:
(1)名词短语:an unknown bug
(2)动词短语:write a bug
(3)形容词短语:very happy
(4)副词短语:rather quickly
(5)介词短语:at noon
(6)不定式短语:to make him angry
(7)动名词短语:(His job is) writing bugs.
(8)现在分词短语:(The leader sat there,) laughing all the time.
(9)过去分词短语:(a bug) written by Xiaowang
注意:(2)中的write a bug, 可以当作祈使句(意思为“写一个bug吧!”,省略了主语“你/你们”),不过这里不讨论祈使句的情况。
分句有一个主语、一个谓语动词,表达的信息更完整,能够描述“什么人(或物)做了什么事”,或“什么人(或物)是怎么样的”。例如:
The team leader was very angry because Xiaowang wrote ten bugs last week.
以because为界,这个句子包含两个分句。第一个分句表达的内容为“组长的心情是怎么样的”,第二个分句说的是“因为小王做了什么事情”。
小练
JA1.1
判断下列内容是短语还是分句(为便于练习,分句去掉了一些单词和标点符号,开头改成了小写)。
- for the repo name
- containers are great
- a container runs
- click the Create Repository button
2.能准确判断分句的类型
分句分为两类:
(1)独立分句
能够独立地叙述一件事。
- With bind mounts, we control the exact mountpoint on the host.
包含一个独立分句。
- The containers will stop and the network will be removed.
有两个独立分句。
(2)从属分句
通常跟在某个从属连词之后,话没讲完,不能独立存在。
- When developers find bugs, they can fix them in the development environment and redeploy them to the test environment for testing and validation.
划线部分为从属分句,依附于后面的独立分句存在。
小练
JA1.2
判断划线的分句的类型。
- Then, we only recreate the yarn dependencies if there was a change to the package.json.
- Each of the lines represents a layer in the image.
- When a container runs, it uses the various layers from an image for its filesystem.
-
信息抽取--短语提取
2021-01-03 12:24:50其颗粒度介于单词和句子之间,nlp一系列任务的颗粒度排序如下: 单词的颗粒度(分词、新词提取、关键词提取) < 短语的颗粒度(短语提取) < 句子的颗粒度(关键句提起) < 文章颗粒度(分类、聚类) 2 ... -
nltk实现对英文短文本的名词抽取
2018-04-02 21:19:25基于nltk实现对英文短文本的名词抽取,规则可以自己制定。 -
英语-省略短语
2021-03-28 09:52:47本系列博客讲述了本学渣在学习英语碰到的问题 :) 目录1 表示举例1.1 e.g.1.2 etc.2 进一步说明2.1 i.e.3 关于;至于;谈到;相对于3.1 w.r.t.4 别称;又名;即4.1 aka 1 表示举例 1.1 e.g. e.g. = exempli gratia... -
pyhanlp 共性分析与短语提取内容详解
2019-01-04 09:19:51在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 共性分析 互信息mi,左熵lr,右熵re,详细解释见下文 信息论中的互信息 一般而言,信道中... -
pyhanlp 共性分析与短语提取
2018-09-23 19:23:01在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 共性分析 “”&amp;quot; 一阶共性分析,也就是词频统计 信息=1 先进=1 图像=1 二阶共性分析 ... -
基于短语的统计机器翻(PBMT) 开源工具 :Moses
2019-01-05 11:36:58它是一个基于短语的统计机器翻译系统,整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Linux平台和Windows平台。它有两大特点: 1.1 Factored Translation Model 在Factored Translation ... -
自然语言处理系列四》新词发现与短语提取》新词发现
2021-01-28 17:01:54文章目录自然语言处理系列二》新词发现与短语提取》新词发现》总结 自然语言处理系列二》 新词发现与短语提取》 新词发现是一个非常重要的NLP课题。在处理文本对象时,非常关键的问题在于“切词”这个环节,几乎所有... -
英文技术文档阅读指北系列4(破除对英语的几个误解)
2022-05-29 09:58:56讲解时,会将总的阅读技能拆解为一系列细分技能,理论与训练相结合,循序渐进。同时会谈论无障碍逛英文技术博客/社区、阅读技术类英文原版书的方法。希望能帮助程序员提高英语水平,提升开发效率,了解国外最新技术... -
SCI论文写作高频词汇短语汇总
2020-10-30 16:26:16说起英语论文写作的重要性,相信广大做科研的小伙伴们可能各有各的...不要紧,科研是一个讲规矩的世界,不但做课题设计有套路规范,英语论文写作也有一些基本的常识和构架在其中,其实把科研论文拆解来看,就会发现科.. -
输入一句英文,统计这句话中有多少个单词,单词之间用空格分隔
2021-10-31 17:17:12真的捯饬了好久,下面的这段代码即使是两个单词中间有多个空格,句子前面或者后面有空格,也能输出正确值。由于我还是个菜鸡,如果各位大佬有发现错误的... "请输入一句英文" << endl; cin >> a; get... -
90份高中英语干货WORD文档资料汇总英语学习资料.zip
2021-11-01 16:14:45掌握这35个英语俚语,让你的英语更上一层楼 (原创).docx 新高考真的来了!5大变化和20种选课模式,一定要替孩子了解清楚!(别留遗憾)(1).docx 最新高考应用文汇总.docx 有关世界杯那些英语你都GET到了吗.doc ... -
HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取
2020-02-12 18:40:46信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要... -
《C语言例程系列》-- 计算输入英文的字符数
2018-07-15 17:00:49#include &amp;amp;lt;stdio.h&amp;amp;gt; int main() { ...请输入英文:&amp;quot;); while(getchar() != '\n') { count = count + 1; } printf(&amp;qu -
基于互信息和左右信息熵的短语提取识别
2017-12-15 16:27:25在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤。 ... -
【转】很全的英语短语
2011-10-03 17:36:521. a big headache令人头痛的事情 2. a fraction of 一部分 3. a matter of concern 焦点 4. a series of 一系列,一连串above all 首先,尤其是 5. absent from不在,缺席 -
英文技术文档阅读指北系列(总目录)
2022-05-28 10:12:14讲解时,会将总的阅读技能拆解为一系列细分技能,理论与训练相结合,循序渐进。同时会谈论无障碍逛英文技术博客/社区、阅读技术类英文原版书的方法。希望能帮助程序员提高英语水平,提升开发效率,了解国外最新技术... -
明翰英语教学系列之雅思口语篇V0.2(持续更新)
2022-04-13 19:52:11口语考试分为3个部分,分别是PART 1、PART 2、PART 3,难度依次递增。 PART 1与PART 3都是一问一答形式,PART 2是答题卡形式,需要自己陈述。 -
Python函数系列-一个简单的生成器的例子
2020-12-05 21:02:15【ORACLE】特殊的NULLNULL 是数据库中特有的数据类型 Oracle 中对空的描述 nullAbsence of a value in a column...UIViewController详解一. UIViewController,视图控制器,它是UIKit中非常重要的组成部分.它由控制器+... -
明翰英语教学系列之雅思听力篇V0.2(持续更新)
2022-04-13 20:01:28听力考试是相对而言比较难的,因为每段听力材料只播放一次, 考生需要面对语速加快、口音、吞音连读弱读等变音现象, 在听的同时,我们还需要思考、读题、写答案, 有的答案词在句子的中间部分,我们还需瞬发记忆, ... -
中英文代码对比系列之Java一例
2021-03-05 15:27:11原标题:中英文代码对比系列之Java一例这个系列将对同一段代码进行中文命名和英文命名两个版本的比较. 目的包括, 演示中文命名, 发现命名时可能遇到的问题, 探讨代码风格(中文命名的’套路’)等. 示例中的命名风格仅... -
9. HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取
2021-02-25 20:07:599. 信息抽取信息抽取是一个宽泛的概念,指的是从非结构化文本...本章按照颗粒度从小到大的顺序,介绍抽取新词、关键词、关键短语和关键句的无监督学习方法。9.1 新词提取概述新词是一个相对的概念,每个人的标准都不... -
很全的英语短语,可以防止你英文退化
2011-11-16 20:11:30很全的英语短语,可以防止你英文退化 1. a big headache令人头痛的事情 2. a fraction of 一部分 3. a matter of concern 焦点 4. a series of 一系列,一连串above all 首先,尤其是 5. absent from...