精华内容
下载资源
问答
  • 2021-06-06 22:35:40

    提取中文短语

    也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,文档的简介生成等。

    利用互信息和左右信息熵,我们可以轻松地将新词提取算法拓展到短语提取。只需将新词提取时的字符替换为单词, 字符串替换为单词列表即可。为了得到单词,我们依然需要进行中文分词。 大多数时候, 停用词对短语含义表达帮助不大,所以通常在分词后过滤掉。

    代码如下:

    from pyhanlp import *
    
    """ 短语提取"""
    text = '''
      算法工程师
      算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。
      如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、
      空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。
    
      1职位简介
      算法工程师是一个非常高端的职位;
      专业要求:计算机、电子、通信、数学等相关专业;
      学历要求:本科及其以上的学历,大多数是硕士学历及其以上;
      语言要求:英语要求是熟练,基本上能阅读国外专业书刊;
      必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。
    
      2研究方向
      视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师
    
      3目前国内外状况
      目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。
      算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、
      雷达信号处理、生物医学信号处理等领域的一维信息算法处理。
      在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;
      另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法
      (Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),
      锐化处理算法(Sharpness),超分辨率算法(Super Resolution) 手势识别(gesture recognition) 人脸识别(face recognition)。
      在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。
      另外数据挖掘、互联网搜索算法也成为当今的热门方向。
      算法工程师逐渐往人工智能方向发展。'''
     
    phrase_list = HanLP.extractPhrase(text, 5)
    print(phrase_list)
    

    运行结果如下:
    [算法工程师, 算法处理, 一维信息, 算法研究, 信号处理]
    目前该模块只支持提取二元语法短语。在另一些场合,关键词或关键短语依然显得碎片化,不足以表达完整的主题。这时通常提取中心句子作为文章的简短摘要,而关键句的提取依然是基于 PageRank 的拓展。

    不需要标注语料的参与,满足了人们“不劳而获”的欲望。然而必须指出的是,这些算法的效果非常有限。对于同一个任务,监督学习方法的效果通常远远领先于无监督学习方法。

    更多相关内容
  • 中文短语抽取/挖掘

    2022-03-05 19:50:11
    短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的项基本任务,但短语抽取与短语挖掘还是有些许不同。 短语挖掘侧重于挖掘,个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的...

    中文短语抽取/挖掘

    概述

    短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。
    短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的短语,形成短语词典,提供给下游使用,这更多叫做短语挖掘。
    而短语抽取更关注抽取,侧重于无条件抽取应用,类似关键词抽取那样,使用者无条件抽取一篇文章中的短语,例如通用NLp工具中HanLP1.x的函数extract_phrase。
    短语抽取/挖掘与新词发现类似,都是发现“新词”【未登录词】,最大的不同点在于,中文词语长度一般为2/3/4,而短语往往更长【本文默认4-10的词语为短语】,因此也有一些新特性。

    在这里插入图片描述

    坦率的说,中文短语抽取/挖掘任务的发展并不是令人鼓舞的,也没有那么乐观,仅仅有31 papers with code, 2 datasets。

    前言

    • 和几乎其他所有的自然语言处理NLP任务一样,早期,20世纪80年代以前,短语提取的形式也是基于规则的【语言学】,比如说分块chunk、词性标注pos等 + 规则依然不失为一种短语提取的基础方案,短语,如主谓短语、动宾短语、偏正短语、中补短语、联合短语,通常由动词v、名词n、形容词adj作中心语。
    • 20年代80年代开始,计算机领域发生了一系列深刻的变革,尤其是集成电路的发展、微机的崛起,不仅是算力的提升,计算机不再高不可攀,它的迅速普及也使得各种奇思妙想集中迸发出来。 尤其是80年代末,传统统计机器学习开始兴起,其能够非线性、概率地进行计算,很快成为时代的宠儿。1980年代提出的TF-IDF、BM25、决策树DT、主成分分析PCA等算法,至今仍然被人们广泛用于关键词【短语】抽取中。
    • 进入90年代,统计机器学习如日中天,这一时期,隐马尔可夫模型HMM、支持向量机SVM、集成学习Ensemble等各种算法层出不穷,代表了传统有监督学习的巅峰【dog-SVM】,也被广泛用于短语的打分函数中。值得注意的是,互联网开始兴起,尤其是90年代末,未登录词的状况也愈发凸显。
    • 到了新世纪,00年代,由PageRank领衔的基于图网络算法数不胜数,TextRank、SingleRank、PositionRank、TopicRank、EmbedRank、SIFRank…与此同时,互联网开始进入Web2.0时代,数据激增,大数据开始星期。值得一提的是,搜狗基于搜索引擎技术的新一代的搜狗拼音输入法开始横扫。
    • 进入10、20年代,人工智能再次迎来高潮,“人工”+"智能"的范式取得了极大的成功。这一时期,技术再次得以突破,有Word2Vec词向量发展而来的EmbedRank、SIFRank、KeyGames;有浅层神经网络的CNN、BiLSTM、CopyRNN;有弱/远程监督抽取的韩家炜团队三部曲TopMine、SegPhrase、AutoPhrase;也有预训练模型BERT发展而来的Roberta、UCPhrase;此外还有一些生成式、多任务的方法例如One2Seeq、One2Set;BERT-KPE。
    • 除此之外,HanLP1.x实现的短语抽取,即论文《利用统计量和语言学规则提取多字词表达》。2012年间Matrix67在博客《互联网时代的社会语言学:基于SNS的文本数据挖掘》一文中,提出了一种影响广泛的、基于统计学概率【左右熵/凝固度】的新词发现算法。Kavita Ganesan2018、2019年苏建林相继给出的,基于高质量种子词聚类的方法。丁香园基于字典进行切割N-Gram、远程监督、词性标注、BERT字向量等获取短语候选集【很迷糊,不理解怎么获取候选集的】,然后采用GDBT进行打分。

    在这里插入图片描述

    技术

    定义

    短语,在早期的一些论文中被称为”多字词表达“【multi-word expressions】。《利用统计量和语言学规则提取多字词表达》论文中支指出多字词表达包括动词短语(爆发、取决于) ,复合名词(机器翻译、警用车辆) ,成语(雨后春笋、三人 行必有我师) 等等。

    百度百科中的定义为,短语是由句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,又叫词组,它是大于词而又不成句的语法单位。其基本短语包括主谓短语【粮食//丰收(名//动)】、动宾短语【想//他 (动//代)】、偏正短语【定中短语—他//的马 (代//名)、状中短语—刚//回来 (副//动)】、【中补短语 打量//一番 热//死了】、【联合短语 今天//和//明天(名//名 并列)】。

    可以发现,语言学中的短语,与我们NLP中短语提取并不完全重合。比如说,一般NLP中我们会把2-3的词叫做"词语"、4-?的才称为短语【直觉中我们不大会认为"热起来"是短语】。此外,我们更加偏向于抽取有意义的短语【如有动词、名词的,”今天和明天“我们一般也不认为这是"短语"】。

    开源方案

    从更一般的角度而言,短语提取技术方案可以分为两个步骤: 1.候选短语生成、2.短语打分两个阶段,早期的算法可能融合起来只有一个步骤,比如说基于规则。
    同时每个步骤的算法又可以分为无监督、半监督、有监督这三种形式,无论是传统机器学习、亦或是深度学习模型,都可以用于这两个步骤。

    • Jieba tfidf/textrank, 抽取的主要是关键词, 而不是短语
    • textrank4zh textrank, 还是jieba分词的问题, 抽取的是关键词
    • HanLP1.X 词典 + 熵, 依赖语料, Java
    • JioNLP=CKPE tfidf【pkuseg】 + 融合连续的动词-名词 + 重新计算权重 + 过滤【词性、LDA主题】
    • CKPE 分词 + 词性标注 + tfidf + 连续词融合 + lda
    • pke 更多的是支持英文
    • Macropodus 新词发现长词(长度大于2), 词频-凝固度-左右熵, 过滤通用词库, 存在噪声, 阈值过滤,以及后期打分并不容易过滤
    • EmbedRank sent2vec句子/短语 +MMR
    • SIFRank+ 候选短语占句子的权重, ELMO + 向量的余弦相似度
    • 种子词+聚类 二段式【词向量聚类】(候选集使用熵等, 然后根据一定的种子词作为聚类初始化), 需要构建种子词, 候选短语切割不是那么准确
    • TopMine 二段式【上下文迭代合并】(候选集用新词发现方法, 频次过滤, 类似PMI合并上下文短语, LDA约束打分)
    • SegPhrase 二段式【远程监督】200-300个数据进行随机森林RF分类
    • AutoPhrase 二段式【随机森林RF】, wiki/Freebase构建高质量词典, 鲁棒-正样本远程监督训练, POS-Guided短语分割
    • 丁香园总结-实践tricks 二段式,分词使用领域语料-ngram+pos统计+远程监督+bert, 排序选择GBDT(样本为词典+ngram), 无法保证分词的效果, 需要领域词典
    • One2Seq 生成式,顺序[present [存在于原文中的内容]前,absent[不存在于原文]后],对keyphrase 分割, 结束。Semantic Coverage保留语义。
    • One2Set 生成式,无序,引入Control code 每个控制编码对应生成一个集合元素,匈牙利算法
    • BERT-KPE 多任务, candidate chunking【CRF/SPAN/CNN-SoftMax】和ranking【Max】
    • UCPhrase 二段式,当前State-of-the-Art, 预训练, mlm样本为单篇文章中出现频次高的n-gram, 分类器选择为Light-Wise分类器【CNN/LSTM】

    实践建议

    • 分类模型的高质量短语, 可以来源于百科词条【百度、维基】, 知识图谱【开放知识图谱】, 输入法词典【搜狗, 百度】, 开源项目词典【funNLP, Thunlp, 领域词典】;
    • 候选短语生成最好还是严格些, 否则分类模型就需要处理各种奇奇怪怪的问题;
    • 分类模型负样本的构建最好是随机N-Gram, 可以过滤上面所说的词典, 也可以用各种经典统计量过滤, 比如新词发现的统计量就很不错;

    参考

    希望对你有所帮助!

    展开全文
  • 学术英语词汇、短语

    2020-05-25 10:08:31
    个辅助的分类器 we explicity involve loss1 into loss2 我们将损失1引入到损失2中 sth has impeded the wide deployment of sth in real application 阻碍...在实际应用的广泛应用 is responsible...
    an auxiliary classifier一个辅助的分类器
    we explicity involve loss1 into loss2我们将损失1引入到损失2中
    sth has impeded the wide deployment of sth in real application阻碍...在实际应用的广泛应用
    is responsible to对...有责任
    aligns to the very first intuition符合最初的直觉
    ten-fold better efficiency十倍的效率
    a drop-in replacement of sth ...的替代品
    start from从...开始
    we start from the vanilla depthwise convolution我们从普通的深度卷积开始 
    For simplicity,为简单起见
    it is straightforward to generalize to ca很容易推广到ca
    yielding an end-to-end solution产生一个端到端的方案
    Generally speaking/in general一般来讲
    It is worth noting that/It is noteworthy that 值得注意的是
    Researchers have put plenty of efforts into doing sth研究人员付出了大量的努力做某事
    be becoming increasingly popular变得越来越受欢迎
    we revisit the fundamental question我们重新思考了了这个基础性问题
    it has been well-known that ... sth是众所周知的
    be integrated into被整合到
    solve the problem arising from this challenge解决这个挑战带来的问题
    achieve encouraging results取得令人鼓舞的结果
    so as to 以便,以致
    In this paper, we extend the two-stage architecture of the Faster-RCNN我们扩展了fasterrcnn的结构 
    be based on基于
    particularly difficult相当困难
    have been widely used被广泛应用
    is widely applicable across detector architectures在探测器结构上被广泛应用
    surpass all detectors on the challenging COCO dataset.在coco上超越了所有的方法
    e. g. exempli gratia例如
    in principle原则上
    To simplify the notation为了简化符号 
    As illustrated/shown in Fig. 2如图2所示
    element-wise multiplication点乘
    one impeding factor of deep learning is ...一个深度学习的阻碍因素是...
    many variants of attacks攻击的许多变体
    boils down to归结为
    Machine learning techniques have deeply rooted in our everyday life深深扎根在生活中
    be heavily engaged in忙于
    reduce the demand for sth减少对...的需求
    sth have emerged as a hot topic sth某事已成为...的热点话题
    sth give birth to a new research area sth产生了一个新的领域
    till now到现在为止
    sth is heavily with sth和...密切相关的
    the above success comes at a great price以上成功付出了巨大代价
    by this means用这种方式
    resource-consuming and time-consuming资源消耗和时间消耗
    the memory consumption and computation time increase quadratically呈平方增加
    to solve the aforementioned problems为了解决前面的问题
    seek for寻求
    degrade the performance of sth降低了...的性能
    criterion标准,准则,原则
    utilize使用,利用,运用,应用
    appreciable可观的
    existing现存的,现行的
    improvement改进
    gain获得
    initial最初的
    since then从那时起
    investigate调查
    shortcoming缺点
    alleviate缓解
    major专业
    advancement促进;推动;发展;前进;(工作、社会等级等的)提升,晋升
    subside平息,减弱
    fundamental基本的
    overestimation高估
    notable值得注意的
    generalized广义的
    employ应用
    identically相同地
    enhance增强
    signal-to-noise ratio信噪比
    it can be noticed可以注意到
    respectively分别地
    indicate表明
    for the other instance另一个例子
    flowchart流程图
    consequently因此,所以
    evident显然的
    approximately大约
    it can be seen that可以看出
    hence因此
    occurrence发生
    force迫使
    mitigate减轻
    presented提出
    moreover此外
    considerably相当地
    involve包含
    dramatically戏剧地,显著地
    challenging挑战性的
    redundant冗余的
    novel小说,新颖的
    jointly连带地
    relevant相关的
    pattern-specific特定模式的
    measure度量
    in addition此外
    latent潜在的
    correlation相关性
    capture捕获
    consisting of包括
    optimize优化
    real-life真实的
    performance性能
    demonstrated证明
    promising有前途的
    handle处理
    effective有效的
    curse of dimensionality维数灾难
    aggravate加重
    approach方法
    shared共享的
    fail to未能
    significant重要的
    ensemble strategy集成策略
    accordingly因此
    simultaneously同时
    via通过
    in all总计
    discrimination capability辨别能力
    identify识别
    recognition capability识别能力
    on the contrary相反的
    negligible微不足道的
    particular特别的
    namely
    treat...equally同等看待
    in particular,特别地
    tackle处理
    scenario场景
    embedded嵌入的
    conducted进行
    impose a consistent constraint施加一致性约束
    canonical correlation analysis典型性分析
    methodology方法
    arouse激起
    coefficient系数
    intermediate中间的
    with respect to关于
    partition into分成
    intergroup组间
    individual单独的
    impact影响
    denote as表示为
    be encouraged to 
    proportional成比例的
    whereas然而
    fast-convergent procedure快速收敛法
    equality-constraint相等约束
    splice剪接
    for notational simplicity为了表示简单
    scheme方案
    be presented as呈现为
    Note that注意
    majority voting多数投票
    evaluate评估
    categories类别
    distinguish区分
    histogram直方图
    as well as
    be undertaken采取
    abbreviate缩写
    phase阶段
    irrelevant无关的
    disclose揭露
    in contrast相反
    outstanding for杰出的
    stable稳定的
    according to our experimental validation根据我们的实验验证
    be comparable with与。。。可比较
    three evaluation indices三项评价指标
    be significantly different from明显不同于
    result in导致
    be slightly superior to略优于
    validate证实
    outperform超越
    in terms of在。。。方而
    it is observed that结果表明
    To illustrate说明
    suggests that表明
    fluctuation波动
    be undesirable with low values of accuracy不理想
    we engage in a discussion about。。。对。。。进性讨论
    implicitly含蓄地
    explicit明确的
    be consistent with与……相一致
    prevent..from防止
    sufficient足够的
    equivalent相等的
    agree well with吻合
    terrain classification地物分类
    apparently显然地
    derived from来源于
    feasible可行的
    terrain types地物类型
    a stream of一系列
    aim to旨在
    take advantage of利用
    vast majority绝大多数
    originally起初
    prominent突出的
    apparent to us对我们来说显而易见
    be confused with与……相混淆
    convey传递
    fall into two categories分为两类
    semantic representation语义表征
    hierarchical层次结构的
    be showcased展示
    algebraic代数
    be projected into投影到
    concatenate连接
    justify证明……正确
    conventional传统的
    discretized离散化
    overall总体的
    SAR image is handle as 400x400图像被处理为400x400
    a SAR image taken over San Diego拍摄于
    various types of terrain各种地形
    it is interesting that有趣的是
    efficacy功效
    distinct不同的;确定无疑的
    reveal揭示
    built-up area密集建筑区
    subjects for visualization可视化对象
    show, reflect, reveal反映
    intrinsic内在的
    tend to be倾向于
    be listed in列在
    qualitative evaluation定性评价
    quantitative assessment定量评价
    interference干扰
    nevertheless然而
    subtle不易察觉的
    except that除了
    discrepancies差异
    as previously discussed如前所述
    underestimation低估
    indicator指标
    Bartlett distance 
    be rooted from源于
    be subjected to遭受
    subsequently随后
    validity有效性
    ablation study消融研究
    verify证明,证实
    however nevertheless nonetheless still然而
    osscillation振荡
    et al,等e
    and lastly最后
    et.
    ie.
    amalgamate合并
    elaborate详细阐述
    the remainder其他人员,剩余物
    different, various, distinct, strange, unlike, unequal, diverse不同
    on this account为了这个缘由
    benefit from受益于
    a huge number of大量
    additionally此外,进一步
    a large amount of大量
    innovative创新的
    trickly巧妙的
    fulfill执行,完成
    over the past two decades在过的二十年里
    ta tackle these issues解决这个问题

    muddle,

    obscure,

    blur,

    confuse,

    alias,

    mix up,

    mix,

    mingle,

    confound

    at the same time,

    simultaneously,

    concurrently,

    in the meantime,

    meanwhile,

    in the interim,

    per interim,

    while

    同时

    besides,

    in addition,

    furthermore,

    besides that

    此外

    indicate,

    illustrate,

    demonstrate,

    shows that,

    suggests that

    表明

    so that,

    in order that,

    lest

    incase,

    for the purpose that,

    to the end that,

    in the hope that,

    by way of,

    in the interest of

    目的状语

    put forward,

    raise,

    project,

    advance

    提出

    though,

    although,

    despite,

    notwithstanding

    虽然

    owing to,

    thanks to,

    as a result of,

    due to,

    in virtue of,

    because of,

    in that,

    on account of,

    since

    由于
    it is easy to see很容易看出

    prove,

    testify,

    attest,

    certify 

    证明

    obviously,

    apparently,

    clearly

    显然

    accuracy,

    veracity,

    exactitude,

    precision

    准确性

    cause,

    give rise to,

    bring about,

    creat,

    result in

    造成

    remarkable,

    marked,

    notable,

    striking,

    markedness

    显著
    typeset排版

    be susceptible to

    易受影响的
    benchmark基准
    voluntary自动的
    accordingly因此
    In many real situations在许多实际情况下
    echo回声,启示
    Its advantages lie in three points它的优点有三点
    self-adaptively自适应

    therefore,

    hence,

    thus,

    accordingly.

    consequently,

    for this reason

    因此

    thereupon,

    as a result,

    and then

    于是
    By the same token,同样,出于同样的原因,出于同样的道理
    as one of the most advanced detectors做为最先进的探测器之一
    all-weather and all-time全天候全天时
    as the basis of作为……的基础
    as one of the representative methods作为了一个代表性方法
    hand-engineered filters手机滤波器
    with the rise of随着……的兴起
    with the rising of随着……的兴起(过程)
    in the stage of rapid development快速发展阶段
    task characteristics and data form
    任务特征和数据形式

    manually

    手动
    mainstream
    主流
    objective目标
    hinder妨碍
    in parallel同时
    decouple分离,解偶
    eliminated消除
    The proposal has inspirations for这个方案对……有启发
    briefly analyze简要分析
    graphical illustrations are used to facilitate understanding为了便于理解,使用了图解
    it is not conducive to process the data不利于数据的处理
    simulate模拟
     Such divide-and-conquer heuristic modeling ideas这种分而治之的启发式建模思想
    tailored定制的
    adverse effect负面影响
    mine挖掘
    backbone骨干
    boost促进
    symposia 英 [sɪmˈpəʊzjə] 研讨会
    incorporate英 [ɪnˈkɔːpəreɪt]   美 [ɪnˈkɔːrpəreɪt]  v.将…包括在内;包含;吸收;使并入;注册成立
    Fig.3 also discloses that图3也表明
    to illustrate the significance of 为了说明……的重要性
    apart from除了

    region uniform,

    regionconsistency,

    regional consistency,

    region homogeneity,

    local consistency,

    region homogenous,

    region harmony,

     

    区域一致性
    comparison methods,
    comparison experiments,
    compared methods,
    comparative experiments

    对比方法,

    对比实验

    practically几乎

    successive layers,

    layer by layer,

    Product quality gradually the layer resolve, carrying out to each employee. 

    将产品质量逐层分解,落实到每个员工

    hierarchically,

     

     

    逐层
    annotate标注

     

    展开全文
  • 讲解时,会将总的阅读技能拆解为一系列细分技能,理论与训练相结合,循序渐进。同时会谈论无障碍逛英文技术博客/社区、阅读技术类英文原版书的方法。希望能帮助程序员提高英语水平,提升开发效率,了解国外最新技术...

    关注本博客,后台自动发送Java英语高频词800、

    Python英语高频词700(PDF链接)。查看消息。

    (按照总目录阅读更系统↓↓)

    =>返回专栏总目录​​​​​​​

    3. 必备技能

    3.1 句子层面总技能:扫一眼句子,就秒懂含义

    现在进入到英文句子分析的实战。我们前面费尽力气啃掉那些语法难点,就是为了能够在实际分析句子时,做到轻而易举。

    句子分析分为三个阶段,先用纸笔分析,然后过渡到脱离纸笔,只用目光。最后将语法知识和技能封装到大脑中,让分析称为隐式的自动反应,实现看到句子就秒懂,而无须再去刻意分析。

    这三个阶段环环相扣,理解速度要越来越快。注意别太着急,跳过基础的纸笔训练阶段,还是一步一步扎实推进比较好。

    3.2 阶段(一):使用纸笔分析句子

    在本阶段,为了取得更好的效果,最好把练习打印出来,拿笔去分析。也可以将练习文档保存为pdf文件,用wps打开,用它的“随意画”功能去分析句子。别光看不练,毕竟几乎任何一项技能的掌握,都依赖于一定量的训练。

    技能JA1:会分析短语与分句

    1.能区分短语与分句

    相对于分句,短语表达的信息更单一,不能完整地描述一件事。这里回顾一下短语的类别:

    (1)名词短语:an unknown bug

    (2)动词短语:write a bug

    (3)形容词短语:very happy

    (4)副词短语:rather quickly

    (5)介词短语:at noon

    (6)不定式短语:to make him angry

    (7)动名词短语:(His job is) writing bugs.

    (8)现在分词短语:(The leader sat there,) laughing all the time.

    (9)过去分词短语:(a bug) written by Xiaowang

    注意:(2)中的write a bug, 可以当作祈使句(意思为“写一个bug吧!”,省略了主语“你/你们”),不过这里不讨论祈使句的情况。

    分句有一个主语、一个谓语动词,表达的信息更完整,能够描述“什么人(或物)做了什么事”,或“什么人(或物)是怎么样的”。例如:

    The team leader was very angry because Xiaowang wrote ten bugs last week. 

    以because为界,这个句子包含两个分句。第一个分句表达的内容为“组长的心情是怎么样的”,第二个分句说的是“因为小王做了什么事情”。

    小练

    JA1.1

    判断下列内容是短语还是分句(为便于练习,分句去掉了一些单词和标点符号,开头改成了小写)。

    1. for the repo name
    2. containers are great
    3. a container runs
    4. click the Create Repository button

    2.能准确判断分句的类型

    分句分为两类:

    (1)独立分句

    能够独立地叙述一件事。

    1. With bind mounts, we control the exact mountpoint on the host.

    包含一个独立分句。

    1. The containers will stop and the network will be removed.

    有两个独立分句。

    (2)从属分句

    通常跟在某个从属连词之后,话没讲完,不能独立存在。

    1. When developers find bugs, they can fix them in the development environment and redeploy them to the test environment for testing and validation.

    划线部分为从属分句,依附于后面的独立分句存在。

    小练

    JA1.2

    判断划线的分句的类型。

    1. Then, we only recreate the yarn dependencies if there was a change to the package.json.
    2. Each of the lines represents a layer in the image.
    3. When a container runs, it uses the various layers from an image for its filesystem.

    展开全文
  • 信息抽取--短语提取

    2021-01-03 12:24:50
    其颗粒度介于单词和句子之间,nlp一系列任务的颗粒度排序如下: 单词的颗粒度(分词、新词提取、关键词提取) < 短语的颗粒度(短语提取) < 句子的颗粒度(关键句提起) < 文章颗粒度(分类、聚类) 2 ...
  • 基于nltk实现对英文短文本的名词抽取,规则可以自己制定。
  • 英语-省略短语

    2021-03-28 09:52:47
    系列博客讲述了本学渣在学习英语碰到的问题 :) 目录1 表示举例1.1 e.g.1.2 etc.2 进一步说明2.1 i.e.3 关于;至于;谈到;相对于3.1 w.r.t.4 别称;又名;即4.1 aka 1 表示举例 1.1 e.g. e.g. = exempli gratia...
  • 在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 共性分析   互信息mi,左熵lr,右熵re,详细解释见下文 信息论中的互信息   一般而言,信道中...
  • pyhanlp 共性分析与短语提取

    千次阅读 2018-09-23 19:23:01
    在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 共性分析 “”&amp;amp;quot; 一阶共性分析,也就是词频统计 信息=1 先进=1 图像=1 二阶共性分析 ...
  • 它是个基于短语的统计机器翻译系统,整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Linux平台和Windows平台。它有两大特点:  1.1 Factored Translation Model  在Factored Translation ...
  • 文章目录自然语言处理系列二》新词发现与短语提取》新词发现》总结 自然语言处理系列二》 新词发现与短语提取》 新词发现是个非常重要的NLP课题。在处理文本对象时,非常关键的问题在于“切词”这个环节,几乎所有...
  • 讲解时,会将总的阅读技能拆解为一系列细分技能,理论与训练相结合,循序渐进。同时会谈论无障碍逛英文技术博客/社区、阅读技术类英文原版书的方法。希望能帮助程序员提高英语水平,提升开发效率,了解国外最新技术...
  • 说起英语论文写作的重要性,相信广大做科研的小伙伴们可能各有各的...不要紧,科研是个讲规矩的世界,不但做课题设计有套路规范,英语论文写作也有一些基本的常识和构架在其中,其实把科研论文拆解来看,就会发现科..
  • 真的捯饬了好久,下面的这段代码即使是两个单词中间有多个空格,句子前面或者后面有空格,也能输出正确值。由于我还是个菜鸡,如果各位大佬有发现错误的... "请输入英文" << endl; cin >> a; get...
  • 掌握这35个英语俚语,让你的英语更上层楼 (原创).docx 新高考真的来了!5大变化和20种选课模式,一定要替孩子了解清楚!(别留遗憾)(1).docx 最新高考应用文汇总.docx 有关世界杯那些英语你都GET到了吗.doc ...
  • 信息抽取是个宽泛的概念,指的是从非结构化文本中提取结构化信息的类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要...
  • #include &amp;amp;amp;lt;stdio.h&amp;amp;amp;gt; int main() { ...请输入英文:&amp;amp;quot;); while(getchar() != '\n') { count = count + 1; } printf(&amp;amp;qu
  • 在中文语言处理领域,项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤。 ...
  • 【转】很全的英语短语

    千次阅读 2011-10-03 17:36:52
    1. a big headache令人头痛的事情 2. a fraction of 一部分 3. a matter of concern 焦点 4. a series of 一系列,一连串above all 首先,尤其是 5. absent from不在,缺席
  • 讲解时,会将总的阅读技能拆解为一系列细分技能,理论与训练相结合,循序渐进。同时会谈论无障碍逛英文技术博客/社区、阅读技术类英文原版书的方法。希望能帮助程序员提高英语水平,提升开发效率,了解国外最新技术...
  • 口语考试分为3个部分,分别是PART 1、PART 2、PART 3,难度依次递增。 PART 1与PART 3都是答形式,PART 2是答题卡形式,需要自己陈述。
  • 【ORACLE】特殊的NULLNULL 是数据库中特有的数据类型 Oracle 中对空的描述 nullAbsence of a value in a column...UIViewController详解. UIViewController,视图控制器,它是UIKit中非常重要的组成部分.它由控制器+...
  • 听力考试是相对而言比较难的,因为每段听力材料只播放次, 考生需要面对语速加快、口音、吞音连读弱读等变音现象, 在听的同时,我们还需要思考、读题、写答案, 有的答案词在句子的中间部分,我们还需瞬发记忆, ...
  • 原标题:中英文代码对比系列之Java例这个系列将对同段代码进行中文命名和英文命名两个版本的比较. 目的包括, 演示中文命名, 发现命名时可能遇到的问题, 探讨代码风格(中文命名的’套路’)等. 示例中的命名风格仅...
  • 9. 信息抽取信息抽取是个宽泛的概念,指的是从非结构化文本...本章按照颗粒度从小到大的顺序,介绍抽取新词、关键词、关键短语和关键句的无监督学习方法。9.1 新词提取概述新词是个相对的概念,每个人的标准都不...
  • 很全的英语短语,可以防止你英文退化  1. a big headache令人头痛的事情 2. a fraction of 一部分 3. a matter of concern 焦点 4. a series of 一系列,一连串above all 首先,尤其是 5. absent from...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,729
精华内容 3,091
关键字:

一系列英语短语