精华内容
下载资源
问答
  • 英语分词详解

    2019-03-12 09:07:24
    分词是什么: 助动词has(have)+过去分词=现在完成时 --done is(am,are)+现在分词=现在进行时 --doing is(am,are)+过去分词=被动时态 --done 但是分词只是在这三种结构中使用就太简单了,他可以单独拿...

    分词是什么:
    助动词has(have)+过去分词=现在完成时 --done
    is(am,are)+现在分词=现在进行时 --doing
    is(am,are)+过去分词=被动时态 --done
    但是分词只是在这三种结构中使用就太简单了,他可以单独拿出来使用,就是我们常说的非谓语形式。分词可以单独使用,也可以构成分词短语
    分词功能={定语,状语};类似于形容词和副词;
    分词中有一个特别要注意的点,在选择使用现在分词还是过去分词时要注意主语和分词的主谓关系,主语是动作的发起者还是承受着,现在分词主要表示主动的主谓关系,过去分词主要表示被动的主谓关系。
    First:作定语(类似形容词)
    Wind is moving air. moving:运动着的
    风是运动着的气体。
    This factory is a modern factory producing computers. producing: 生产
    这个工厂是一座生产计算机电脑的现代工厂。
    分析:air是动作的发起者所以用moving修饰air,空气去运动才能形成风,并且发现单个的分词可放被修饰词前面,下一句是一个由分词+名词构成的分词短语放被修饰的名词之后的用法。记住一个结论:“单分在前,分短在后”。同样第二句中factory是produce动作的发起者,所以当修饰factory时用producing现在分词。
    Chinese speak written English。 written:书面的
    中国人说书面英语。(指中国人的日常口语能力差)
    This factory is an illegal factory asked to be removed next Monday. asked: 要求 removed:拆除
    这个工厂是一个要求在下周一拆除的违法工厂。
    再通过以上两句可知,English是动作的承受着的所以用的过去分词written,这个工厂也是要求这个动作的承受着,所以在修饰它时用的过去分词。
    Second:作状语(类似副词)一般都是分词短语构成的,不是单个的分词。
    作状语时同样考虑选用分词与主语的逻辑关系,主动关系:现在分词;被动关系:过去分词。
    我们都知道状语分为时间状语,条件状语,原因状语等,因此分词短语作状语时也要根据语境恰当翻译。 时间时—>当…时候,条件时----->如果,原因时----->由于,因为。
    Flowing though a circuit, the current will lose part of its energy.
    当电流流过电路时,要损耗一部分能量。 --由现在分词(因为是current主动发起的动作),做时间状语,翻译为当…的时候。
    Given current and resistance, we could find out voltage. we是动作的承受着,‘给’我们电流和电阻。 --此句中过去分词短语做条件状语,译为:如果已知电流和电阻,我们就能求出电压。
    Having a large number of free eletrons,copper is a good conductor.
    此句现在分词做原因状语,译为:由于铜有大量的自由电子,所以是它良导体。
    以上都是分词短语放在句首的情况,现在分析分词在句尾的情况。
    放在句尾分为加逗号和前句隔开和不加逗号的情况。
    功能为进一步的说明(说明情况和状态)和伴随状态。有时加上表因此的副词,如thus,therefore,thereby。
    例句,说明:CP is an Intnet popular word, meaning couple.
    译为:CP是一个网络流行词,他的意思是情侣。
    In this case,an emf is induced in the direction coinciding with that of the current, thus opposing the decrease of current.
    在这种情况下,朝与电流一致的方向感应出一个电动势,从而阻止电流的减小。
    表因此结果的thus加在了分词前面。opposing是由emf(电动势)引出的。
    再来看一个相同的例子:The two N regions are separated by a P region, creating two opposing P-N junction. creating:从而形成了 opposing:相对的
    这两个N极被P极分开,从而形成了P-N结。
    当分词作状语时,有时可在分词前加上一个状态从句连接词,表明该分词所表达的状语的类别,常见的可加“when,while,if,though”.
    Everyone could speak English well when immersed in English environment.
    当沉浸在英语的环境中,每个人都可以学好英语。
    介词+动名词作定语和现在分词直接做定语的区别在于后者有一种动词的倾向,前者只是一个名词多用来形容抽象名词。

    此外形容词+(固定介词+动名词)后者括号内是作状语修饰形容词。如果不是加固定介词则是修饰整个句子。
    Protential energy is capable of being easily changed into kinectic energy.
    此处capable of being 是固定搭配所以用来形容capable

    展开全文
  • 具体流程包括文本分词、去除停用词、词干抽取(词形还原)、文本向量表征、特征选择等步骤,以消除脏数据对挖掘分析结果的影响。本文仅针对英文文本,中文文本暂时还没有研究过。介绍的全部都是基于Python2.7,利用...

    文本预处理是要文本处理成计算机能识别的格式,是文本分类、文本可视化、文本分析等研究的重要步骤。具体流程包括文本分词、去除停用词、词干抽取(词形还原)、文本向量表征、特征选择等步骤,以消除脏数据对挖掘分析结果的影响。

    本文仅针对英文文本,中文文本暂时还没有研究过。介绍的全部都是基于Python2.7,利用NLTK库进行文本分类的过程。

    文本分词

    文本分词即将文本拆解成词语单元,英文文本以英文单词空格连接成句,分词过程较为简单。以下介绍几种方法。

    正则表达式分词

    以空格进行分词

    >>> import re

    >>> text = 'I was just a kid, and loved it very much! What a fantastic song!'

    >>> print re.split(r' ',text)

    ['I', 'was', 'just', 'a', 'kid,', 'and', 'loved', 'it', 'very', 'much!', 'What', 'a', 'fantastic', 'song!']

    re匹配符号进行分词

    >>> print re.split(r'\W+', text)

    ['I', 'was', 'just', 'a', 'kid', 'and', 'loved', 'it', 'very', 'much', 'What', 'a', 'fantastic', 'song', '']

    >>> print re.findall(r'\w+|\S\w*', text)

    ['I', 'was', 'just', 'a', 'kid', ',', 'and', 'loved', 'it', 'very', 'much', '!', 'What', 'a', 'fantastic', 'song', '!']

    >>> print re.findall(r"\w+(?:[-']\w+)*|'|[-.(]+|\S\w*", text)

    ['I', 'was', 'just', 'a', 'kid', ',', 'and', 'loved', 'it', 'very', 'much', '!', 'What', 'a', 'fantastic', 'song', '!']

    NLTK正则表达式分词器

    >>> import re

    >>> import nltk

    >>> text = 'I was just a kid, and loved it very much! What a fantastic song!'

    >>> pattern = r"""(?x) # set flag to allow verbose regexps

    (?:[A-Z]\.)+ # abbreviations, e.g. U.S.A.

    |\d+(?:\.\d+)?%? # numbers, incl. currency and percentages

    |\w+(?:[-']\w+)* # words w/ optional internal hyphens/apostrophe

    |\.\.\. # ellipsis

    |(?:[.,;"'?():-_`]) # special characters with meanings

    """

    >>> print nltk.regexp_tokenize(text, pattern)

    ['I', 'was', 'just', 'a', 'kid', ',', 'and', 'loved', 'it', 'very', 'much', 'What', 'a', 'fantastic', 'song']

    最大匹配算法(MaxMatch)分词

    MaxMatch算法在中文自然语言处理中常常用来进行分词(或许从名字上你已经能想到它是基于贪婪策略设计的一种算法),算法从右侧开始逐渐减少字符串长度,以此求得可能匹配到nltk字库中词语的最大长度的字符串。这种方法其实更常用于中文文本分词,但是不排除某些英文文本并不以空格作为分隔符,特此介绍一下

    >>> import nltk

    >>> from nltk.corpus import words

    >>> wordlist = set(words.words())

    >>> def max_match(text):

    pos2 = len(text)

    result = ''

    while len(text) > 0:

    word = text[0:pos2]

    if word in wordlist:

    result = result + text[0:pos2] + ' '

    text = text[pos2:]

    pos2 = len(text)

    else:

    pos2 = pos2-1

    return result[0:-1]

    >>> string = 'theyarebirds'

    >>> print(max_match(string))

    they are bird s

    停用词去除

    简单易懂,匹配词库中的停用词,去除!以消除冠词、连词等一些无意义无作用的词增加数据占用空间,并避免其为挖掘计算带来的干扰。

    NLTK停用词库

    >>> import nltk

    >>> from nltk.corpus import stopwords

    >>> stopworddic = set(stopwords.words('english'))

    >>> text = ['I', 'was', 'just', 'a', 'kid', 'and', 'loved', 'it', 'very', 'much', 'What', 'a', 'fantastic', 'song']

    >>> text = [i for i in text if i not in stopworddic ]

    >>> print text

    ['I', 'kid', 'loved', 'much', 'What', 'fantastic', 'song']

    自定义词库

    方法同上,自定义停用词,或者下载网络上的停用词库进行停用词去除

    词干抽取

    将文本列表中的词语抽取其词干,以统一特征表征形式,特征降维以减少计算量。NLTK中提供了三种最常用的词干提取器接口,即 Porter stemmer, Lancaster Stemmer 和 Snowball Stemmer。抽取词的词干或词根形式(不一定能够表达完整语义)

    >>> from nltk.stem.porter import PorterStemmer

    >>> porter_stemmer = PorterStemmer()

    >>> from nltk.stem.lancaster import LancasterStemmer

    >>> lancaster_stemmer = LancasterStemmer()

    >>> from nltk.stem import SnowballStemmer

    >>> snowball_stemmer = SnowballStemmer(“english”)

    >>> porter_stemmer.stem(‘maximum’)

    u’maximum’

    >>> lancaster_stemmer.stem(‘maximum’)

    ‘maxim’

    >>> snowball_stemmer.stem(‘maximum’)

    u’maximum’

    >>> porter_stemmer.stem(‘presumably’)

    u’presum’

    >>> snowball_stemmer.stem(‘presumably’)

    u’presum’

    >>> lancaster_stemmer.stem(‘presumably’)

    ‘presum’

    >>> porter_stemmer.stem(‘multiply’)

    u’multipli’

    >>> snowball_stemmer.stem(‘multiply’)

    u’multipli’

    >>> lancaster_stemmer.stem(‘multiply’)

    ‘multiply’

    >>> porter_stemmer.stem(‘provision’)

    u’provis’

    >>> snowball_stemmer.stem(‘provision’)

    u’provis’

    >>> lancaster_stemmer.stem(‘provision’)

    u’provid’

    >>> porter_stemmer.stem(‘owed’)

    u’owe’

    >>> snowball_stemmer.stem(‘owed’)

    u’owe’

    >>> lancaster_stemmer.stem(‘owed’)

    ‘ow’

    各有优劣,看具体文本情况。对于分类、聚类这样对于特征词语的具体形态没有要求的情况下,进行词干抽取虽然抽取后的词干可能无实际意义但是却会大大减少计算时间,提高效率。

    词形还原

    词形还原Lemmatization是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)。相对而言,词干提取是简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义。词形还原处理相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值。

    >>> from nltk.stem import WordNetLemmatizer

    >>> wordnet_lemmatizer = WordNetLemmatizer()

    >>> word = wordnet_lemmatizer.lemmatize('birds')

    bird

    nltk的lemmatization算法很鸡肋,基本可以理解为只有复数还原为单数形式,当然feet这样的非常态复数形式也可以实现,但是你要想形容词变名词,就不太怎么好使了,比如我在实验中geology,geography,geographic,geographical这几个词就无法还原成统一体。

    文本向量表征以及TF-IDF权重表示

    这一部分是基于Python的Gensim库将文本特征抽取为词袋,并将词袋表征为id,以特征id以及文档频率表征成文本向量。TF-IDF权重是很可靠的权重表征方式,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

    #coding:utf-8

    from gensim import corpora, models, similarities

    documents = ["Shipment of gold damaged in a fire","Delivery of silver arrived in a silver truck","Shipment of gold arrived in a truck"]

    #分词#

    texts = [[word for word in document.lower().split()] for document in documents]

    print texts

    #抽取词袋,将token映射为id

    dictionary = corpora.Dictionary(texts)

    print dictionary.token2id

    #由文档向量以及频率构成文档向量

    corpus = [dictionary.doc2bow(text) for text in texts]

    print corpus

    #计算tfidf权重,注意在gensim的tfidf算法中到文档频率的求解过程中对数之后+1了

    tfidf = models.TfidfModel(corpus)

    corpus_tfidf = tfidf[corpus]

    for doc in corpus_tfidf:

    print doc

    print tfidf.dfs

    print tfidf.idfs

    除此之外,最近导师推给我的一篇文章Word2vec也是文本向量表征的一种方式,考虑了上下文的语义联系,可以深入研究。

    特征选择

    根据研究的需求进行特征的选择已达到特征降维,减小噪音的影响。常见的是根据词频(TF)、倒文档频率(IDF)、TFIDF权重等设定阈值进行筛选,无非是在TF/IDF/TFIDF权重计算结果的基础上设定阈值进行筛检。除此之外互信息、信息增益、X平方统计也是常见的方法。除此之外,如果你的研究是在给定类别名称的前提下进行语义文本分类,那么判断特征词与分类之间的语义相似度,从而进行筛选也是一种可行的方法。这里介绍的便是基于WordNet进行语义相似度的介绍。

    WordNet计算语义相似度常见的包括两种主要方法:

    path_similarity(sense1,sense2) # 词在词典层次结构中的最短路径

    wup_similarity(sense1, sense2) # Wu-Palmer 提出的最短路径

    #coding:utf-8

    import nltk

    from nltk.corpus import wordnet as wn

    from heapq import *

    from itertools import product

    word1 = 'hen'

    word2 = 'chicken'

    sense1 = wn.synsets(word1)

    sense2 = wn.synsets(word2)

    sim_wup = max(word1.wup_similarity(word2) for (word1, word2) in product(sense1, sense2))

    print sim_wup

    sim_path = max(word1.path_similarity(word2) for (word1, word2) in product(sense1, sense2))

    print sim_path

    运行结果

    0.962962962963

    0.5

    展开全文
  • 初中英语常用不规则动词的过去式读音资料与过去分词、现在分词.doc
  • 小学英语常用动词过去式及过去分词.pdf
  • 英语中的现在分词和过去分词 http://blog.sina.com.cn/s/blog_4e3631450100iecd.html 分词是非谓语动词中的一种形式,是英语教学过程中的重点、难点,也是历届高考考查语法点之一。分词分为现在分词和过去分词两种...

    英语中的现在分词和过去分词

    http://blog.sina.com.cn/s/blog_4e3631450100iecd.html

    分词是非谓语动词中的一种形式,是英语教学过程中的重点、难点,也是历届高考考查语法点之一。分词分为现在分词和过去分词两种。它在句子里可作表语、宾语补足语定语和状语。但要注意分词具有主动和进行的意味而过去分词却具有被动和完成的意味。

    一、分词在句中的功能

    1、分词作表语

    现在分词作表语,多表示主语所具有的特征或性质,意为“令人怎样.......”,含主动意味。如:astonishing,disappointing,exciting,amusing,frightening,interesting,surprising,relaxing,shocking,tiring,worrying,puzzle;ing,moving; 过去分词作表语多表示主语的状态,意为“对什么感受怎样”,有被动意味。如:astonished,disappointed,excited,amused,frightened,interested,surprised,relaxed,shocked,tired,worried,puzzled,moved。例如:

    Our trip was disappointing.我们的这次旅行让人失望。

    We was disappointed at our trip.我们对这次旅行感到失望。

    This story is interesting.这个故事有趣。

    I am interested in this story.我对这故事感兴趣。

    2、分词作宾语补足语

    分词作宾语补足语时,也要注意主动与被动的关系这种关系主要体现在宾补与宾语之间的主动与被动的关系。

    He's going to have his hair cut.他将要去理发。

    I must get my bike repaired.我得去修理我的自行车。

    动词have,let,make等也可带用过去分词表示的宾语补足语,在这种结构中主语通常不是分词所表示的动作的发出者。能带分词作宾语补足语的动词常见的有:see,feel,watch,make, let,have等。例如:

    You often see musicians performing in the streets.你经常看到音乐家在街上演奏。

    We watched three old men sharing their food with each other.我们观看三个老人相互分享他们的食物。

    3、分词作定语

    不及物动词的现在分词作定语表达强调动作正在进行,过去分词强调完成;及物动词的现在分词作定语强调主动,

    过去分词强调被动。分词的完成式一般不作定语。分词作其他成分时,也是如此。分词作定语,单个的分词作定

    语一般前置;分词词组,个别分词如given, left等,修饰不定代词等的分词,作定语需后置。例如:

    We can see the rising sun. 我们可以看到东升的旭日

    He is a retired worker.  他是位退休的工人

    There was a girl sitting there. 有个女孩坐在那里

    This is the question given.   这是所给的问题

    There is nothing interesting.  没有有趣的东西

    分词作定语相当于定语从句,如Most of the people invited to the party were famous scientists. = Most of the people who were invited to the party were famous scientists.

    分词: 包含现在分词和过去分词。(高中学习重点)

    ① 主要区别:现在分词一般有主动的意思或表示动作正在进行的意思;过去分词有被动或动 作已经完成的意思。分词可以有自己的宾语或状语。

    ② 分词或分词短语在句子中作定语、状语和复合宾语等。

    [A] 作定语:分词作定语时,一般要放在修饰的名词之前,分词短语作定语时,则要放在所修饰的名词之后。 如:

    I have got a running nose.(我流鼻涕)

    The woman running after the thief shouted very loudly ,“Stop the thief!”(跟着小偷追的妇女大喊:捉小偷!)

    Yesterday I met a man called Mr. Black.(昨天我遇见了一个名叫布莱克先生的人)

    He only gave me a broken glass, so I was very angry with him.(他只给了我一个坏玻璃杯,所以我很生他的气)

    [B] 现在分词可以作下列动词的宾语补足语。(参考不定式作宾语补足语)

    谓语动词(vt.)

    宾语

    宾语补足语

    keep(保持) / see(看到) /

    hear(听到) / watch(注意到) / feel(感觉到)

    sb./sth.

    (do)ing

    如:

    Mum kept me working all the week.(妈妈让我一个星期都在工作)

    When I entered the room, I saw Jack eating a big pear.(我进入房间时看到杰克正在吃一只大梨子)

    In the dark I felt something very cold moving on my foot.(黑暗之中我感到有个冷的东西在我的脚上移动)

    [C] 现在分词可以作状语,表示伴随情况。如:

    She came into the classroom, holding a pile of papers in her hand.(他走进教室,手上抓着一沓纸)/ I am very busy these days getting ready for the coming oral test.(这些日子我正忙着准备即将来到的口语考试)

    [D] 过去分词可以作表语,放在连系动词后面,但要注意不要与被动语态混淆,“主系表”主要表示状态,而被动语态则表示动作。常用过去分词作表语的结构有:be worried (焦虑) / be pleased (高兴) / be tired (疲劳) / get dressed (打扮好) / get lost (迷路) / get caught (遭遇) / become frustrated (沮丧) / become intereted in (对…感兴趣)等等。例略。

    [E] 过去分词可以作宾语补足语。如:

    I had my hair cut this morning.(今天早上我让人给我理了发)(注意:have sth. done表示动作由别人来做,

    而have done sth.则为现在完成时的结构,两个结构不可以混淆)

    转载于:https://www.cnblogs.com/lyhabctranslate/p/4193603.html

    展开全文
  • 本文内容为考研英语 常见不规则动词过去式/过去分词,单词源文件已经上传到我的资源中,有需要的可以去看看, 我主页中的思维导图中内容大多从我的笔记中整理而来,相应技巧可在笔记中查找原题, 有兴趣的可以去 我的...

    本文内容为考研英语 常见不规则动词过去式/过去分词,单词源文件已经上传到我的资源中,有需要的可以去看看,

    我主页中的思维导图中内容大多从我的笔记中整理而来,相应技巧可在笔记中查找原题, 有兴趣的可以去 我的主页 了解更多计算机学科的精品思维导图整理

    本文可以转载,但请注明来处,觉得整理的不错的小伙伴可以点赞关注支持一下哦!

    展开全文
  • 分词 分词有现在分词和过去分词两种。 作为谓语,现在分词和be 一起构成进行时;过去分词和be一起构成被动语态,和have一起构成完成时。 例如: I am reading a novel by Maupassant. 我正在看一本莫泊桑写的...
  • 该词典描述的是一些词分析,用于分词,利用给定的中英文文本序列(见 Chinese.txt 和 English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析。
  • 总结了一些常用不规则动词过去式与过去分词,与英语相关,对程序员来说英语是一项很重要的,可类比专业知识,况且现在很多程序源码都是英语文档
  • Elasticsearch中文分词

    2019-09-11 11:04:59
    分词就是把一条文本数据转换为一个个单词的过程,英语分词比较简单,直接使用空格就可以把每个词分开,中文分词相对就会复杂很多,需要使用专门的分词器。 在英文中分词,指定分词器进行分词: POST ...
  • 这是常用的词性变换,主要是用于大学生,初中生也可以查阅。
  • 中文分词

    2020-04-30 17:49:42
    中文分词技术 简介 “词”这个概念一直是汉语语言学界纠缠不清而又绕不开的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个权威、明确的表述,更无法拿出...
  • 中文分词技术

    千次阅读 2018-08-29 00:01:15
    规则分词 正向最大匹配法(Maximum Match Method, MM法) 逆向最大匹配法(Reverse Maximum Match Method, RMM法) 双向最大匹配法(Bi-direction Matching Method, BM法) 统计分词 HMM CRF 混合分词(规则...
  • 汉语分词初探

    2018-03-30 07:42:24
    基于词典的分词顾名思义,基于词典的分词就是要有一个词典,分词的过程就是用词典中的词和句子中的词进行比对,然后选出一个最优的切分结果。显而易见,基于词典的分词必须要维护一个好的词典,且其无法处理未登录词...
  • 分词算法

    千次阅读 2012-06-11 16:34:07
    自动分词算法的分类 我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、 基于理解的分词方法和基于统计的分词方法。 1、 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照...
  • jieba分词入门

    2019-03-22 22:30:52
    支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,...
  • elasticsearch中文分词

    千次阅读 2021-02-22 21:16:58
    什么是分词 分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis。 举例:我是中国人 --> 我/是/中国人 分词api 指定分词器进行分词 POST /_analyze { "analyzer":...
  • 中文分词工具

    千次阅读 2018-02-02 12:01:35
    THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验...
  • 中文分词的难点在于,在汉语中没有明显的词汇分界点,如在英语中,空格可以作为分隔符,如果分隔不正确就会造 成歧义。 如: 我/爱/炒肉丝 我/爱/炒/肉丝 常用中文分词器,IK、jieba、THULAC等,推荐使用IK分词器。 ...
  • PostgreSQL zhpaser中文分词

    千次阅读 2019-09-06 16:57:52
    因为一般英语等语言分词比较简单,按照标点、空格切分语句即可获得有含义的词语,PostgreSQL 自带的解析器 就是按照这个原理来分词的,比较简单。而中文比较复杂,词语之间没有空格分割,长度也不固定,分词有时还跟...
  • jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模式的基础上...
  • es分词问题

    千次阅读 2019-05-27 18:58:14
    今天来聊聊es的分词问题。 我们的项目做的是舆情搜索,主要的技术在es。当时就到了一个很奇怪的问题,通过关键词查询,返回来的文本内容中并没有这个关键词,我们还对查询做来高亮显示。关键词是unita,返回的文本...
  • Hanlp分词

    2019-05-05 15:31:23
    \n 在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n 另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n" print("=" * 30 +...
  • 第一章、过去分词在句子中的成分过去分词(The Past Participle)是一种非限定动词。它通常由动词原形加-ed构成,少数不规则动词的过去分词为不规则形式。过去分词一般只有一种形式,但是有的不规则动词的过去分词有...
  • 目录 前言 目录 分词中的基本问题 分词规范 歧义切分 未登录词识别 常用的汉语分词方法 基于词典的分词方法 基于字的分词方法 总结 参考文...
  • 结巴分词词性

    千次阅读 2017-08-17 19:59:14
    jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语...
  • 中文分词算法概述

    2017-08-25 22:53:41
    词是最小的有意义的语言成分,对一段文字进行切分称作分词。英文单词之间以空格作为自然分界符,而中文以字为基本的书写单位,词语之间没有明显的区分标记。把中文的汉字序列切分成有意义的词,就是中文分词。中文...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,591
精华内容 1,836
关键字:

常用英语分词