精华内容
下载资源
问答
  • 自然语言处理()--关键词提取

    千次阅读 2019-04-05 09:58:51
    最近学习使用了传统的自然语言处理技术进行...TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF-IDF是一种统计方法,用来评估一个字词对于一个文件集或语料库...

    最近学习使用了传统的自然语言处理技术进行关键词的提取,接下来我介绍一下两种常用的算法:TFIDF和TextRank。目前BiLSTM也可以用于提取文本关键词,有空再学。

    1.TF-IDF

    TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF-IDF是一种统计方法,用来评估一个字词对于一个文件集或语料库中的一份文件的重要程度。
    首先解释一下TF-IDF的意思:
    TF(term frequency):词语在一篇文章中出现的频率
    IDF(inverse document frequency):反文档频率,与词语在其他文档中出现的频率负相关
    TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率高,即TF值高;并且在其他文章中很少出现,即IDF值高,那么认为这个词或短语具有很好的类别区分能力,适合作为该文章的关键词。
    TF-IDF的具体计算公式为:

    在这里插入图片描述
    文档中词的tfidf值越高,便认为该词越可以代表该文档的主题。TF-IDF算法的python实现如下,同时jieba库中也实现了TF-IDF,有兴趣的话也可以去了解一下。

    # TF-IDf算法python实现
    import re
    import math
    # 获取一个文档中每个词的TF值,doc参数保存文档中的句子列表,返回单词与其tf值的字典
    # 首先对文档中的单词进行切分,然后统计每个词的词频
    def GetWordTF(doc):
        words_count = 0   # 单词总数
        words_map = {} # 单词与单词数的映射
        tf_map = {}  # tf值映射词典,格式: tf_map[word] = tf_word
        for sentence in doc:  # 遍历文档中的每个句子
            # 单词的切分方式可以根据所给的数据格式进行修改
            # 我将提取英文句子中的每个单词,使用正则表达式提取并去除空字符串
            words_arr = [word for word in re.split(r'\W+',sentence) if word]
            words_count += len(words_arr)   # 统计有效词的总长度
            for word in words_arr:   # 遍历每一个词并进行统计单词数
                words_map[word] = words_map.get(word,0) + 1
        for key,val in words_map.items():   # 计算每个单词的tf值
            tf_map[key] = val / words_count
        return tf_map
    
    # 获取文档每个单词在文档集docSet中的IDF值映射
    def GetWordIDF(tfMap,docSet):
        docs_num = len(docSet)   # 文档集中文档的总数
        word_doc_num = {}   # 包含word的文档数,格式为word_doc_num[word] = num of doc that contains word
        idf_map = {}  # idf值映射字典,格式idf_map[word] = idf_word
        for key,val in tfMap.items():    # 遍历文档中出现的单词
            for doc in docSet:        # 遍历每个文档,检查该文档中是否出现了单词key
                for sentence in doc:    # 遍历文档中的每个句子
                    words_arr = [word for word in re.split(r'\W+', sentence) if word]   # 提取句子中的每个单词
                    if key in words_arr:   # 如果该文档中有该词,则统计
                        word_doc_num[key] = word_doc_num.get(key,0) + 1
                        break
        for key,val in word_doc_num.items():   # 计算每个单词的idf值
            idf_map[key] = math.log(docs_num / val)
        return idf_map
    
    # 使用TFIDF算法获取文档的前topNum个关键词,其中每个文档是以列表表示的,列表项为文档的一个句子
    def GetKeywordsByTFIDF(entityDescriptionList,docSet,topNum):
        tf_map = GetWordTF(entityDescriptionList)    # 获取每个单词的tf值
        idf_map = GetWordIDF(tf_map,docSet)    # 获取每个单词的idf值
        tfidf_map = {}
        for key,val in tf_map.items():   # 计算每个词的tfidf值
            tfidf_map[key] = tf_map[key] * idf_map[key]
        tfidf_sorted_list = sorted(tfidf_map.items(),key = lambda x:x[1],reverse=True)  # 将字典按值从大到小排序
        if topNum > len(tfidf_sorted_list):   # 保证topNum不大于文档中词的总数
            topNum = len(tfidf_sorted_list)
        keywords = []   # 保存文档的前topNum个关键字
        for i in range(topNum):
            keywords.append(tfidf_sorted_list[i][0])   # 关键字保存在元组的第0个元素中
        return keywords
    

    2.TextRank

    TF-IDF算法对于有多段文本的关键词提取非常有效,但是对于单篇或文档集较少的文本则表现得不很好。对于单篇文档,可以使用TextRank算法实现关键词提取。
    TextRank是一种基于图排序的算法,思想源于谷歌的PageRank算法,通过把文本分割为若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取。
    TextRank利用投票的原理,让每一个单词给它的邻居投赞成票,票的权重取决于自己的票数。假设每一个词是一个顶点(Vertex),那么所有的词就构成了一个网络,这个网络里面每个顶点会有指向其他顶点的边,也会有其他顶点指向自己的边。通过计算每个顶点所连接的指向自己的顶点的权重和,最终得到该顶点的权重值。
    TextRank存在的主要问题是初始值的确定,为了后续计算的简便性,这里会给初值赋为一个非0值。同时,引入了一个阻尼系数的概念,该参数表示从某一个指定的顶点,到任意一个其他顶点的概率。TextRank的具体公式如下:

    在这里插入图片描述

    于是,使用TextRank算法提取关键词时,首先需要把图构建出来。图的节点就是单词,至于边可以利用n-gram的思路,认为某个单词只与它附近的n个单词有关,即与它附近的n个词对应的节点连一条无向边。也可以做一些其他操作,比如把某类词性的词删掉,一些自定义词删掉,只保留一部分单词等。我的代码实现中,假设每个长为k的滑动窗口中的任意两个单词对应的节点之间存在一条无向无权边。当构图成功后,就可以使用上述公式进行迭代求解了。Python实现的代码如下:

    # 使用TextRank算法实现关键词提取,返回关键词列表,参数含义如下:
    # sentence 保存待提取关键字的句子
    # windowLength 保存滑动窗口的大小
    # topNum 表示需要返回排名前topNum的关键词
    # d 表示textrank算法的阻尼系数,默认为0.85
    # maxIter 表示算法最大迭代次数
    # minDiff 迭代后变化值小于minDiff时也停止迭代
    def GetKeywordsByTextRank(sentence,windowLength,topNum=3,d=0.85,maxIter=10000,minDiff=0.0001):
        # 单词的切分方式可以根据所给的数据格式进行修改
        # 我将提取英文句子中的每个单词,使用正则表达式提取并去除空字符串
        words_arr = [word for word in re.split(r'\W+', sentence) if word]
        words_num = len(words_arr)   # 句子的长度
        word_graph = {}   # 保存每个单词的连接状态,格式为word_graph[word] = [与该词存在边的单词的集合]
        textrank_map = {}   # 保存每个textrank值的字典,格式为textrank_map[word] = textrank value of the word
        textrank_map_t = {}  # 用于保存前一次迭代的tankrank结果
        for words_index in range(words_num):    # 遍历句子中的每个单词,开始根据给定的窗口值构图
            textrank_map[words_arr[words_index]] = 1 - d   # 为每个词初始化一个textrank值
            window_lower = max(0, words_index - windowLength)   # 滑动窗口的下边界
            window_upper = min(words_num, words_index + windowLength)   # 滑动窗口的上边界
            for window_index in range(window_lower,window_upper):  # 遍历窗口中的单词,构建单词的连接关系
                if window_index == words_index:   # 自己与自己认为没有边
                    continue
                if not words_arr[window_index] in word_graph.get(words_arr[words_index],[]):  # 检查两词节点之间是否有边
                    if word_graph.get(words_arr[words_index],0) == 0:   # 检查该词的边集是否为空
                        word_graph[words_arr[words_index]] = [words_arr[window_index]]   # 为空则生成包含该点的边集
                    else:
                        word_graph[words_arr[words_index]].append(words_arr[window_index])  # 将该边添加到边集中
        for iter_i in range(maxIter):   # 利用textrank计算公式迭代计算
            max_diff = 0  # 表示迭代前后两次的变化
            for word,neibor_list in word_graph.items():  # 遍历每个单词
                for con_word in neibor_list:  # 遍历与每个单词存在相邻关系的单词
                    con_word_out_len = len(word_graph[con_word])  # 计算当前节点连接的节点个数
                    if word == con_word or con_word_out_len == 0:
                        continue  # 如果是该节点本身或无连出节点则不更新
                    # 使用公式对textrank值进行更新
                    textrank_map[word] = 1 - d + d * textrank_map_t.get(con_word, 0) /con_word_out_len
                max_diff = max(max_diff,abs(textrank_map[word]-textrank_map_t.get(word,0)))
            for word,val in textrank_map.items():
                textrank_map_t[word] = val
            if(max_diff < minDiff):   # 各个单词节点的textrank值如果均无明显变化,则可结束迭代
                break
        textrank_sorted_list = sorted(textrank_map.items(),key=lambda x:x[1],reverse=True)  # 按照textrank值从大到小排序
        if topNum > len(textrank_sorted_list): # 保证topNum不大于文档中词的总数
            topNum = len(textrank_sorted_list)
        if topNum < 1:  # 保证topNum大于0
            topNum = 1
        keywords = []   # 保存将要返回的关键词
        for i in range(topNum):
            keywords.append(textrank_sorted_list[i][0])
        return keywords
    

    可以看出TextRank算法对于一段文本中多次出现的词,会赋予更大的权重,因为它连出的节点更多,所以当各个节点初始权重一致时,则最终出现次数最多的词权重就会更大。这也会使该算法对类似于“的”、“你、我、他”等常用词,会出现比较大的误差。对于这种情况,可以在最开始构建边时进行处理,去掉一些停用词或者选择自己需要的词性的词,从而得出实际有用的词语。

    后记:前端暂时不支持Latex,公式我只能贴图了。深度学习最近比较流行,还有很多需要学的呀!

    展开全文
  • TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成...

    TF-IDF算法

    TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。

    TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上就是 TF*IDF,其中 TF(Term Frequency),表示词条在文章Document 中出现的频率;IDF(Inverse Document Frequency),其主要思想就是,如果包含某个词 Word的文档越少,则这个词的区分度就越大,也就是 IDF 越大。对于如何获取一篇文章的关键词,我们可以计算这边文章出现的所有名词的 TF-IDF,TF-IDF越大,则说明这个名词对这篇文章的区分度就越高,取 TF-IDF 值较大的几个词,就可以当做这篇文章的关键词。

    计算步骤

      1. 计算词频(TF)

        词频 = 某个词在文章中的出现次数 / 文章总次数

      2. 计算逆文档频率(IDF)

        逆文档频率 = log(语料库的文档总数 / (包含和改词的文档数 + 1))     (10为底)

      3. 计算词频-逆文档频率(TF-IDF) 
        TF-IDF = 词频 * 逆文档频率

    举例 

      对《中国的蜜蜂养殖》进行词频(Term Frequency,缩写为TF)统计
      出现次数最多的词是----“的”、“是”、“在”----这一类最常用的词(停用词),不计入统计范畴。
      发现“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,重要性是一样的?
      "中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见

      《中国的蜜蜂养殖》:假定该文长度为1000个词,"中国"、"蜜蜂"、"养殖"各出现20次, 则这三个词的"词频"(TF)都为0.02
      假定搜索Google发现,包含"的"字的网页共有250亿张,假定这就是中文网页总数。包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张。

                

      可见蜜蜂和养殖比中国在文档中更‘关键’,即更具有代表性。

     

    转载于:https://www.cnblogs.com/zongfa/p/9330992.html

    展开全文
  • 随着计算机的出现,为适应引编制自动化的需要而产生的一种主题检索类型。指那些出现在文献的标题以及摘要、正文中,对表达文献主题内容实质意义的,未经规范化处理的自然语言词汇,在作文献索引和检索时能反映...

    53a477a34e5be86b0989a7c452ad7ce9.gif

    戳上面的蓝字关注我们哦!何为关键词

    关键词是反映论文主题概念的词、词组或术语。对文献检索开发利用有着重要的作用。是随着计算机的出现,为适应引编制自动化的需要而产生的一种主题检索类型。是指那些出现在文献的标题以及摘要、正文中,对表达文献主题内容实质意义的,未经规范化处理的自然语言词汇,在作文献索引和检索时能反映文章内容信息的单词或术语,既反映文章主题的关键词汇。要求每个关键词与论文主题概念直接相对应,即有专指性。一组关键词要能反映单元主题和多元主题,能反映文章的专业主题和相关主题,即有全面性。关键词对揭示和描述文献主题内容来说是非常重要的。

    关键词选取的方法

    关键词是情报检索语言中的一个组成部分。关键词的质量直接影响文章在情报检索系统中的检索效率,因而在撰写论文时应重视关键词的选择论.文.客.服.QQ,81995535,以便论文能在检索中稳,准,快地被检索到。影响因子正是杂志论文被引高低趋势的重要指标f4J.关键词虽不是规范化的名词术语,它不像主题词那样严格,但也必须是能够表示概念的,具有检索意义的名词术语,关键词的作用是作为一种辅助的检索工具,用于新资料的快速报道。

    如何选取关键词

    凡医学期刊论文的文献标识码为A、B、C三类者均应标注中文关键词,有英文摘要者应同时给出英文关键词。一篇论文可选3~8个关键词,一般以计算机存储分项和编制程序够用为限度,在作者提供下由医学编辑按GB/T3860的原则和方法参照各种词表和工具书选取;未被词表收录的新学科、新技术中的重要术语以及文章题名中的人名、地名也可作为关键词标出。中、英文关键词应一一对应选取关键词时必须进行主题分析,对文章内容所涉及的主题概念进行精选与取舍,一定要选择能独立表示概念的"关键"的词,即最能表达原文主题内容的词。应仔细审读论文的篇名、摘要、前言、结语、一二级标题、图表名称及参考文献等,必要时应浏览全文。切忌仅就论文的题名选词,更不能望题生意地构词。选取关键词时还应顾及名词在文中的逻辑关系,不可任意顺序罗列。不要以英文单词作为中文关键词,不要以非共知共用的外文缩写作为关键词,也不要用短语。准确适量的关键词可使读者快速地确定原文的主题内容,快捷地找到所需的文献,因此论文的作者切不可忽视选取关键词。

    关键词的选取应注意以下六点:①要从论文原稿中精心挑选,同撰写摘要结合进行。②要用规范化词语,主要应用名词或名词性短语。尽量使用美国国立医学图书馆编辑的最新版中,医学主题词表(MeSH)内所列的词。如果最新版MeSH中尚无相应的词,可选用直接相关的几个主题词进行组配,还可根据树状结构表选用最直接的上位主题词论.文.客.服.QQ,81995535,必要时,可采用习用的自由词并排列于最后。③ 主题词中的缩写词应按MeSH还原为全称,如"HbsAg"应标引为:乙型肝炎表面抗原。④要注意几个关键词之间各自独立陈列,不存在某种语法结构关系。⑤每个英文关键词第一字母小写,各词汇之间空2个字符或分号分开。⑥几个关键词排列顺序不完全是随意的,应体现一定词义聚会和层次性。一般采取表达同一范畴的概念的关键词相对集中,意义联系紧密的关键词位置靠拢。反映论文研究目的、对象、范围、方法和过程等内容的关键词在前,揭示研究结果、意义和价值的关键词在后。

    扫描关注

    9db587e4ea0833115395dc945aeb051f.gif

    等你来撩

    9987f79f3385a4f5eae767891c6a1afa.png

    热爱生活的人

    终将被生活热爱

    6e816b67dc8fff02a0da7142e741d07d.gif

    cc2a6be42ca62e275d906140abf99ff9.png

    展开全文
  • TF-IDF 是一种数值统计,用于反映一个词对于语料中某篇文档的重要性。在信息检索和文本挖掘领域,它经常用于因子加权。TF-IDF 的主要思想就是:如果某个词在一篇文档中出现的频率高,也即 TF 高;并且在语料库中其他...

    在信息检索理论中,TF-IDF 是 Term Frequency - Inverse Document Frequency 的简写。TF-IDF 是一种数值统计,用于反映一个词对于语料中某篇文档的重要性。在信息检索和文本挖掘领域,它经常用于因子加权。TF-IDF 的主要思想就是:如果某个词在一篇文档中出现的频率高,也即 TF 高;并且在语料库中其他文档中很少出现,即 DF 低,也即 IDF 高,则认为这个词具有很好的类别区分能力。

    # -*- coding:utf-8 -*-
    import jieba.analyse
    
    # 采用的语料来自于百度百科对人工智能的定义,获取 Top5 关键字,用空格隔开打印
    sentence = "人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。" \
               "人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。" \
               "人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。" \
               "人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。" \
               "人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等," \
               "总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。" \
               "2017年12月,人工智能入选“2017年度中国媒体十大流行语”。"
    
    # 基于 TF-IDF 算法进行关键词提取
    # TF-IDF 倾向于过滤掉常见的词语,保留重要的词语。例如,某一特定文件内的高频率词语,
    # 以及该词语在整个文件集合中的低文件频率,可以产生出高权重的 TF-IDF
    # jieba 已经实现了基于 TF-IDF 算法的关键词抽取,通过命令 import jieba.analyse 引入
    '''
    extract_tags(sentence, topK=5, withWeight=False, allowPOS=()):
        sentence:待提取的文本语料;
        topK:返回 TF/IDF 权重最大的关键词个数,默认值为 20;
        withWeight:是否需要返回关键词权重值,默认值为 False;
        allowPOS:仅包括指定词性的词,默认值为空,即不筛选。
    '''
    keywords = "  ".join(jieba.analyse.extract_tags(sentence, topK=5, withWeight=False, allowPOS=()))
    print(keywords)
    
    # 获取 Top5 的关键字,并修改一下词性,只选择名词和动词
    keywords = jieba.analyse.extract_tags(sentence, topK=5, withWeight=True, allowPOS=(['n', 'v']))
    print(keywords)
    
    

    原文:
    https://soyoger.blog.csdn.net/article/details/108729412

    展开全文
  • 关键词是人们快速判断是否要详细阅读文件内容的重要线索,关键词自动抽取在信息检索、自然语言处理等研究领域均有重要应用。设计了一种新的关键词自动抽取方法,使计算机能够像人类专家一样,利用知识库对目标文本...
  • 1文献检索试题和答案、单项选择题...下面哪种检索语言是后组式规范检索语言?(A)A.单元词语言B.关键词语言C.标题词语言D.自由词语言3.下列对MeSH描述错误的(D)。A.MeSH从1960年开始出版,每年再版次B....
  • 1文献检索试题和答案、单项选择题...下面哪种检索语言是后组式规范检索语言?(A)A.单元词语言B.关键词语言C.标题词语言D.自由词语言3.下列对MeSH描述错误的(D)。A.MeSH从1960年开始出版,每年再版次B....
  • 目前主要一些搜索引擎提供的检索服务有: 1)目录与关键词检索相结合(Browsing & Searching... 2)精确检索(Precise Search) 精确检索有两种方法,一种是用受控词表,另一种是用XML技术。 3)自然语言检索(Natur
  • 基于内容的图像检索技术(6)

    千次阅读 2014-10-14 22:34:29
    六、基于内容特征的图像检索系统  从上面对图像搜索引擎的讨论中,我们可以看出,图像搜索引擎所...概念查询的一种实现即基于文本式的描述,用关键词关键词逻辑组合或自然语言来表达查询的概念,这就是语义层次的
  • 开放域关键短语抽取(KPE)是一项基础而复杂的自然语言处理任务,在信息检索领域有着广泛的实际应用。与其他文档类型相比,web页面设计的目的是便于导航和查找信息。有效的设计编码在布局和格式信号,指出哪里可以...
  • 大学文献检索资料 DOC

    2009-11-28 10:35:24
    信息检索语言是用来描述文献特征和表达信息提问,沟通信息存储人员和信息检索者双方思想的一种人工语言。 信息检索语言的分类:按描述文献特征划分; • 描述文献外部特征的检索语言:书名、刊名、篇名等著者名。...
  • Bag of features(Bof)一种是用于图像和视频检索的算法。要了解Bag Of Feature 就要先知道Bag Of Words(BOW),Bag of Words 文本分类中一种通俗易懂的策略。一般来讲,如果我们要了解一段文本的主要内容,最...
  • 目前搜索引擎主要检索服务【转】

    千次阅读 2005-04-26 16:25:00
    目前主要一些搜索引擎提供的检索服务有: 1)目录与关键词检索相结合... 2)精确检索(Precise Search)精确检索有两种方法,一种是用受控词表,另一种是用XML技术。3)自然语言检索(Natural Language Search)自然语
  • 用ASP做全文检索

    千次阅读 2000-09-06 11:13:00
    摘要:通过词句查找相关的全文浏览器端常用的方法,ASP类似于CGI,也可以...ASP微软公司开发的用于制作动态Web页的一种服务器端脚本型式(或曰编写环境)。它使用VBScript或JavaScript等简易的脚本语言,集成在HT
  • 自然语言处理(NLP)

    2019-08-28 15:55:35
    语言模型就是说句话的概率多少 句话的翻译有很多可能性,最终会选择概率最高的那个 我今天下午打篮球——还要先做分词任务——我 今天 下午 打 篮球 怎样变得简单一点 n-gram模型 n-...
  • 自然语言处理-TF-IDF

    2020-03-01 23:29:37
    TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 TF意思是词频(Term Frequency), IDF意思是逆文本频率指数(Inverse Document Frequency)。 使用场景: 用于...
  • 自然语言的内容有很多,本文所介绍的自然语言处理部分“文本摘要”和“关键词提取”。在做博客的时候,经常会发一些文章,这些文章发出去了,有的很容易被搜索引擎检索,有的则很难,那么有没有什么方法,让博客对...
  • 自然语言处理系列之TF-IDF算法

    万次阅读 2016-12-16 23:55:39
    TF-IDF算法TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现...
  • 再比如,信息检索(information retrieval)本质上也是一个二分类任务:给定关键词,判断每篇文章是否与关键词相关,并把相关结果排序返回。 许多二分类器的原理,都是给每个样例打一个分,然后设置一个阈值,分数...
  • 字典树,又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共...
  • TF-IDF算法解析与Python实现

    万次阅读 多人点赞 2016-05-23 13:18:20
    TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。例如当手头有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或...
  • 一、正则简介正则表达式是一种独立的语言,可以运用如php、java等编程语言中。数据库:SQL语言XML:Xpath正则:数据的检索正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有...
  • 乐彼日文网店系统(56770 EShop) 是一款基于Web浏览器和客户端技术的网上开店软件,它把浏览器、客户端和服务器这三技术无缝结合为一体,界面灵活,功能强大,后台更是和服务器一样稳定、安全、可靠。   采用UTF...
  • 乐彼繁体中文网店系统(56770 EShop) 是一款基于Web浏览器和客户端技术的网上开店软件,它把浏览器、客户端和服务器这三技术无缝结合为一体,界面灵活,功能强大,后台更是和服务器一样稳定、安全、可靠。...
  • 乐彼英文外贸版网店系统(56770 EShop) 是一款基于Web浏览器和客户端技术的网上开店软件,它把浏览器、客户端和服务器这三技术无缝结合为一体,界面灵活,功能强大,后台更是和服务器一样稳定、安全、可靠。...
  • 乐彼中英文网店系统(56770 EShop) 是一款基于Web浏览器和客户端技术的网上开店软件,它把浏览器、客户端和服务器这三技术无缝结合为一体,界面灵活,功能强大,后台更是和服务器一样稳定、安全、可靠。   采用...
  • 乐彼简体中文版网店系统(56770 EShop) 是一款基于Web浏览器和客户端技术的网上开店软件,它把浏览器、客户端和服务器这三技术无缝结合为一体,界面灵活,功能强大,后台更是和服务器一样稳定、安全、可靠。...
  • HTML是超文本标记语言的缩写,它不是一种编程语言,它是一种标记语言 浏览器是解释和执行HTML的工具,标签用来描述网页,因此网页不会显示标签 &amp;amp;lt;meta&amp;amp;gt;标签 描述文档类型和字符编码 ,...

空空如也

空空如也

1 2 3 4 5
收藏数 91
精华内容 36
关键字:

关键词是一种检索语言