panda python 词共现 - CSDN
精华内容
参与话题
  • Python Pandas 构建共现矩阵

    千次阅读 2018-11-16 16:35:19
    作者共现词共现等各种共现情况的研究需求在我们这个学科还是挺多的,来写一下如何使用Python构建共现矩阵。 基本思路 构建共现矩阵,我一个基本思路是先根据所有的目标对象构建一个单位矩阵,然后对目标对象的...

    作者共现、词共现等各种共现情况的研究需求在我们这个学科还是挺多的,来写一下如何使用Python构建共现矩阵。

    基本思路

    构建共现矩阵,我一个基本思路是先根据所有的目标对象构建一个单位矩阵,然后对目标对象的共现情况进行统计、计算,将相应的结果覆盖到对应的矩阵元素即可。对于这种矩阵来说,矩阵的索引、列名使用对应的目标对象的名称会比较方便,因而想到了使用Python中的Pandas来构建矩阵。

    目标对象统计

    以作者共现为例。首先对所有合作者的基本情况进行统计,分别构建一个字典统计所有作者单独出现的次数和一个字典统计所有作者两两出现的次数。

    • 将所有的合作者名字放入一个列表,以逗号隔开。
    • 单个作者出现的频次,按照一般频次统计的方法,判断该对象是否在字典中,不在则对应的value初始化为1,在则value加1。
    • 确定当前作者的合作者,目前的一个基本想法是遍历合作者样本,对于每一个作者来说,其合作者是排在他后面的所有作者。于是复制一个样本,每次遍历时去掉第一个也就是当前的作者,那么这个复制样本中所有的作者即为当前作者的合作者。(这个思路其实也是一个组合算法,不知道还有没有优化的方法?,,还请指点)
    • 将这两个合作者以逗号连接,用同样的方法统计频次。但是要注意一个问题,每个样本中两个作者的顺序可能不一致,因此要进行判断,统一顺序。
    • (2018.06.30修改)之前的代码有一个错误,上面的统一顺序要增加两个变量来替换au和au_c的值,因为au位于循环中,不能改变其本身的值。
    def authors_stat(co_authors_list):
        au_dict = {}  # 单个作者频次统计
        au_group = {}  # 两两作者合作
        for authors in co_authors_list:
            authors = authors.split(',')  # 按照逗号分开每个作者
            authors_co = authors  # 合作者同样构建一个样本
            for au in authors:
                # 统计单个作者出现的频次
                if au not in au_dict:
                    au_dict[au] = 1
                else:
                    au_dict[au] += 1
                # 统计合作的频次
                authors_co = authors_co[1:]  # 去掉当前作者
                for au_c in authors_co:
                    A, B = au, au_c  # 不能用本来的名字,否则会改变au自身
                    if A > B:
                        A, B = B, A  # 保持两个作者名字顺序一致
                    co_au = A + ',' + B  # 将两个作者合并起来,依然以逗号隔开
                    if co_au not in au_group:
                        au_group[co_au] = 1
                    else:
                        au_group[co_au] += 1
        return au_group, au_dict
    

    构建单位矩阵

    利用Pandas,以作者名为索引和列表,构建一个单位矩阵:

    import pandas as pd
    import numpy as np
    au_list = list(au_dict.keys())  # 取出所有单个作者
    matrix = pd.DataFrame(np.identity(len(au_list)), columns=au_list, index=au_list)
    

    共现系数计算

    共现矩阵中的元素采用Equivalence系数进行归一化,公式如下:
    Eij=Fij2FiFj E_{ij}={F_{ij}^2 \over F_i*F_j}
    其中,Eij为共现矩阵元素的值,Fij为两个目标对象i和j共现的字数,Fi为目标对象i出现的总频次,Fj为目标对象j出现的总频次。

    def generate_matrix(au_group, matrix):
        for key, value in au_group.items():
            A = key.split(',')[0]
            B = key.split(',')[1]
            Fi = au_dict[A]
            Fj = au_dict[B]
            Eij = value*value/(Fi*Fj)
            #按照作者进行索引,更新矩阵
            matrix.ix[A, B] = Eij
            matrix.ix[B, A] = Eij
        return matrix
    

    以上。

    完整源代码==>CoMatrix.py

    展开全文
  • 斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language ...第二讲:简单的向量表示:word2vec, Glove(Simple Word Vector representations: word2v

    斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊 Richard Socher,以下为相关的课程笔记。

    第二讲:简单的词向量表示:word2vecGlove(Simple Word Vector representations: word2vec, GloVe)

    推荐阅读材料:

    1. Paper1:[Distributed Representations of Words and Phrases and their Compositionality]]
    2. Paper2:[Efficient Estimation of Word Representations in Vector Space]
    3. 第二讲Slides [slides]
    4. 第二讲视频 [video]

    以下是第二讲的相关笔记,主要参考自课程的slides,视频和其他相关资料。

    如何来表示一个词的意思(meaning)

    • 英文单词Meaning的定义(来自于韦氏词典)
      • the idea that is represented by a word, phrase, etc.
      • the idea that a person wants to express by using words, signs, etc.
      • the idea that is expressed in a work of writing, art, etc.

      在计算机中如何表示一个词的意思

      • 通常使用类似Wordnet的这样的语义词典,包含有上位词(is-a)关系和同义词集
      • panda的上位词,来自于NLTK中wordnet接口的演示

        NLTK-wordnet

      • good的同义词集

        good-同义词集

      语义词典存在的问题

      • 语义词典资源很棒但是可能在一些细微之处有缺失,例如这些同义词准确吗:adept, expert, good, practiced, proficient,skillful?
      • 会错过一些新词,几乎不可能做到及时更新: wicked, badass, nifty, crack, ace, wizard, genius, ninjia
      • 有一定的主观倾向
      • 需要大量的人力物力
      • 很难用来计算两个词语的相似度

      One-hot Representation

      • 传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号:hotel, conference, walk
      • 在向量空间的范畴里,这是一个1很多0的向量表示:[0,0,0,0,…,0,1,0,…,0,0,0]
      • 维数:20K(speech)–50K(PTB)–500K(big vocab)–13M(Google 1T)
      • 这就是”one-hot”表示,这种表示方法存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系:

        屏幕快照 2015-05-26 下午8.55.45

      Distributional similarity based representations

      • 通过一个词语的上下文可以学到这个词语的很多知识

        屏幕快照 2015-05-26 下午9.09.38

      • 这是现代统计NLP很成功的一个观点

        屏幕快照 2015-05-26 下午9.10.15

      如何使用上下文来表示单词

      • 答案:使用共现矩阵(Cooccurrence matrix)X
        • 2个选择:全文还是窗口长度
        • word-document的共现矩阵最终会得到泛化的主题(例如体育类词汇会有相似的标记),这就是浅层语义分析(LSA, Latent Semantic Analysis)
        • 窗口长度容易捕获语法(POS)和语义信息

      基于窗口的共现矩阵:一个简单例子

      • 窗口长度是1(一般是5-10)
      • 对称(左右内容无关)
      • 语料样例
        • I like deep learning.
        • I like NLP.
        • I enjoy flying

          屏幕快照 2015-05-27 下午12.31.08

      存在的问题

      • 规模随着语料库词汇的增加而增加
      • 非常高的维度:需要大量的存储
      • 分类模型会遇到稀疏问题
      • 模型不够健壮

      解决方案:低维向量

      • idea: 将最重要的信息存储在固定的,低维度的向量里:密集向量(dense vector)
      • 维数通常是25-1000
      • 问题:如何降维?

      方法1:SVD(奇异值分解)

      • 对共现矩阵X进行奇异值分解

        屏幕快照 2015-05-28 上午9.24.02

      Python中简单的词向量SVD分解

      • 语料:I like deep learning. I like NLP. I enjoy flying

        屏幕快照 2015-05-28 上午9.35.06

      • 打印U矩阵的前两列这也对应了最大的两个奇异值

        屏幕快照 2015-05-28 上午9.37.56

      用向量来定义单词的意思:

      • 在相关的模型中,包括深度学习模型,一个单词常常用密集向量(dense vector)来表示

        屏幕快照 2015-05-28 上午10.54.13

      Hacks to X

      • 功能词(the, he, has)过于频繁,对语法有很大影响,解决办法是降低使用或完全忽略功能词
      • 延展窗口增加对临近词的计数
      • 用皮尔逊相关系数代替计数,并置负数为0
      • +++

      词向量中出现的一些有趣的语义Pattern

      • 以下来自于: 
      An improved model of semantic similarity based on lexical co-occurence
      屏幕快照 2015-05-28 上午11.14.57
      屏幕快照 2015-05-28 上午11.15.46
      屏幕快照 2015-05-28 上午11.15.56

    使用SVD存在的问题

    • 对于n*m矩阵来说计算的时间复杂度是o(mn^2) 当 n<m,当单词或者文档数以百万计时很糟糕< li="">
    • 对于新词或者新的文档很难及时更新
    • 相对于其他的DL模型,有着不同的学习框架

    解决方案:直接学习低维度的词向量

    word2vec的主要思路

    • 与一般的共现计数不同,word2vec主要来预测单词周边的单词
    • GloVe和word2vec的思路相似:GloVe: Global Vectors for Word Representation
    • 比较容易且快速的融合新的句子和文档或者添加新的单词进入词汇表

    word2vec的主要思路

    • 预测一个窗口长度为c的窗口内每个单词的周边单词概率
    • 目标函数:对于一个中心词,最大化周边任意单词的log概率

      屏幕快照 2015-05-29 上午9.23.40

    • 对于p(wt+j/wt)最简单的表达式是:屏幕快照 2015-05-29 上午9.33.12
    • 这里v和v分布是w的“输入”和“输出”向量表示(所以每个w都有两个向量表示)
    • 这就是基本的“动态”逻辑回归(“dynamic” logistic regression)

    代价/目标函数

    • 我们的目标是优化(最大化或最小化)代价/目标函数
    • 常用的方法:梯度下降

      屏幕快照 2015-05-29 上午11.02.19

    • 一个例子(来自于维基百科): 寻找函数f(x)=x43x3+2的局部最小点,其导数是f(x)=4x39x2
    • Python代码:

      屏幕快照 2015-05-29 上午11.06.13

    梯度的导数

    • 白板(建议没有直接上课的同学看一下课程视频中的白板推导)
    • 有用的公式

      屏幕快照 2015-06-04 上午8.05.09

    • 链式法则

      屏幕快照 2015-06-04 上午8.08.25

    word2vec中的线性关系

    • 这类表示可以很好的对词语相似度进行编码
      • 在嵌入空间里相似度的维度可以用向量的减法来进行类别测试

        屏幕快照 2015-06-04 上午8.24.05

    计数的方法 vs 直接预测
    屏幕快照 2015-06-04 上午8.27.56

    GloVe: 综合了两类方法的优点

    • 训练更快
    • 对于大规模语料算法的扩展性也很好
    • 在小语料或者小向量上性能表现也很好

      屏幕快照 2015-06-04 上午8.34.02

    GloVe的效果

    • 英文单词frog(青蛙)的最相近的词

      屏幕快照 2015-06-04 上午8.41.21

    Word Analogies(词类比)

    • 对单词之间的线性关系进行测试(Mikolov et al.(2014))

      屏幕快照 2015-06-04 上午8.47.35

    Glove可视化一

    屏幕快照 2015-06-04 上午8.49.00

    Glove可视化二:Company-CEO

    屏幕快照 2015-06-04 上午8.50.16

    Glove可视化三:Superlatives

    屏幕快照 2015-06-04 上午8.51.27

    Word embedding matrix(词嵌入矩阵)

    • 提前训练好的词嵌入矩阵

      屏幕快照 2015-06-04 下午8.28.32

    • 又称之为查询表(look-up table)

      屏幕快照 2015-06-04 下午8.29.30

    低维度词向量的优点

    • 深度学习词向量的最大优势是什么?
    • 可以将任何信息表征成词向量的形式然后通过神经网络进行传播

      屏幕快照 2015-06-04 下午9.12.28

    • 词向量将是之后章节的基础
    • 我们所有的语义表示都将是向量形式
    • 对于长的短语和句子也可以通过词向量的形式组合为更复杂的表示,以此来解决更复杂的任务–>下一讲

    课程笔记索引:
    斯坦福大学深度学习与自然语言处理第一讲:引言

    参考资料:
    Deep Learning in NLP (一)词向量和语言模型
    奇异值分解(We Recommend a Singular Value Decomposition)

    注:原创文章,转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn

    本文链接地址:斯坦福大学深度学习与自然语言处理第二讲:词向量

    展开全文
  • DL4NLP---第二讲(上)

    千次阅读 2015-07-01 13:28:26
    斯坦福大学深度学习与自然语言处理第二讲:向量 | 我爱自然语言处理第二讲:简单的向量表示:word2vec, Glove(Simple Word Vector representations: word2vec, GloVe)推荐阅读材料: Paper1:[Distributed ...




    斯坦福大学深度学习与自然语言处理第二讲:词向量 | 我爱自然语言处理

    第二讲:简单的词向量表示:word2vec, Glove(Simple Word Vector representations: word2vec, GloVe)

    推荐阅读材料:

    1. Paper1:[Distributed Representations of Words and Phrases and their Compositionality]]
    2. Paper2:[Efficient Estimation of Word Representations in Vector Space]
    3. 第二讲Slides [slides]
    4. 第二讲视频 [video]

    以下是第二讲的相关笔记,主要参考自课程的slides,视频和其他相关资料。

    如何来表示一个词的意思(meaning)

    • 英文单词Meaning的定义(来自于韦氏词典)
      • the idea that is represented by a word, phrase, etc.
      • the idea that a person wants to express by using words, signs, etc.
      • the idea that is expressed in a work of writing, art, etc.

    在计算机中如何表示一个词的意思

    • 通常使用类似Wordnet的这样的语义词典,包含有上位词(is-a)关系和同义词集
    • panda的上位词,来自于NLTK中wordnet接口的演示

    NLTK-wordnet

    good的同义词集

    good-同义词集

    语义词典存在的问题

    • 语义词典资源很棒但是可能在一些细微之处有缺失,例如这些同义词准确吗:adept, expert, good, practiced, proficient,skillful?
    • 会错过一些新词,几乎不可能做到及时更新: wicked, badass, nifty, crack, ace, wizard, genius, ninjia
    • 有一定的主观倾向
    • 需要大量的人力物力
    • 很难用来计算两个词语的相似度



    One-hot Representation

    • 传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号:hotel, conference, walk
    • 在向量空间的范畴里,这是一个1很多0的向量表示:[0,0,0,0,…,0,1,0,…,0,0,0]
    • 维数:20K(speech)–50K(PTB)–500K(big vocab)–13M(Google 1T)
    • 这就是”one-hot”表示,这种表示方法存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系:

    屏幕快照 2015-05-26 下午8.55.45

    Distributional similarity based representations

    • 通过一个词语的上下文可以学到这个词语的很多知识

    屏幕快照 2015-05-26 下午9.09.38

    这是现代统计NLP很成功的一个观点

    屏幕快照 2015-05-26 下午9.10.15

    如何使用上下文来表示单词

    • 答案:使用共现矩阵(Cooccurrence matrix)X
      • 2个选择:全文还是窗口长度
      • word-document的共现矩阵最终会得到泛化的主题(例如体育类词汇会有相似的标记),这就是浅层语义分析(LSA, Latent Semantic Analysis)
      • 窗口长度容易捕获语法(POS)和语义信息



    基于窗口的共现矩阵:一个简单例子

    • 窗口长度是1(一般是5-10)
    • 对称(左右内容无关)
    • 语料样例
      • I like deep learning.
      • I like NLP.
      • I enjoy flying

    屏幕快照 2015-05-27 下午12.31.08

    存在的问题

    • 规模随着语料库词汇的增加而增加
    • 非常高的维度:需要大量的存储
    • 分类模型会遇到稀疏问题
    • 模型不够健壮



    解决方案:低维向量

    • idea: 将最重要的信息存储在固定的,低维度的向量里:密集向量(dense vector)
    • 维数通常是25-1000
    • 问题:如何降维?



    方法1:SVD(奇异值分解)

    • 对共现矩阵X进行奇异值分解

    屏幕快照 2015-05-28 上午9.24.02

    Python中简单的词向量SVD分解

    • 语料:I like deep learning. I like NLP. I enjoy flying

    屏幕快照 2015-05-28 上午9.35.06

    打印U矩阵的前两列这也对应了最大的两个奇异值

    屏幕快照 2015-05-28 上午9.37.56

    用向量来定义单词的意思:

    • 在相关的模型中,包括深度学习模型,一个单词常常用密集向量(dense vector)来表示

    屏幕快照 2015-05-28 上午10.54.13

    Hacks to X

    • 功能词(the, he, has)过于频繁,对语法有很大影响,解决办法是降低使用或完全忽略功能词
    • 延展窗口增加对临近词的计数
    • 用皮尔逊相关系数代替计数,并置负数为0
    • +++



    词向量中出现的一些有趣的语义Pattern

    • 以下来自于:
    An improved model of semantic similarity based on lexical co-occurence
    屏幕快照 2015-05-28 上午11.14.57
    屏幕快照 2015-05-28 上午11.15.46
    屏幕快照 2015-05-28 上午11.15.56

    使用SVD存在的问题

    • 对于n*m矩阵来说计算的时间复杂度是o(mn^2) 当 n
    展开全文
  • 如何来表示一个的意思(meaning) 英文单词Meaning的定义(来自于韦氏词典) the idea that is represented by a word, phrase, etc.the idea that a person wants to express by using words,

    以下是第二讲的相关笔记,主要参考自课程的slides,视频和其他相关资料。

    如何来表示一个词的意思(meaning)

    • 英文单词Meaning的定义(来自于韦氏词典)
      • the idea that is represented by a word, phrase, etc.
      • the idea that a person wants to express by using words, signs, etc.
      • the idea that is expressed in a work of writing, art, etc.

      在计算机中如何表示一个词的意思

      • 通常使用类似Wordnet的这样的语义词典,包含有上位词(is-a)关系和同义词集
      • panda的上位词,来自于NLTK中wordnet接口的演示

        NLTK-wordnet

      • good的同义词集

        good-同义词集

      语义词典存在的问题

      • 语义词典资源很棒但是可能在一些细微之处有缺失,例如这些同义词准确吗:adept, expert, good, practiced, proficient,skillful?
      • 会错过一些新词,几乎不可能做到及时更新: wicked, badass, nifty, crack, ace, wizard, genius, ninjia
      • 有一定的主观倾向
      • 需要大量的人力物力
      • 很难用来计算两个词语的相似度

      One-hot Representation

      • 传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号:hotel, conference, walk
      • 在向量空间的范畴里,这是一个1很多0的向量表示:[0,0,0,0,…,0,1,0,…,0,0,0]
      • 维数:20K(speech)–50K(PTB)–500K(big vocab)–13M(Google 1T)
      • 这就是”one-hot”表示,这种表示方法存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系:

        屏幕快照 2015-05-26 下午8.55.45

      Distributional similarity based representations

      • 通过一个词语的上下文可以学到这个词语的很多知识

        屏幕快照 2015-05-26 下午9.09.38

      • 这是现代统计NLP很成功的一个观点

        屏幕快照 2015-05-26 下午9.10.15

      如何使用上下文来表示单词

      • 答案:使用共现矩阵(Cooccurrence matrix)X
        • 2个选择:全文还是窗口长度
        • word-document的共现矩阵最终会得到泛化的主题(例如体育类词汇会有相似的标记),这就是浅层语义分析(LSA, Latent Semantic Analysis)
        • 窗口长度容易捕获语法(POS)和语义信息

      基于窗口的共现矩阵:一个简单例子

      • 窗口长度是1(一般是5-10)
      • 对称(左右内容无关)
      • 语料样例
        • I like deep learning.
        • I like NLP.
        • I enjoy flying

          屏幕快照 2015-05-27 下午12.31.08

      存在的问题

      • 规模随着语料库词汇的增加而增加
      • 非常高的维度:需要大量的存储
      • 分类模型会遇到稀疏问题
      • 模型不够健壮

      解决方案:低维向量

      • idea: 将最重要的信息存储在固定的,低维度的向量里:密集向量(dense vector)
      • 维数通常是25-1000
      • 问题:如何降维?

      方法1:SVD(奇异值分解)

      • 对共现矩阵X进行奇异值分解

        屏幕快照 2015-05-28 上午9.24.02

      Python中简单的词向量SVD分解

      • 语料:I like deep learning. I like NLP. I enjoy flying

        屏幕快照 2015-05-28 上午9.35.06

      • 打印U矩阵的前两列这也对应了最大的两个奇异值

        屏幕快照 2015-05-28 上午9.37.56

      用向量来定义单词的意思:

      • 在相关的模型中,包括深度学习模型,一个单词常常用密集向量(dense vector)来表示

        屏幕快照 2015-05-28 上午10.54.13

      Hacks to X

      • 功能词(the, he, has)过于频繁,对语法有很大影响,解决办法是降低使用或完全忽略功能词
      • 延展窗口增加对临近词的计数
      • 用皮尔逊相关系数代替计数,并置负数为0
      • +++

      词向量中出现的一些有趣的语义Pattern

      • 以下来自于:
      An improved model of semantic similarity based on lexical co-occurence
      屏幕快照 2015-05-28 上午11.14.57
      屏幕快照 2015-05-28 上午11.15.46
      屏幕快照 2015-05-28 上午11.15.56

    使用SVD存在的问题

    • 对于n*m矩阵来说计算的时间复杂度是o(mn^2) 当 n
    • 对于新词或者新的文档很难及时更新
    • 相对于其他的DL模型,有着不同的学习框架

    解决方案:直接学习低维度的词向量

    word2vec的主要思路

    • 与一般的共现计数不同,word2vec主要来预测单词周边的单词
    • GloVe和word2vec的思路相似:GloVe: Global Vectors for Word Representation
    • 比较容易且快速的融合新的句子和文档或者添加新的单词进入词汇表

    word2vec的主要思路

    • 预测一个窗口长度为c的窗口内每个单词的周边单词概率
    • 目标函数:对于一个中心词,最大化周边任意单词的log概率

      屏幕快照 2015-05-29 上午9.23.40

    • 对于p(wt+j/wt)最简单的表达式是:屏幕快照 2015-05-29 上午9.33.12
    • 这里v和v分布是w的“输入”和“输出”向量表示(所以每个w都有两个向量表示)
    • 这就是基本的“动态”逻辑回归(“dynamic” logistic regression)

    代价/目标函数

    • 我们的目标是优化(最大化或最小化)代价/目标函数
    • 常用的方法:梯度下降

      屏幕快照 2015-05-29 上午11.02.19

    • 一个例子(来自于维基百科): 寻找函数f(x)=x43x3+2的局部最小点,其导数是f(x)=4x39x2
    • Python代码:

      屏幕快照 2015-05-29 上午11.06.13

    梯度的导数

    • 白板(建议没有直接上课的同学看一下课程视频中的白板推导)
    • 有用的公式

      屏幕快照 2015-06-04 上午8.05.09

    • 链式法则

      屏幕快照 2015-06-04 上午8.08.25

    word2vec中的线性关系

    • 这类表示可以很好的对词语相似度进行编码
      • 在嵌入空间里相似度的维度可以用向量的减法来进行类别测试

        屏幕快照 2015-06-04 上午8.24.05

    计数的方法 vs 直接预测
    屏幕快照 2015-06-04 上午8.27.56

    GloVe: 综合了两类方法的优点

    • 训练更快
    • 对于大规模语料算法的扩展性也很好
    • 在小语料或者小向量上性能表现也很好

      屏幕快照 2015-06-04 上午8.34.02

    GloVe的效果

    • 英文单词frog(青蛙)的最相近的词

      屏幕快照 2015-06-04 上午8.41.21

    Word Analogies(词类比)

    • 对单词之间的线性关系进行测试(Mikolov et al.(2014))

      屏幕快照 2015-06-04 上午8.47.35

    Glove可视化一

    屏幕快照 2015-06-04 上午8.49.00

    Glove可视化二:Company-CEO

    屏幕快照 2015-06-04 上午8.50.16

    Glove可视化三:Superlatives

    屏幕快照 2015-06-04 上午8.51.27

    Word embedding matrix(词嵌入矩阵)

    • 提前训练好的词嵌入矩阵

      屏幕快照 2015-06-04 下午8.28.32

    • 又称之为查询表(look-up table)

      屏幕快照 2015-06-04 下午8.29.30

    低维度词向量的优点

    • 深度学习词向量的最大优势是什么?
    • 可以将任何信息表征成词向量的形式然后通过神经网络进行传播

      屏幕快照 2015-06-04 下午9.12.28

    • 词向量将是之后章节的基础
    • 我们所有的语义表示都将是向量形式
    • 对于长的短语和句子也可以通过词向量的形式组合为更复杂的表示,以此来解决更复杂的任务–>下一讲
    展开全文
  • 机器学习干货贴

    万次阅读 2016-10-02 01:58:28
    1.Kaggle Ensembling Guide 摘要:Creating ensembles from submission files Voting ensembles. Averaging Ra... 2.[导读]Machine Learning Theory 摘要:机器学习相关理论,Machine Learning Theory - Part 1: ...
  • Lecture 2 主要介绍了传统的共现矩阵生成向量方法和迭代生成向量的方法,例如word2vec和Glove。 文章目录Word Vectorsone-hot vector共现矩阵共现矩阵存在的问题SVDSVD存在的问题word2vec*word2vec的神奇之处*...
  • ...
  • 06 高级特征工程和NLP算法6.1 嵌入6.2 word2vec基础6.2.1 分布语义6.2.2 定义word2vec6.2.3 无监督分布语义模型中的必需品6.3 word2vec模型从黑盒到白盒6.3.1 基于分布相似性的表示6.3.2 了解word2vec模型的...
  • 点击上方,选择星标或置顶,每天给你送干货!阅读大概需要33分钟跟随小博主,每天进步一丢丢机器学习算法与自然语言处理出品@公众号原创作者 徐啸学校 |哈工大SCIR直博推免生Lectur...
  • python常用模块

    2019-10-06 02:59:00
    一、zip函数 zip()函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的对象,这样做的好处是节约了不少的内存。 我们可以使用 list() 转换来输出列表。...
  • Datawhale七月NLP学习

    2020-09-19 08:40:58
    Datawhale七月NLP学习Task01:赛题理解赛题目标数据问题评价指标数据读取解题思路 Task01:赛题理解 赛题目标 用自然语言技术实现简单的新闻文本分类任务(字符识别) 数据问题 1.分类类别 新闻文本十四类别(财经、...
1
收藏数 17
精华内容 6
热门标签
关键字:

panda python 词共现