精华内容
下载资源
问答
  • 词汇看俄罗斯民族文化特点 2011年04月13日   语言中最活跃、最易变化的部分是词汇,它能充分生动地反映出社会和个人生活的各个侧面。为了达到理解的畅通,避免由于文化的差异造成的张冠李戴、用词不当的错误...
    从词汇看俄罗斯民族文化特点 
    
    2011年04月13日
      
    语言中最活跃、最易变化的部分是词汇,它能充分生动地反映出社会和个人生活的各个侧面。为了达到理解的畅通,避免由于文化的差异造成的张冠李戴、用词不当的错误,我们需要深入研究反映民族特点的词汇。
      Медведь (熊) 在中国人的心目中一直是一个被贬的形象,但在俄国人眼里,熊却是一个正面形象。俄国人喜欢熊的“傻得可爱”的外表,其地位不亚于中国的熊猫。在熊的身上有一系列的美称,如 хозяин русского леса (俄罗斯森林之主) сладкоежка (甜食家), лакомка (美食家)等等。俄罗斯人还喜欢把它用在名字上,如 Михаил, Миша, Мишка, Мишук 等。
      Кукушка (布谷鸟) 是俄罗斯大森林中常见的一种鸟。它的习性、生活方式以及叫声都与众不同,所以它在斯拉夫民族中象征忧愁的独身女人。另外根据古老的说法,布谷鸟是死亡的先知,主凶,因此它的别名又叫预言者( вещун )。而在汉民族里恰恰相反,布谷鸟被人们所喜爱,它向人们预告春耕的开始。
      Ворона (乌鸦)和 ворон (大乌鸦) 是一种人们所厌恶的鸟。俄汉两个民族对其有比较接近的看法。由于乌鸦的习性凶残,喜欢啄人的眼睛,因此它的别名又叫 вестник зла ( 灾难使者 )。通常与乌鸦连用的形象性词语是 чёрный (黑色的),如 Чёрный ворон --- хищный враг. (黑乌鸦是凶恶的敌人)。白乌鸦比较少见,所以俄语中有 белая ворона 这样一条成语,形象地比喻 редкий, исключительный человек (罕见的,十分特殊的人物), человек, непохожий на окружающих (与众不同的人物)。
      Сова (猫头鹰) 在俄汉人民的心中都有“习惯开夜车的人”的意思,但在俄罗斯人民的心目中它又是智慧和贤明的化身。
      Собака (狗) 的忠实、凶猛、嗅觉灵敏的特性在俄汉两国人民的心中激起的联想有相似之处,所以有 верная собака (义犬), бросаться / кидаться на кого
    展开全文
  • 本文将以尽可能少的数学公式介绍目前业界比较流行的基于神经网络进行文本特征提取,得到文本向量的方案。 1. 背景知识 这部分内容将介绍线性回归、梯度下降、神经网络、反向传播。对于有基础的同学这部分可以跳过...

    https://blog.csdn.net/u011239443/article/details/80898514
    在实际系统我们会接触到许许多多的文本类型数据。如何将这部分数据用于作为机器学习模型的输入呢?一个常用的方法是将文本转化为一个能很好的表示它的向量,这里将称该向量称作为文本向量。本文将以尽可能少的数学公式介绍目前业界比较流行的基于神经网络进行文本特征提取,得到文本向量的方案。

    1. 背景知识

    这部分内容将介绍线性回归、梯度下降、神经网络、反向传播。对于有基础的同学这部分可以跳过,对于之前没有接触过相关知识点的同学,我会用尽可能少的公式去介绍。希望能讲明白 ==

    1.1 线性回归模型

    其实线性回归模型很简单,它类似于我们中学学的多元一次方程的形式,如:
    ŷ =w1x1+w2x2+w3x3+b y ^ = w 1 x 1 + w 2 x 2 + w 3 x 3 + b
    其中 ŷ  y ^ 是我们要预测的值。 x x 是我们的输入的特征,举例来说,我们要预测房价(y^),我们输入的特征有该房子面积( x1 x 1 )、有该房子室数( x2 x 2 )、有该房子地域热度( x3 x 3 )。我们知道历史数据中的 x x 和其对应的真实房价y,而线性回归模型任务就是要找到最佳的参数 W W b,使得预测值 ŷ  y ^ 和真实值 y y 最相近。

    1.2 梯度下降

    哪我们如何找到最佳的参数W b b 呢?业界最流行的方法就是使用梯度下降。
    这里为了让问题更加简单形象,我们暂时把模型简化y^=wx+b。想让预测值 ŷ  y ^ 和真实值 y y 最相近,首先我可以使用它们之间的平方误差来度量:
    J(w,b)=(y^y)2

    梯度下降法的形象化说明:

    在这个碗形图中,横轴表示参数 W W b,在实践中,可以是更高的维度。
    如图那个小红点,采用随机初始化的方法初始化的参数 W W b


    我们的目标是将它下落到碗形图的最底部,即 min(J(w,b)) m i n ( J ( w , b ) )

    那红点会怎么下落呢?回想下中学学的物理就很形象了,我们先只看 w w 轴。没错,沿着斜率方向下降,红点会快的接近碗底。

    当然,如何一直沿着最初的斜率方向走是不能到达碗底的,而应该一小步一小步的走,每走一步调整方向为当前的斜率方向:

    对于b轴也类似,那么红点就会如下图一步一步的下降:

    于是每一步我们更新参数为:


    其中 α α 为每一步的步长。
    这样不断的迭代,不断的下降,参数 W W b的取值就不断的被优化了。

    1.3 神经网络

    我们先来介绍单个神经元的模型结构,如下图:

    其实这个和我们上文讲的的线性回归模型非常相似。 x1 x 1 x2 x 2 x3 x 3 就是线性回归模型的特征输入,箭头边可以看做就是线性回归模型权重参数 w1 w 1 w2 w 2 w3 w 3 ,每个输入经过箭头都会乘以相应边上的权重。图中的圆圈就是所谓的神经元,经过箭头进入神经元的元素会被相加,然后在加上一个偏置参数 b b ,即上文的w1x1+w2x2+w3x3+b,最后输出预测值 ŷ  y ^

    1.3.1 激活函数

    唯一不同的是神经元里面还可以存在激活函数,如果神经元没激活函数,那么就和上文讲的线性回归模型基本上一模一样。常见的激活函数有:
    - sigmoid函数


    • Tanh函数

    • ReLU函数
      f(z)=max(0,z) f ( z ) = m a x ( 0 , z )

    这里的 z z 就是神经元的输入,如我们这里的w1x1+w2x2+w3x3+b
    为什么需要有这么多激活函数呢?激活函数是为了让神经网络具有非线性的拟合能力。其实激活函数的选择也还在不断演进,是学术界热门研究方向,我们也可以自己创造激活函数。激活函数适用也不同,如ReLU函数能有效的预防梯度消失问题,而sigmoid函数能讲回归问题转化为二分类问题。

    1.3.2 神经网络介绍

    理解了基础的神经元模型,神经网络就很好理解了。神经元就像一块乐高积木,而神经网络就是搭的积木。

    如上图, x x 那一列,我们称为输入层,输出y^那列称为输出层,中间那列称为隐藏层。隐藏层可以有多个,而且每个隐藏层有多少个神经元也都是可以自主调整的。经典的神经网络中,当前层的神经元会后后一层的各个神经元进行连接,这也称为全连接

    1.3.2.1 前向传播

    上图是形象化的神经网络模型结构图,那实际上模型的特征输入到预测输出,在数学上、在内存里是怎么实现的呢?这里我们来介绍下从输入层到第一个隐藏层的向前传播的过程。
    首先,输入的特征向量(数组):

    x(1)=[x1x2x3] x ( 1 ) = [ x 1 x 2 x 3 ]

    它会与权重矩阵(二维数组)相乘

    [x1x2x3]w11w21w31w12w22w32w13w23w33w14w24w34 [ x 1 x 2 x 3 ] ∗ [ w 11 w 12 w 13 w 14 w 21 w 22 w 23 w 24 w 31 w 32 w 33 w 34 ]

    =x1w11+x2w21+x3w31x1w12+x2w22+x3w32x1w13+x2w23+x3w33x1w14+x2w24+x3w34T = [ x 1 w 11 + x 2 w 21 + x 3 w 31 x 1 w 12 + x 2 w 22 + x 3 w 32 x 1 w 13 + x 2 w 23 + x 3 w 33 x 1 w 14 + x 2 w 24 + x 3 w 34 ] T

    加上偏置向量(数组):

    x1w11+x2w21+x3w31x1w12+x2w22+x3w32x1w13+x2w23+x3w33x1w14+x2w24+x3w34T+b1b2b3b4T [ x 1 w 11 + x 2 w 21 + x 3 w 31 x 1 w 12 + x 2 w 22 + x 3 w 32 x 1 w 13 + x 2 w 23 + x 3 w 33 x 1 w 14 + x 2 w 24 + x 3 w 34 ] T + [ b 1 b 2 b 3 b 4 ] T

    =x1w11+x2w21+x3w31+b1x1w12+x2w22+x3w32+b2x1w13+x2w23+x3w33+b3x1w14+x2w24+x3w34+b4T = [ x 1 w 11 + x 2 w 21 + x 3 w 31 + b 1 x 1 w 12 + x 2 w 22 + x 3 w 32 + b 2 x 1 w 13 + x 2 w 23 + x 3 w 33 + b 3 x 1 w 14 + x 2 w 24 + x 3 w 34 + b 4 ] T

    最后送入激活函数,如tanh函数:

    tanh(x1w11+x2w21+x3w31+b1)tanh(x1w12+x2w22+x3w32+b2)tanh(x1w13+x2w23+x3w33+b3)tanh(x1w14+x2w24+x3w34+b4)T=x(2)T [ t a n h ( x 1 w 11 + x 2 w 21 + x 3 w 31 + b 1 ) t a n h ( x 1 w 12 + x 2 w 22 + x 3 w 32 + b 2 ) t a n h ( x 1 w 13 + x 2 w 23 + x 3 w 33 + b 3 ) t a n h ( x 1 w 14 + x 2 w 24 + x 3 w 34 + b 4 ) ] T = x ( 2 ) T

    1.3.2.2 反向传播

    神经网络这么多参数该如何优化呢?其实和上文说的一样,我们还是使用梯度下降的方法。最后一层的权重调整我们可以与梯度下降的方法求出。最后第二层我们可以基于最后一层的权重调整,利用链式求导的方式求出。就这样从后往前的调整,这就是所谓的反向传播。

    2. 词汇特征表示

    完成我们的背景知识回顾学习之后,就进入我们正式要讲解的内容了。

    2.1 语言模型

    这里我们先介绍一个概念——语言模型。简单来讲,语言模型就是一个想让机器学会说话的模型。它会基于给定的上文,预测出最有可能的下文。比如说,“I want a glass of orange __ ”,输入前文,模型将预测出空格可能的单词为“juice”。

    2.2 词嵌入

    现在我们有一个词典,如:【a,apple,…,zoo,】,其中代表未知单词。假设我们的词典里里面一个有10000个单词,那如何用生成某个词汇特征表示呢?一个很容易想到的方法就是one-hot:用一个10000维的向量来表示一个词语。

    但是这种方法有两个致命缺点:
    - 第一,向量实在是太长了,而且词汇量增加,向量维度也要跟着增加。
    - 第二,该向量部分表示出词汇之间的关系。如我们给出“I want a glass of orange juice”作为训练数据,模型是学不到“I want a glass of apple _”该填什么的。因为orange的特征表示和apple的特征表示之间没有任何的关系。

    为了解决上述缺点,我们可以手工的做词嵌入:
    Topic| Man | Woman|King|Queen|Apple|Orange
    |:-|:-|:-|:-|:-|:-|:-
    Gender |-1| 1 |-0.95|0.97|0.00|0.01
    Royal | 0.01 | 0.02 |0.93|0.95|-0.01|0.00
    Age | 0.03 | 0.02|0.7|0.69|0.03|-0.02
    Food | 0.09 | 0.01|0.02|0.01|0.95|0.97
    …|…|…|…|…|…|…
    我们选取几个Topic,每行是各个单词关于该Topic的相关系数。这样一来,我们可以看到向量的维度大小得到了控制,而且词与词有明显的关系。我们还能惊喜的发现King的向量减去Man的向量,再加上Woman的向量,就约等于Queen的向量!

    3 word2vector

    词嵌入固然好,但手工的为10000个词语关于各个Topic打相关系数 ,这需要耗费巨大的人力,而且要求非常深厚的语言词汇知识。
    Google大神们提出了目前非常流行的训练词向量的算法—— word2vector[1] w o r d 2 v e c t o r [ 1 ] 。我们先来看看word2vector强大的的效果吧:

    上表是783M的单词,训练出的300维度的词向量,得到的对应关系。比如,使用 vParisvFrance+vItaly v P a r i s − v F r a n c e + v I t a l y 得到的向量 v1 v 1 ,在字典里查询与它最相似的是向量 vRome v R o m e (可以用cos相似度进行度量)。

    3.1 基于神经网络语言模型的词向量生成

    再讲word2vector之前,我们先来讲讲另外一种模型——基于神经网络语言模型 [2] [ 2 ] 。其实Google大佬在论文【1】中也实验了用该模型生成词向量,word2vector算法也就是在这个基础上进行的变形、优化。模型结构如下:

    - 第一层:上图中绿色的小方块就是我们每个单词的onehot后的向量,比如说我们想语言模型要预测“I want a glass of apple _”问题,我们固定4个单词的窗口,那么就有4个绿色小方块的特征输入,即分别为“a”,“glass”,“of”,“ apple”对应的one-hot向量。
    - 第二层:各个one-hot向量(10000维)会乘以 10000300 10000 ∗ 300 大小的共享矩阵 C C 。其实这里的C就是我们前文的词嵌入矩阵的转置。每列类别代表一个Topic,只是里我们并不知道其具体含义。而每一行就是对应单词的词向量。
    - 第三层:乘完的向量(300维)会将其连接起来( 4300=1200 4 ∗ 300 = 1200 维),并代入tanh函数得到值作为该层的输出。
    - 第四层:第四层有10000个神经元,第三层到第四层使用的是全连接,而且神经元非常多,需要很大的计算资源。
    - Softmax:我们最后输出的是一个向量V(10000维), Vi V i 表示V中的第i个元素,那么这个元素的Softmax值就是

    也就是说,是该元素的指数,与所有元素指数和的比值。这样一来,向量S的各个元素就表示预测为对应位置单词的概率。真实值 y y 这里将是单词,如“juice”,所对应的one-hot向量。

    这么一来,我们就可以使用反向传播与梯度下降优化调整网络中的参数,同时也就调整生成了共享矩阵C,即我们的词向量矩阵。

    3.2 word2vector

    其实理解了基于神经网络语言模型的词向量生成模型,word2vector模型就非常好理解了。word2vector有两种形式——CBOW 和 Skip-gram。

    3.2.1 CBOW模型

    不同于神经网络语言模型去上文的单词作为输入,CBOW模型获得中间词两边的的上下文,然后用周围的词去预测中间的词。
    与神经网络语言模型还有点不同的是:经过词嵌入后,CBOW模型不是将向量合并,而是将向量按位素数相加。

    3.2.2 Skip-gram模型

    Skip-gram模型正好和CBOW模型相反,输入为中间的词,使用预测两边的的上下文的单词。

    3.2.3 加速Softmax

    从上文我们可以看到,最后的输出层有10000个节点,显然这部分需要消耗非常大的计算资源。这里介绍两种加速的方法:
    - hierarchical softmax:softmax不再使用one-hot编码,而是利用哈夫曼编码,这可以使得复杂度降低到 log2V l o g 2 V ,其中 V V 为字典长度。
    - 负采样:负采样是将模型变成只用一个输出节点的2分类任务模型。我们将单词与其一个附近的单词向量连接,如[Vorange,Vjuice],作为特征输入,Label为1。再将该单词与其不它附近的单词向量连接,如 [Vorange,Vman] [ V o r a n g e , V m a n ] ,Label为0。我们使用这样构造出数据集进行词向量的训练。

    4 文本向量

    现在我们有了词向量,那对于一个文本,如何用一个向量来表示它呢?

    4.1 fastText模型

    Facebook的大牛们基于word2vector词向量设计了fastText文本分类模型 [3] [ 3 ] 。其实它的结构也很简单,就是将各个词向量相加,作为其文本的向量表示:

    除此之外, fastText还添加了N-gram特征,这里就不再介绍,感兴趣的同学可见【3】

    4.2 文本分布表示

    fastText是目前非常流行的文本分类的模型,但是直接将各个词向量相加存在一个很大的缺点,就是消除了词序的特征。如“mother loves dad”和“dad loves mother”,在这种文本特征生成方案下,它们的文本向量就一模一样了。
    Google的大牛们基于word2vector模型也设计出了文本向量生成的方案。该方案的核心思想就是:将文档看做一个特殊的单词。该方案有两种形式——分布记忆模型和分布词包模型 [4] [ 4 ]

    4.2.1 分布记忆模型

    分布记忆模型将文档id看做一个特殊的单词,设窗口大小为3,那么输入的特征为文档id和该文本的三个单词(按顺序),Label则是下一个单词。不断迭代,直到窗口移动到文末。所有文档训练结束后,文档id所对应的词向量就是该文档的文本向量。该方案保留了词语间的词序信息:

    4.2.2 分布词包模型

    分布词包模型也将文档id看做一个特殊的单词,不同的是,它套用了Skip-gram的结构。该方案不保留了词语间的词序信息:

    4.3 深度学习模型

    最近深度学习非常热门,输入词向量特征,基于深度学习模型也可以进行文本的特征学习:
    - CNN:卷积神经网络模型可以抽取部分单词作为输入特征,类似于n-grams的思想 [5] [ 5 ]

    - RNN:循环神经网络模型具有时序特征的记忆性,可见将按顺序将词向量特征输入 [6] [ 6 ]

    但这部分超出了本文所要介绍文本向量的范围,具体可以参阅《阅读笔记1》《阅读笔记2》

    4.4 简单词嵌入模型

    无论是文本分布表示还是上深度学习模型,对于在线实时预测的机器学习系统都有较大的性能挑战。今年最新提出的简单词嵌入模型(SWEM)关注到了这个问题,论文提出了更加简单轻量的文本向量生成方案 [7] [ 7 ]
    - SWEM-aver:就是平均池化,对词向量的按元素求均值。这种方法相当于考虑了每个词的信息。
    - SWEM-max:最大池化,对词向量每一维取最大值。这种方法相当于考虑最显著特征信息,其他无关或者不重要的信息被忽略。
    - SWEM-concat:考虑到上面两种池化方法信息是互补的,这种变体是对上面两种池化方法得到的结果进行拼接。
    - SWEM-hier:上面的方法并没有考虑词序和空间信息,提出的层次池化先使用大小为 n 局部窗口进行平均池化,然后再使用全局最大池化。该方法其实类似我们常用的 n-grams 特征。

    论文将SWEM方案生成文本向量,输入到神经网络分类器:隐藏层[100, 300, 500, 1000]与一个softmax输出层。论文将它和其他模型在不同数据集上进行了文本分类预测正确率的对比:

    可见,SWEM-concat 和 SWEM-hier 表现非常的优秀,甚至超过了复杂的深度学习模型。

    参考文献

    【1】Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. Computer Science.
    【2】Bengio, Yoshua, et al. A neural probabilistic language model.. Innovations in Machine Learning. Springer Berlin Heidelberg, 2006:137-186.
    【3】Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431.
    【4】Le Q, Mikolov T. Distributed representations of sentences and documents[C] International Conference on International Conference on Machine Learning. JMLR.org, 2014:II-1188.
    【5】Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
    【6】Vinyals O, Le Q. A Neural Conversational Model[J]. Computer Science, 2015.
    【7】Shen D, Wang G, Wang W, et al. Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms[J]. 2018.

    展开全文
  • 一是“新疆”一词辐射出的语义网络除旅游景区外,更多地表现了游客对新疆“雪山”、“草原”、“景色”等旅游形象的整体情感感知:如“独特”、“宁静”等,这与新疆对外旅游宣传所采用的词语相一致; 二是“乌鲁木齐...

    原文链接:http://tecdat.cn/?p=14997

    越来越多的人愿意精神消费。旅游不仅可以提升人们对外地环境和外地人文的认知,也可以放松身心、愉悦心情,是一种受欢迎的精神消费。

    着国内近些年来互联网的发展,越来越多的人开始线上消费,消费感受的推荐成为了潮流。在各个旅游平台上,越来越多的人愿意参与旅游目的地游玩感受的分享。

    本文试图从马蜂窝旅游官网上就新疆这个旅游目的地游记进行感知分析。

    游记表现出多元复杂的情感

    通过情感分析(也称为意见挖掘),用文本挖掘和计算机语言学来识别和提取原始资料中的主观信息,分析主观信息(例如观点,情感,态度,评估,情感等),以进行提取,分析,处理,归纳和推理。


    图表1


    通过数据分析可知,旅客对新疆整体上正向情感还是远高于负向情感,旅游群体对新疆旅游地区还是呈现出积极的肯定态度,如舒适、恬静、赏心悦目、激动、留恋等。从词频统计看出,自然风光多,旅游对民族特色的较为关注,如:盆地、白云、沙漠、草原、南疆。当然还有吃食,如“奶酪”等等。从结果也可以看到有少量的“失望”、“惆怅”等情感,通过游记我们发现风景基本上满足了旅客的需求,但是深层次的体验项目较少,新疆旅游景点间空间跨度大、路况条件差、行车时间长、节假日拥堵排队等。新疆旅游大部分都是景区内的风景,对于自然风貌记录偏少,规划、人文旅游也偏少。情感分析可知,游客对风景、美食都很满意,有着更高的期待。

    哪些游记帮助人数最多

    通过游记的内容特点和帮助人数,我们通过决策树来判断哪些游记的帮助人数最多,同时也发现大多数驴友的心里出行需求。


    图表2


    样本游记从游记篇幅、作者等级、人均花费、旅行组合、出行天数等方面反映游记的特点。游记篇幅的大小和作者等级是影响帮助人数的最重要的因素,内容详尽的游记能帮助到更多的人,经验老道的驴友的游记一般更有参考价值。旅行组合中家庭组合较少,赴疆游客以个人或朋友背包客徒步、自由行旅游为主,人均费用在7k以下,出行天数小于12天。游记的帮助人数客观地反映了驴友们旅游行程规划的心理预期,同时会对其他旅游者的决策和对旅游目的地的营销产生重要影响。

    游记话题情感认知形象

    接下来我们通过主题挖掘寻找游记话题和表达情感之间的关系。


    图表3


    从中可以看到有两个主题是景点相关,从关键词中可以用看到驴友们关注比较多的景点是独库公路、天山、喀纳斯、禾木、布尔津、五彩滩等。“新疆”、“独库公路”、“喀纳斯”、“乌鲁木齐”是游记样本中共现频率最高的词,成为两个重要的中心节点。通常情况下,距离中心节点越近,表示与两个节点的关联越紧密。由此可见,语义网络图呈现出两个较为明显的趋势:一是“新疆”一词辐射出的语义网络除旅游景区外,更多地表现了游客对新疆“雪山”、“草原”、“景色”等旅游形象的整体情感感知:如“独特”、“宁静”等,这与新疆对外旅游宣传所采用的词语相一致; 二是“乌鲁木齐”、“风景”一词辐射出的语义网络集合了更多与行程和旅游攻略相关的信息,如“酒店”、“机场”、“包车”、“自驾”等,从游客感知视角证实了新疆旅游的旅游攻略行程信息以及乌鲁木齐作为重要的旅游集散中心在新疆旅游业发展中的地位。


    相关见解

    1.数据类岗位需求的数据面

    2.探析大数据期刊文章研究热点

    3.机器学习助推快时尚精准销售预测

    4.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用

    5.数据盘点:家电线上消费新趋势

    6.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

    7.虎扑论坛基因探秘:社群用户行为数据洞察

    8.把握出租车行驶的数据脉搏

    9.智能门锁“剁手”数据攻略

    展开全文
  • 神经网络形象的说明

    2016-02-25 00:11:32
    1.分类神经网络最重要的用途是分类,为了让大家对分类有个直观的认识,咱们先看几个例子:垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出来,送进一个机器里,机器需要判断这封邮件是否是垃圾邮件...

    1.分类

    神经网络最重要的用途是分类,为了让大家对分类有个直观的认识,咱们先看几个例子:

    垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出来,送进一个机器里,机器需要判断这封邮件是否是垃圾邮件。
    疾病判断:病人到医院去做了一大堆肝功、尿检测验,把测验结果送进一个机器里,机器需要判断这个病人是否得病,得的什么病。
    猫狗分类:有一大堆猫、狗照片,把每一张照片送进一个机器里,机器需要判断这幅照片里的东西是猫还是狗。
    这种能自动对输入的东西进行分类的机器,就叫做分类器。

    分类器的输入是一个数值向量,叫做特征(向量)。在第一个例子里,分类器的输入是一堆 0、1 值,表示字典里的每一个词是否在邮件中出现,比如向量 (1,1,0,0,0……) 就表示这封邮件里只出现了两个词 abandon 和 abnormal;第二个例子里,分类器的输入是一堆化验指标;第三个例子里,分类器的输入是照片,假如每一张照片都是 320*240 像素的红绿蓝三通道彩色照片,那么分类器的输入就是一个长度为 320*240*3=230400 的向量。

    分类器的输出也是数值。第一个例子中,输出 1 表示邮件是垃圾邮件,输出 0 则说明邮件是正常邮件;第二个例子中,输出 0 表示健康,输出 1 表示有甲肝,输出 2 表示有乙肝,输出 3 表示有饼干等等;第三个例子中,输出 0 表示图片中是狗,输出 1 表示是猫。

    分类器的目标就是让正确分类的比例尽可能高。一般我们需要首先收集一些样本,人为标记上正确分类结果,然后用这些标记好的数据训练分类器,训练好的分类器就可以在新来的特征向量上工作了。

    2.神经元

    咱们假设分类器的输入是通过某种途径获得的两个值,输出是 0 和 1,比如分别代表猫和狗。现在有一些样本:
    这里写图片描述
    大家想想,最简单地把这两组特征向量分开的方法是啥?当然是在两组数据中间画一条竖直线,直线左边是狗,右边是猫,分类器就完成了。以后来了新的向量,凡是落在直线左边的都是狗,落在右边的都是猫。

    一条直线把平面一分为二,一个平面把三维空间一分为二,一个 n-1 维超平面把 n 维空间一分为二,两边分属不同的两类,这种分类器就叫做神经元。

    大家都知道平面上的直线方程是 这里写图片描述,等式左边大于零和小于零分别表示点这里写图片描述 在直线的一侧还是另一侧,把这个式子推广到 n 维空间里,直线的高维形式称为超平面,它的方程是:这里写图片描述神经元就是当 h 大于 0 时输出 1,h 小于 0 时输出 0 这么一个模型,它的实质就是把特征空间一切两半,认为两瓣分别属两个类。你恐怕再也想不到比这更简单的分类器了,它是 McCulloch 和 Pitts 在 1943 年想出来了。

    这个模型有点像人脑中的神经元:从多个感受器接受电信号这里写图片描述,进行处理(加权相加再偏移一点,即判断输入是否在某条直线 h=0  的一侧),发出电信号(在正确的那侧发出 1,否则不发信号,可以认为是发出 0),这就是它叫神经元的原因。

    当然,上面那幅图我们是开了上帝视角才知道“一条竖直线能分开两类”,在实际训练神经元时,我们并不知道特征是怎么抱团的。神经元模型的一种学习方法称为 Hebb 算法:

    先随机选一条直线 / 平面 / 超平面,然后把样本一个个拿过来,如果这条直线分错了,说明这个点分错边了,就稍微把直线移动一点,让它靠近这个样本,争取跨过这个样本,让它跑到直线正确的一侧;如果直线分对了,它就暂时停下不动。因此训练神经元的过程就是这条直线不断在跳舞,最终跳到两个类之间的竖直线位置。

    3.神经网络

    MP 神经元有几个显著缺点。首先它把直线一侧变为 0,另一侧变为 1,这东西不可微,不利于数学分析。人们用一个和 0-1 阶跃函数类似但是更平滑的函数 Sigmoid 函数来代替它(Sigmoid 函数自带一个尺度参数,可以控制神经元对离超平面距离不同的点的响应,这里忽略它),从此神经网络的训练就可以用梯度下降法来构造了,这就是有名的反向传播算法。

    神经元的另一个缺点是:它只能切一刀!你给我说说一刀怎么能把下面这两类分开吧。
    这里写图片描述
    解决办法是多层神经网络,底层神经元的输出是高层神经元的输入。我们可以在中间横着砍一刀,竖着砍一刀,然后把左上和右下的部分合在一起,与右上的左下部分分开;也可以围着左上角的边沿砍 10 刀把这一部分先挖出来,然后和右下角合并。

    每砍一刀,其实就是使用了一个神经元,把不同砍下的半平面做交、并等运算,就是把这些神经元的输出当作输入,后面再连接一个神经元。这个例子中特征的形状称为异或,这种情况一个神经元搞不定,但是两层神经元就能正确对其进行分类。

    只要你能砍足够多刀,把结果拼在一起,什么奇怪形状的边界神经网络都能够表示,所以说神经网络在理论上可以表示很复杂的函数 / 空间分布。但是真实的神经网络是否能摆动到正确的位置还要看网络初始值设置、样本容量和分布。

    神经网络神奇的地方在于它的每一个组件非常简单——把空间切一刀 + 某种激活函数 (0-1 阶跃、sigmoid、max-pooling),但是可以一层一层级联。输入向量连到许多神经元上,这些神经元的输出又连到一堆神经元上,这一过程可以重复很多次。这和人脑中的神经元很相似:每一个神经元都有一些神经元作为其输入,又是另一些神经元的输入,数值向量就像是电信号,在不同神经元之间传导,每一个神经元只有满足了某种条件才会发射信号到下一层神经元。当然,人脑比神经网络模型复杂很多:人工神经网络一般不存在环状结构;人脑神经元的电信号不仅有强弱,还有时间缓急之分,就像莫尔斯电码,在人工神经网络里没有这种复杂的信号模式。
    这里写图片描述
    神经网络的训练依靠反向传播算法:最开始输入层输入特征向量,网络层层计算获得输出,输出层发现输出和正确的类号不一样,这时它就让最后一层神经元进行参数调整,最后一层神经元不仅自己调整参数,还会勒令连接它的倒数第二层神经元调整,层层往回退着调整。这很像中国的文艺体制,武媚娘传奇剧组就是网络中的一个神经元,最近刚刚调整了参数。

    4.大型神经网络

    我们不禁要想了,假如我们的这个网络有 10 层神经元,第 8 层第 2015 个神经元,它有什么含义呢?我们知道它把第七层的一大堆神经元的输出作为输入,第七层的神经元又是以第六层的一大堆神经元做为输入,那么这个特殊第八层的神经元,它会不会代表了某种抽象的概念?

    就好比你的大脑里有一大堆负责处理声音、视觉、触觉信号的神经元,它们对于不同的信息会发出不同的信号,那么会不会有这么一个神经元(或者神经元小集团),它收集这些信号,分析其是否符合某个抽象的概念,和其他负责更具体和更抽象概念的神经元进行交互。

    2012 年多伦多大学的 Krizhevsky 等人构造了一个超大型卷积神经网络[1],有 9 层,共 65 万个神经元,6 千万个参数。网络的输入是图片,输出是 1000 个类,比如小虫、美洲豹、救生船等等。这个模型的训练需要海量图片,它的分类准确率也完爆先前所有分类器。纽约大学的Zeiler 和 Fergusi[2]把这个网络中某些神经元挑出来,把在其上响应特别大的那些输入图像放在一起,看它们有什么共同点。他们发现中间层的神经元响应了某些十分抽象的特征。

    第一层神经元主要负责识别颜色和简单纹理:
    这里写图片描述
    第二层的一些神经元可以识别更加细化的纹理,比如布纹、刻度、叶纹。
    这里写图片描述
    第三层的一些神经元负责感受黑夜里的黄色烛光、鸡蛋黄、高光。
    这里写图片描述
    第四层的一些神经元负责识别萌狗的脸、七星瓢虫和一堆圆形物体的存在。
    这里写图片描述
    第五层的一些神经元可以识别出花、圆形屋顶、键盘、鸟、黑眼圈动物。
    这里写图片描述
    这里面的概念并不是整个网络的输出,是网络中间层神经元的偏好,它们为后面的神经元服务。虽然每一个神经元都傻不拉几的(只会切一刀),但是 65 万个神经元能学到的东西还真是深邃呢。

    [1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
    [2] Zeiler, M. D., & Fergus, R. (2013). Visualizing and understanding convolutional neural networks. arXiv preprint arXiv:1311.2901.

    展开全文
  • 简单形象又有趣地说说强大的神经网络 图片:The Playful Geometer / CC BY 如何简单形象又有趣地讲解神经网络是什么?...垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出
  • 通常而言,掌握英语单词没有什么捷径可走,词汇记忆方法也很多,但词汇记忆的一个最基本原则是你绝对不能只用一种方法来记忆考纲规定的所有考研词汇,针对不同级别的考研词汇,组合使用多种方法来刺激记忆才是掌握...
  • 因此,点互信息这个名字还是很形象的。 sklearn编程 from sklearn import metrics as mr mr . mutual_info_score ( label , x ) label、x为list或array。 计算x和label的互信息。 参考: ...
  • 乔春洋:品牌形象塑造的原则与误区 品牌形象塑造是一项长期而艰巨的任务,它不是哪一个或哪一个具体行动就可以完成的。它需要按照一定的原则,通过一定的途径,全方位地精心塑造。 (一)品牌形象塑造的原则 1.系统...
  • 如何简单形象又有趣地讲解神经网络是什么?   0. 分类 神经网络最重要的用途是分类,为了让大家对分类有个直观的认识,咱们先看几个例子: 垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出来,...
  • <h1><a name="t0"></a>如何简单形象又有趣地讲解神经网络是什么?</h1> ...神经网络最重要的用途是分类,为了让...垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出来,送进...
  • 简单形象 有趣 神经网络一点都不难 神经网络很萌的 神经网络分类 神经网络最重要的用途是分类,为了让大家对分类有个直观的认识,咱们先看几个例子: 垃圾邮件识别:现在有一封电子邮件,把...
  • 本文中是指具有语言、文字能力等思维特征的人类的生物神经中枢。 左右脑:人类的左脑倾向于逻辑思维,右脑则倾向于艺术思维。大脑两半球具有一种合作关系,即左脑负责语言和逻辑思维,而右脑则做一些难以换成词语的...
  • 图1:快手“萌面Kmoji”魔法表情(Kmoji衍生自emoji,emoji来自日语词汇“絵文字”,意为表情符号)近日,快手正式上线了“萌面Kmoji”魔法表情,用户通过相机拍摄能够生成自己的专属脸部AR虚拟形象。同时,该功能可以...
  • 词汇

    2017-09-19 23:00:45
    词汇表 更新时间:2017-07-18 08:59:26 分享:  A A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | ...
  • 《希腊神话》赫尔墨斯形象分析

    千次阅读 2020-04-08 16:03:45
    在背词汇时,用词根词缀法背诵单词是一个很好的背诵方法。最近,在单词书中看见一个commercial的单词,其中有很多衍生词: commerce(商业) e-commerce(电子商务) merchant(商人) merchandise(商品) 通过这些词,我...
  • 英汉习语语篇翻译中的形象处理

    千次阅读 2005-12-26 21:33:00
    英汉习语语篇翻译中的形象处理摘要:习语包括成语、典故、谚语、格言、俗语、俚语和歇后语,具有言简意赅、形象生动的特点。它是人们在语言发展过程中,经过长期的社会实践提炼出来的短语或短句,是语言的精华,是人们...
  • Word2vec之CBOW模型和Skip-gram模型形象解释

    万次阅读 多人点赞 2017-11-29 19:15:20
    我们这里是根据一个词语的上下文来预测这个词究竟是哪个,这个例子中就是根据小明这个词的前后三个词来预测小明这个位置出现各个词的概率,因为训练数据中这个词就是小明,所以小明出现的概率应该是最大的, 所以...
  • • 垃圾邮件识别:现在有一封电子邮件,把出现在里面的所有词汇提取出来,送进一个机器里,机器需要判断这封邮件是否是垃圾邮件。 • 疾病判断:病人到医院去做了一大堆肝功、尿检测验,把测验结果送进一个机器里...
  • 为什么O’Reilly要用动物形象来做书籍封面?这是来自哪的灵感?封面的动物是怎么挑的?和内容有关系吗?有些诡异的动物都叫什么名字?
  • 英语单词的形象联想组合记忆法

    万次阅读 2006-01-31 11:21:00
    英语单词的形象联想组合记忆法前言。一、起步1000,达到5000,攀登10000 我们在学习外语的时候,可能已经认识到有的单词在文章中频繁出现,而有的单词在一页书中最多出现一至二次,有的单词在一册书中也仅出现一至...
  • bilibili【考研英语词汇

    万次阅读 多人点赞 2019-02-27 10:07:28
    预先考虑 anti-前缀:先,前 deciple 信徒,门徒弟子(宗教词汇)de+cip+le分开拿走,如导师带学生 discipline 纪律,学科 a military discipline municipal a.市的,地方性的(背吧,老师扯不下去了) ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,115
精华内容 2,846
关键字:

形象特点的词语