精华内容
下载资源
问答
  • 空间维度、向量维度

    千次阅读 2018-07-31 12:33:42
    向量维度 空间维度

    这里写图片描述

    向量维度 空间维度

    展开全文
  • 实际问题中,样本的属性就是样本的特征向量,所以样本的特征向量维度越高,张成的样本空间就越大,如果样本的特征向量是二维的(x, y),则样本空间是是一个二维空间,即一个平面,如果特征向量是三维的(x, y, z),...

    样本空间:以样本的属性为坐标轴张成的多维空间,也叫属性空间,输入空间。

            实际问题中,样本的属性就是样本的特征向量,所以样本的特征向量维度越高,张成的样本空间就越大,如果样本的特征向量是二维的(x, y),则样本空间是是一个二维空间,即一个平面,如果特征向量是三维的(x, y, z),张成的样本空间就是三维空间,我们现实世界中的每一个物体的坐标就可以用三维的特征向量来描述。当然这两个例子中特征向量的每一个元素取值都是无限多的(负无穷到正无穷且连续),可以假设特征向量的每一个元素都只有两个取值可能,可以直观地看到,当我们的特征向量增加维度地时候,每增加一个维度,则要覆盖住样本空间需要地样本数目是以2的指数级增长的,特征向量的维度越高,完全覆盖住样本空间需要的样本数也就越多

    特征向量(x),只需要两个样本就可完全覆盖

                    (x,y),需要4(2^2)个样本完全覆盖

                      (x,y,z)需要8(2^3)个样本完全覆盖

                           ..........

    降维与过(欠)拟合问题:当我们用高维度的特征向量来作为训练样本时,样本空间很大,需要大量的训练样本才能保证分类器见过每一类的样本的不同特征表示(每一类样本的特征向量不是完全相同的,相当于我们的分类的C个类别把样本空间给瓜分了,每一个类别包含了样本空间的一部分,但也是相当可观数目的特征向量了,高维时想让分类器见到每一类所有可能的特征向量几乎时不可能的),样本数目不够的时候,很容易导致欠拟合,且我们在真正分类的时候,有些特征可能是不需要的,特别地,这些特征可能只在训练集中有,测试集是没有的,而当我们用大量的样本使得分类器学到了这些不需要的特征,这就导致我们的分类器泛化性能差。所以可以用降维的方法来解决过拟合的问题。

    展开全文
  • 问题一:在NLP任务中,词向量维度(embedding size)是否一定要等于LSTM隐藏层节点数(hidden size)? 词向量(Word Embedding)可以说是自然语言处理任务的基石,运用深度学习的自然语言处理任务更是离不开词向量...

    问题一:在NLP任务中,词向量维度(embedding size)是否一定要等于LSTM隐藏层节点数(hidden size)?

    词向量(Word Embedding)可以说是自然语言处理任务的基石,运用深度学习的自然语言处理任务更是离不开词向量的构造工作。在文本分类,问答系统,机器翻译等任务中,LSTM的展开步数(num_step)为输入语句的长度,而每一个LSTM单元的输入则是语句中对应单词或词组的词向量。

    对于embedding size是否一定要等于LSTM的hidden size 这样一个问题,我们可以通过了解单个LSTM单元的原理来进行回答。

    我们输入LSTM的 input vector,也就是每个单词的word embedding这里称为vector A,LSTM的三个gate的控制是通过vector A来控制的,具体方法是通过乘以权重矩阵(weight),再加上偏置值(bias)形成新的一个vector,这个vector我们可以理解成gate的控制信号。而控制三个gate就需要三组不同的weight 和bias。LSTM传入神经网络输入层输入的vector(称为vector B)跟产生的三个控制信号的方法一样,也是通过vector A乘以一组weight 和bias产生。

    这里放几张图片再来解释说明一下。(图片源于台大李弘毅老师的PPT)

    Xt就是我们的word embedding vector,也就是上面说的vector A,通过四组不同的weight 和bias的作用生成,Zf,Zi,Z,Zo四组新的vector,其中Zf,Zi,Zo,分别作为forget gate,input gate和output gate的控制信号,而Z就是神经网络输入层的输入,也就是我们上面所处的vector B。embdedding szie指的是Xt的维度,而hidden size指的是Zf,Zi,Z,Zo的维度。而这也就是为什么LSTM的参数值为普通神经网络的四倍了。

    解释了这么多,其实也就回答我们这个问题,word embedding vector乘以了权重矩阵weight,从而将维度变化为了hidden size的维度,所以我们在设置embedding size和hidden size 时,二者的值不一定必须相等。

     

    问题二:在多层LSTM中,词向量维度(embedding size)是否一定要等于LSTM隐藏层节点数(hidden size)?

    这个问题是我自己在项目中遇到的一个问题,具体模型就是  基于Tensorflow的LSTM-CNN文本分类模型  中的这个模型,在将LSTM层数设置为2层时,代码报错。

    根据问题一的解释,多层LSTM的embedding size实际上也不必等于hidden size的,可以通过设置不同shape的weight和bias来实现(第一层与后续层数设置为不同)。

    但在Tensorflow实现多层LSTM时,使用的函数tf.contrib.rnn.MultiRNNcell()会自动将累加的LSTM的参数设为相同的shape,或者说,是模块化的直接累加LSTM层数。这样得来的多层LSTM网络,其参数weight和bias的shape都是相同的,所以当设置不同的embedding size和hidden size时会报错,更改为相同值时error消失。

    在NLP任务中通常需要使用预先训练好的词向量来加快训练速度,而LSTM的hidden size也是在训练调参时需要进行调整的重要参数,所以我还在寻找如何解决Tensorflow中多层lstm的hidden size和embedding size不相等的问题,也希望有经验的朋友能多多赐教。

     

    问题三:LSTM中,关于cell state 和 hidden state

    TensorFlow中使用tf.contrib.rnn.BasicLSTMCell()的方法来搭建LSTM网络,其中有一项参数为state_is_tuple,官方建议设置为True,这个参数的实际就是使LSTM的state以tuple的形式输出,shape为batch size和num_step。也就是min batch的大小和LSTM展开的步数,而state分为c与h,c为cell state,即memory的state,h为hidden state,也就是lstm的最终输出

    展开全文
  • 训练好的词向量文件,很好用,也很丰富,基本的词汇里面都有,每个词向量300维度,给的百度云下载链接,压缩后1.5个G
  • Principal Component Analysis:主成分分析 步骤5 步: 1、去平均值,也就是将向量中每一项都...5、对所有的向量以这个K个向量为基向量投影到到一个新的(低维度)空间, 转载于:https://www.cnblogs.com/hige...

    Principal Component Analysis:主成分分析

    步骤 5 步:

    1、去平均值,也就是将向量中每一项都减去各自向量的平均值

    2、计算矩阵的方差,协方差,特征值,

    3,、把特征值从大到小排列

    4、取前K个特征值对应的特征向量,

    5、对所有的向量以这个K个向量为基向量投影到到一个新的(低维度)空间,

     

    转载于:https://www.cnblogs.com/higer666/p/9996669.html

    展开全文
  • np.arang()是 生成一个 行向量,在python和R 中都默认是行向量的,因此求其shape其实第二维可以省略。
  • 维度向量的理解

    万次阅读 2019-01-07 10:07:57
    文章目录维度英文解释维度内涵向量空间n维空间(维度空间)示例总结 参考来源:知乎 维度 英文解释 dimension: an aspect, or way of looking at or thinking about sth 即方面;侧面 例句: Her job added a new ...
  • 全连接层的计算其实相当于输入的特征图数据矩阵和全连接层权值矩阵进行内积,在配置一个网络时,全连接层的参数维度是固定的,所以两个矩阵要能够进行内积,则输入的特征图的数据矩阵维数也需要固定。 全连接层需要...
  • SMOTE(Synthetic Minority Over-Sampling Technique)函数以维度为(r,n)的特征向量维度为(r,1)的目标类作为输入。 并返回维度为(r',n) 的final_features 向量维度为(r',1) 的目标类作为输出。 实现基于: N. ...
  • 详解 n 维向量、n 维数组 和 矩阵的维度

    万次阅读 多人点赞 2019-01-23 10:23:21
    同时我们时常困惑于维度,n维向量,n维数组,矩阵的维度,本文着重就这一方面进行分析。 2. 向量、数组和矩阵 2.1 向量 在解析几何中,我们把“既有大小又有方向的量”叫做向量,并把可随意平行移动的有向线段作为...
  • % VNORM - 沿着 A 的指定维度返回向量范数% % VNORM(A) 返回沿第一个非单例的 2 范数A的%维数% VNORM(A,dim) 沿维度 'dim' 返回 2-范数% VNORM(A,dim,normtype) 返回由 normtype 指定的范数沿维度“昏暗”的百分比% ...
  • C++声明二维向量vector的维度

    千次阅读 2019-08-10 10:14:38
    与数组相同, 向量也可以增加维数, 例如声明一个10*5大小的二维向量方式可以像如下形式: vector< vector<int> > b(10, vector<int>(5)); //创建一个10*5的int型二维向量 ...
  • 9.1空间,向量空间和欧几里得空间 什么是空间? 空间就是一个集合。 欧几里得空间 欧几里得空间是有序实数元组的集合 ...什么向量成为向量? 我们必须定义两种运算:加法和数量乘法 对于一个向量...
  • 我们有一个数据集 data={x_1,x_2,x... 输入: data = 这是一个包含来自动态系统的数据的向量embed_dimen = 这是我们用来嵌入数据的维度delta = 这是数据之间的延迟。 输出: Y = 这是一个矩阵,其中第 n 行是向量 X(n)
  • 该函数返回给定数据、嵌入维度和时间延迟的延迟向量。 用于启动数据以用于 PCA/ICA、SVD 或混沌理论分析等。
  • 同时我们时常困惑于维度,n维向量,n维数组,矩阵的维度,本文着重就这一方面进行分析。 2. 向量、数组和矩阵 2.1 向量 在解析几何中,我们把“既有大小又有方向的量”叫做向量,并把可随意平行移动的有向线段作为...
  • 如果a是行向量,M是你要的最终向量的长度,用a=[a , zeros(1,M-length(a))];如果a是列向量,改成a=[ a ; zeros(M-length(a),1)];我借鉴了其他人的答案,你试试,其实编一段语言就可以了。...
  • 计算机体系结构WINDLX实验三双精度浮点数一维度向量乘法汇编程序。
  • 获取任意维度(2D、3D、4D 等)的两组向量之间的角度(以弧度为单位)。 角度范围从 0 到 pi。 如果有任何需要更正或改进的方法,请告诉我。
  • 向量空间、维度和四大子空间空间的概念欧几里得空间向量空间广义向量空间子空间欧几里得空间的子空间维度概念子空间和维度行空间和矩阵的秩行空间行秩列空间与列秩行空间和列空间对比 空间的概念 空间是一个集合。 ...
  • 什么向量化比显式的循环快 因为numpy里用于计算矩阵的方法,是一种并行化指令,又名SIMD指令(单指令流多数据流),并行化的计算方式让它比逐条执行的显式循环要快许多。吴恩达老师在课上做过演示,在CPU上运行...
  • cumvar 以相同的方式工作,这可以在沿维度 DIM 的任意维度 X 上完成。 有关示例,请参见屏幕截图。 这些函数(至少对我而言)用于确定一个过程需要多少次迭代,直到过程的均值和方差稳定(即:不随着迭代的增加而...
  • 针对组合预测过程中的多误差统计向量的优劣评价问题,提出了一种优于个量相同条件下的多维度评价向量的排序模型,设定优劣排序的相关规则,根据规则给出整体优于函数,并对于优于个量相等优于程度不同的情况给出了...
  • 一、环境 TensorFlow API r1.12 CUDA 9.2 V9.2.148 cudnn64_7.dll ...根据指定的维度重复输入张量多次 https://tensorflow.google.cn/api_docs/python/tf/tile 输出的第 i 维具有 input.dims(i) * mul...
  • 目录: 求解Ax=bAx=b 向量间的线性无关性(linear Independence of vectors) 向量空间的基(Vectors that span a space & A basis for a vector space) 向量空间的维度(dimension of a vector space)
  • 向量

    2012-01-01 14:19:57
    向量维度向量维度就是向量包含的“数”的数目。向量可以有任意正数维,当然也包括一维。事实上,标量可以认为是一维向量向量分为“:行向量和列向量 位置与位移:位移、速度与距离、速率是完全不
  • 踩过很多坑,查过很多相关资料,最终终于将中文转换成词向量。 在此,分享给正在刨坑的程序猿。 将去掉停用词的中文词列表使用word2vec转成词向量bin文件 做法: 第一步:利用linux虚拟机将中文转换成词向量bin...
  • 什么是词向量?(NPL入门)

    万次阅读 多人点赞 2018-06-14 21:09:47
    什么是词向量? 我们组实训选择的主题是与自然语言识别相关的,那么就不得不学习和了解一下自然语言识别中非常重要和基础的。于是我对于自己对词向量的学习进行了以下的总结。 简而言之,词向量技术是将词转化...
  • numpy.squeeze() 去除维度为1的向量

    千次阅读 2020-07-24 17:14:13
    https://blog.csdn.net/tracy_leaf/article/details/79297121

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 127,056
精华内容 50,822
关键字:

向量的维度是什么意思