精华内容
下载资源
问答
  • 那么作为时下各行业各领域人士都需要触及的企业信息查询,到底应该从哪些维度着手,又究竟有多少维度可询?解码企业大数据,企多维给你更多视角。 我们想要查询企业、看清企业的根本目的在于降低企业“作为一个盈利...

    当企业信息从网络爬取走向政府公开,当昔日隐私变成一种信用评判,企业信息查询的重要性和功能性不言而喻。

    那么作为时下各行业各领域人士都需要触及的企业信息查询,到底应该从哪些维度着手,又究竟有多少维度可询?解码企业大数据,企多维给你更多视角。

    我们想要查询企业、看清企业的根本目的在于降低企业“作为一个盈利组织”能够给其他组织或个人带来的危害。简言之,不被企业蒙蔽。

    企业可以通过自身产品和服务转化收入,同时也能够通过外在“包装”来提高转化,比如气派的门面,权威平台出现的广告等。这些我们无从考证,所以企业信息查询的首要维度就是了解最基本的工商信息。何时注册,谁注册,注册资本,在何处办公,经营范围,高管架构……这是对一家企业最基本的了解。但企业大数据远不止这些,企业信息查询的维度已经被细化为20余个,大家且往下看。

    围绕企业的经营范围,我们可以细化地去查询企业究竟有哪些产品或服务,还可以通过企业名称查询到企业的自媒体,从而给予其更多关注和了解。

    如果对其产品和服务感兴趣,我们还需要查看该企业有没有令人信服的自主知识产权和相关资质来支撑业务的开展。

    而在其经营的过程中,又有无失信、异常或违法行为,也就是大家最为关注的风险,这是影响企业信用评判的重要指标。

    通过对外投资情况,招聘信息,新闻发稿,则可以探测企业的未来发展方向、业务偏重和扩张趋势。这对于金融投资者来说是比企业公告更可信赖的资讯。

    企业在日常经营中,与客户、合作伙伴、渠道方、投资者都会打交道,这也决定了企业对社会各个领域都广有涉猎,呈现面错综复杂,因此我们通过大数据图谱由查询需求来层层挖掘信息。基于大数据的企业信息查询可以真正了解企业的方方面面,而不再是传统的单一的工商信息查询了。


    本文作者:佚名

    来源:51CTO

    展开全文
  • 而对于信息立方体模型,最重要的莫过于维度的设计,它不只决定着查询的性能,而且会影响到数据上传的时间。一个好的设计方案,不只能提高查询的访问速度,而且可以大大降低把数据更新到信息立方体的时间。ITPUB个人...

    转自:http://space.itpub.net/119153/viewspace-627033

     

     

     

    SAP BW的各信息提供者中可以说最重要的就是信息立方体,因为它是分析报表最主要的基础。而对于信息立方体模型,最重要的莫过于维度设计,它不只决定着查询的性能,而且会影响到数据上传的时间。一个好的设计方案,不只能提高查询的访问速度,而且可以大大降低把数据更新到信息立方体的时间。ITPUB个人空间9ymj8c.^1_AnP
    在信息立方体的设计中,如果能够遵循下面的这些基本的原则,那么你就可以构建一个相对高效的信息立方体模型:ITPUB个人空间C N@-hS-Tb/'[
    1> 不要把查询用不到的CHARACTERISTIC放到信息立方体中。ITPUB个人空间B6NU/_1[
            如果一个CHARACTERRISTIC不会被查询用到,而且你也不能确定它一定会在以后的查询中用到,那么就不要把它放到信息立方体中。因为信息立方体中每多包含一个特征,它的查询性能和数据上传性能就会降低一分。对于一个多层的数据仓库架构来说,我们常常把这种特征放到中间层的DSO中。这样一方面不会影响到信息立方体的性能,另一方面,当后续开发的查询用到这个特征的时候,我们可以重新把它加入到信息立方体中,然后从DSO上传数据到信息立方体。由于它的信息已经存在于DSO中了,我们不需要重新从源系统抽取数据,避免影响到业务系统。
    lT"m#vDLfD02> 对于NAVIGATIONAL属性和特征,前者有利于数据上传性能,而后者有利于报表性能。ITPUB个人空间F9d{3C'B(]!N
            这个很好理解。但是它们还代表了不同的历史事实性。对于特征来说,它代表的是业务发生时候的历史事实。而NAVIGATIONAL属性代表的是当前事实或者某个指定时间的历史事实。比如如果你把物料甲的物料组建模为一个特征,那么基于它的报表显示的是业务发生时候的物料组。不管物料甲的物料组在这笔业务后有没有被修改过,报表数据都是基于这笔业务产生时候的物料组显示的。如果你把物料组建模为属性,那么非时效属性对应的是当前的物料组分派,也就是说不管物料甲在一笔业务发生时候的物料组分配是什么,报表数据都是基于当前分配的物料组的。而时效属性则对应于某个指定时间的物料组分配。ITPUB个人空间2q&G.i O:E,Rw|
    3> 尽量减小维度表。
    T[ oQB2Sx)Y8b'u0        对于普通的维度,它的索引类型是BIT-MAP索引,降低维度表的大小可以大大提高BIT-MAP索引的性能,进而大大提高报表性能。另外合理的维度设计可以大大减少数据上传过程中维度ID的生成次数,提高数据上传性能。
    ,_u&y5P G'EU5T)]-[04> 减少维度数,但是减小维度表更重要。特别是当两者冲突的时候。
    a}/I Sp8K)y//05> 对于高CARDINALITY的特征来说,比如销售订单号,我们应该使用LINE ITEM维度。ITPUB个人空间?YWiG
           普通的维度是一个扩展了的星形结构,中间是事实表,事实表首先关联到维度表,然后经过维度表关联到主数据表。而对于LINE ITEM维度来说,它没有中间层的维度表,事实表直接和主数据表关联。这样执行SQL的时候,可以减少一个JOIN。ITPUB个人空间eKX ^j[*bx
    6> 对于高CARDINALITY的维度来说,我们应该使用B-TREE索引。
    r"s/lj:D&K&QoDK0       普通维度的默认索引时BIT-MAP,如果一个维度表太大,那么BIT-MAP索引的性能会大大降低。 这时候我们应该选择使用B-TREE索引,也就是将一个普通维度改为HIGH-CARDINALITY 维度。ITPUB个人空间o2Fz)sXg2lv
    7>  如果一个信息立方体的特征数小于等于13, 那么你可以去掉推荐架构中的维度表这一层。将所有的特征建模为一个LINE ITEM维度。
    HEQ!BBM0

     

    展开全文
  • 通过PCA选择合适降维维度

    千次阅读 2018-07-18 15:51:33
    PCA的作用有:降低特征值维度,提高了计算效率,但丢失了信息信息在PCA中我们用方差来表示。 一、PCA参数、属性简介 1.介绍PCA方法中参数: n_components: 默认值为保留所有特征值维度,即不进行主成分降维 ...

    PCA的作用有:降低特征值维度,提高了计算效率,但丢失了信息。信息在PCA中我们用方差来表示。

    一、PCA参数、属性简介

    1.介绍PCA方法中参数:

    n_components:
      默认值为保留所有特征值维度,即不进行主成分降维
      取大于等于1的整数时,即指定我们希望降维后的维数;
      取0-1的浮点数时,即指定降维后的方差和占比,比例越大,保留的信息越多。系统会自行计算保留的维度个数。
    

    2.介绍PCA中的属性:

    components_:降维后,保留的成分。每一行代表一个主成分,各成分按方差大小排序。
    explained_variance_:降维后 ,各成分的方差
    explained_variance_ratio_:降维后,各成分的方差占比
    

    二、观察 在保留不同的维度个数时的方差和

    横坐标:表示保留的维度个数

    纵坐标:降维后的所有成分的方差和

    通过下图,我们可以发现随着降维个数的增加,方差和占比是先快速增长,然后就平稳增长了。

    当降维后的维度个数为20时,所有成分的方差和为90%,即约10%的信息被丢失了。

    下面显示上图的绘制代码:

    if __name__ == '__main__':
        #获得数据,X为特征值,y为标记值
        digits=datasets.load_digits()
        X=digits.data
        y=digits.target
        pca=PCA( )
        #pca=PCA(n_components=0.9)
        pca.fit(X,y)
        ratio=pca.explained_variance_ratio_
        print("pca.components_",pca.components_.shape)
        print("pca_var_ratio",pca.explained_variance_ratio_.shape)
        #绘制图形
        plt.plot([i for i in range(X.shape[1])],
                 [np.sum(ratio[:i+1]) for i in range(X.shape[1])])
        plt.xticks(np.arange(X.shape[1],step=5))
        plt.yticks(np.arange(0,1.01,0.05))
        plt.grid()
        plt.show()

    三、观察验证结果的正确性

    将上文中的代码

    pca=PCA( )替换为pca=PCA(n_components=0.9)

    观察打印结果:由64维降维至21维

    pca.components_ (21, 64)
    pca_var_ratio (21,)
     

    
     
    展开全文
  • 特征变换以及维度下降——前言

    千次阅读 2014-02-20 21:17:20
    特征变换以及维度下降——前言:我们最初的设想是增加特征的维度从不会降低识别器的性能,因为我们提供了足够多或者至少是相同的大量信息。因此,最坏的情况是性能保持不变。但是,实际上并非如此,性能将会出现下降...

    1.维度灾难

    我们最初的设想是增加特征的维度从不会降低识别器的性能,因为我们提供了足够多或者至少是相同的大量信息。因此,最坏的情况是性能保持不变。但是,实际上并非如此,性能将会出现下降,尽管我们提供给了系统足够的数据。这是因为能够呈现给模型的训练数据是有限的。理论上我们通常的设想是训练数据是无限的并且模型能够在所有环境下被很好的训练。事实上是不可能的,如果我们选择了复杂的模型,它的所有参数不太可能被很好的估计。另一方面,如果模型过于简单,这将使得系统不能满足人们复杂的需求。

    所以我们需要在训练数据集本身的误差和它们所代表的广义化之间做一个权衡。我们举一个植物学的例子:任务是正确的将树的物种分类,对于过于拟合的模型所对应的识别器而言,出现一个新树就被表述于一种新物种,仅仅是因为叶子数量的不同。对于欠拟合的识别器,任何绿色的都会被定义为树。显然,这两种情况都不适合模式识别。

    以上两种情况说明了找到一个既不过分拟合又不欠拟合的模型是至关重要的。值得注意的是那些寻找最优特征的统计方法要求事先要决定维度。理论上很难找到最优的维度。事实上最好的方法是对于已经存在的特征实验并且比较维度。

    2.特征简化

    特征简化是使用统计方法来减少特征的维度,并且在简化后的特征空间中最大化的保留信息。通常数学上的表达可以表示为一个线性变换:

    (1)

    y表示特征简化后的特征空间(p维)x表示原始的特征空间(n维)。转换矩阵是一个的矩阵。所有特征简化的技术的目标都是根据一些优化标准找到最优的转换矩阵。其中,两种最优的特征简化技术为Linear Discriminant Analysis(LDA)以及Principal Component Analysis(PCA)。之后我们就开始详细的介绍一下LDA和PCA的算法以及相关的应用。

    展开全文
  • 7S数字化体系方法: 1-方向 Sail 2-计划 Scheme 3-结构 Structure 4-系统 System 5-...以信息化为支撑,以信息化为载体,多部门多维度的联合作战,共同推进,有效的将两化融合深入到企业的各个角度中,走上全新中国...
  • 某种意义上来说,特征或维度越多,越会降低模型的准确性,因为需要对更多的数据进行泛化——这就是所谓的“维度灾难”。降维是一种降低模型复杂性和避免过度拟合的方法。特征选择和特征抽取是两种主要的降维方式。...
  • 区块链本质上是一种新兴的分布式账本技术,其特点是可以从效率、成本、风控、信任等多维度解决银行传统痛点,降低交易成本,提高信息透明度,创造“无需信任的信任”,带来监管便利。截至目前,银行业区块链的发展和...
  • 空洞卷积, 从图中可以看出,对于一个3*3的卷积,...空洞卷积在语义分割中的使用较多,因为涉及到向下卷积和向上卷积,为了不使用padding降低图片的维度,造成feature_map的信息损失,同时又可以在一定程度上增加感...
  • 晴空猎鹰企业图谱是京东数科自主研发的一款企业风险事件监测产品,通过对企业各维度数据采集,构建完整企业库,涵盖企业工商信息、网络舆情事件信息、司法信息及经营信息等。 同时,独创以图谱形式展示企业与事件...
  • 对于深度学习而言,正则化方法就是“通过把一部分不重要的复杂信息损失掉,以此来降低拟合难度以及过拟合的风险,从而加速了模型的收敛”...不同的正则化方法的区别只是操作的信息维度不同,即选择损失信息的维度不同。
  • 在自愿性信息披露内部,财务信息和非财务信息能够降低权益资本成本,战略信息对权益资本成本具有正向拉升效应。随生命周期阶段不断演进,企业对3个维度自愿性信息的披露意愿持续减弱,权益资本成本呈现先下降后上升的...
  • 针对煤矿工业互联网信息安全防护手段多应用于较小区域、难以对整体信息安全风险进行评估的问题,提出了一种基于静态和动态2个维度的煤矿工业互联网信息安全风险评估方法。该方法根据《信息安全技术 网络安全等级保护...
  • 而对于信息立方体模型,最重要的莫过于维度的设计,它不只决定着查询的性能,而 且会影响到数据上传的时间。一个好的设计方案,不只能提高查询的访问速度,而且可以大 大降低把数据更新到信息立方体的时间。
  • 一、什么是PCA?...在数据挖掘或者图像处理等领域(大维度数据)经常会用到主成分分析(Principle Component Analysis),这样做的好处是使要分析的数据的维度降低了...
  • 随着大规模基因芯片的应用,针对高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于云平台的互信息最大化特征提取(CMI-Selection)方法。Hadoop云计算平台对基因表达数据划分后...
  • 针对信息客户流失缺少有效的数据挖掘预测手段问题。提出了应用主成分分析的BP神经网络...实验结果表明模型获取了较高的平均预测分类精度(77.46%)和较少的训练分类时间(2.18min),有效地降低了属性维度并改善了预测能力。
  • 高维信息降维可视化常用算法比较

    千次阅读 2019-07-17 21:08:52
    这里引入了常用降维算法模型原理,对MNIST 784维数据做可视化和结果对比展示,其中的大部分算法可用来减少数据维度,减少特征数,去除噪声干扰信息,压缩数据,降低计算量。公式原理等是引用他人内容,如侵权联系...
  • 降低的密度矩阵在迹线距离上接近密度矩阵,我们将其称为ETH密度矩阵,该矩阵独立于本征态的所有细节,除了其全局对称性下的能量和电荷。 在两个维度上,ETH密度矩阵对于所有具有相同中心电荷值的理论都是通用的。...
  • 对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算...
  • 构建信息立方体的原则

    千次阅读 2011-02-12 16:16:00
    而对于信息立方体模型,最重要的莫过于维度的设计,它不只决定着查询的性能,而且会影响到数据上传的时间。一个好的设计方案,不只能提高查询的访问速度,而且可以大大降低把数据更新到信息立方体的时间。 R/u...
  • 针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,提出了一种利用分类体系结构信息的双向特征选择算法,并在该算法的基础上实现标题分类。该方法以具有严格层级关系的分类体系为应用前提,利用...
  • 数据表达方法和文本分类的效果...该方法能够有效降低文本向量空间的维度,同时降低了语义空间内的计算复杂度。情感分类实验的结果表明,与现有的单词的数据表达方法相比,该方法能够显著提高分类算法的准确率和召回率。
  • 摘要针对大规模基因芯片高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于互信息最大化方法(MMI)和与遗传算法的模型无关的基因选择方法来将特征选择转化为全局优化问题,...
  • 2019-05-01 10:06:00 首先需要了解下:什么叫做数据降维,为什么要对数据进行降维,如果不做降维处理会出现哪些问题?...数据降维,一方面可以解决"维数灾难",缓解"信息丰富、知识贫乏"现状,降低...
  • 帮助建立核心企业、上下游企业、资金方全流程线上化作业管理新模式系统支持多种业务模式,全面覆盖供应商、经销商的各种融资需求灵活配置、风控模型、系统集成、多种还款方式、多维度授信、效率提升、一站式管理平台...
  • 本人在设计新系统对融资项目进行风险管控时,结合部分现有国内外研究的观点,尝试采用系统识别法和人工评价法结合的形式来识别项目的各种风险和主要分类,在对风险进行分析时,建立了一套评分体系,并对各个维度制定...
  • 数仓-基本概念

    2020-10-09 00:50:23
    地域维度信息:年月日周等时间维度信息,这些维度信息,基本不会发生任何改变,并且在大部分主题分析场景中,都需要使用,直接在事实表中存储维度值 页面信息:页面类别信息,频道信息,业务活动信息,会员等级信息...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 396
精华内容 158
关键字:

信息维度降低