精华内容
下载资源
问答
  • 机器学习 稀疏性的优点 (摘抄) 稀疏指的是参数或者数据中零的个数,零的个数越多,参数或者数据就越稀疏.这种稀疏性带来许多优点. 参数稀疏有什么好处 1)特征选择(Feature Selection): 大家对稀疏规则化趋之若鹜的...

    机器学习 稀疏性的优点

    (摘抄)

    稀疏指的是参数或者数据中零的个数,零的个数越多,参数或者数据就越稀疏.这种稀疏性带来许多优点.

    参数稀疏有什么好处

    1)特征选择(Feature Selection): 大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说,xi的大部分元素(也就是特征)都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xi这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。

    2)可解释性(Interpretability): 另一个青睐于稀疏的理由是,模型更容易解释。例如患某种病的概率是y,然后我们收集到的数据x是1000维的,也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型:y=w1x1+w2x2+…+w1000x1000+b(当然了,为了让y限定在[0,1]的范围,一般还得加个Logistic函数)。通过学习,如果最后学习到的w就只有很少的非零元素,例如只有5个非零的wi,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。但如果1000个wi都非0,医生面对这1000种因素.

    稀疏性:

    大多数问题线性可分.学习任务的难度有所减低.

    易于存储,但数据中零的个数多时,可以使用算法减少存储空间.

    可解释性提高.

    参考:

    https://www.jianshu.com/p/8025b6c9f6fa

    周志华:机器学习

    作者:冰菓(笑)
    来源:CSDN
    原文:https://blog.csdn.net/a362682954/article/details/85226022
    版权声明:本文为博主原创文章,转载请附上博文链接!

    展开全文
  • 从给定的特征集合中选择出相关特征子集的过程,称为"特征选择" (feature selection)。作用:一是解决维数灾难问题,二是去除不相关特征降低学习任务的难度。 处理高维数据的两大主流技术:特征选择、降维。

    前文相关回顾:在决策树算法训练后,可以获取决策树的特征重要性指标。
    对当前学习任务有用的属性称为"相关特征" (relevant feature) ;没什么用的属性称为"无关特征" (irrelevant feature)。
    从给定的特征集合中选择出相关特征子集的过程,称为"特征选择" (feature selection)。作用:一是解决维数灾难问题,二是去除不相关特征降低学习任务的难度。
    处理高维数据的两大主流技术:特征选择、降维。

    1、术语

    特征选择方法
    常见的特征选择方法大致可分为三类:过滤式(filter) 、包裹式(wrapper)和嵌入式(embedding)。

    • 过滤式方法先对数据集进行特征选择,然后再训练学习器。代表算法:Relief (Relevant Features)是为二分类问题设计的。
    • 包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。代表:LVW (Las Vegas Wrapper)
    • 嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。

    稀疏表示
    假设数据集D是一个矩阵,每行对应一个样本,每列对应一个特征。那么,特征选择问题可转换为特征是否具有稀疏性。
    为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示(sparse representation) 形式,从而使学习任务得以简化,模型复杂度得以降低,通常称为"字典学习" (dictionary learning) ,亦称"稀疏编码" (sparse coding)。

    压缩感知
    压缩感知(compressed sensing) 根据部分信息来恢复全部信息。
    压缩感知分为"感知测量"和"重构恢复"两个阶段,"感知测量"关注如何对原始信号进行处理以获得稀疏样本表示,涉及傅里叶变换、小波变换以及字典学习、稀疏编码等;"重构恢复"关注的是如何基于稀疏性从少量观测中恢复原信号,算法的精髓部分,通常代指压缩感知。
    压缩感知直接催生了人脸识别的鲁棒主成分分析和基于矩阵补全的协同过滤。

    2、Sklearn代码实现

    2.1、移除低方差特征
    VarianceThreshold 类将移除方差不满足阈值的特征。默认,将移除所有的零方差特征。

    2.2、单变量特征选择
    通过基于单变量的统计测试来选择最好的特征,可以当做是评估器的预处理步骤。可选择的类对象,如下:

    • SelectKBest 移除评分最高的 K 个特征之外的所有特征
    • SelectPercentile 移除设置的最高得分百分比之外的所有特征
    • 对每个特征应用常见的单变量统计测试: 假阳性率(false positive rate) SelectFpr, 伪发现率(false discovery rate) SelectFdr , 或者族系误差(family wise error) SelectFwe 。
    • GenericUnivariateSelect 允许使用可配置方法来进行单变量特征选择。

    以上类的参数-得分函数(score_func)可选择如下:

    • 对于回归: f_regression , mutual_info_regression
    • 对于分类: chi2 , f_classif , mutual_info_classif

    2.3、递归式特征消除
    给定一个外部的估计器,可以对特征赋予一定的权重,recursive feature elimination ( RFE ) 通过考虑越来越小的特征集合来递归的选择特征。

    2.4、使用 SelectFromModel 选取特征
    SelectFromModel 是一个 meta-transformer(元转换器) ,它可以用来处理任何带有 coef_ 或者 feature_importances_ 属性的训练之后的评估器。

    示例:鸢尾花数据集分类任务的特征选择

    import matplotlib.pyplot as plt
    from mpl_toolkits.mplot3d import Axes3D
    from sklearn import datasets
    from sklearn.feature_selection import SelectKBest, chi2, SelectFromModel
    from sklearn.svm import LinearSVC
    
    if __name__ == '__main__':
        # 加载数据
        iris = datasets.load_iris()
        # 使用样本的所有特征(150, 4)
        x = iris.data
        y = iris.target
        label_dict = iris.target_names
        feature_dict = iris.feature_names
    
        # 数据预处理 - 单变量特征选择, k=2选择最好的两个特征
        x_best = SelectKBest(chi2, k=2).fit_transform(x, y)
        print('特征选择后的维数', x_best.shape)  # (150, 2)
    
        # 基于 L1 的特征选取;在 SVM 和逻辑回归中,参数 C 是用来控制稀疏性的:小的 C 会导致少的特征被选择
        lsvc = LinearSVC(C=0.01, penalty="l1", dual=False, max_iter=2000).fit(x, y)
        model = SelectFromModel(lsvc, prefit=True)
        x_model = model.transform(x)
        print('特征选择后的维数', x_model.shape)  # (150, 3)
    
        # 单变量特征选择的数据散点图
        for label, marker, color in zip(range(0, 3), ('*', 's', 'o'), ('blue', 'red', 'green')):
            plt.scatter(x=x_best[y == label][:, 0],
                        y=x_best[y == label][:, 1],
                        marker=marker,
                        color=color,
                        alpha=0.5,
                        label='label_{}'.format(label))
        plt.title('Iris feature selection')
        plt.xlabel('xr', fontsize=14)
        plt.ylabel('yr', fontsize=14)
        plt.legend(loc='upper right', fancybox=True)
        plt.tick_params(labelsize=10)
        # plt.show()
    
        # SelectFromModel 选取特征特征绘图
        fig = plt.figure()
        ax3d = Axes3D(fig, rect=[0, 0, 1, 1], elev=20, azim=20)
        ax3d.scatter(x_model[:, 0], x_model[:, 1], x_model[:, 2], c=y, cmap='brg')
        plt.show()
    
    

    运行结果,如下图:
    select
    从上图的坐标轴数据可以看出:单变量特征选择和使用 SelectFromModel 选取特征的标准是不一样的,除了一个坐标轴刻度相同外,其他坐标轴数据不同。即:SelectFromModel 选择的特征不是“最好”的(SelectKBest)

    展开全文
  • 来源:AI前线 本文约4200字,建议阅读10+分钟本文为你展示如何使用机器学习解决 Uber 的特定审计问题,以及如何扩展方法和架构来解决大型审计行业中的其他数据问题。 在机器学习...
    
    
    来源:AI前线
    
    本文约4200字,建议阅读10+分钟本文为你展示如何使用机器学习解决 Uber 的特定审计问题,以及如何扩展方法和架构来解决大型审计行业中的其他数据问题。
    


    在机器学习不断发展并改变其所涉及的各个行业之后,它才开始向审计世界提供信息。身为数据科学家和前 CPA 审计员,我能理解为什么会这样。实质上,审计是一个关注细节和研究任何例外的领域,而机器学习通常寻求宽泛的推理模式。审计关注的是历史事件的分析,而机器学习解决方案倾向于预测未来事件。最终,大多数审计人员缺乏在工作中熟练运用机器学习所需的教育或编程技能。接下来,我将展示我们如何使用机器学习解决 Uber 的特定审计问题,以及如何扩展我们的方法和架构,以解决大型审计行业中的其他数据问题。

    现金中介(也称“代理”)是指公司要求作为公司和其他供应商之间的代理人的第三方供应商。为什么公司需要这样的中介机构?因为你的企业可能在某些国家经营,而在这些国家,你所需要的产品和服务的一些当地供应商无法通过你的 P2P 流程和系统来运作。举例来说,假设你想购买一批鲜花,但是花店不能通过公司的应付账款系统来处理。一个已经成立的代理(其实是入驻公司的 P2P)将用现金帮助你从花店购买这批鲜花。代理随后会把这些费用项目加入到下一张账单中(作为他们自己的服务),公司则会给代理报销。

    这个例子很简单,也是良性的。尽管这些代理的使用本身并不违法,但这种交易如果无节制扩散,容易带来一些风险。例如,你如何知道花店可以合法销售?怎样知道鲜花的实际价格?代理向公司收取的费用是否正确?花店和代理之间有利益相关吗?你是利用代理的身份来避开与花店经营者的利益冲突,还是掩盖回扣、贿赂,或者这类费用是不被允许的?

    对于 Uber 来说,过去这些代理都是由全球各地的本地团队人工雇佣的,并且他们并不清楚发生了什么。由于我们已对这类案件进行了几次欺诈调查,我们知道有这样的代理存在。

    但是,仍然存在一些问题:我们到底有多少个供应商被作为代理使用?这些代理用于什么样的情况?而从地域上来看,这些代理被用在哪里,处理了多少?由于没有确定这些代理的系统先例,因此我们最初寻找这些代理的方法是询问当地团队并建立一个启发式方法。我们随后将理解过程转换为 SQL。但是,事实证明,这种方法非常有限。我们认为,代理和非代理之间的关系更为复杂,尤其是在涉及潜在特征数量方面。创建一个逻辑门,其数目应等于 SQL 中每个特征的唯一组合的数目,或者从数学角度讲,如下所示(其中 n 是我们的支出管理平台中可用的特征数量),都是不可行的,所以我们假定机器学习能够帮助解决这个问题。

    再者,我们只有一小部分标签数据样本(来自当地团队的确认代理)。对于数据源,我们使用一个表格获取数据,并将其输入到支出管理平台,以获得交易类型、描述、金额、货币等特征。

    重申一下,我们只有一小部分标签数据样本(来自本地团队的确认代理)。至于数据源方面,我们使用了在支出管理平台中摄取数据的表格来获取数据和特征,如交易类型、描述、金额、货币等。

    接受挑战

    • 数据可用性

    其中一个主要的障碍是我们没有大量的标签和可用数据。根据我们最初对当地团队的调查,我们在 477 个供应商中,有 47 个被标记为代理。从数据科学家的角度来看,这些样本并不足以训练任何模型。为增加组中的记录数量,我们将数据集从供应商扩大到采购订单。有关如何进行此工作的信息,请参阅模型设计部分。

    • 数据标签

    标签主要集中在事实上是代理的供应商上。反过来说,我们无法确认消极标签是否正确。审计人员知道,除了为了确认而增加的工作外,积极确认(当有人明确告诉你某事是否正确时)要好于消极确认(当有人被要求只在某事看起来不正确时才回复)。要解决这一问题,我们应该在每次评估中,将召回分数作为一个指标,基于你面临的业务问题,你可能需要优先考虑其他指标。

    研究之旅

    • 降维

    在对我们分类的特征(例如货币和部门)进行虚拟编码(或者独热编码)之后,我们最终得到了近 300 个特征。在这里我们可以考虑降维问题,降维通常可以提高训练速度,提高模型性能,或者两者兼而有之。

    采用主成分分析(Principal Component Analysis,PCA)的方法对 100 个成分进行了分析,仅有 36% 的方差对结果进行了解释。由于三分之一的数据给我们的解释方差只有三分之一多一点,看来我们需要使用所有的特征来捕捉整个画面,因此我们通过模型来推出所有可用的特征。

    实验

    • 模型 v1 的设计与结果

    在第一次迭代中,我们使用了 K- 最近邻(KNN)。这些特征包括美元金额和四种高风险交易类型的存在。在采购订单级别的预测中,K∈1,3,5,7,9 的准确率约为 92%。在供应商级别的预测中,达到的最高准确率为 88%。作为一种最小特征的简单化模型,它的表现似乎不错。但是,请记住,这一比例是 1:10 左右,数据非常不平衡。因此,考虑到 91% 的基线空准确率(Null accuracy ),我们无法说出这个模型的作用。空准确率指的是,模型每次都只是简单地预测大多数类。因此,在我们 1:10 的不平衡数据集中,如果模型只预测 0,那么它就会准确地预测1110 次,即 91%。

    经验教训:在评估模型性能时,确保评估模型基于基线。在我们的案例中,我们使用的是空准确率。

    • 模型 v2 的设计与结果

    在第二次迭代中,我们仅在采购订单级别上使用随机森林分类器。这样做的目的主要是为了训练一个快速模型,让我们了解特征的重要性,以及对这些特征进行分类是否有意义。

    通过 4 倍的交叉验证,我们也观察到平均准确率为 95.9%。将其分解后,我们最终得到准确率为 95.8%,召回率为 97.5%。尽管这一结果看起来很有希望,但我们必须谨慎对待评估结果。首先,我们假定所有被标记的供应商的交易都是积极标签的交易。无论如何,我们必须抑制这一因素。另外,我们需要的是对供应商的预测,而非对交易的预测。同时,我们也必须在模型中注入供应商级别的特征。

    经过对预测更深入的研究,这个随机森林模型的初步结果出现了一些问题。举例来说,当我们查看一家预测的供应商的所有交易时,我们无法从逻辑上说这个预测具有类似于代理的属性。

    经验教训:尽管预测结果有可能高于基线,但也必须回顾由模型生成的预测数据。同时,牢记我们的目标,我们希望预测的是单一的供应商,而非交易。

    最终的架构设计

    针对标签和可用数据的不足,我们设计了一个双模型架构。

    我们建立了一种基于交易级数据和供应商级数据的特征的最终架构。只有使用双模型架构才能做到这一点,其中一个模型依赖于前一个模型的预测。

    首先,我们建立了一个基于树的模型,无论是随机森林还是梯度提升决策树。在部署之前对梯度提升决策树和随机森林模型进行了调整。第一个模型将会尝试根据交易级数据进行预测,比如货币、部门、金额和描述。如果这些交易看起来有问题,我们就把这种预测称为第一级预测。当我们调整第一个模型的时候,我们优化了召回分数,因为我们希望最小化假阴性。

    仅采用单一模型体系结构,逻辑和技术都会有缺陷。第一,我们的目的是预测代理,而非交易。单独的模型将试图预测交易,而非代理。另外,有些特征不能用交易级数据进行编码,比如每个供应商的商品种类的数量。所以,在进行了第一级预测后,下一步是根据厂商汇总结果。在此过程中,我们选择统计供应商进行交易的唯一实体数量(例如, Uber 和 Uber BV 是不同的实体),统计每个供应商唯一交易类型数量,并取每个供应商预测交易的平均值。举例来说,如果一家供应商有 10 个交易,其中 8 个交易是由第一个模型预测的(未作标签),那么该供应商在汇总中得分 0.80。

    最后,支持向量机(Support Vector Machine,SVM)模型将利用这些特征进行最终的预测。通过对支持向量机模型的调整,将不平衡数据考虑在内,优化了平衡准确率得分。

    为什么没有使用朴素贝叶斯?因为我们不知道先验概率是多少。请记住,我们的标签数据只是一批手工挑选的供应商。我们不知道他们是占所有供应商或交易的 5%、10%,还是 50%。因此,我们没有任何理由去使用朴素贝叶斯。

    模型性能

    表 1:“二八开”双模型架构中,训练和验证数据的混淆矩阵。

    上面的表格是厂商数据在“二八开”时的训练和验证得分。由于阳性标签的数量非常少,所以拆分时对数据进行了分层。

    以下是模型与整个数据集拟合后的混淆矩阵,供参考。

    表 2:双模型架构下完全训练模型的混淆矩阵

    混淆矩阵显示了有希望的结果。但是,对于如此小的样本,我们在评估结果时必须非常谨慎。尽管随机森林 - 支持向量机在同类产品中的表现明显优于梯度提升型决策树 - 支持向量机,但我们不能很快地完全否定梯度提升决策树 - 支持向量机。

    以下是验证分数及其 95% 的置信区间。虽然在每个统计量的点估值之间存在显著差异,但是实际上,两个模型之间的置信区间有相当大的重叠。将模型应用到实际生产中,所得到的输入越多,置信区间越窄,点估计就越更准确。

    表 3:“二八开”的两种模型的验证数据的分类报告

    若要评估单模型架构和双模型架构的结果,最好的方法就是将交易级别的预测结果按厂商进行汇总。对于基准测试来说,如果某一供应商有一个积极的预测,那么我们假定该供应商是预测的代理。这个方法似乎有些极端,但实际上,如果我们只对交易进行预测,我们就将利用预测结果调查可疑的供应商。

    表 4:两种架构的完全训练过的模型的分类报告 * 注:此表仅用于演示单模型和双模型架构之间的同类比较。

    结论

    在评估哪种模型最好的时候,我们将以上表 3 中所示的验证分数作为基准,根据这些分数做出判断。考虑到这些结果,我们部署了随机森林 - 支持向量机架构作为最终的架构,这不仅是因为它的性能,也因为它的训练和超参数调优的速度非常快。随机森林算法可以在几分钟内执行 RandomSearchCV,而梯度提升决策树需要超过 6 个小时的调优。当然,随机森林可能已经过拟合,但是,鉴于目前的数据规模,很难进行评估。然而,在获得新数据时,我们需要保持并重新调整模型,并相应地进行重新评估。在此过程中,根据模型预测,选取少数厂商,用更有力的证据来支持审计,并对当前问题进行量化。

    借助这一项目,我们可以更加自信地为管理层提供全面的信息,回答诸如每个国家有多少代理、交易数量、所付现金总额、过去三年的演变情况,以及使用情况等问题。这样,我们就可以了解到管理层之前没有意识到的问题,同事也为我们提供了关于如何让合适的领导者参与解决业务风险方面的重要洞察力。本文提出的方法还可用于其他审计,值得进一步研究。

    作者介绍

    Jesse He,数据科学家,Uber 内部审计公司数据科学团队的创始成员。在 Uber,致力于推动内部审计的边界,热衷于学习和应用创造性的机器学习解决方案来解决就问题。在普渡大学获得了 MIS。会计和金融专业的学士学位,其间还学习了航空工程、航空航天管理,并获得了商业飞行员执照。

    原文链接:

    https://eng.uber.com/ml-internal-audit/

    编辑:黄继彦

    校对:林亦霖

    展开全文
  • 我们将属性称为"特征" (feature) ,对当前学习任务有 用的属性称为"相关特征" (relevant ...在现实 机器学习任务中 获得数据之后通常先进行特征选择,此后再训练学习器。 有两个很重要的原因:首先,我们在现实任

    我们将属性称为"特征" (feature) ,对当前学习任务有 用的属性称为"相关特征" (relevant feature) 、没什么用的属性称为"无关特 征" (irrelevant feature). 从给远的特征集合中选择出相关特征于集的过程,称 为"特征选择" (feature selection).特征选择是一个重要的"数据预处理" (data preprocessing) 过程?在现实 机器学习任务中 获得数据之后通常先进行特征选择,此后再训练学习器。

    有两个很重要的原因:首先,我们在现实任务中经常会遇到维数灾难问题, 这是由于属性过多而造成的?若能从中选择出重要的特征,使得后续学习过程 仅需在-部分特征上构建模型?则维数灾难问题会大为减轻.去除不相关特征往往会降低学习任务的难度?这 就像侦探破案一样,若将纷繁复杂的因素抽丝剥茧,只留下关键因素,则真相往 往更易看清.

    特征选择过程必须确保不丢失重要特征,否则后续学习过程 会因为重要信息的缺失而无法获得好的性能.,特征选择中所谓的"无关特征"是指与当前辈习 任务无关

    两个关键环节:如何根据评价结果获取下一个候 选特征子集?如何评价候选特征子集的好坏?

    将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法.例 如将前向搜索与信息娟相结合,这显然与决策树算法非常相似.事实上,决策树 可用于特征选择,树结点的划分属性所组成的集合就是选择出的特征子集.其 他的特征选择方法未必像决策树特征选择这么明显,但它们在本质上都是显式 或隐式地结合了某种(或多种)子集搜索机制和子集评价机制. 常见的特征选择方法大致可分为三类:过滤式(且lter) 、包裹式(wrapper)和. 嵌入式(embedding).

    过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程 与后续学习器无关.这相当于先用特征选择过程对初始特征进行"过滤",再 用过滤后的特征来训练模型.Relief (Relevant Features) [Kira and Rendell, 1992] 是一种著名的过滤式 特征选择方法,该方法设计了一个"相关统计量"来度量特征的重要性.Relief 的关键是如何确定相关统计量,,相关统计量对应于属性 分量为

    实际上 Relief 只需在数据集的 采样上而不必在整个数据集上估计相关统计量 [Kira and Rendell, 1992]. 显然, Relief 的时间开销随采样次数以及原始特征数线性增长,因此是一个运行效率 很高的过滤式特征选择算法.Relief 是为二分类问题设计的 其扩展变体 RelieιF [Kononenko , 1994] 处理多分类问题 

    与过滤式特征选择不考虑后续学习器不间?包裹式特征选择直接把最终将 要使用的学习器的性能作为特征于集的评价准则.换言之?包裹式特征选择的 目的就是为给定学习器选择最有利于其性能、 "量身走做"的特征子集.

    LVW (Las Vegas Wrapper) [Liu and Setiono, 1996] 是一个典型的包裹式 特征选择方法.它在拉斯维加斯方法(Las Vegas method) 框架下使用随机策略 来进行子集搜索,并以最终分类器的误差为特征子集评价准则,若有运行时间限制?则有可能给不出解. 

    在过滤式和包裹式特征选择方法中,特征选择过程与学习器训练过程有明 显的分别;与此不同,嵌入式特征选择是将特征选择过程与学习器训练过程融 为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了 特征选择.

    当样本特征很多,而样本数相对较少时,式(1 1. 5) 很容易陷入过拟合.为了 缓解过拟合问题,可对式(11.5) 引入正则化项.若使用 L2 范数正则化,则有 

    其中正则化参数 λ>0 (11.6) 称为 "ili令回归" (ridge regression) [Tikhonov and Arsenin, 1977] ,通过引入 范数正则化?确能显著降低过拟合的风险,

    L1范数和 L2 范数正则化都有助于降低过拟合风险,但前者还会带来一个 额外的好处:它比后者更易于获得"稀疏" (sparse) 解,即它求得的 会有更 少的非零分量. 

     

     注意到 取得稀疏解意味着初始的 个特征中仅有对应着 的非零分量 的特征才会出现在最终模型中 于是,求 范数正则化的结果是得到了仅采 用一部分初始特征的模型;换言之,基于 则化的学习 方法就是一种嵌入式 特征选择方法?其特征选择过程与学习器训练过程融为一体, 同时完成.

    L1正则化问题的求 可使用近端梯度下降

    不妨把数据集 D考虑、成一个矩阵,其每行对应于·个样本,每列对应于_.. 个特征.特征选择所考虑的问题是特征具有"稀疏性"?即矩阵中的许多列与 当前学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度可能有所降低?涉及的计算和存储开销会减少, 学得模型的可解释性也会提高.

    当样本具有这样的稀疏表达形式时,对学习任务来说会有不少好处,例如 线性支持向量机之所以能在文本数据上有很好的性能,恰是由于文本数据在使 用上述的字频表示后具有高度的稀疏性,使大多数问题变得线性可分.

    为普通稠密表达的样本找到合适的 字典,将样本转化为合适的稀疏表示形式,从而使学习任务得以简化,模型 复杂度得以降低,通常称为"字典学习" (dictionary learning) ,亦称"稀疏编 码" (sparse coding). 这两个称谓稍有差别,"字典学习"更侧重于学得字典的 过程?而"稀疏编码"则更侧重于对样本进行稀疏表达的过程由于两者通常 是在同一个优化求解过程中完成的,因此下面我们不做进一步区分,笼统地称 为字典学习.

    给定数据集 {Xl X2 •• 字典学习最简单的形式为

    奈奎斯特采样定理提供 了信号恢复的充分条件而 非必要条件

    事实上,在很多应用中均可获得具有稀疏性的 例如图像或声音的数字信 号通常在时域上不具有稀疏性?但经过傅里叶变换、余弦变换、小波变换等处 理后却会转化为频域上的稀疏信号.

    基于部分信息来恢复全部信息的技术在许多现实任务中有重要应用.能通过压缩感知技术恢复欠采样信号的前提条件之一是信号 有稀疏表示

    展开全文
  • 机器学习稀疏核机(Sparse Kernel Machines) 研究具有稀疏解的基于核的算法,以便对新输入的预测仅依赖于在训练数据点的子集处计算的核函数。 一种是支持向量机(SVM)用于解决分类、回归和新颖检测中的问题。...
  • 11.1 子集搜索与评价 对当前任务有关的属性称为相关特征,对当前任务没有关系的属性称为无关特征。...冗余特征在很多时候不起作用,去除掉之后可以减轻学习的负担。 但是有的时候冗余特征却可以降低学习的难度。
  • 大家好,今天我们学习【机器学习速成】之 稀疏性正则化:L1正则化。我们马上学三点,稀疏特征的组合问题L1正则化L1和L2正则化区别大家可以点击下面的“了解更多”,或搜索“马上学123”,在线观看PPT讲义。稀疏特征...
  • 点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:机器之心AI博士笔记系列推荐周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接几年前机器之...
  • 尽管可解释的机器学习方法多种多样,但解释的视角和意义也各不相同。我们回顾了当前可解释的方法,并根据所应用的模型对其进行了划分。我们将其分为两类:具有自解释模型的可解释方法和具有外部协同解释的可解
  • 在实际应用中,机器学习模型的输入动辄几百上千万维,稀疏性就显得更加重要。 2. L1正则化使得模型参数具有稀疏性的原理是什么? 角度:解空间形状   在二维的情况下,黄色的部分是L2和L1正则项约束后的解空间,...
  • 稀疏矩阵在工程应用中经常被使用,尤其是在通信编码和机器学习中。若编码矩阵或特征表达矩阵是稀疏矩阵时,其计算速度会大大提升。对于机器学习而言,稀疏矩阵应用非常广,比如在数据特征表示、自然语言处理等领域。...
  • 由于具有高度可扩展、能够优化和快速实现梯度增强,因此LightGBM备受机器学习开发人员,特别是全栈工程师的欢迎。 八、Eli5 大多数情况下,机器学习模型的预测结果并不太准确,而 Eli5 内置Python的机器学习库却...
  • 关键词:机器学习 / 神经网络 / 稀疏 摘要: 全联接神经网络从发明至今到处可见其身影,它可以用来实现分类或回归任务,有效拓展机器的决策能力,然而全联接的参数总量非常庞大,既需要硬盘空间保存模型,运行时又...
  • 前言机器学习 作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。一个经典的机器学习的定义是:A computer program...
  • 机器学习 基本概念 判别式模型和生成式模型 判别式模型是直接对条件概率p(y\mid x;\theta)建模,来预测x所属的分类。 常见的判别式模型有:线性回归模型、支持向量机SVM、神经网络等。 生成式模型则会对x和y的联合...
  • 神经网络稀疏性调研

    千次阅读 2021-02-22 14:42:19
    一种可行的解决方案:充分利用机器学习模型中的稀疏性。所谓的稀疏性是指在计算中不必要,没用的计算。通过减少计算量,就可以保证降低不必要的存储和计算,提升机器学习模型部署时的性能。 稀疏性的分布 根据稀疏性...
  • 点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:量子位,redditAI博士笔记系列推荐周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接...
  • 【导读】:全面介绍机器学习发展的历史,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning。 自科学技术和人工智能最初发展开始,科学家Blaise Pascal和Von Leibniz就思考着如何制造一台像...
  • 机器学习已经被广泛使用,但仍然是黑盒模型。但是,如果人类无法相信某个模型,那么很难在产品中部署这个模型。这里区分两个概念: trusting a prediction\text{trusting a prediction}trusting a&...
  • 机器学习(ML, machine learning)在药物发现中的受欢迎程度持续增长,取得了令人印象深刻的结果。随着其使用的增加,其局限性也变得明显。这些局限性包括它们对大数据的需求、数据的稀疏性以及缺乏可解释性。此外,...
  • 马尔科夫链 隐马尔科夫(HMM) 什么样的问题需要HMM HMM模型的定义 一个HMM模型实例 HMM模型的三个基本问题 前言 原创不易,转载请注明出处 机器学习中关于解决回归问题的总结 注:以下线性回归中,均可采用梯度下降、...
  • 点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元AI博士笔记系列推荐周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接李沐斯坦福20...
  • 机器学习要点总结

    2021-01-27 17:42:54
    六、机器学习效果评价指标 混淆矩阵如下所示: 精确度=TP/(TP+FP) 召回率=TP/(TP+FN) 准确率=(TP+TN)/(TP+FP+FN+TN) ROC曲线的横坐标是假正率(FPR),纵坐标是真正率(TPR,等同于召回率)。 FPR=FP/(FP+TN) TPR...
  • 机器学习练习题

    千次阅读 2021-11-16 10:08:00
    机器学习考试练习题单项选择题多项选择题判断题填空题简答题 单项选择题 1.在NumPy中创建一个元素均为0的数组可以使用( )函数。 [A] A.zeros( ) B.arange( ) C.linspace( ) D.logspace( ) 2.通常( )误差作为...
  • 个性化推荐中数据稀疏性怎么理解 造成的原因是什么? 每个领域对稀疏性的定义和解决方法都不一样,拿感兴趣地点推荐来说。 假定我拥有一群在上海的用户和他们最近一个月所到过的地点的记录。现在我想根据他所去过的...
  • 稀疏性的优点

    2020-12-22 07:55:11
    这种稀疏性带来许多优点. 参数稀疏有什么好处 1)特征选择(Feature Selection): 大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说,xixixi的大部分元素(也就是特征)都是和最终的输出...
  • 机器学习考试总结,简答题 1.监督学习和非监督学习是什么 监督学习,是其训练集的数据是提前分好类,带有标签的数据,进行学习到模型以及参数,当用测试集进行测试时,给出D测={Xi}=>{yi} 非监督学习,需要将一...
  • 人工智能(机器学习)学习路线一、小白必看:人工智能(机器学习)学习路线 2020-08-22二、人工智能新手入门学习路线和学习资源合集(含python/机器学习/深度学习/tensorflow)2020-04-09三、机器学习路线四、Python...
  • 机器学习题库

    2021-06-07 18:45:04
    单单R方不能表示变量显著,因为每次加入一个特征值,R方都会上升或维持不变。 但在“调整R方”的情况下这也有误(如果特征值显著的话,调整R方会上升)。单单R方不能反映变量重要,不能就此得出正确结论 假设...
  • 4、特征选择与稀疏学习 对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些则可能没什么用。将属性称为特征feature,则对当前学习任务有用的属性称为相关特征relevant feature,没什么用的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 44,704
精华内容 17,881
关键字:

机器学习稀疏性