精华内容
下载资源
问答
  • 点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达 本文转自:计算机视觉联盟AI博士笔记系列推荐周志华《机器学习》手推笔记正式开源!可打印版本附pdf...

    点击上方“小白学视觉”,选择加"星标"或“置顶

    重磅干货,第一时间送达
    
    

    本文转自:计算机视觉联盟

    AI博士笔记系列推荐

    周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

    Scaled ML Conference今年2月26-27召开,特斯拉AI高级总监Andrej Karpathy在会上给了一个报告,其中一些内容在去年6月ICML也讲过了。下面以网上的视频截屏作为笔记,我稍稍注释一下。

    报告纲要

    特斯拉30亿英里的驾驶数据,无人匹敌。

    前不久提供的导航功能(高速闸口),能自动换道。

    还有停车场的手机召唤。

    这是最近实现的L2.5功能。

    三个短视频,介绍行人AEB。

    这里展示了特斯拉的全自动驾驶的视频,看到上下高速。

    这里提了一下谷歌维摩,解释为什么人家那么早就开始了,因为有激光雷达,高清地图。

    这是维摩的自动驾驶展示,强调特斯拉是纯视觉技术。

    这里就是视觉的任务。

    展示全自动驾驶视频中的视觉技术。

    为强调视觉的难度,特意拿stop sign detection为例子,展示各种困难。

    介绍Data Engine的平台,以前ICML也讲过,同时强调特斯拉的shadow mode。

    这里举例,上面是遮挡,下面是右转弯不需要遵守stop。

    评估测度。

    介绍hydranet,以前就是多任务训练(multi task learning),给了个名字。

    重新介绍operation vacation,举例police alert light检测,称为landmark task,landmark定义为example of prototype。

    举例HydraNet,检测运动目标、道路边缘和道路线。

    这是其中Road Edge网络输出。

    这是Occupancy tracker,将道路边缘连接成空区域,可用于smart summon。

    过了两年,重提SW 2.0,不过这里是用于泊车场。

    提出BEV Net,即鸟瞰视图的预测,backbone共享,多个head。

    这里介绍BEV Net结果好于2D边缘预测的方法。

    应用视频:停车场红色边缘,绿色是分界。

    另外一个应用视频:停车场手机召唤。

    强调深度图,伪激光雷达,3D目标检测。

    介绍自己的非监督学习深度图预测,还是强调伪激光雷达的效果。

    特斯拉有最多的视频数据。

    下载1:OpenCV-Contrib扩展模块中文版教程

    在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

    下载2:Python视觉实战项目52讲

    在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

    下载3:OpenCV实战项目20讲

    在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

    交流群

    欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

    展开全文
  • 之前笔者有写过数据读取与处理解决内存溢出的相关处理方案(核心是用生成器分批处理) 可以看笔者之前的文章:机器学习预处理效率及内存优化(多进程协程优化) 本文主要讲解如何处理xgb模型训练的时候内存溢出的...

    在我们的机器学习任务之中,当数据量非常之大的时候。我们会在两个地方遇到内存溢出的情况。

    • 数据读取与处理
    • 模型训练

    之前笔者有写过数据读取与处理解决内存溢出的相关处理方案(核心是用生成器分批处理
    可以看笔者之前的文章:机器学习预处理效率及内存优化(多进程协程优化)

    本文主要讲解如何处理xgb模型训练的时候内存溢出的情况

    一、内存数据转libsvm文件

    主要是将数据转成生成器,然后分批以csr_matrix形式压缩写入相应文件。

    import xgboost as xgb
    import os
    from typing import List, Callable
    import pandas as pd
    import numpy as np
    from sklearn.datasets import load_svmlight_file, dump_svmlight_file
    from sklearn.datasets import load_boston
    from scipy.sparse import csc_matrix, csr_matrix
    
    
    def pandas_iter(df, chunksize):
        n = 0
        max_n = df.shape[0] // chunksize + 1
        while n < max_n:
            yield df.iloc[chunksize * n : chunksize* (n+1), :]
            n += 1
    
    
    def file2svm(pandas_chunk, train_columns, target_column='target',
                out_prefix='smvlight',
                out_afterfix_start_num=0):
        out_files = []
        while pandas_chunk:
            try:
                tmp = next(pandas_chunk)
            except:
                break
            X, y = tmp[train_columns], tmp[target_column]
            print(X.shape, y.shape)
            file_name_tmp = f'{out_prefix}_{out_afterfix_start_num}.dat'
            dump_svmlight_file(X, y, file_name_tmp, zero_based=False, multilabel=False)
            out_afterfix_start_num += 1
            out_files.append(file_name_tmp)
        return out_files, out_afterfix_start_num
    
    bst = load_boston()
    df = pd.DataFrame(bst.data, columns=bst.feature_names)
    df['target'] = bst.target
    
    # 1- 将df转换成生成器 当是一个非常大的文件的时候:pd_chunk = pd.read_csv('', chunksize=500000)
    pd_chunk = pandas_iter(df, chunksize=100)
    out_files, out_afterfix_start_num = file2svm(pd_chunk, train_columns=bst.feature_names, target_column='target',
                out_prefix='smvlight',
                out_afterfix_start_num=0)
    

    在这里插入图片描述

    二、生成DMatrix&训练模型

    参考: https://xgboost.readthedocs.io/en/latest/tutorials/external_memory.html
    这里官网的 next 中return 的数值应该是写反了,不然会报错。
    但是以Iterator的方式载入数据训练速度会降低。毕竟有舍有得么。

    
    class Iterator(xgb.DataIter):
        def __init__(self, svm_file_paths: List[str]):
            self._file_paths = svm_file_paths
            self._it = 0
            super().__init__(cache_prefix=os.path.join('.', 'cache')) # 'D:\\work'
        
        def next(self, input_data: Callable):
            # DMatrix
            if self._it == (len(self._file_paths)):
                return 0
    
            X, y = load_svmlight_file(self._file_paths[self._it])
            input_data(X, label=y)
            self._it +=1
            return 1
    
        def reset(self):
            self._it = 0
    
    
    it = Iterator(out_files)
    Xy = xgb.DMatrix(it)
    xgb_params = {
        'max_depth': 8,
        'learning_rate': 0.1,
        'subsample': 0.9,
        'colsample_bytree': 0.8,
        'objective': 'reg:squarederror'
    }
    xgb_model = xgb.train(xgb_params, Xy, evals=[(Xy, 'train')], num_boost_round=100, verbose_eval=20)
    """
    [0]     train-rmse:21.60054
    [20]    train-rmse:3.50944
    [40]    train-rmse:0.97840
    [60]    train-rmse:0.47697
    [80]    train-rmse:0.28121
    [99]    train-rmse:0.17366
    """
    
    
    展开全文
  • 文章目录采样正样本过采样正样本smote负样本欠采样基于聚类的随机采样(CBO)SMOTEBoost(采样方法和集成学习的集成)将二分类看成一分类或异常检测问题focal lossimbalance-XGBoost正负样本失衡时的评估指标 ...

    注:本文中,将大众样本视为负样本,小众样本视为正样本。即正样本很少,负样本很多。

    采样

    首先最基本的就是采样,分为过采样和欠采样。

    正样本过采样

    • 1.如果随机的复制多分正样本进行过采样,那么必然会导致过拟合,因为训练数据中的正样本会反复出现。这种做法不建议。
    • 2.可以通过smote的方式对正样本进行过采样。

    正样本smote

    SMOTE是一种合成采样的一种解决不平衡学习的方法,它已经被证明在很多领域都比较有效。它主要是基于现存的少数类样本,计算样本特征空间之间的相似度,然后创建人工合成样本。

    1. 对于正样本(少数类) S m i n ∈ S S_{min} ∈ S SminS中的样本,即 x i ∈ S m i n x_i∈S_{min} xiSmin,计算它的K个近邻;
    2. 通过计算n维空间的欧氏距离,得到距离 x i x_i xi最近的K个 S m i n S_{min} Smin中的样本数据;
    3. 然后从K个近邻中,随机选择一个样本,产生人工合成的数据

    x n e w = x i + ( x ^ i − x i ) ∗ δ , 其 中 S m i n 是 少 数 类 样 本 , x ^ i 是 x i 的 其 中 一 个 近 邻 , δ ∈ [ 0 , 1 ] 是 一 个 随 机 数 。 x_{new} = x_i + (\hat x_i - x_i) * δ,\\ 其中S_{min}是少数类样本,\\ \hat x_i是x_i的其中一个近邻,\\ δ∈[0, 1]是一个随机数。 xnew=xi+(x^ixi)δSminx^ixiδ[0,1]

    在这里插入图片描述
    上图展示了SMOTE的具体过程,
    (a)图展示了一个典型的不平衡的数据,SMOTE中的 K 取值为6。
    (b)图中展示了一个随机产生的合成样本,这个样本是沿着 x i x_{i} xi x i ^ \hat{x_{i}} xi^的直线产生的。

    SMOTE方法是一种过采样的方法,它克服了过采样的一些缺点,而且加强了原始数据。

    但是SMOTE方法可能会造成一定的过拟合。

    除了常用的smote之外,还有自适应合成采样,比如Borderline-SMOTE、Adaptive Synthetic Sampling(ADA-SYN),请参考:https://blog.csdn.net/hren_ron/article/details/81172044

    负样本欠采样

    • 在负样本空间中,随机的丢掉一些样本。

    因为下采样会丢失信息,如何减少信息的损失呢?

    1. 第一种方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。

    2. 第二种方法叫做BalanceCascade,利用增量训练的思想(Boosting):先通过一次下采样产生训练集,训练一个分类器,对于那些分类正确的大众样本不放回,然后对这个更小的大众样本下采样产生训练集,训练第二个分类器,以此类推,最终组合所有分类器的结果得到最终结果。

      https://zhuanlan.zhihu.com/p/36093594

    3. 第三种方法是利用KNN试图挑选那些最具代表性的大众样本,叫做NearMiss,这类方法计算量很大,感兴趣的可以参考“Learning from Imbalanced Data”这篇综述的3.2.1节。

    基于聚类的随机采样(CBO)

    基于聚类的随机采样方法可以用来解决类内不平衡问题,主要利用的聚类的方法。具体的过程如下:

    • 随机选择K个样本作为K个簇,并且计算K类样本在特征空间的平均值,作为聚类中心;
    • 对于剩下的每一个样本,计算它和K个聚类中心的欧氏距离,根据欧式聚类将其分配到最近的类簇中;
    • 更新每个簇的聚类中心,直到所有的样本都用完;

    在这里插入图片描述
    (a)中展示了原始数据集,多数类中3个类簇( m m a j = 3 m_{maj} = 3 mmaj=3),每个类簇中的样本数分别是:20、10、8。而少数类中有2个类簇(m_{min} 2),每个类簇中的样本数是:8, 5。
    (b)中展示了5个类簇中,各自有三个样本,并且已经计算好各自的聚类中心。同时还存在另外五个未分类的样本。
    (c)展示了如果对5个未分类的样本进行分类,每一个类簇的聚类中心发生改变。一旦所有的样本都用完,那么CBO使用过采样的方法填充所有的多数类的类簇。因此,多数类的类簇中的样本个数相同。
    (d)中是使用CBO之后的样本分布情况,因此,类簇B和C的样本数都是20。使用 N C B O N_{CBO} NCBO表示多数类的样本数量,因此, N C B O = N m a j + E m a j , N C B O = 60 N_{CBO} = N_{maj} + E_{maj},N_{CBO}=60 NCBO=Nmaj+EmajNCBO=60。然后我们使用过采样的方法填充少数类的类簇,使得每一类簇中包含 N C B O / m m i n N_{CBO}/m_{min} NCBO/mmin个样本。因此,这个例子中少数类的每一类簇应该包含 60 / 2 60/2 60/2个样本。

    从上述例子中,我们可以发现CBO对于每一个类簇都会产生足够多的样本,因此,对于不同的类它具有很强的表示能力。同时,在CBO的过程中,我们也可以采用其他的采样方法,比如smote。

    SMOTEBoost(采样方法和集成学习的集成)

    SMOTEBoost主要是把SMOTE和AdaBoost.M2集成在一起,SMOTEBoost方法在每次Boost迭代过程中使用合成数据的方法。因此,每一次迭代过程中的分类器都会集中到更多的少数类样本。

    代码参考:

    https://github.com/aniketdwivedi12/SMOTEBoost/blob/master/SMOTEBoost.ipynb

    将二分类看成一分类或异常检测问题

    对于正负样本极不平衡的场景,我们可以换一个完全不同的角度来看待问题:把它看做一分类(One Class Learning)或异常检测(Novelty Detection)问题。这类方法的重点不在于捕捉类间的差别,而是为其中一类进行建模,经典的工作包括One-class SVM等。

    说明:对于正负样本极不均匀的问题,使用异常检测,或者一分类问题,也是一个思路。

    # 一分类svm
    from sklearn.svm import OneClassSVM
    # 孤立森林异常检测
    from sklearn.ensemble import IsolationForest
    

    focal loss

    自定义损失函数:focal loss

    关于focal loss参考:https://blog.csdn.net/qq_42363032/article/details/121540392

    imbalance-XGBoost

    pip install imxgboost

    from imxgboost.imbalance_xgb import imbalance_xgboost as imb_xgb
    # ----------
    base = imb_xgb(special_objective='focal', focal_gamma=focal_gamma)
    base.fit(x_train, y_train)
    print('base fit over')
    y_test_preba = base.predict_sigmoid(x_test)
    # ----------
    base = imb_xgb(special_objective='weighted', imbalance_alpha=imbalance_alpha)
    base.fit(x_train, y_train)
    print('base fit over')
    y_test_preba = base.predict_sigmoid(x_test)
    

    官网如下:
    https://github.com/jhwjhw0123/Imbalance-XGBoost

    正负样本失衡时的评估指标

    https://blog.csdn.net/qq_42363032/article/details/121560262









    参考链接:

    https://blog.csdn.net/jemila/article/details/77992967

    https://blog.csdn.net/hren_ron/article/details/81172044

    https://www.zhihu.com/question/428547855

    展开全文
  • 字节跳动开源云原生机器学习平台 Klever

    万次阅读 多人点赞 2020-12-24 11:46:45
    字节跳动基础架构团队基于火山引擎机器学习平台 Clever 及其丰富的行业落地经验,推出开源项目 Klever,以工程化的方式降低智能技术落地门槛,助力企业快速打造智能业务。 项目地址 | kleveross 近年来,智能技术...

    在这里插入图片描述

    字节跳动基础架构团队基于火山引擎机器学习平台 Clever 及其丰富的行业落地经验,推出开源项目 Klever,以工程化的方式降低智能技术落地门槛,助力企业快速打造智能业务。

    项目地址 | kleveross

    近年来,智能技术不论是在学术界还是工业界都取得了突破性进展。机器学习、深度学习开始在各行各业扮演重要角色:业务上,帮助企业优化运营、提高效率、改善客户体验;管理上,参与后台自动化运营,完成数据处理和提取等任务。

    然而,随着越来越多企业开始尝试落地智能技术,一个严峻的问题也逐渐暴露出来:从算法技术选型到模型最终上线,这个过程涉及大量工程化任务对接。算法工程师们掌握着丰富的先进算法,但算法能力的实现通常离不开底层计算资源和系统架构的支撑,如何实现从开发、模型训练、模型管理、模型服务全链路高效、敏捷、自动化管理,进而实现企业的智能化转型,仍是当前智能技术领域亟待解决的问题之一。

    开源机器学习平台 Klever

    针对上述问题,字节跳动基础架构团队多年来就智能技术的工程化问题进行了长期探索。
    2020 年,字节跳动旗下的数字服务与智能科技品牌火山引擎携我们的技术实践落地国内某金融机构,使其模型上线效率提升了 10 倍,GPU 资源使用率提高 50%,自主创新能力大幅提高。

    这类落地最佳实践让我们深刻认识到了智能技术对企业业务持续增长的重要性,也让我们了解到缺乏工程化工具已经成为当下企业应用智能技术的一大掣肘。为此,我们决定推出开源机器学习平台 Klever。

    Klever 是一个支持 OCI(Open Container Initiative)标准存储训练模型、支持在线模型服务部署的云原生机器学习平台。算法科学家可以使用 Klever 进行模型管理模型解析模型转换模型服务,它已经解决了智能技术落地流程中的如下问题:

    • 模型的管理和分发
    • 模型解析和转换
    • 在线模型服务部署和管理

    同时,基于字节跳动在机器学习和云原生开源社区的技术积累,Klever 提供强大、通用的开源技术标准,方便企业无缝迁移线上应用。未来,它还将进一步支持模型开发、模型训练等一系列智能模型开发和管理流程,降低技术落地门槛,助力企业快速打造智能业务、全面实现智能化转型。

    Klever 概述

    系统架构

    Klever 有四个自研发的组件,并依赖三个开源组件:

    • ormb:模型打包、解压、上传、下载工具(点击了解 ormb)
    • model-registry:模型仓库及模型服务 API 管理层
    • modeljob-operator:ModelJob controller,管理模型解析、模型转换任务
    • klever-web:前端组件
    • Istio:开源服务网格组件,模型服务通过 Istio 对外暴露模型服务地址,实现模型服务按内容分流和按比例分流
    • Harbor:模型底层存储组件,对模型配置和模型文件进行分层存储
    • Seldon Core:开源模型服务管理的 Seldon Deployment CRD 的 controller,通过 SeldonDeployment CR 实现模型服务的管理
      在这里插入图片描述

    使用场景

    如前所述,目前机器学习平台 Klever 率先实现的是从模型仓库到模型服务的自动化管理,具体来说,它可以支持以下两种应用场景:

    • 模型管理
      开发的模型在团队内外、公司内外通过 ormb + Harbor 进行管理和分发
      用户如果有现成的模型文件,但是不知道如何构建模型服务,那么可通过将模型导入系统,一键部署模型服务
      用户可导入模型,获取模型的输入输出等模型内部信息

    • 模型服务
      支持简单模型服务和基于流量比例及内容分流的高级模型服务
      用户可通过构建自定义镜像的方式支持自定义模型服务
      支持 GPU 和 非 GPU 模式部署模型服务

    Klever 特性

    Klever 有三大特性。

    首先,通过与 Harbor 结合,它可以满足 OCI 标准的模型仓库管理,用户可以像使用 Docker 管理镜像一样管理机器学习模型。

    其次,整个系统可通过容器化的方式部署在 Kubernetes 容器管理平台之上,用户无需管理模型解析、模型转换、模型服务实际运行在哪台物理机之上,系统会自动调度和运行资源充足的机器,并在模型服务负载较高时自动弹性伸缩。

    最后,由于机器学习在不同训练过程中往往使用不同的数据集,会产生不同的模型,Klever 支持多种模型服务运行时,可将产生的模型用于提供生产环境可用的在线服务。

    在这里插入图片描述

    模型管理

    ORMB 命令行管理

    ORMB 是 Klever 下的一个命令行管理工具子项目,可以像 Docker 管理镜像一样管理模型。它支持 OCI 标准,可以对模型文件和模型属性进行分层存储管理。

    在这里插入图片描述

    支持的命令类型:

    执行 ormb save 保存模型时,我们需要按照如下目录格式管理模型,其中 ormbfile.yaml 文件格式请参考 spec-v1alpha1.md

    在这里插入图片描述

    模型解析与转换

    Klever 通过自动 ModelJob CR 进行模型解析和模型转换任务的管理,模型解析任务需要设置模型的格式及模型的 URI,模型转换任务则需要设置模型源模型格式、目标模型格式及模型 URI。

    在这里插入图片描述
    在这里插入图片描述

    模型解析和转换的执行通过自定义脚本的方式实现,每种类型的模型解析和模型转换任务都有对应的脚本,脚本在 github.com/kleveross/klever-model-registry/tree/master/scripts 下集中管理。解析内容主要包括 inputs、outputs、operators。任务通过 status 的 message 和 phase 字段可以返回给用户任务当前执行的状态,并在异常时返回异常信息。

    模型拉取

    模型解析和转换任务执行之前,需要将模型文件拉取到 Container 中并重新组织为模型服务器需要的目录格式,此过程通过扩展 ORMB 实现了一个 ormb-stororage-initializer 容器,该容器作为任务的 initContainer 存在,它将模型 pull & export 到 /mnt/input 目录下,模型解析和转换任务的容器和 initContainer 共享 /mnt/input 挂载点使用下载的模型。

    支持的模型格式

    在这里插入图片描述

    模型服务

    Klever 基于 Seldon-Core 实现模型服务,创建模型服务会首先创建一个Seldon Deployment,并在其Init Container中通过 ormb-storage-initializer 下载模型。
    若模型为PMML格式,将使用 OpenScoring 镜像启动服务;若模型为其他 Triton Server 支持的模型格式,将使用 Triton Server 镜像启动服务.镜像中会自动通过ormbfile.yaml中的信息生成 Triton Server 所需要的 config.pbtxt 文件。

    模型推理运行时

    当前 Klever 已支持通过 Nvidia Triton Server 模型服务器部署深度学习模型服务,通过 OpenScoring 部署 PMML 格式的传统机器学习模型。我们还在完善对 Spark MLlib、MLFlow 及 XGBoost 模型服务器的支持,会在近期完成。

    在这里插入图片描述

    支持的模型格式

    • SavedModel
    • ONNX
    • GraphDef
    • NetDef
    • TensorRT with GPU
    • TorchScript
    • PMML

    服务访问方式

    部署为模型服务之后,用户如何通过 API 接口进行模型服务的访问呢?对于 Nvidia Triton Server 渲染的模型服务,访问地址为:

    在这里插入图片描述

    对于 OpenScoring 渲染的模型服务,访问地址为:

    在这里插入图片描述

    其中,servingName 为模型服务的名称,在创建模型服务的时候需要指定该名称。

    部署

    讲到这里,大家是否已经迫不及待地想安装和使用 Klever 了呢?Klever 提供一键部署安装的脚本,同时也支持详细的部署文档,你只需要有一个 Kubernetes 环境即可安装部署。

    在这里插入图片描述

    RoadMap

    当前,在字节跳动内部,我们仍在基于各类实践完善云原生机器学习工程化平台的构建想法,丰富 Klever 的功能和内涵。在外部市场,火山引擎推出的商业化版机器学习平台 Clever 已在金融、制造、零售、能源等行业拥有成熟的解决方案,为各行业头部客户业务的持续增长提供赋能,也为 Klever 开源提供重要实战经验。

    当前 Klever 仅支持模型文件及模型元数据的基本属性的存储和管理,以及支持在线模型服务的功能。但是 Klever 的使命远不止于此,未来它将完成从训练到模型、再到模型服务的全链路管理。

    • 权限管理
    • 更完善的模型解析和转换
    • 模型服务器
    • 支持 XGboost
    • 支持 MLflow
    • 支持 Spark MLlib
    • 支持推理图
    • 支持多种发布策略,例如灰度发布、金丝雀发布等
    • 更完善的分流策略
    • 边缘部署

    为了实现这一蓝图,我们在此呼吁开源社区开发者的力量,欢迎更多志同道合的朋友加入我们!

    相关链接

    https://github.com/kleveross/ormb

    https://github.com/kleveross/klever-model-registry

    https://github.com/kleveross/klever-web

    https://github.com/istio/istio

    https://github.com/goharbor/harbor

    https://github.com/SeldonIO/seldon-core


    欢迎关注「 字节跳动技术团队 」

    简历投递联系邮箱「 tech@bytedance.com 」

    展开全文
  • 文章目录内容介绍解析法Vs数值法分析法方案数值法方案机器学习中的数值解机器学习中更广泛的经验解决方案回答你的疑问 内容介绍 是否曾经有这样的疑问: 什么数据最适合我的问题? 什么算法最适合我的数据? 如何...
  • 机器学习心得

    千次阅读 2021-10-27 14:03:22
    1. 机器学习的概念: 解释1:机器学习是一门通过编程让计算机从数据中进行学习的学科。 解释2:机器学习是一个研究领域,让计算机无须进行明确的编程就具备学习能力。 解释2:一个计算机程序利用经验E来学习任务T...
  • 计算平台是阿里巴巴集团数据平台的基础技术设施,提供一站式数据采集、加工、分析、挖掘的平台服务,及完善的配套数据开发、数据管理工具,支持离线分布式计算、在线流计算、图计算、实时多维分析、机器学习、深度...
  • 机器学习与组合优化

    2021-01-13 11:22:19
    这是我最近阅读的一篇文章,感觉写得非常好,主要是以旅行商问题为代表,介绍机器学习方法在这种组合优化问题上的应用,读完此文,对于组合优化,机器学习跨领域交叉等方面都有了深度的认识。但是由于CSDN转载的时候...
  • 前言机器学习 作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。一个经典的机器学习的定义是:A computer program...
  • 如何解决机器学习领域的数学问题,打下坚实的数学基础?是很多初学者乃至进阶者关心的话题。我们把这个问题拆解成下面几个问题: 1. 为什么需要数学? 2. 机器学习中究竟用到了哪些数学知识? 3. 如何掌握这些...
  • 你的机器学习您的机器学习解决方案 内容介绍 机器学习是一个庞大的跨学科研究领域。 您可以通过机器学习获得令人印象深刻的结果,并为非常具有挑战性的问题找到解决方案。但这只是更广泛的机器学习领域的一小部分,...
  • 【导读】:全面介绍机器学习发展的历史,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning。 自科学技术和人工智能最初发展开始,科学家Blaise Pascal和Von Leibniz就思考着如何制造一台像...
  • 机器学习】Meta-Learning(元学习)

    千次阅读 2021-11-14 09:15:43
    文章目录前言从传统学习引出元学习对比机器学习和元学习如何实现元学习参考链接 前言 元学习Meta Learning,含义为学会学习,即learn to learn,带着对人类的“学习能力”的期望诞生的。Meta Learning希望使得模型...
  • 基于3D技术的机器视觉解决方案

    千次阅读 2021-03-27 00:59:25
    点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达 本文转自|新机器视觉 当前机器视觉主流的检测手段还是依赖2D相机,即从灰度图中提取被测物特征,在X...
  • 机器学习平台kubeflow搭建 文章目录机器学习平台kubeflow搭建前言一、搭建流程1. k0s 构建k8s平台2. 准备pv3. 安装kubeflow二、问题总结 前言 首先来一段官网的介绍:Kubeflow项目致力于使Kubernetes上机器学习...
  • 点上方蓝字人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :新智元机器学习可否「绕开」物理规律,直接从数...
  • 机器学习练习题

    千次阅读 2021-11-16 10:08:00
    机器学习考试练习题单项选择题多项选择题判断题填空题简答题 单项选择题 1.在NumPy中创建一个元素均为0的数组可以使用( )函数。 [A] A.zeros( ) B.arange( ) C.linspace( ) D.logspace( ) 2.通常( )误差作为...
  • 点上方蓝字人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :机器之心在生产环境中部署机器学习模型是一个复...
  • 1. 机器学习解决什么问题 机器学习的应用场景有很多,比如对话系统、语音识别、人脸识别、推荐系统、天气预测等等,它们的本质都是要解决一个问题:预测。 对于对话系统来说,就是对于输入的语句,预测一句可能...
  • 因此,简而言之,机器学习是编程以优化最佳可能的解决方案,我们需要数学来理解该问题是如何解决的。 学习机器学习中数学的第一步是学习线性代数。 线性代数是解决在机器学习模型中表示数据和计算问
  • 1.你会怎么定义机器学习? 答:机器学习是一门能够让系统从数据中学习的计算机科学 2.机器学习在哪些问题上表现突出,你能提出四种类型吗? 答:机器学习非常利于: 1.不存在已知算法解决方案的复杂问题2. 需要...
  • 在介绍监督学习和无监督学习之前,我们首先来了解一下什么是特征值和目标值。 1、特征值: 特征值是指数据的特征,对于每个样本,通常具有一些 “属性”(Attribute)或者说 ”特征“(Feature),特征所具体取的值...
  • 机器学习基础知识点

    千次阅读 2021-10-24 14:38:12
    机器学习基础知识点 文章目录机器学习基础知识点监督学习回归线性回归岭回归lasso回归分类k最近邻分类朴素贝叶斯分类logistic回归支持向量机其他随机梯度下降线性判别分析决策树无监督学习聚类k均值分层次聚类谱聚类...
  • 物联网安全:基于机器学习、人工智能和区块链技术的挑战和解决方案背景介绍物联网IoT基础设施物联网协议IoT 应用物联网面临的攻击三种技术下的物联网安全调研区块链机器学习人工智能物联网当前的挑战 背景介绍 ...
  • 前一篇文章普及了基于机器学习的恶意代码检测技术,主要参考郑师兄的视频总结,包括机器学习概述与算法举例、基于机器学习方法的恶意代码检测、机器学习算法在工业界的应用。这篇文章将分享两篇论文,介绍机器学习是...
  • 如果你是机器学习的新手,你可能会想我应该学什么编程语言?不同的人使用不同的编程语言,但在这些流行的高级编程语言中,哪一种最适合机器学习? 机器学习是技术领域发展最快的领域之一,其发展速度呈指数级增长。...
  • 文章首先阐述机器学习技术在网络空间安全应用研究中的应用流程,然后从系统安全,网络安全和应用安全三个层面介绍了机器学习在网络空间安全领域中的解决方案,归纳了这些解决方案的安全特征及常用的机器学习算法,...
  • 机器学习】五种超参数优化技巧

    千次阅读 2021-07-20 00:15:02
    转载:我不爱机器学习超参数是用于控制学习过程的不同参数值,对机器学习模型的性能有显著影响。超参数优化是找到超参数值的正确组合,以在合理的时间内实现数据的最大性能的过程1 数据处理impor...
  • 机器学习—主要术语(整合版)

    千次阅读 多人点赞 2021-06-01 14:30:28
    本文参考谷歌官网对机器学习术语的解释,进行总结并加以描述。
  • Azure机器学习模型搭建实验

    千次阅读 2021-12-09 13:36:26
    Azure机器学习模型搭建实验

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 238,723
精华内容 95,489
关键字:

机器学习平台解决方案