精华内容
下载资源
问答
  • 数据安全-分类分级
    千次阅读
    2022-02-22 14:40:58

    背景

    近年来国家相继出台一些互联网安全相关的法律法规,如《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《关键信息基础设施保护条例》、《GB/T 35273 个人信息安全规范》、《电信和互联网用户个人信息保护规定》、《网络数据安全管理办法》、《个人信息和重要数据出境安全评估办法》等,从国家法律层面强调对网络,数据安全方面要进行怎么样的处理和防护。
    为了企业能满足国家和行业内等安全要求,同时也是为了保护公司和用户利益,免受恶意攻击和泄漏敏感信息等风险,在数据分离分级方面做出了如下思考。

    目的

    梳理敏感数据域

    做分类分级为什么要先梳理敏感数据域,什么是敏感数据域?某些密级程度较高的数据集合,在这里称为敏感数据域。因为“分级”涉及到敏感数据,这些数据不以业务为导向,只以其自身的属性决定等级归属,也就是说,这个字段本身是什么意思,它对应的数据域就是什么。举个例子,name字段的值是“张三”,那么name字段就属于姓名域。但如果不考虑分级,只考虑分类,就可以不必引入数据域的感念,根据业务将name划分为个人信息分类也无可厚非。在常见的梳理方法中,会将敏感数据域划分为公共敏感数据域(法律角度)、行业敏感数据域(行业规范角度)、企业敏感数据域(内部规范角度),公共敏感数据域和行业敏感数据域一般在法规文件里都会有定义,但企业敏感数据域的梳理工作就需要依靠参与人员对业务系统的理解程度。

    制定敏感等级

    与数据类别以业务为驱动不同,敏感等级是以数据的密级程度进行划分的,因此一个企业中的敏感等级不会太多,通常五级左右。制定敏感等级的方法同样见仁见智,如果未有明确的法律法规或标准,建议可以根据数据泄露所造成的影响范围、影响对象、影响程度来进行划分,此处同样不做过多赘述。如以下示例:

    • 绝密(G1)这是极度敏感的信息,如果受到破坏或泄漏,可能会使组织面临严重财务或法律风险,例如财务信息、系统或个人认证信息等。
    • 机密(G2):这是高度敏感的信息,如果受到破坏或泄漏,可能会使组织面临财务或法律风险,例如xinyongka信息, PII或个人健康信息(PHI)或商业秘密等。
    • 秘密(G3):受到破坏或泄漏的数据可能会对运营产生负面影响,例如与合作伙伴和供应商的合同,员工审查等。
    • 内部公开(G4):非公共披露的信息,例如销售手册,组织结构图,员工信息等。
    • 外部公开(5):可以自由公开披露的数据,例如市场营销材料,联系信息,价目表等。

    制定数据类别

    通常情况下,在一个业务系统里,一个业务范畴就可以划分为“爷爷类”、“父类”、“子类”、“孙子类”、“曾孙子类”,甚至更多的分类,严格来说,数据域可以算作最小分类。 这个可参考:证券期货业数据分类分级指引中的数据分类层次结构

    元数据归属数据域

    梳理完敏感数据域,需要将字段划分到敏感数据域下,以方便后续的归级操作。如果具备元数据管理的能力,或者在梳理敏感数据域的时候已经将字段进行了预处理,可以忽略此阶段。否则,需要对字段进行敏感数据域的归属处理,当然此处不必一定投入大量人力,可以依靠智能发现软件辅助完成。

    数据归类归级

    建设了元数据管理系统,并且元数据管理系统维护了分类分级的对象系统,那这个过程会轻松很多,因为已经完成了字段和数据域的归属工作。前面说过,数据域是颗粒度最小的类别定义,直接将数据域进行归类处理即可。如果没建设过元数据管理系统,就需要对业务系统中涉及的每个数据库的每张表的每个字段进行归类归级处理。当然,也有一些智能化的软件可以辅助完成这项工作,达到节省人力的目的。

    多套分类分级

    在企业中,并不一定只可以建设一套分类分级体系,原因在于有些法律之间本身存在冲突,或关注点不同,为了企业是可以建立多套分类分级体系来应对不同监管要求的。如果为了满足监管部门的要求才做分类分级,那么首先要注意究竟需要满足哪些合规要求。这项工作需要法务和咨询团队一起合作,根据企业的业务范围理出必须要遵守的法律法规。我们这里参考一些标准结合业务进行制定。

    资产盘点

    在企业数据安全治理中,通常都会遇到以下问题:

    • 分类难
      • 数量多、形式多,数据关系复杂,难以进行梳理
      • 对于内容是否敏感由人主观意愿判定,缺乏标准性
      • 缺乏自动化的数据内容分类和标记技术手段
    • 识别难
      • 无法明确某类敏感数据在组织的整体分布情况
      • 数据类型多、形态多、数量多,增加内容识别的难度
      • 缺乏处理漏报和误报的技术手段
      • 需要覆盖终端、网络、系统、数据库、存储等所有位置
    • 防护难
      • 缺乏数据分类保护规范和分类分级安全策略
      • 缺乏对不同数据在不同位置的风险评估视图,保护难以下手
      • 覆盖不同位置的存储、传输、使用全过程的保护成本高
    • 评价难
      • 缺乏数据保护评价指标、方法和数据
      • 数据保护管控措施的有效性无法客观评价
      • 缺乏评价导致无法有效改进,难以保证事件再次发生

    针对这些问题,我们需要更好的对资产进行盘点梳理,清晰的感知数据安全状态,以便于后续可以做出针对性的防护措施,更好的保护数据资产信息,对企业的数据进行安全治理和管控。

    持续分类分级的能力

    每个企业的信息化建设都不是停滞不前的,如果依靠智能化软件做了分类分级,那么就需要系统具备持续的能力(运营)。

    落地

    目标

    基于数据分类分级标准来进行,实现数据自动化分类分级,明确我们需要保护的数据并清晰感知数据的安全现状和分布。

    大体架构

    架构

    流程

    以下为数据标准分类分级标准化系统的大致流程:

    1. 归纳整理只需要对标各类行业或者国家规定的数据分类分级标签: 车联网分类分级,个人隐私分类分级,办公网分类分级
    2. 编写自动化识别引擎和规则进行识别(由于企业性质,有些数据分类分级标准没有出来,所以在流程上做了变更先采集业务线已知的数据类型然后根据企业自身进行分类分级定义)
    3. 定义数据安全组织,对存在异常分类分级的数据标签,数据归属业务部门的数据安全执行人需要对数据进行校准, 也便于后阶段对敏感数据进行操作的权限审批管理。

    自动化部分流程

    主体包含几个部分:数据分类分级标准定义,数据分级分级标准管理,自动化分类分级和校准,数据操作权限审批。

    数据分类分级标准

    数据分类分级标准定义,主要参考以下信息(主要分三种国家,行业,国外)如下:
    工业数据分类分级指南(试行)
    https://www.miit.gov.cn/n1278117/n1648113/c7574748/part/7574762.pdf
    证券期货业数据分类分级指引
    http://www.csrc.gov.cn/pub/zjhpublic/zjh/201809/P020180929383740214007.pdf
    信息安全技术个人信息安全规范
    https://www.tc260.org.cn/upload/2018-01-24/1516799764389090333.pdf
    国外个人信息保护
    https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-122.pdf
    车联网信息数据安全技术要求Y/DT 3751-2020
    http://www.ccsa.org.cn/standardDetail?standardNum=YD%2FT%203751-2020

    更多相关内容
  • 数据分析之数据分类了解

    万次阅读 2018-07-27 21:47:18
    一、分类数据 分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的...

    一、分类数据

    分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的标记而已。

    1、定类数据

    是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表示等。这里,无论是数值型的1、 2 还是字符型的‘汉’‘回’‘满’,都不存在内部固有的大小或高低顺序,而只是一种名义上的指代。下图中表示的便是一个样本典型的分类数据,分别描述了个体的性别和语言属性

    2、定序数据

    具有内在固有大小或高低顺序,一般可以用数值或字符表示。它相对于定类数据类型来说存在一种程度有序现象

    如职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A B C表示等。这里,无论是数值型的1、2 、3 还是字符型的A B C ,都是有大小或高低顺序的,但数据之间却是不等距的。因为,低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;

    上图中的四个选项依次表示了不同的受教育程度,但却无法量化初级教育与高中的差别和高中与大学差别间的不同。定序数据缺乏对于特征间差别的量化使得它更多的只能用于评价利于情绪和用户满意度等一系列非数值特征。

    二、数值数据

    1. 定距数据

    通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据

    定距变量用于表示对象等差属性的描述方法。当我们使用定距变量时我们可以明确的知道数值间的顺序和差别,并计量这种差别。对于温度的描述就是一个定距数据典型的例子。

    但定距变量存在的问题在于它没有一个绝对的基准零值,对于上图中的温度来说0度并不意味着没有温度。对于定距变量来说我们可以进行加减操作却无法进行乘除或者比例计算操作。由于不存在绝对零值使得描述性和推理性的统计方法都无法在定距数据上应用。

    2. 定比数据

    定比数据和定距数据一样都是有序的数据排列,但定比数据存在一个绝对的零值,所描述的都是具有零值基准的变量,包括重量、高度和长度等。

     

    离散数据

    离散数据是指其取值是不连续的分离值,数据只能在一些特定点取值。这样的数据不能定量测量但可以进行统计计量,并可将其蕴含的信息通过分类的方式进行表示。掷硬币便是最著名的例子,我们无法预测出下一次硬币的正反但是可以通过统计历史数据来估测概率的分布。

    当处理离散数据时我们需要对两个问题进行深入思考:数据是否可以计数统计,是否可以分割成较小的部分。如果结论于此相关数据可以被测量而不能够计数,那么意味着我们需要处理的便是连续的数据类型。

     连续数据

    连续数据类型代表着对象可测量的连续取值,虽然不能够计数但是可以用某种尺度进行连续的测量取值,例如人的身高和年龄便是连续的数值。通常情况下人们只用或者实数来进行表示。

    展开全文
  • 电影分类数据

    千次下载 热门讨论 2015-12-11 10:55:12
    康奈尔大学网站的2M影评数据集。 配合教程http://blog.csdn.net/lsldd/article/details/41542107
  • 这个CNN工具箱只用改一两个地方就可以对自己的数据分类了 比github上的deeplearning的工具箱里的CNN改动要简单
  • 垃圾分类图片数据集分享-约10w张数据

    万次阅读 多人点赞 2020-08-12 11:58:34
    最近在做一个相关项目,从网上整理了许许多多的有关于垃圾图片的数据集,几万张图片应该是有的。种类也比较全,找的时候发现很多在也在找,本着共享的精神把我这段时间收集的数据集分享出来。 3.数据集构成 目前收集...

    1.获取方式

    点赞本博客+评论区留邮箱,博主在会发送(私信博主)。
    访问的人太多了,需要私信联系。
    截至到2021.03.30评论区所有邮箱已无偿发送
    图片数据集直接留邮箱即可。

    2.问题描述

    最近在做一个相关项目,从网上整理了许许多多的有关于垃圾图片的数据集,十几万张图片应该是有的。种类也比较全四大类近150种,找的时候发现很多在也在找,本着共享的精神把我这段时间收集的数据集分享出来。

    3.数据集构成

    目前收集整理到到五个数据集,其中四个图片数据集,图片共计10w+,垃圾图片库最大最全。
    一个含有标注文件,已经手动标注好的数据集。2w左右数据集

    在这里插入图片描述
    在这里插入图片描述
    以及一个标注好的数据集

    3.1 DATASET

    主要分为两部分 共计2.5w张图片

    3.1.1 食物图片

    其一包含了厨房内各种各样食物的图片,用于训练厨余垃圾,含有图片1.4w张
    在这里插入图片描述

    3.1.2 可回收

    其二主要包含易拉罐,金属,玻璃,餐叉,酒瓶,塑料瓶等近30种可回收垃圾种类,含有图片1.2w张

    在这里插入图片描述
    在这里插入图片描述

    3.2垃圾分类资料

    共五种垃圾
    在这里插入图片描述

    在这里插入图片描述

    3.3 垃圾目录

    文件构成如下,共计约5W张图片
    在这里插入图片描述
    其中可回收垃圾包括

    0 传单
    0 充电宝
    0 包
    0 塑料玩具
    0 塑料碗盆
    0 塑料衣架
    0 快递纸袋
    0 报纸
    0 插头电线
    0 旧书
    0 旧衣服
    0 易拉罐
    0 杂志
    0 枕头
    0 毛绒玩具
    0 泡沫塑料
    0 洗发水瓶
    0 牛奶盒等利乐包装
    0 玻璃
    0 玻璃瓶罐
    0 皮鞋
    0 砧板
    0 纸板箱
    0 调料瓶
    0 酒瓶
    0 金属食品罐
    0 锅
    0 食用油桶
    0 饮料瓶
    

    有害垃圾包括

    1 干电池
    1 废弃水银温度计
    1 废旧灯管灯泡
    1 杀虫剂容器
    1 电池
    1 软膏
    1 过期药物
    1 除草剂容器
    

    厨余垃圾包括

    2 剩菜剩饭
    2 大骨头
    2 果壳瓜皮
    2 残枝落叶
    2 水果果皮
    2 水果果肉
    2 茶叶渣
    2 菜梗菜叶
    2 落叶
    2 蛋壳
    2 西餐糕点
    2 鱼骨
    

    其他垃圾包括

    3 一次性餐具
    3 化妆品瓶
    3 卫生纸
    3 尿片
    3 污损塑料
    3 烟蒂
    3 牙签
    3 破碎花盆及碟碗
    3 竹筷
    3 纸杯
    3 贝壳
    

    3.4 垃圾图片库

    整体图片库构成如下
    在这里插入图片描述

    3.4.1 其他垃圾

    共48种其他垃圾,部分展示
    在这里插入图片描述

    3.4.2 厨余垃圾

    共42种厨余垃圾,部分展示
    在这里插入图片描述

    3.4.3 可回收垃圾

    共50种可回收垃圾,不再展示

    3.4.4 有害垃圾

    共包含14种类型的垃圾。
    在这里插入图片描述

    4 标注好的数据集

    本数据集已经标注完成,如需获取标注数据集请私信联系
    共2w左右图像+标注文件。
    标注文件含文件名+图像类别。
    在这里插入图片描述

    {
        "0": "其他垃圾/一次性快餐盒",
        "1": "其他垃圾/污损塑料",
        "2": "其他垃圾/烟蒂",
        "3": "其他垃圾/牙签",
        "4": "其他垃圾/破碎花盆及碟碗",
        "5": "其他垃圾/竹筷",
        "6": "厨余垃圾/剩饭剩菜",
        "7": "厨余垃圾/大骨头",
        "8": "厨余垃圾/水果果皮",
        "9": "厨余垃圾/水果果肉",
        "10": "厨余垃圾/茶叶渣",
        "11": "厨余垃圾/菜叶菜根",
        "12": "厨余垃圾/蛋壳",
        "13": "厨余垃圾/鱼骨",
        "14": "可回收物/充电宝",
        "15": "可回收物/包",
        "16": "可回收物/化妆品瓶",
        "17": "可回收物/塑料玩具",
        "18": "可回收物/塑料碗盆",
        "19": "可回收物/塑料衣架",
        "20": "可回收物/快递纸袋",
        "21": "可回收物/插头电线",
        "22": "可回收物/旧衣服",
        "23": "可回收物/易拉罐",
        "24": "可回收物/枕头",
        "25": "可回收物/毛绒玩具",
        "26": "可回收物/洗发水瓶",
        "27": "可回收物/玻璃杯",
        "28": "可回收物/皮鞋",
        "29": "可回收物/砧板",
        "30": "可回收物/纸板箱",
        "31": "可回收物/调料瓶",
        "32": "可回收物/酒瓶",
        "33": "可回收物/金属食品罐",
        "34": "可回收物/锅",
        "35": "可回收物/食用油桶",
        "36": "可回收物/饮料瓶",
        "37": "有害垃圾/干电池",
        "38": "有害垃圾/软膏",
        "39": "有害垃圾/过期药物"
    }
    

    5.补充

    展开全文
  • 数据结构:八大数据结构分类

    万次阅读 多人点赞 2018-09-05 18:23:28
    数据结构分类 数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成 。 常用的数据结构有:数组,栈,链表,队列,树,图,堆,散列表等,如图所示: 每一种数据结构都...

    本文目录:

    数据结构分类

    数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成 。
    常用的数据结构有:数组,栈,链表,队列,树,图,堆,散列表等,如图所示:
    这里写图片描述
    每一种数据结构都有着独特的数据存储方式,下面为大家介绍它们的结构和优缺点。

    1、数组

    数组是可以再内存中连续存储多个元素的结构,在内存中的分配也是连续的,数组中的元素通过数组下标进行访问,数组下标从0开始。例如下面这段代码就是将数组的第一个元素赋值为 1。

    int[] data = new int[100];data[0]  = 1;
    

    优点:
    1、按照索引查询元素速度快
    2、按照索引遍历数组方便

    缺点:
    1、数组的大小固定后就无法扩容了
    2、数组只能存储一种类型的数据
    3、添加,删除的操作慢,因为要移动其他的元素。

    适用场景:
    频繁查询,对存储空间要求不大,很少增加和删除的情况。

    2、栈

    栈是一种特殊的线性表,仅能在线性表的一端操作,栈顶允许操作,栈底不允许操作。 栈的特点是:先进后出,或者说是后进先出,从栈顶放入元素的操作叫入栈,取出元素叫出栈。
    这里写图片描述
    栈的结构就像一个集装箱,越先放进去的东西越晚才能拿出来,所以,栈常应用于实现递归功能方面的场景,例如斐波那契数列。

    3、队列

    队列与栈一样,也是一种线性表,不同的是,队列可以在一端添加元素,在另一端取出元素,也就是:先进先出。从一端放入元素的操作称为入队,取出元素为出队,示例图如下:
    这里写图片描述
    使用场景:因为队列先进先出的特点,在多线程阻塞队列管理中非常适用。

    4、链表

    链表是物理存储单元上非连续的、非顺序的存储结构,数据元素的逻辑顺序是通过链表的指针地址实现,每个元素包含两个结点,一个是存储元素的数据域 (内存空间),另一个是指向下一个结点地址的指针域。根据指针的指向,链表能形成不同的结构,例如单链表,双向链表,循环链表等。
    这里写图片描述
    链表的优点:
    链表是很常用的一种数据结构,不需要初始化容量,可以任意加减元素;
    添加或者删除元素时只需要改变前后两个元素结点的指针域指向地址即可,所以添加,删除很快;

    缺点:
    因为含有大量的指针域,占用空间较大;
    查找元素需要遍历链表来查找,非常耗时。

    适用场景:
    数据量较小,需要频繁增加,删除操作的场景

    5、树

    是一种数据结构,它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做 “树” 是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:

    • 每个节点有零个或多个子节点;
    • 没有父节点的节点称为根节点;
    • 每一个非根节点有且只有一个父节点;
    • 除了根节点外,每个子节点可以分为多个不相交的子树;

    在日常的应用中,我们讨论和用的更多的是树的其中一种结构,就是二叉树
    这里写图片描述
    二叉树是树的特殊一种,具有如下特点:

    1、每个结点最多有两颗子树,结点的度最大为2。
    2、左子树和右子树是有顺序的,次序不能颠倒。
    3、即使某结点只有一个子树,也要区分左右子树。

    二叉树是一种比较有用的折中方案,它添加,删除元素都很快,并且在查找方面也有很多的算法优化,所以,二叉树既有链表的好处,也有数组的好处,是两者的优化方案,在处理大批量的动态数据方面非常有用。

    扩展:
    二叉树有很多扩展的数据结构,包括平衡二叉树、红黑树、B+树等,这些数据结构二叉树的基础上衍生了很多的功能,在实际应用中广泛用到,例如mysql的数据库索引结构用的就是B+树,还有HashMap的底层源码中用到了红黑树。这些二叉树的功能强大,但算法上比较复杂,想学习的话还是需要花时间去深入的。

    6、散列表

    散列表,也叫哈希表,是根据关键码和值 (key和value) 直接进行访问的数据结构,通过key和value来映射到集合中的一个位置,这样就可以很快找到集合中的对应元素。

    记录的存储位置=f(key)

    这里的对应关系 f 成为散列函数,又称为哈希 (hash函数),而散列表就是把Key通过一个固定的算法函数既所谓的哈希函数转换成一个整型数字,然后就将该数字对数组长度进行取余,取余结果就当作数组的下标,将value存储在以该数字为下标的数组空间里,这种存储空间可以充分利用数组的查找优势来查找元素,所以查找的速度很快。

    哈希表在应用中也是比较常见的,就如Java中有些集合类就是借鉴了哈希原理构造的,例如HashMap,HashTable等,利用hash表的优势,对于集合的查找元素时非常方便的,然而,因为哈希表是基于数组衍生的数据结构,在添加删除元素方面是比较慢的,所以很多时候需要用到一种数组链表来做,也就是拉链法。拉链法是数组结合链表的一种结构,较早前的hashMap底层的存储就是采用这种结构,直到jdk1.8之后才换成了数组加红黑树的结构,其示例图如下:
    这里写图片描述
    从图中可以看出,左边很明显是个数组,数组的每个成员包括一个指针,指向一个链表的头,当然这个链表可能为空,也可能元素很多。我们根据元素的一些特征把元素分配到不同的链表中去,也是根据这些特征,找到正确的链表,再从链表中找出这个元素。

    哈希表的应用场景很多,当然也有很多问题要考虑,比如哈希冲突的问题,如果处理的不好会浪费大量的时间,导致应用崩溃。

    7、堆

    堆是一种比较特殊的数据结构,可以被看做一棵树的数组对象,具有以下的性质:

    • 堆中某个节点的值总是不大于或不小于其父节点的值;

    • 堆总是一棵完全二叉树。

    将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。常见的堆有二叉堆、斐波那契堆等。

    堆的定义如下:n个元素的序列{k1,k2,ki,…,kn}当且仅当满足下关系时,称之为堆。
    (ki <= k2i,ki <= k2i+1)或者(ki >= k2i,ki >= k2i+1), (i = 1,2,3,4…n/2),满足前者的表达式的成为小顶堆,满足后者表达式的为大顶堆,这两者的结构图可以用完全二叉树排列出来,示例图如下:
    这里写图片描述
    因为堆有序的特点,一般用来做数组中的排序,称为堆排序。

    8、图

    图是由结点的有穷集合V和边的集合E组成。其中,为了与树形结构加以区别,在图结构中常常将结点称为顶点,边是顶点的有序偶对,若两个顶点之间存在一条边,就表示这两个顶点具有相邻关系。

    按照顶点指向的方向可分为无向图和有向图:
    这里写图片描述
    这里写图片描述
    图是一种比较复杂的数据结构,在存储数据上有着比较复杂和高效的算法,分别有邻接矩阵 、邻接表、十字链表、邻接多重表、边集数组等存储结构,这里不做展开,读者有兴趣可以自己学习深入。

    展开全文
  • 数据分类分级的实践方法论与更深层次的思考数据安全的未来未来的世界观价值和意义数据分类分级实践方法论背景数据分类分级介绍数据分类分级建设方案1.数据安全整体规划2.数据安全体系制度及实践指南数据分类分级效果...
  • 数据安全分类分级剖析

    千次阅读 2021-09-15 00:04:46
    数据分类分级对于数据的安全管理至关重要,安全分类分级是一个“硬核课题”,从数据治理开始,除了标准化和价值应用,重要的课题就是质量+安全。安全是底线,是价值应用的前提和基础。数据分类可以为数据资产结构化...
  • 二维二分类数据

    千次下载 热门讨论 2013-11-24 12:26:37
    二维二分类数据,大小为3*3000,数据格式为x坐标、y坐标、类别。前2500为训练集、后500为测试集
  • 不平衡数据分类

    万次阅读 2017-08-28 15:19:43
    引言 不管是在学术界还是工业界,不平衡学习已经吸引了越来越多的关注,不平衡...那么什么是不平衡数据呢?顾名思义即我们的数据集样本类别极不均衡,以二分类问题为例,假设我们的数据集是$S$,数据集中的多数类为
  • 数据安全之数据分类分级系统建设

    万次阅读 2020-05-01 18:57:15
    一、数据分类分级的意义 数据分类分级在数据安全治理过程中至关重要,数据的分级是数据重要性的直观化展示,是组织内部管理体系编写的基础、是技术支撑体系落地实施的基础、是运维过程中合理分配精力及力度的基础...
  • 数据挖掘——分类

    万次阅读 多人点赞 2018-10-10 21:52:21
    分类:一种数据分析形式,它提取刻画重要数据类的模型。这种模型叫分类器,进而预测分类的(离散的、无序的)类标号。 相关概念解释 训练集:由数据库元组和与它们相关联的类标号组成。 元组X用n维属性向量...
  • I . 分类概念 II . 分类 ( 离散值 ) 和 预测 ( 连续值 ) ... 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 ) V . 数据预处理 VI . 分类方法评价 VII . 分类算法举例 VIII . 有监督学习 和 无监督学习
  • 聚类、分类所用数据

    热门讨论 2012-09-06 09:55:35
    做聚类、分类时很经典的测试数据集,可以很好的检测你所设计的算法。我所上传的数据集格式是.mat格式,用load命令就可以加载。
  • 按Python对数据进行分类

    千次阅读 2021-02-03 23:33:31
    data) 输出:A B C D Day of the Week 1 1.5 4.5 7.5 5 3 2.0 4.0 6.0 8 pandas'星期一的惯例是星期一=0,星期日=6 pandas'groupby函数按照tin上的说明进行操作:它根据一些标准对数据进行分组,在本例中是“星期几...
  • 一篇文章搞懂数据仓库:元数据分类、元数据管理

    万次阅读 多人点赞 2020-12-31 15:41:39
    业务元数据 描述 ”数据”背后的业务含义 主题定义:每段 ETL、表背后的归属业务主题。 业务描述:每段代码实现的具体业务逻辑。 标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化...
  • 文本分类数据集合

    热门讨论 2012-07-19 15:16:18
    数据挖掘或机器学习,文本分类,聚类完整数据集合数据挖掘或机器学习,文本分类,聚类完整数据集合数据挖掘或机器学习,文本分类,聚类完整数据集合数据挖掘或机器学习,文本分类,聚类完整数据集合 有各种类别,...
  • 什么是线性结构、非线性结构 数据结构分类大多可以有三种分类方式,分别是逻辑结构、物理结构、存储结构。一般来讲大多数都是以逻辑结构进行划分的。 线性结构 简单地说,线性结构就是表中各个结点具有线性关系。...
  • 垃圾分类数据

    千次阅读 多人点赞 2020-04-07 13:08:05
    训练集的制作是一件成本很高的事情,下面是一份包括4大类40个小类的垃圾数据集。
  • 数据提取的概念和数据分类

    千次阅读 2019-01-23 11:00:56
    1. 什么是数据提取 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 2. 爬虫中数据分类 结构化数据:json,xml等 - 处理方式:直接转化为python类型 非结构化数据:HTML - 处理方式:正则表达式、...
  • 数据挖掘算法——常用分类算法总结

    万次阅读 多人点赞 2019-06-17 10:55:22
    常用分类算法总结分类算法总结NBC算法LR算法SVM...分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类对新的数据集进行划分...
  • 编辑:彭文华来 源:大数据架构师(ID:bigdata_arch)彭友萌好,我是老彭。昨天有一位老彭友在群里求一份资料,很着急的样子:我一看,哟,这不是《中国移动大数据安全管控分类分...
  • 常用分类数据

    千次阅读 2021-01-03 14:43:40
    常用分类数据集常用分类数据集常用分类数据集 CIFAR系列
  • categorical or nominal attribute:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来描述的。例如: (1)人口按性别分为男、女两类; (2)企业按行业属性分为医药企业、...
  • 垃圾分类图片数据

    万次阅读 多人点赞 2020-03-26 18:46:02
    一共有四个大文件夹,对应着不同的垃圾类别,每个文件夹中有各自包含的垃圾名称及其图片,当前数据集一共有246种垃圾,共包含图片80961张,大家如果有相关研究需要可以自行下载,有什么建议也可在评论中指出~ ...
  • 垃圾分类数据集(垃圾图片数据集)

    万次阅读 多人点赞 2019-07-18 09:58:37
    为了响应垃圾分类的热点问题,抽空收集了一些垃圾的图片。进行垃圾分类的算法预测与分析(模型基本上大家可以尝试采用CNN) 图像的垃圾分类数据描述如下: 1.玻璃瓶 2.废纸箱 ...
  • 概念-数据域是什么

    千次阅读 多人点赞 2020-10-14 10:21:07
    后来在实际工作中,慢慢的把数据域的划分当做数仓表分类来做,发现基于这样的定义,数据域还是很有价值的。也许跟原本真实的含义差别很大,但解决了我们很多真实存在的问题。 数据仓库时间越久,数据内容越多。点我...
  • 数据分类

    千次阅读 2017-06-11 16:45:25
    主要包括业务术语、信息分类、指标定义、业务规则等。 2,技术元数据 数据结构、数据处理细节方面的技术化描述,主要包括源系统接口规范、数据仓库结构的描述(接口信息、表信息、程序信息等)以及经营分析数据处理...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,489,250
精华内容 595,700
关键字:

什么是数据分类

友情链接: dic.rar