-
2020-12-17 15:42:03
对于不平衡数据(事件)的balance处理
对小概率事件进行预测(判断)的时候,一定要对数据做balance处理,不然会使得模型天然的倾向于大概率的结果。
处理方式:
1.上采样少数类别:上采样是从少数类别中随机扶着观测样本以增强其信号的过程,最常见的集中试探法是使用简单的放回抽样的方式重采样,从sklearn中导入重采样模块 这种处理方式会导致准确率急转而下,但是性能指标更有意义
2.下采样多数类别:下采样包括从多数类别中随机的一处观测样本,防止他的信息主导学习算法,其中最常见的试探法是不放回抽样式重采样
将每个类别的观测样本分离到不同的DataFrame中,接着讲采用不放回抽样来重采样多数类别,让样本的数量与少数类别数量想当,最后合并下采样后的多数类别与原始的少数类别合并
3.改变你的性能指标:
对于分类的通用指标,推荐使用ROC曲线下面积(AUROC)
表示从类别中区别观测样本的可能性,换句话说,如果你能从每个类别中随机选择一个观察样本,它将被正确分类的概率是多大
从sklearn中导入这个指标:from sklearn.metrics import roc_auc_score
为了计算AUROC,你将需要预测类别的概率,而非仅预测类别。
使用如下代码来获取这些结果 predict_proba()
AUROC>=0.5
4.惩罚算法(代价敏感学习)
使用SVM算法:支持向量机,因为存在对少数类别分类错误的代价
5.基于树的算法:
决策树通常在不平衡数据集上表现良好,因为他们的层级结构允许他们从两个类别去学习,随机森林
更多相关内容 -
世界各国首都矢量数据点数据shp人口量级
2021-10-08 17:17:19世界各国首都矢量数据点数据shp,所属国家,城市人口量级 -
将不同量级的序列转化为同一量级,及常用的数据缩放的方法
2020-07-14 16:36:57联合多重时间序列本身是一件挑战性十足的事,数据样本的不均衡导致了不同时间序列对于模型的影响程度是不同的。拿商品销售为例,销售数量多一个数量级,商品数量就少一个数量级,每个月卖10个的商品如果有100,000种...联合多重时间序列本身是一件挑战性十足的事,数据样本的不均衡导致了不同时间序列对于模型的影响程度是不同的。拿商品销售为例,销售数量多一个数量级,商品数量就少一个数量级,每个月卖10个的商品如果有100,000种,每个月卖100个的商品就只有10,000种,每个月卖1000个的商品就只有1000种。(假定此时销售状况满足幂律分布:y = 1,000,000 / x)这种不均衡样本导致输入值的量级差异,商品A每天销售数百个,商品B每天销售数万个,两个商品共同训练时商品A的信息会被忽略掉,因为相对于B而言,A对神经网络参数的影响太低。但是,A时间序列中隐含的信息是有价值的,数百个销售额仍然能够反映季节性和趋势性的变化。
而对于这种样本量级差异的解决方法,需要对商品销售量进行缩放,对应到神经网络中,即输入到神经网络前除以v, 输出后乘以v。(需要确保输入值除以v,进入神经网络在每一个节点计算以及每次迭代后,输出后乘以v,与不进行乘除操作是等价的。)如何选择为每一个商品选择对应的v是一个挑战,实践发现使用商品的历史销量均值是一个不错的选择。
本文转载自:https://amazonaws-china.com/cn/blogs/china/time-series-prediction-with-deep/?nc1=b_rp-
小结:
不同量级的序列除以其均值,均变为在1附近波动的序列,则变为同一量级;如果乘以其均值,则返回到原来的量级和波动性等统计量。 -
常用数据缩放方法,在特征工程中经常会用到
import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn import preprocessing def plot(data, title): sns.set_style('dark') f, ax = plt.subplots() ax.set(ylabel='frequency') ax.set(xlabel='height(blue) / weight(green)') ax.set(title=title) sns.distplot(data[:, 0:1], color='blue') sns.distplot(data[:, 1:2], color='green') plt.savefig(title + '.png') plt.show() np.random.seed(42) height = np.random.normal(loc=168, scale=5, size=1000).reshape(-1, 1) weight = np.random.normal(loc=70, scale=10, size=1000).reshape(-1, 1) original_data = np.concatenate((height, weight), axis=1) plot(original_data, 'Original') standard_scaler_data = preprocessing.StandardScaler().fit_transform(original_data) plot(standard_scaler_data, 'StandardScaler') min_max_scaler_data = preprocessing.MinMaxScaler().fit_transform(original_data) plot(min_max_scaler_data, 'MinMaxScaler') max_abs_scaler_data = preprocessing.MaxAbsScaler().fit_transform(original_data) plot(max_abs_scaler_data, 'MaxAbsScaler') normalizer_data = preprocessing.Normalizer().fit_transform(original_data) plot(normalizer_data, 'Normalizer') robust_scaler_data = preprocessing.RobustScaler().fit_transform(original_data) plot(robust_scaler_data, 'RobustScaler')
举个例子来看看它们之间的区别,假设一个数据集包括「身高」和「体重」两个特征,它们都满足正态分布,画出原始数据图像为:
使用1.StandardScaler()缩放,结果为:
使用2.MinMaxScaler()缩放,结果为:
使用3.MaxAbsScaler()缩放,结果为:
使用4.Normalizer()缩放,结果为:
作者:thothsun
链接:https://www.zhihu.com/question/20467170/answer/839255695
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
https://www.zhihu.com/question/20467170- 其他(0,1)归一化的方法:
上图里f1(x)是普通的(0,1)归一化,每个元素xi之间的相对关系没有被改变;f2(x)又叫softmax,会将较大的元素所占比例继续放大,当x>0时会使各元素的区分度更明显;f3(x)会将较大的元素所占比例压缩,当x>0时会使各元素的区分度更小,差距更小。
-
-
qt 快速加载并动态显示大容量数据能够加载千万行量级的数据
2019-04-02 18:59:22qt 快速加载并动态显示大容量数据能够加载千万行量级的数据。 本工程介绍了如何使用QT的tablewideget快速加载大容量的数据,快速加载千万行文本并且动态显示出来,同时介绍了如何根据鼠标事件而显示不同内容 qt ... -
数据量级区分
2021-10-16 17:36:12按顺序给出数据存储单位: bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB按顺序给出数据存储单位:
- bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
-
一种面向FAST PB量级脉冲星数据处理加速方法及系统.pdf
2021-08-15 00:11:49#资源达人分享计划# -
android原生User-agent数据,10万量级
2020-09-15 17:13:55android原生User-agent数据,10万量级。数据来源于https://user-agents.net/random -
[HighCharts] 关于对几组不同数量级的数据进行分类比较处理办法
2014-01-24 11:41:53一、问题描述 在同一个坐标系中,由于高中低的数量级差异悬殊,会导致小数据柱形...例如要比较的数据如下: [JavaScript] 纯文本查看 复制代码 ? 01 02 03 04 05 06 07 08 09 10 series: [{转载链接:
highCharts处理Y不同数量级
一、问题描述
在同一个坐标系中,由于高中低的数量级差异悬殊,会导致小数据柱形图趋近于0,直接取对数又会导致对比不明显。例如要比较的数据如下:
[JavaScript] 纯文本查看 复制代码01020304050607080910series: [{
name:
'Jane'
,
data: [1,0,4]
}, {
name:
'John'
,
data: [5,7,3]
}, {
name:
'Michael'
,
data: [1,1000,500]
}],
二、解决办法:
1、将数据做成百分比
同样的上述数据,做成百分比的数据为:
[JavaFX] 纯文本查看 复制代码01020304050607080910series: [{
name:
'Jane'
,
data: [
1
/
7
,
0
/
1007
,
4
/
507
]
}, {
name:
'John'
,
data: [
5
/
7
,
7
/
1007
,
3
/
507
]
}, {
name:
'Michael'
,
data: [
1
/
7
,
1000
/
1007
,
500
/
507
]
}],
2、做成多Y轴的对比图
实现代码如下:
[JavaScript] 纯文本查看 复制代码010203040506070809101112131415161718192021222324252627282930313233343536$(
function
() {
$(
'#container'
).highcharts({
chart: {
type:
'bar'
},
title: {
text:
'Fruit Consumption'
},
xAxis: {
categories: [
'Apples'
,
'Bananas'
,
'Oranges'
]
},
yAxis: [{
title: {
text:
'Fruit eaten'
}
},{
title: {
text:
'Fruit eaten'
} ,
opposite:
true
}],
series: [{
name:
'Jane'
,
data: [1,0,4],
yAxis:1
}, {
name:
'John'
,
data: [5,7,3],
yAxis:1
}, {
name:
'Michael'
,
data: [1,1000,500],
yAxis:0
}],
});
});
-
百万量级海上目标数据处理与显示技术.pdf
2021-08-15 00:13:38#资源达人分享计划# -
百家|手把手教你免费自建百万量级数据日志分析系统.pdf
2021-09-18 11:30:17百家|手把手教你免费自建百万量级数据日志分析系统 安全对抗 红蓝对抗 数据分析 云安全 开发安全 -
ios原生User-agent数据,8万量级
2020-09-15 15:49:09ios原生User-agent数据,8万量级。数据来源于https://user-agents.net/random -
将不同量级的值放在同一个excel的图表上
2019-07-29 10:27:00https://jingyan.baidu.com/article/fedf07375a6c5d35ac89772f.html 转载于:https://www.cnblogs.com/butterflybay/p/11262454.html -
Mysql百万数据量级数据快速导入Redis
2020-02-10 21:59:50随着系统的运行,数据量变得越来越大,单纯的将数据存储在mysql中,已然不能满足查询要求了,此时我们引入Redis作为查询的缓存层,将业务中的热数据保存到Redis,扩展传统关系型数据库的服务能力,用户通过应用直接... -
16_分布式搜索引擎在几十亿数据量级的场景下如何优化查询性能?.zip
2020-11-13 22:52:16https://mp.csdn.net/console/uploadResources?spm=1011.2124.3001.4171 -
《 大数据量级的数据处理算法》PDF
2017-11-25 15:57:54《 大数据量级的数据处理算法》PDF。 。 -
【记录】百万量级数据处理
2017-02-20 09:49:48某次需求将一个文件夹内的几千个文件中的数据导入到SqlServer,每个文件有1000+条数据 基本想法是用php遍历一下读出来再写进MySQL(SqlServer是服务器上的不对外,同在服务器的MySQL对外),最后从MySQL导入到Sql... -
行业数据-2019年快手品牌投放各量级KOL数量占比.rar
2021-09-11 21:58:20行业数据-2019年快手品牌投放各量级KOL数量占比.rar -
行业数据-2019年快手品牌投放各量级KOL金额占比.rar
2021-09-11 21:58:19行业数据-2019年快手品牌投放各量级KOL金额占比.rar -
百万量级数据_文件处理性能提升
2020-12-24 17:31:31现状资料说明: 需求背景介绍: ...3. 处理百万量级以上数据时,整体效率偏低,理想情况的是处理百万量级的数据控制在一个小时左右 流程耗时分析: 文件去重后以资产号查询我方账单集合,整体... -
请说一下,你曾经处理过的最大量级数据是多少?处理目的是?你是如何处理的?处理结果如何?
2019-09-27 12:32:3750万的平台赔付数据。 处理的目的: 一是环比每周对应数据指标的变化情况,是否存在异常数据情况,确保业务属于正常平稳的运营状态。 二是在产品、业务需求的角度出发,分析相关数据指标见的关系,以及如何通过数据... -
2019年快手品牌投放各量级KOL数量占比.xls
2021-04-13 11:34:472019年快手品牌投放各量级KOL数量占比.xls -
行业数据-2020年5月李子柒品牌螺蛳粉带货主播粉丝量级分布.rar
2021-09-11 22:01:54行业数据-2020年5月李子柒品牌螺蛳粉带货主播粉丝量级分布.rar -
现代服务业常识数据量级和内在原理:休闲服务细分行业蛋糕到底有多大?.pdf
2021-11-06 20:06:44现代服务业常识数据量级和内在原理:休闲服务细分行业蛋糕到底有多大?.pdf -
HDFS千万级别文件数/PB规模量级的数据迁移实战总结
2020-09-13 16:00:36文章目录前言HDFS元数据快速膨胀带来的性能瓶颈问题超大规模数据迁移所面临的挑战和困难DistCp的全面优化提升 前言 前面时间笔者曾写过一篇关于利用HDFS fastcopy功能来加速DistCp数据拷贝效率的文章(Distcp结合... -
2019年快手品牌投放各量级KOL金额占比.xls
2021-04-13 11:34:452019年快手品牌投放各量级KOL金额占比.xls -
MongoDB在58同城百亿量级数据下的应用实践
2017-05-03 09:24:5558同城发展之初,大规模使用关系型数据库(SQL Server、MySQL等),随着业务扩展速度增加,数据量和并发量演变的越来越有挑战,此阶段58的数据存储架构也需要相应的调整以更好的满足业务快速发展的需求。 MongoDB... -
大数据实战之千万量级小说网站项目开发(存储、复杂搜索、推荐、分析)
2021-07-27 10:33:24大数据实战之千万量级小说网站项目开发(存储、复杂搜索、推荐、分析),本次课程就是针对百万小说数据的推荐、热度、内容等进行搜索、推荐、分析的项目.让大家在真实数据的实战中真真正正的掌握大数据存储、搜索及... -
大数据单位量级
2020-07-07 16:59:38数据存储按照 10进制 表示,数据传输按照 2进制 表示; 表示形式不同,在细微上可以分为两种形式: 按照二进制形式的换算 (即,按照进率1024(2的十次方)计算) 1 Byte = 8 Bit 1 KB = 1,024 Bytes 1 MB = 1,024 KB = ... -
Elasticsearch 对于大数据量(上亿量级)的聚合如何实现?
2022-04-01 10:46:19Elasticsearch 提供的首个近似聚合是 cardinality 度量。...小的数据集精度是非常高的;我们可以通过配置参数,来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关。 ...