精华内容
下载资源
问答
  • 数据挖掘,什么是数据挖掘

    千次阅读 2017-08-14 11:58:21
    数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。...数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标

    数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

    需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
    数据挖掘利用了来自如下一些领域的思想:
    (1) 来自统计学的抽样、估计和假设检验
    (2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
    第一阶段:电子邮件阶段
    这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长。
    第二阶段:信息发布阶段
    从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。中小企业如何把握好从“粗放型”到“精准型”营销时代的电子商务。
    第三阶段: EC(Electronic Commerce),即电子商务阶段
    EC在美国也才刚刚开始,之所以把EC列为一个划时代的东西,是因为Internet的最终主要商业用途,就是电子商务。同时反过来也可以说,若干年后的商业信息,主要是通过Internet传递。Internet即将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促进电子商务发展的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。
    第四阶段:全程电子商务阶段
    随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网[5],延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。也因此形成了一门独立的学科——数据挖掘与客户关系管理硕士。

     

    展开全文
  • 数据挖掘数据挖掘工程师什么的? 2016-08-10 17:16 数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过...

    【数据挖掘】数据挖掘工程师是做什么的?

    数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等,进一步,可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像,就相当于用这些挖掘出来的属性来刻画一个人,这些还是最简单的东西,更深层次的比如预测(股票预测),但是比较难。

    说到数据挖掘。往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。很多年前说人工智能AI(比如产生式系统、专家系统等,好像现在提得比较少了),90年代AI到了瓶颈阶段,机器学习是一个突破口,现在机器学习又遇到了瓶颈阶段,深度学习又是一个突破口(其实神经网络出来了很久,但是为什么中间一段时间沉寂了,在70年代左右出现了低潮(根据评论修改),我归结是两点,第一神经网络就像一个黑夹子一样,很多东西不透明,模型的解释性不强,以及当时没办法处理非线性分类问题(后面多层感知器便可以对非线性问题进行拟合,如解决XOR问题),参数过多,训练复杂,容易出错,容易过拟合,无法保证全局最优,加上很多问题无法用数学方法证明(个人理解)等等,科学家和工程师还是有区别的,科学家都想把一个问题归结为数学问题,然后证明出来,他们就会认为是有意义的,数学上证明其有效往往比做千百个实验说明其有效要好些吧,工程师往往更在乎效果与结果),直到后来出现了BP算法。第二,得益于现在的大规模计算工具,能够处理PB级别的数据了。总之现在人工智能还远没达到人类的水平,最后结果会怎样,这个暂时不设想。

    目前正处于大数据时代,很多企业拥有巨大的数据,比如阿里拥有消费数据、百度拥有搜索数据,腾讯拥有社交数据,消费数据与搜索数据都可以直接变现形成商业模式,而社交数据暂时还无法直接变现,至少企鹅现在还在探寻中,举个例子,你的朋友圈,qq空间到处是广告,你是不是很讨厌,差评,呵呵。数据有了,还有个重要的方面,处理数据的能力,也就是数据处理工具,能够处理这么大的数据量,二者不可或缺,缺一谈什么大数据都是耍流氓。

    对于数据挖掘工程师:

    首先你数学知识肯定要扎实吧,统计与概率论是最基本(也有人说现在的机器学习是统计学习,确实有道理)、微分与积分肯定要知道、数学公式要看的懂吧,进阶阶段最优化,随机过程等。建议去看看机器学习十大算法与一些深度学习的东西,多看大牛的博客。

    对于语言,搞科研知道matlab就永不怕了,但是对于工程师嘛,肯定要知道写代码吧,不懂写代码的工程师都是扯淡,不要写代码的数据挖掘与机器学习,那是研究员,懂得一门高级语言与一门脚本语言就差不多了(如JAVA或C++,Python或R,个人推荐Java与Python,因为像Hadoop、Spark、Hive、MPI之类的都对Java提供了很方便的接口,Python写脚本很爽),还需要懂得Linux、Shell、SQL,这都是个人意见,至少在阿里,用java+sql+python+shell,阿里有个很牛逼的东西叫做ODPS,现在叫MaxCoupute,可以去阿里云官网查查相关资料。

    对于你所说的excel、SAS、SPSS,数据分析人员专用,因为工程师嘛,编程语言还是必须的。对于是否需要学习hadoop、hive之类的,个人意见是只要知道用,然后怎么用,怎么在上面实现一些算法,怎么去优化自己写的程序就差不多了,它们只是工具,而且更新得很快,就说hadoop吧,我还没完全搞明白,就逐渐被spark取代了,记住,这些只是工具而已。推荐个加深你数据挖掘功力的东西weka(单机版的)与mahout(分布式的,有基于hadoop与spark),都是开源的。

    对于工作是否需要设计新算法,我觉得在企业还是没有要求这么高,除非你觉得自己很牛逼,想向google看齐,但是设计一个好的算法并能解决实际问题的算法,不是一朝一夕的,个人观点,很多算法可以想出来,最大的问题就是怎样去证明其正确,其有效。想到企业中去,多看看google与ms工程性的文章,想研究就多看看学术大牛的文章,比如ICML,IJCAI,KDD,NIPS,CVPR等。大部分工作是,将已有的机器学习与数据挖掘算法应用到具体的实践中,根据业务场景与数据特点对算法进行改造或者调整等。

    最后举个例子,你在淘宝上买一件衣服,系统怎样向你推荐你感兴趣的并且和这件衣服搭配的裤子或者饰品,这就是数据挖掘工程师的一方面工作。

    对于数据挖掘与机器学习,也不是小小的几百字能说清楚的,所以再补充一些想从事机器学习与数据挖掘的需要学习的知识点:

    常用的数据挖掘&知识(点)

    Basis(基础):

    MSE(MeanSquare Error 均方误差),LMS(Least MeanSquare 最小均方),LSM(Least Square Methods 最小二乘法),MLE(Maximum LikelihoodEstimation最大似然估计),QP(QuadraticProgramming 二次规划), CP(ConditionalProbability条件概率),JP(Joint Probability 联合概率),MP(Marginal Probability边缘概率),Bayesian Formula(贝叶斯公式),L1 /L2Regularization(L1/L2正则,以及更多的,现在比较火的L2.5正则等),GD(Gradient Descent 梯度下降),SGD(Stochastic GradientDescent 随机梯度下降),Eigenvalue(特征值),Eigenvector(特征向量),QR-decomposition(QR分解),Quantile (分位数),Covariance(协方差矩阵)。

    Common Distribution(常见分布):

    Discrete Distribution(离散型分布):Bernoulli Distribution/Binomial(贝努利分步/二项分布),Negative BinomialDistribution(负二项分布),Multinomial Distribution(多式分布),Geometric Distribution(几何分布),Hypergeometric Distribution(超几何分布),Poisson Distribution (泊松分布)

    ContinuousDistribution (连续型分布):Uniform Distribution(均匀分布),Normal Distribution/GaussianDistribution(正态分布/高斯分布),Exponential Distribution(指数分布),Lognormal Distribution(对数正态分布),Gamma Distribution(Gamma分布),Beta Distribution(Beta分布),Dirichlet Distribution(狄利克雷分布),Rayleigh Distribution(瑞利分布),Cauchy Distribution(柯西分布),Weibull Distribution (韦伯分布)

    Three Sampling Distribution(三大抽样分布):Chi-square Distribution(卡方分布),t-distribution(t-distribution),F-distribution(F-分布)

    Data Pre-processing(数据预处理):

    MissingValue Imputation(缺失值填充),Discretization(离散化),Mapping(映射),Normalization(归一化/标准化)。

    Sampling(采样):

    SimpleRandom Sampling(简单随机采样),Offline Sampling(离线等可能K采样),Online Sampling(在线等可能K采样),Ratio-based Sampling(等比例随机采样),Acceptance-rejection Sampling(接受-拒绝采样),Importance Sampling(重要性采样),MCMC(Markov Chain MonteCarlo 马尔科夫蒙特卡罗采样算法:Metropolis-Hasting& Gibbs)。

    Clustering(聚类):

    K-Means,K-Mediods,二分K-Means,FK-Means,Canopy,Spectral-KMeans(谱聚类),GMM-EM(混合高斯模型-期望最大化算法解决),K-Pototypes,CLARANS(基于划分),BIRCH(基于层次),CURE(基于层次),DBSCAN(基于密度),CLIQUE(基于密度和基于网格),2014年Science上的密度聚类算法等

    Clustering EffectivenessEvaluation(聚类效果评估):

    Purity(纯度),RI(Rand Index,芮氏指标),ARI(Adjusted Rand Index,调整的芮氏指标),NMI(NormalizedMutual Information,规范化互信息),F-meaure(F测量)等。

    Classification&Regression(分类&回归):

    LR(LinearRegression 线性回归),LR(Logistic Regression逻辑回归),SR(SoftmaxRegression 多分类逻辑回归),GLM(Generalized LinearModel 广义线性模型),RR(Ridge Regression 岭回归/L2正则最小二乘回归),LASSO(Least AbsoluteShrinkage and Selectionator Operator L1正则最小二乘回归), RF(随机森林),DT(Decision Tree决策树),GBDT(Gradient BoostingDecision Tree 梯度下降决策树),CART(Classification AndRegression Tree 分类回归树),KNN(K-Nearest Neighbor K近邻),SVM(Support Vector Machine,支持向量机,包括SVC(分类)&SVR(回归)),KF(Kernel Function 核函数Polynomial KernelFunction 多项式核函数、Guassian Kernel Function 高斯核函数/Radial Basis Function RBF径向基函数、String Kernel Function 字符串核函数)、 NB(Naive Bayes 朴素贝叶斯),BN(BayesianNetwork/Bayesian Belief Network/Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络),LDA(Linear DiscriminantAnalysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别),EL(Ensemble Learning集成学习Boosting,Bagging,Stacking),AdaBoost(AdaptiveBoosting 自适应增强),MEM(Maximum Entropy Model最大熵模型)

    Classification EffectivenessEvaluation(分类效果评估):

    ConfusionMatrix(混淆矩阵),Precision(精确度),Recall(召回率),Accuracy(准确率),F-score(F得分),ROC Curve(ROC曲线),AUC(AUC面积),Lift Curve(Lift曲线) ,KS Curve(KS曲线)。

    PGM(ProbabilisticGraphical Models概率图模型):

    BN(BayesianNetwork/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络),MC(Markov Chain 马尔科夫链),HMM(Hidden MarkovModel 马尔科夫模型),MEMM(Maximum EntropyMarkov Model 最大熵马尔科夫模型),CRF(Conditional RandomField 条件随机场),MRF(Markov RandomField 马尔科夫随机场)。

    NN(Neural Network神经网络):

    ANN(ArtificialNeural Network 人工神经网络),BP(Error Back Propagation 误差反向传播),HN(Hopfield Network),

    RNN(Recurrent Neural Network,循环神经网络),SRN(Simple Recurrent Network,简单的循环神经网络),ESN(Echo State Network,回声状态网络),LSTM(Long Short Term Memory 长短记忆神经网络),CW-RNN(Clockwork

    Recurrent Neural Network,时钟驱动循环神经网络,2014ICML)等。

    Deep Learning(深度学习):

    Auto-encoder(自动编码器),SAE(Stacked Auto-encoders堆叠自动编码器:Sparse Auto-encoders稀疏自动编码器、Denoising Auto-encoders去噪自动编码器、ContractiveAuto-encoders 收缩自动编码器),RBM(Restricted BoltzmannMachine 受限玻尔兹曼机),DBN(Deep BeliefNetwork 深度信念网络),CNN(Convolutional NeuralNetwork 卷积神经网络),Word2Vec(词向量学习模型)。

    Dimensionality Reduction(降维):

    LDA(LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fish线性判别),PCA(Principal ComponentAnalysis 主成分分析),ICA(Independent ComponentAnalysis 独立成分分析),SVD(Singular ValueDecomposition 奇异值分解),FA(Factor Analysis 因子分析法)。

    Text Mining(文本挖掘):

    VSM(Vector SpaceModel向量空间模型),Word2Vec(词向量学习模型),TF(Term Frequency词频),TF-IDF(TermFrequency-Inverse Document Frequency 词频-逆向文档频率),MI(Mutual Information 互信息),ECE(Expected CrossEntropy 期望交叉熵),QEMI(二次信息熵),IG(Information Gain 信息增益),IGR(InformationGain Ratio 信息增益率),Gini(基尼系数),x2 Statistic(x2统计量),TEW(Text EvidenceWeight文本证据权),OR(OddsRatio 优势率),N-Gram Model,LSA(LatentSemantic Analysis 潜在语义分析),PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析),LDA(Latent DirichletAllocation 潜在狄利克雷模型),SLM(StatisticalLanguage Model,统计语言模型),NPLM(NeuralProbabilistic Language Model,神经概率语言模型),CBOW(Continuous Bag of Words Model,连续词袋模型),Skip-gram(Skip-gramModel)等。

    Association Mining(关联挖掘):

    Apriori,FP-growth(FrequencyPattern Tree Growth 频繁模式树生长算法),AprioriAll,Spade。

    Recommendation Engine(推荐引擎):

    DBR(Demographic-basedRecommendation 基于人口统计学的推荐),CBR(Context-based Recommendation 基于内容的推荐),CF(Collaborative Filtering协同过滤),UCF(User-based CollaborativeFiltering Recommendation 基于用户的协同过滤推荐),ICF(Item-based CollaborativeFiltering Recommendation 基于项目的协同过滤推荐)。

    SimilarityMeasure&Distance Measure(相似性与距离度量):

    EuclideanDistance(欧式距离),Manhattan Distance(曼哈顿距离),Chebyshev Distance(切比雪夫距离),Minkowski Distance(闵可夫斯基距离),Standardized EuclideanDistance(标准化欧氏距离),Mahalanobis Distance(马氏距离),Cos(Cosine 余弦),Hamming Distance/EditDistance(汉明距离/编辑距离),Jaccard Distance(杰卡德距离),Correlation CoefficientDistance(相关系数距离),Information Entropy(信息熵),KL(Kullback-LeiblerDivergence KL散度/Relative Entropy 相对熵)。

    Optimization(最优化):

    Non-constrained Optimization(无约束优化):Cyclic Variable Methods(变量轮换法),Pattern Search Methods(模式搜索法),Variable Simplex Methods(可变单纯形法),Gradient Descent Methods(梯度下降法),Newton Methods(牛顿法),Quasi-Newton Methods(拟牛顿法),Conjugate GradientMethods(共轭梯度法)。

    ConstrainedOptimization(有约束优化):Approximation ProgrammingMethods(近似规划法),Feasible DirectionMethods(可行方向法),Penalty Function Methods(罚函数法),Multiplier Methods(乘子法)。

    HeuristicAlgorithm(启发式算法),SA(Simulated Annealing,模拟退火算法),GA(genetic algorithm遗传算法)

    Feature Selection(特征选择):

    MutualInformation(互信息),Document Frequence(文档频率),Information Gain(信息增益),Chi-squared Test(卡方检验),Gini(基尼系数)。

    Outlier Detection(异常点检测):

    Statistic-based(基于统计),Distance-based(基于距离),Density-based(基于密度),Clustering-based(基于聚类)。

    Learning to Rank(基于学习的排序):

    Pointwise:McRank;

    Pairwise:RankingSVM,RankNet,Frank,RankBoost;

    Listwise:AdaRank,SoftRank,LamdaMART;

    Tool(工具):

    MPI,生态圈,,BSP,Weka,Mahout,Scikit-learn,PyBrain…

    转载于:https://www.cnblogs.com/think90/p/8108890.html

    展开全文
  • 什么是数据挖掘

    千次阅读 2017-07-17 21:11:41
    数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。...数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标

            数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

            数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能模式识别机器学习搜索算法建模技术学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

    分析方法:
    数据挖掘数据挖掘
    · 分类 (Classification)
    · 估计(Estimation)
    · 预测(Prediction
    · 相关性分组或关联规则(Affinity grouping or association rules)
    · 聚类(Clustering)
    · 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
    方法简介:
    ·分类 (Classification)
    首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
    例子:
    a. 信用卡申请者,分类为低、中、高风险
    b. 故障诊断:中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。
    注意: 类的个数是确定的,预先定义好的
    · 估计(Estimation)
    估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类
    数据挖掘数据挖掘
    的类别是确定数目的,估值的量是不确定的。
    例子:
    a. 根据购买模式,估计一个家庭的孩子个数
    b. 根据购买模式,估计一个家庭的收入
    c. 估计real estate的价值
    一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
    · 预测(Prediction)
    通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
    · 相关性分组或关联规则(Affinity grouping or association rules)
    决定哪些事情将一起发生。
    例子:
    a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
    b. 客户在购买A后,隔一段时间,会购买B (序列分析)
    · 聚类(Clustering)
    聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
    例子:
    a. 一些特定症状的聚集可能预示了一个特定的疾病
    b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
    聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
    · 描述和可视化(Description and Visualization)
    是对数据挖掘结果的表示方式。一般只是指数据可视化工具,包含报表工具和商业智能分析产品(BI)的统称。譬如通过Yonghong Z-Suite等工具进行数据的展现,分析,钻取,将数据挖掘的分析结果更形象,深刻的展现出来。

    经典算法:

    1. C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法
    2. K-means算法:是一种聚类算法。
    3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中
    4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。
    5.EM:最大期望值法。
    6.pagerank:是google算法的重要内容。
    7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。
    8.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。
    9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)
    10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。
    关联规则规则定义
    在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。
    在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和
    数据挖掘数据挖掘
    啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
    常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
    数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。
    完整的Data Mining 包含哪些步骤?
    1、数据挖掘环境
    数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识.  数据挖掘环境可示意如下图:
    数据挖掘环境框图.gif
    2、数据挖掘过程图
    下图描述了数据挖掘的基本过程和主要步骤
    数据挖掘的基本过程和主要步骤
    3、数据挖掘过程工作量
    在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问.图2各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈.数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成.图3给出了各步骤在整个过程中的工作量之比.可以看到,60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.
    图3数据挖掘过程工作量比例
    4、数据挖掘过程简介
    过程中各步骤的大体内容如下:
    (1). 确定业务对象
    清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.
    (2). 数据准备
    1)、数据的选择
    搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.
    2)、数据的预处理
    研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.
    3)、数据的转换
    将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.
    (3). 数据挖掘
    对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.
    (4). 结果分析
    解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.
    (5). 知识的同化
    将分析所得到的知识集成到业务信息系统的组织结构中去.
    5、数据挖掘需要的人员
    数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类.
    业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求.
    数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.
    数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.
    从上可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程.这一过程要反复进行牞在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。数据重组和细分添加和拆分记录选取数据样本可视化数据探索聚类分析神经网络、决策树数理统计、时间序列结论综合解释评价数据知识数据取样数据探索数据调整模型化评价。
    目前业界常用的数据挖掘分析工具?
    Data Mining工具市场大致可分为三类:
    1. 一般分析目的用的软件
    K-Miner(神通数据挖掘分析系统,MPP+SMP并行计算架构)
    AlpineMiner(AlpineDataLabs)
    TipDM(顶尖数据挖掘平台)
    GDM(Geni-Sage Data Mining Analysis System,博通数据挖掘分析系统)
    SAS Enterprise Miner
    KXEN(凯森)
    IBM Intelligent Miner
    Unica PRW
    SPSS Clementine
    SGI MineSet
    Oracle Darwin
    Angoss KnowledgeSeeker
    2. 针对特定功能或产业而研发的软件
    KD1(针对零售业)
    Options & Choices(针对保险业)
    HNC(针对信用卡诈欺或呆帐侦测)
    Unica Model 1(针对行销业)
    iEM System (针对流程行业的实时历史数据)
    3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系统
    Cognos Scenario and Business Objects
    国际相关
    [Journals]
    1.ACM Transactions on Knowledge Discovery from Data (TKDD)
    2.IEEE Transactions on Knowledge and Data Engineering (TKDE)
    3.Data Mining and Knowledge Discovery
    4.Knowledge and Information Systems
    5.Data & Knowledge Engineering
    [Conferences]
    1.SIGMOD:ACM Conference on Management of Data (ACM)
    2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM)
    3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society)
    4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM)
    5.WWW:International World Wide Web Conferences (W3C)
    6.CIKM:ACM International Conference on Information and Knowledge Management (ACM)
    7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-VerlagLNAI)



    展开全文
  • 什么是数据挖掘

    2020-07-21 00:11:45
    数据挖掘目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。比如分析一家公司的不同用户对公司产品的购买情况,进而分析出哪一类客户会对公司的产品有兴趣。在讲究实时、竞争激烈的网络时代,若能事先...

    什么是数据挖掘?

    数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。比如分析一家公司的不同用户对公司产品的购买情况,进而分析出哪一类客户会对公司的产品有兴趣。在讲究实时、竞争激烈的网络时代,若能事先破解消费者的行为模式,将是公司获利的关键因素之一。数据挖掘是一门交叉学科,它涉及了数据库,人工智能,统计学,可视化等不同的学科和领域。

    数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程,该过程包括一系列转换步骤, 从数据的预处理到数据挖掘结果的后处理。


    v2-6c518b215e19dd1e7f8c566f942995a8_b.jpg


    数据挖掘的起源

    来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据 类型的更有效的、可伸缩的工具。这些工作都是建立在研究者先前使用的方法学和算法之上,而在数据挖掘领域达到高潮。特别地,数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。

    一些其他领域也起到重要的支撑作用。数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。


    v2-8104e373bf10a3c5f9410d51cb094c6e_b.jpg


    KDD(Knowledge Discovery from Database)

    1. 数据清理
      消除噪声和不一致的数据;
    2. 数据集成
      多种数据源可以组合在一起;
    3. 数据选择
      从数据库中提取与分析任务相关的数据;
    4. 数据变换
      通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式;
    5. 数据挖掘
      基本步骤,使用智能方法提取数据模式;
    6. 模式评估
      根据某种兴趣度,识别代表知识的真正有趣的模式;
    7. 知识表示
      使用可视化和知识表示技术,向用户提供挖掘的知识。


    v2-6123e9340cf2c71ff92aca603b705f82_b.jpg


    数据挖掘方法论

    1. 业务理解(business understanding)
      从商业角度理解项目的目标和要求,接着把这些理解知识通过理论分析转化为数据挖掘可操作的问题,制定实现目标的初步规划;
    2. 数据理解(data understanding)
      数据理解阶段开始于原始数据的收集,然后是熟悉数据、甄别数据质量问题、探索对数据的初步理解、发觉令人感兴趣的子集以形成对探索信息的假设;
    3. 数据准备(data preparation)
      数据准备阶段指从最初原始数据中未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,需要对数据进行转换、清洗、构造、整合等数据预处理工作;
    4. 建模(modeling)
      在此阶段,主要是选择和应用各种建模技术。同时对它们的参数进行调优,以达到最优值。通常对同一个数据挖掘问题类型,会有多种建模技术。一些技术对数据形式有特殊的要求,常常需要重新返回到数据准备阶段;
    5. 模型评估(evaluation)
      在模型部署发布前,需要从技术层面判断模型效果和检查建立模型的各个步骤,以及根据商业目标评估模型在实际商业场景中的实用性。此阶段关键目的是判断是否存在一些重要的商业问题仍未得到充分考虑;
    6. 模型部署(deployment)
      模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,封装满足业务系统使用需求。


    v2-53392adfa107845fdb37a257a3d2d92e_b.jpg


    数据挖掘任务

    通常,数据挖掘任务分为下面两大类。

    • 预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一 般称目标变量(targetvariable)因变量(dependentvariable), 而用来做预测的属性称说明变量(explanatoryvariable)自变量(independentvariable)。
    • 描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证解释结果


    v2-c7696605975c6d79f2d4e38aecec1a31_b.jpg


    预测建模(predictivemodeling) 涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。例如,预测一个Web用户是否会在网上书店买书是分类任务,因为该目标变量是二值的,而预测某股票的未来价格则是回归任务,因为价格具有连续值属性。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检查结果判断病人是否患有某种疾病。

    关联分析(association analysis) 用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。

    聚类分析(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比, 属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响 地球气候的海洋区域以及压缩数据等。

    异常检测(anomaly detection) 的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。

    展开全文
  • 一、什么是数据挖掘 数据挖掘就是从大量的数据中去发现有用的信息,然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢?实际上,数据挖掘就是智能化的数据分析,它们的目标一样的。但是,又有很...
  • 作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用有意义的。 对于挖掘的应用,数据的最基本形式数据库数据、数据仓库数据和事务数据。数据挖掘也可以用于其他类型的数据(例如,数据流、...
  • 一、数据分析和数据挖掘的区别岗位职责和目标方面:数据分析侧重商业理解和分析策略能力,目标是通过数据给出促进业务、用户、用户价值增长的策略;对技术能力要求相对较低;工具方面主要是SQL、excel,Python/R,有...
  • 数据挖掘工程师什么的?

    千次阅读 2016-08-09 10:04:09
    数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多、哪个省的女生胸罩最大等,进一步,可以基于...
  • 本节书摘来自华章社区《Python数据挖掘:概念、方法与实践...1.1 什么数据挖掘前文解释了数据挖掘目标是找出数据中的模式,但是细看之下,这一过分简单的解释就站不住脚。毕竟,寻找模式难道不也是经典统计学、...
  • 02 学习数据挖掘的最佳路径是什么数据挖掘的基本流程分为哪六个步骤? 1. 商业理解:我们要知道数据挖掘不是我们的目的,我们的目的是更好地理解业务,帮助业务,所以首先应从商业角度去理解项目需求,从而再利用...
  • 很多人估计还不清楚数据挖掘的目的是什么,其实数据挖掘的两大目的就是是预测和描述数据,其中前者的计算机建模及实现过程通常被称为监督学习(supervised learning) ,后者的则通常被称为无监督学习(supervised ...
  • 简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则单纯的使用样本来推断总体。主要区别“数据分析”的重点观察数据,“数据挖掘”的重点从数据中发现“知识规则”,...
  • 数据挖掘基础

    2020-03-15 09:50:46
    针对具体的数据挖掘应用的需求,首先需要明确本次的挖掘目标是什么,系统完成后能达到什么样的效果,因此,我们要分析应用领域中的各种知识,了解相关领域的情况,弄清楚用户的需求。必须明确的认识我们要干什么,再...
  • 数据挖掘

    2014-08-17 19:58:33
    什么是数据挖掘数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都被视为数据...
  • 遵循 CC 4.0 BY-SA 版权协议,附上原文出处链接,统计学与数据挖掘的区别共同目标:发现数据中的结构。最大的区别:DM还应用了其它领域的思想,工具和方法,尤其计算机科学,如:数据库和机器学习,同时关注的某些...
  • 关于数据挖掘方面的研究,我原来也...这种了解是比较粗的,目标是明白这些技术是用来干什么的,典型的算法大致是怎样的,以及在什么情况下应该选用什么样的技术和算法。经过初步了解之后,就要进入选题的阶段,选择自
  • 1.1 现代营销理论:3P3C理论 数据化运营来源于现代营销管理,所以我们首先从3P3C理论讲起。 在3P3C理论中,数据化运营6要素的内容...Prospects(消费者):目标用户 Creative(创意):包括文案、活动 Channel(渠道...
  • 3.2 数据挖掘建模过程 ... 针对具体的数据挖掘应用需求,首先要非常清楚:本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此我们必须分析应用领域,包括应用中的各种知识和应用目标。了解相关领域的有关...
  • SPSS Modeler数据挖掘数据挖掘概述

    千次阅读 2016-01-20 09:19:42
    什么是数据挖掘数据挖掘一种通过数理模式来分析大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。可以描述为 :按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知...
  • 数据挖掘简介

    千次阅读 2017-11-30 10:02:51
    1.什么是数据挖掘? 从大量数据(含文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的关系、工具和过程; 2.数据挖掘能做什么...
  • 文章目录什么是用户画像用户画像的八要素用户画像的优点如何制作用户画像 用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。 用户画像最初在电商领域得到...
  • 你需要知道的数据挖掘潜台词数据挖掘学习笔记一、什么是数据挖掘二、为什么要做数据挖掘三、数据挖掘什么用处1.分类问题2.聚类问题3.回归问题4.关联问题四、数据挖掘怎么做1.业务理解(Business Understanding)2....
  • 理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。 理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。 ...
  • 四、数据挖掘中常见的挖掘模式

    千次阅读 2020-03-01 18:49:11
    数据挖掘的功能是什么,都包含哪些内容,数据挖掘可以挖掘什么类型的模式? 1.2 方案 数据挖掘功能用于指定数据挖掘任务发现的模式:一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中...
  • 数据挖掘笔记

    2013-12-09 19:19:42
    什么是数据挖掘数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都被视为数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 556
精华内容 222
关键字:

数据挖掘目标是什么