精华内容
下载资源
问答
  • 在传统的应用场景下,企业都是利用关系型数据库来存储和管理业务数据,并建立相应应用系统来支持日常业务运作。但是随着信息社会发展,如何从大数据中提取出对企业决策分析有用信息,这成为企业决策管理人员...

    在传统的应用场景下,企业都是利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。但是随着信息社会的发展,如何从大数据中提取出对企业决策分析有用的信息,这成为企业决策管理人员所面临的重要难题。应用于决策支持的数据属于统计、概括性数据,而非细节性的数据。传统的OLTP系统中,存储的都是细节性的数据,已经无法应用于大数据场景下的决策支持。于是,OLAP(联机分析处理)应运而成,OLAP基于多维数据库和多维分析,存储的主要是信息数据,以基于大数据实现支持管理分析为主要目的。
    OLAP是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型(维指的是用户的分析角度)。多维数据模型围绕中心主题组织,该主题用事实表表示,事实是以数值进行度量。数据立方体允许以多维数据建模和观察,它由维和事实定义。多维数据模型可以是星型模式、雪花模式、或事实星座模式的形式存在。传统关系数据库模型中提取信息时,需对大量二维表格进行分析,但在多维数据模型中,数据立方体可以较为方便我们对多维数据进行理解。此时数据分析的对象就是相应逻辑概念上的数据立方体。多维数据模型最大的优点是基于分析优化的数据组织和存储模式,缺点是与关系模型相比其灵活性不够,一旦模型构建就很难进行更改。
    基于多维数据模型的OLAP,是数据仓库的核心。而数据仓库是对于大量已经由OLTP形成的数据的分析型的数据库,用于处理商业智能、决策支持等重要的决策信息。随着大数据时代的到来,OLAP的多维数据模型比传统意义关系数据模型更具优势。实际上数据仓库(DW)、联机分析处理(OLTP)和数据挖掘(DM)是作为三种独立的信息处理技术出现的。数据仓库用于数据的存储和组织,OLTP集中于数据的分析,数据挖掘则致力于知识的自动发现。由于这三种技术内在的联系性和互补性,将他们结合起来就成为了一种新的决策支持系统架构,成为BI的三个支柱。这一架构以数据库中的大量数据为基础:
    1.在底层的数据库中保存了大量事务级的细节数据。
    2.数据仓库对底层数据库中的事务级数据进行集成、转换、综合和重新组织, 为决策支持系统提供数据存储和组织的基础。
    联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模 型,再使用多维分析方法从多个不同的视角对多维数据进行分析和比较。

    展开全文
  • 属于高新技术发展领域物联网、大数据、云计算、人工智能之间有着割舍不开联系,成其一都离不开其他技术支撑辅佐,特别是落地应用的时候,在不同的场景中,这个几个技术之间不同方式配合,成就了现如今...

    同属于高新技术发展领域的物联网大数据云计算人工智能之间有着割舍不开的联系,成其一都离不开其他技术的支撑辅佐,特别是落地应用的时候,在不同的场景中,这个几个技术之间不同的方式配合,成就了现如今的高新技术形态。

    用比较通俗易懂的方式来阐述他们之间的关系,大数据就是我们人体的大脑,承载着一切的指令,经过类似人体脉络及各神经的物联网再次将指令返回到大脑,大脑再次用云计算的模式处理以往的记忆,分析和总结出最后的智慧形态,便是我们看到的人工智能。

    011d22a503442bb8d55c3b3579a6c2e8.png

    总结来看,大数据是基础,物联网是架构,云计算是中心,人工智能是产出,共存共生,彼此依附如:学到牛科技的各项技术案例中(指纹水纹监测、人脸识别、安防视频监测系统等),都不是单一的技术呈现,每一项实例研发都需要物联网、大数据等相关技术的相互支撑与应用,才能落地完成。

    大数据是指无法在一定时间内使用常规工具进行抓取、管理和处理的数据集合,其特征有“三个V”,主要体现在体量(Volume)大,数据类型多样(Variety)和速度(Velocity)要求高等方面。

    3a8032d0f2a0d3a066973233ee2926e0.png

    云计算的存储和计算能力以及分布式结构,都为大数据的商业模式提供了实现的可能。云计算提供了这些价格低廉的基础设施,使用户能够按照需求获得相应的服务,云计算的分配机制满足了大数据系统中海量、多种类型数据的存储和计算要求,使大数据的实现成为可能。

    人工智能又名机器智能,是指由人制造的机器所具有的智能。人工智能的核心任务,在于建构与人脑类似甚至超越个人的思维与操作能力。目前,大量的机器工具应用了人工智能,最主要的应用方向是搜索、数学优化和逻辑推演。

    683870aec98b5baadd3c148bd95e21c7.png

    云计算更多的是偏向于底层服务,包括服务的提供,网络的架设,数据的承载等。大数据则更多地在于海量数据的分析整理与汇总,它存在于云计算之上,却为人工智能和其他产业提供着信息支持。人工智能的实现依赖于云计算的基础还有大数据的信息支持,并不能够独立生存。

    未来,物联网、大数据、云计算、人工智能等技术将越来越结合、落地应用到各产业升级、场景智能化当中来。

    355a3cb15cd78ad680ed972d53668bf9.gif

    咨询方式:周老师 13308070020

    QQ: 3153694665

    地址:成都高新西区西芯大道4号

    展开全文
  • 企业大数据风控实践

    2019-02-28 09:33:25
    互联网风控都是基于大数据属于数据应用层。企业风控核心价值在于识别、拦截作弊和降低作弊几率,尤其是和钱直接相关欺诈行为;具体要做哪些和优先级还是要结合实际业务场景及问题。 背景 公司某业务部门...

    接触风控时间很短(大概2个月),目前见解可能仍较浅,结合实际经验简单总结(依旧只讲方法不展开具体方案),不对或者不专业的地方欢迎指正。

    互联网风控都是基于大数据,属于数据应用层。企业中风控的核心价值在于识别、拦截作弊和降低作弊几率,尤其是和钱直接相关的欺诈行为;具体要做哪些和优先级还是要结合实际业务场景及问题。

    背景

    公司某业务部门已经发展了很多年,但数据能力整体较差,也没有风控;直到去年由于业务人员发现较多疑似刷单、刷补贴的问题,才开始建立风控。但最初也只是通过对业务的了解,建立一些实时规则进行拦截。

    这么做的主要问题有:没有产品体系、业务主动而风控被动(人工发现问题后才分析解决)、公司损失无法降到最低。

    How to do ?

    一、输出能力

    二、产品体系

    ps:上图是介入风控项目后做的梳理和一个季度的规划。打码部分是涉及业务的词汇,不方便展示,可以粗暴理解为提供服务方和被服务用户,两者皆有作弊空间。

     

    三、建设逻辑

    上面背景中说到,此前已通过业务人员发现的疑似作弊问题,建立了实时规则和名单库,以及这种做法存在的问题。所以,需解决的重点是如何提前发现风险并预警,再分析和判定作弊的人、团伙及作弊策略,最后进行更精准的处理;在此基础上,建立管理平台,方便业务人员自主查询风控详情,提升风控人效;并且建立详细的效果评估体系,输出风控价值。


    四、模块介绍(横拆)

    (一)异常监控并预警

    通过建立数据模型,筛出“嫌疑犯”。第一期做了“服务者”收入异常模型和预警、“服务者”异常行为模型和预警、“被服务用户”异常行为模型和预警;而模型的建立需要依赖底层数据的建设,分别是“服务者”收入明细数据、“服务者”画像数据、“被服务用户”画像数据。

    流程 / 环节如下:

    1. 收入异常模型和预警

    2. 异常行为模型和预警

    (二)分析和判定

    筛出“嫌疑犯”后,当然不能直接判死刑,要有具体证据;而能找到多少证据就需要分析者对业务有深入的理解。

    (三)规则及规则管理

    1. 平台目标:提升风控人效。

    2. 平台功能:规则配置,规则命中详情查询(根据各维度用户信息)、指标监控、规则字典。

    (四)效果评估

    两个维度及指标:

    1. 补贴/垫款/奖励拦截价值(金额):各项支出拦截金额。

    2. 订单拦截价值(量级):命中 / 拦截订单量、用户量; 命中 / 拦截率;规则召回率。

     

    五、项目介绍(纵拆)

    此时,我相信大家都能理解以上是讲了整体背景、产品结构和按结构拆分每个模块做了哪些事;反应快一点的人可能已经想到了怎么定合理的节奏,即先做什么后做什么。这里就要按项目进行拆分,比如我把他们分成3个大项目和2个小项目:

    展开全文
  • 分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类 分类在数据挖掘中是一项重要的任务,目前在商业上应用最多,常见的典型应用场景...

    大数据开发之机器学习总结(Mllib示例)(五)

    背景

    1. 作为spark框架中支持机器学习的模块,其算法库核心内容如下在这里插入图片描述
    2. 可以看到,主要就是分类,回归,决策树等算法

    1. 分类算法

    1. 分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类
    2. 分类在数据挖掘中是一项重要的任务,目前在商业上应用最多,常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等
    3. MLlib 目前支持分类算法有:

    逻辑回归、支持向量机、朴素贝叶斯和决策树

    导入训练数据集,然后在训练集上执行训练算法,最后在所得模型上进行预测并计算训练误差

    import org.apache.spark.SparkContext
    import org.apache.spark.mllib.classification.SVMWithSGD
    import org.apache.spark.mllib.regression.LabeledPoint
    
    // 加载和解析数据文件
    val data = sc.textFile("mllib/data/sample_svm_data.txt")
    val parsedData = data.map { line =>
      val parts = line.split(' ')
      LabeledPoint(parts(0).toDouble, parts.tail.map(x => x.toDouble).toArray)
    }
    
    // 设置迭代次数并进行进行训练
    val numIterations = 20
    val model = SVMWithSGD.train(parsedData, numIterations)
    
    // 统计分类错误的样本比例
    val labelAndPreds = parsedData.map { point =>
    val prediction = model.predict(point.features)
    (point.label, prediction)
    }
    val trainErr = labelAndPreds.filter(r => r._1 != r._2).count.toDouble / parsedData.count
    println("Training Error = " + trainErr)
    
    

    2. 回归算法

    1. 回归算法属于监督式学习,每个个体都有一个与之相关联的实数标签,并且我们希望在给出用于表示这些实体的数值特征后,所预测出的标签值可以尽可能接近实际值。
    2. MLlib 目前支持回归算法有:

    线性回归、岭回归、Lasso和决策树。

    导入训练数据集,将其解析为带标签点的RDD,使用 LinearRegressionWithSGD 算法建立一个简单的线性模型来预测标签的值,最后计算均方差来评估预测值与实际值的吻合度

    import org.apache.spark.mllib.regression.LinearRegressionWithSGD
    import org.apache.spark.mllib.regression.LabeledPoint
    
    // 加载和解析数据文件
    val data = sc.textFile("mllib/data/ridge-data/lpsa.data")
    val parsedData = data.map { line =>
      val parts = line.split(',')
      LabeledPoint(parts(0).toDouble, parts(1).split(' ').map(x => x.toDouble).toArray)
    }
    
    //设置迭代次数并进行训练
    val numIterations = 20 
    val model = LinearRegressionWithSGD.train(parsedData, numIterations)
    
    // 统计回归错误的样本比例
    val valuesAndPreds = parsedData.map { point =>
    val prediction = model.predict(point.features)
    (point.label, prediction)
    }
    val MSE = valuesAndPreds.map{ case(v, p) => math.pow((v - p), 2)}.reduce(_ + _)/valuesAndPreds.count
    println("training Mean Squared Error = " + MSE)
    
    

    3. 聚类算法

    1. 聚类算法属于非监督式学习,通常被用于探索性的分析,是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程
    2. 它的目的是使得属于同一簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似,常见的典型应用场景有客户细分、客户研究、市场细分、价值评估。
    3. MLlib 目前支持广泛使用的KMmeans聚类算法

    导入训练数据集,使用 KMeans 对象来将数据聚类到两个类簇当中,所需的类簇个数会被传递到算法中,然后计算集内均方差总和 (WSSSE),可以通过增加类簇的个数 k 来减小误差。 实际上,最优的类簇数通常是 1,因为这一点通常是WSSSE图中的 “低谷点”

    import org.apache.spark.mllib.clustering.KMeans
    
    // 加载和解析数据文件
    val data = sc.textFile("kmeans_data.txt")
    val parsedData = data.map( _.split(' ').map(_.toDouble))
    // 设置迭代次数、类簇的个数
    val numIterations = 20
    val numClusters = 2
    
    // 进行训练
    val clusters = KMeans.train(parsedData, numClusters, numIterations)
    
    // 统计聚类错误的样本比例
    val WSSSE = clusters.computeCost(parsedData)
    println("Within Set Sum of Squared Errors = " + WSSSE)
    
    

    4. 协同过滤

    1. 协同过滤常被应用于推荐系统,这些技术旨在补充用户-商品关联矩阵中所缺失的部分。
    2. MLlib当前支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失的元素。

    导入训练数据集,数据每一行由一个用户、一个商品和相应的评分组成。假设评分是显性的,使用默认的ALS.train()方法,通过计算预测出的评分的均方差来评估这个推荐模型

    import org.apache.spark.mllib.recommendation.ALS
    import org.apache.spark.mllib.recommendation.Rating
    
    // 加载和解析数据文件
    val data = sc.textFile("mllib/data/als/test.data")
    val ratings = data.map(_.split(',') match {
    case Array(user, item, rate) => Rating(user.toInt, item.toInt, rate.toDouble)
    })
    
    // 设置迭代次数
    val numIterations = 20
    val model = ALS.train(ratings, 1, 20, 0.01)
    
    // 对推荐模型进行评分
    val usersProducts = ratings.map{ 
    case Rating(user, product, rate) => (user, product)
    }
    val predictions = model.predict(usersProducts).map{
    case Rating(user, product, rate) => ((user, product), rate)
    }
    val ratesAndPreds = ratings.map{
    case Rating(user, product, rate) => ((user, product), rate)
    }.join(predictions)
    
    val MSE = ratesAndPreds.map{
    case ((user, product), (r1, r2)) => math.pow((r1- r2), 2)
    }.reduce(_ + _)/ratesAndPreds.count
    println("Mean Squared Error = " + MSE)
    

    5. 总结

    1. mllib可以支持的机器学习算法并不是无穷,需要根据业务场景选择使用或者组合使用
    2. mllib中算法,主要有几大类,分类,回归,聚类,协同过滤
    3. 使用现有mllib可以应对大部分业务场景中的如分类,推荐等问题
    4. 注意spark本身使用scala开发,并且可以无缝对接java生态,如果真有无法解决的算法库问题,可以去java生态圈寻找答案。
    5. 注意spark本身也加入对python支持,这样使用python可以调用spark,但需要注意,对python的支持一般落后于scala和java 接口的开发进度。
    6. 如果真的遇到算法实现难题,可以尝试转去python生态,但对接hadoop生态时,需要注意工程接入细节。这也是为什么spark 的mllib比较受欢迎的原因。
    展开全文
  • Python具有广泛的应用程序,可以总结下图。适用于工作:Python开发,Python搜寻器,大数据;在生活,爬行动物为生活增添了很多乐趣,并为我们日常生活提供了便利。Python开发自动化测试,自动化操作和维护,WEB...
  • Python具有广泛的应用程序,可以总结下图。适用于工作:Python开发,Python搜寻器,大数据;在生活,爬行动物为生活增添了很多乐趣,并为我们日常生活提供了便利。Python开发自动化测试,自动化操作和维护,WEB...
  • 数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。 数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理...
  • 前言:数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 122
精华内容 48
关键字:

属于大数据应用场景中的是