精华内容
下载资源
问答
  • 机器学习算法应用场景

    万次阅读 2017-09-15 13:25:01
    本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。 目录 ...

    本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。

    目录

    1 分类算法应用场景实例

    1.1 O2O优惠券使用预测

    1.2 市民出行选乘公交预测

    1.3待测微生物种类判别

    1.4 基于运营商数据的个人征信评估

    1.5 商品图片分类

    1.6 广告点击行为预测

    1.7 基于文本内容的垃圾短信识别

    1.8 中文句子类别精准分析

    1.9 P2P网络借贷平台的经营风险量化分析

    1.10 国家电网客户用电异常行为分析

    1.11 自动驾驶场景中的交通标志检测

    1.12 大数据精准营销中搜狗用户画像挖掘

    1.13 基于视角的领域情感分析

    1.14 监控场景下的行人精细化识别

    1.15 用户评分预测

    1.16 猫狗识别大战

    1.17 微额借款用户人品预测

    1.18 验证码识别

    1.19 客户流失率预测

    1.20 汽车4S店邮件营销方案

    2回归算法应用场景实例

    2.1 机场客流量分布预测

    2.2 音乐流行趋势预测

    2.3 需求预测与仓储规划方案

    2.4 新浪微博互动量预测

    2.5 货币基金资金流入流出预测

    2.6 电影票房预测

    2.7 农产品价格预测分析

    2.8 基于多源数据的青藏高原湖泊面积预测

    2.9 微博传播规模和传播深度预测

    2.10 鲍鱼年龄预测

    2.11 学生成绩排名预测

    2.12 网约车出行流量预测

    2.13 红酒品质评分

    2.14搜索引擎的搜索量和股价波动

    2.15 中国人口增长分析

    2.16 农村居民收入增长预测

    2.17 房地产销售影响因素分析

    2.18 股价走势预测

    2.19 全国综合运输总量预测

    2.20 地震预报

    3聚类算法应用场景实例

    3.1 基于用户位置信息的商业选址

    3.2 中文地址标准化处理

    3.3 国家电网用户画像

    3.4 非人恶意流量识别

    3.5 求职信息完善

    3.6 搜索引擎查询聚类以进行流量推荐

    3.7 生物种群固有结构认知

    3.8 保险投保者分组

    3.9 网站关键词来源聚类整和

    3.10 图像分割

    4关联规则应用场景实例

    4.1 穿衣搭配推荐

    4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

    4.3 依据用户轨迹的商户精准营销

    4.4 地点推荐系统

    4.5 气象关联分析

    4.6 交通事故成因分析

    4.7 基于兴趣的实时新闻推荐

    4.8 银行金融客户交叉销售分析

    4.9 电子商务搭配购买推荐

    4.10 银行营销方案推荐


    1 分类算法应用场景实例

    1.1 O2O优惠券使用预测

    以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。

    现有O2O场景相关的丰富数据,希望通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。

    1.2 市民出行选乘公交预测

    基于海量公交数据记录,希望挖掘市民在公共交通中的行为模式。以市民出行公交线路选乘预测为方向,期望通过分析广东省部分公交线路的历史公交卡交易数据,挖掘固定人群在公共交通中的行为模式,分析推测乘客的出行习惯和偏好,从而建立模型预测人们在未来一周内将会搭乘哪些公交线路,为广大乘客提供信息对称、安全舒适的出行环境,用数据引领未来城市智慧出行。

    1.3待测微生物种类判别

    DNA是多数生物的遗传物质,DNA上的碱基(A,T,C和G)就储藏了遗传信息,不同物种的DNA序列在序列长度和碱基组成上差异显著。所以我们能够通过DNA序列的比较分析,来判断DNA序列是来自哪些物种。由于测序技术限制,我们只能得到一定长度的DNA序列片段。通过DNA序列片段与已知的微生物DNA序列进行比较,可以确定DNA片段的来源微生物,进而确定待测微生物种类。

    期望在相关数据基础上,建立分析方法,在计算资源消耗尽量小的情况下,尽可能快地给出准确的结果,以满足临床诊断需求。

    1.4 基于运营商数据的个人征信评估

    运营商作为网络服务供应商,积累了大量的用户基本信息及行为特征数据,如终端数据、套餐消费数据、通信数据等等。实名制政策保证了运营商用户数据能与用户真实身份匹配,并真实客观的反映用户行为。广泛覆盖的网络基础设施提供了积累大量实时数据的条件,这些用户数据实时反馈着用户的各个维度的信息及特征。

    在我国,个人征信评估主要通过引用央行个人征信报告,但对于很多用户没有建立个人信用记录的用户,金融机构想要了解他们的信用记录成本又较高,传统征信评估手段难以满足目前多种多样的新兴需求。金融业务不同于其他大数据业务,对数据的真实性、可信度和时效性要求较高,而这正是运营商数据的价值所在。

    期望利用运营商用户数据,提供完善的个人征信评估。

    1.5 商品图片分类

    京东含有数以百万计的商品图片,“拍照购”“找同款”等应用必须对用户提供的商品图片进行分类。同时,提取商品图像特征,可以提供给推荐、广告等系统,提高推荐/广告的效果。

    希望通过对图像数据进行学习,以达到对图像进行分类划分的目的。

    1.6 广告点击行为预测

    用户在上网浏览过程中,可能产生广告曝光或点击行为。对广告点击进行预测,可以指导广告主进行定向广告投放和优化,使广告投入产生最大回报。

    希望基于100万名随机用户在六个月的时间范围内广告曝光和点击日志,包括广告监测点数据,预测每个用户在8天内是否会在各监测点上发生点击行为。

    1.7 基于文本内容的垃圾短信识别

    垃圾短信已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛,传统的基于策略、关键词等过滤的效果有限,很多垃圾短信“逃脱”过滤,继续到达手机终端。

    希望基于短信文本内容,结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种。

    1.8 中文句子类别精准分析

    精确的语义分析是大数据必备技术,在分析句子时,不同句子类别即使用类似的关键词,表达的含义仍有很大差别,特别是在情感判断中。

    希望通过新闻以及微博等文本数据,对其句子类别进行判断。

    1.9 P2P网络借贷平台的经营风险量化分析

    P2P网络借贷即点对点信贷,其风险情况始终触碰着投资人的神经。据网贷之家统计,截止今年9月份,出现问题的网贷平台一共有1008家,而仅仅今年就有641家平台出现问题,这说明了随着我国p2p行业的迅猛发展,P2P平台的风险预测已经成为一个至关重要的问题。P2P平台的风险主要是在运营过程中产生的,与运营数据有着密不可分的关系。P2P平台的风险预测并非无线索可寻,像借款期限和年化收益率等指标,就对P2P平台的风险预测有很重要的参考意义。

    希望通过互联网数据,构建出P2P网贷平台的经营风险模型,从而能够比较准确的预测P2P网贷平台的经营风险,促进我国P2P行业向正规化方向发展。

    1.10 国家电网客户用电异常行为分析

    社会经济的发展使得社会用电量逐年增加,受利益驱使,窃电现象也日益严重。窃电行为不仅给供电企业造成了重大经济损失,也严重影响了正常的供用电秩序。根据国家电网公司统计,近年因窃电导致的损失达上千万元。近年来,窃电方式也由野蛮窃电发展到设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电,给反窃电工作进一步增加了很大的难度。随着电力系统升级,智能电力设备的普及,国家电网公司可以实时收集海量的用户用电行为数据、电力设备监测数据,因此,国家电网公司希望通过大数据分析技术,科学的开展防窃电监测分析,以提高反窃电工作效率,降低窃电行为分析的时间及成本。

    希望基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据,以及经过现场电工人员现场确认的窃电用户清单,希望参赛者利用大数据分析算法与技术,发现窃电用户的行为特征,形成窃电用户行为画像,准确识别窃电用户,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。

    1.11 自动驾驶场景中的交通标志检测

    在自动驾驶场景中,交通标志的检测和识别对行车周围环境的理解起着至关重要的作用。例如通过检测识别限速标志来控制当前车辆的速度等;另一方面,将交通标志嵌入到高精度地图中,对定位导航也起到关键的辅助作用。交通标志的检测是一项非常有挑战的任务,精确的检测对后续识别,辅助定位导航起着决定性的作用。交通标志的种类众多,大小、角度不依,本身就很难做到精确检测,并且在真实的行车环境中,受到天气、光照等因素的影响,使得交通标志的检测更加困难。

    希望机遇完全真实场景下的图片数据用于训练和测试,训练能够实际应用在自动驾驶中的识别模型。

    1.12 大数据精准营销中搜狗用户画像挖掘

    “物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。

    希望基于用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

    1.13 基于视角的领域情感分析

    情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时,站在不同的视角,同一个句子的情感倾向判断结果将有所差别。

    给定一个句子,如果该句子中包含“视角”词语,则应针对这一视角进行情感分析;如果句子中包含多个“视角”词语,则应对不同的视角进行单独的情感分析;如果句子中不包含视角,则不做情感判别处理。

    1.14 监控场景下的行人精细化识别

    随着平安中国、平安城市的提出,视频监控被广泛应用于各种领域,这给维护社会治安带来了便捷;但同时也带来了一个问题,即海量的视频监控流使得发生突发事故后,需要耗费大量的人力物力去搜索有效信息。行人作为视频监控中的重要目标之一,若能对其进行有效的外观识别,不仅能提高视频监控工作人员的工作效率,对视频的检索、行人行为解析也具有重要意义。

    希望基于监控场景下多张带有标注信息的行人图像,在定位(头部、上身、下身、脚、帽子、包)的基础上研究行人精细化识别算法,自动识别出行人图像中行人的属性特征。标注的行人属性包括性别、头发长度和上下身衣着、鞋子及包的种类和颜色,并提供图像中行人头部、上身、下身、脚、帽子、包位置的标注。

    1.15 用户评分预测

    个性化推荐已经成为各大电子商务网站的必备服务。准确的推荐不仅可以提高商家的产品销量,更能为顾客提供优质快速的购物体验。推荐系统发展至今,已经有许多非常优秀的推荐算法,从各种不同的角度来为电子商务大厦添砖加瓦。迄今为止,已经有不少研究表明,用户在短期时间内会浏览相似的商品,但其兴趣可能会随时间发生些许变化。

    希望通过训练带有时间标记的用户打分行为,准确地预测这些用户对其他商品的打分。

    1.16 猫狗识别大战

    有人说,猫与狗上千年历史的敌对状态,主要是由于在长期进化过程中迫于对生存资源进行争夺而造成的残酷竞争导致的;也有人说,是他们天生的交流方式不同导致的;今天猫狗大战开始了,为了避免被这些家伙拆房的危险,各位智慧的人类,请速来隔离高冷猫和憨厚狗。

    希望从训练集里建立一个模型去识别测试集里的小狗来。

    1.17 微额借款用户人品预测

    互联网金融近年来异常火热,大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。而在所有的互联网金融产品中,微额借款(借款金额500元~1000元)因其主要服务对象的特殊性,被公认为是风险最高的细分领域。

    希望通过数据挖掘来分析”小额微贷“申请借款用户的信用状况,以分析其是否逾期。

    1.18 验证码识别

    使用各类验证码的训练集进行学习、编码与测试,形成验证码算法模型。

    1.19 客户流失率预测

    我国的移动通信行业经过了前几年的高速发展,近一段时间的发展速度逐渐缓慢下来。注册用户常常处于一种动态变化的状态,即不断有老客户离网,又不断有新客户入网。大量的低消费客户和大量老客户的离网使得移动通信公司无法快速向前发展。

    希望建立客户流失模型,对新老客户进行分类。

    1.20 汽车4S店邮件营销方案

    直邮营销是直效行销的一种,是把传统邮件直接发送给消费者的营销方式涉及的行业主要是大型商场、大卖场、商业连锁店铺、专卖店等。一家汽车4S店,公司拥有完备的客户历史消费数据库,现公司准备举办一次高端品牌汽车的促销活动,为配合这次促销活动,公司计划为潜在客户寄去一份精美的汽车销售材料并附带一份小礼品。由于资源有限,公司仅有1000份材料和礼品的预算额度。

    希望根据与这次促销活动类似的已经举办过的促销活动的历史消费数据,用过机器学习算法得到一个分类器,对新客户进行分类,生成正类客户的客户列表,向他们寄出材料和礼品。

    2回归算法应用场景实例

    2.1 机场客流量分布预测

    为了有效利用机场资源,机场正利用大数据技术,提升生产运营的效率。机场内需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口,航站楼外的停机位、廊桥、车辆(摆渡车、清洁车、物流车、能源车),要想提升这些资源的利用率首先需要知道未来一段时间将会有多少旅客或航班会使用这些资源,其次需要精准的调度系统来调配这些资源和安排服务人员,帮助机场提升资源利用效率,保障机场安全与服务提升。

    以海量机场WiFi数据及安检登机值机数据,希望通过数据算法实现机场航站楼客流分析与预测。

    2.2 音乐流行趋势预测

    经过7年的发展与沉淀,目前某音乐平台拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。

    以某音乐平台用户的历史播放数据为基础,期望通过对艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。

    2.3 需求预测与仓储规划方案

    拥有海量的买家和卖家交易数据的情况下,利用数据挖掘技术,我们能对未来的商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,更精确的需求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率,朝智能化的供应链平台方向更加迈进一步。高质量的商品需求预测是供应链管理的基础和核心功能。

    以历史一年海量买家和卖家的数据为依据,希望预测某商品在未来二周全国和区域性需求量。用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。

    2.4 新浪微博互动量预测

    新浪微博作为中国最大的社交媒体平台,旨在帮助用户发布的公开内容提供快速传播互动的通道,提升内容和用户的影响力。希望能够最快找到有价值微博的方法,然后应用于平台的内容分发控制策略,对于有价值的内容可以增加曝光量,提高内容的传播互动量。对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度,也是对博文进行分发控制的重要参考指标。

    希望根据抽样用户的原创博文在发表一天后的转发、评论、赞总数,建立博文的互动模型,并预测用户后续博文在发表一天后的互动情况。

    2.5 货币基金资金流入流出预测

    某金融服务机构拥有大量会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。

    期望能够通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。

    2.6 电影票房预测

    中国是全球第二大电影市场,同时也是增长最快的市场之一;随着市场的成熟,影响电影票房的因素也越来越多,包括题材、内容、导演、演员、编辑、发行方等等。因此对电影制作公司而言,依靠主观经验制作一部高票房的电影也越来越困难,而随着大数据技术的发展,借助大数据分析对电影市场进行分析,指导电影制作成为可能。 

    希望依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。

    2.7 农产品价格预测分析

    农产品价格受市场影响的程度特别大,特别是受农产品的供求关系影响较大,同时价格本身又受自然条件、社会和经济条件的影响,特别是国际市场的影响。从价格本身来看,受供求、季节等发生波动,受外界各种影响比较多,这就造成了价格预测的困难。但从长期看,农产品价格随着时间的推移仍然呈现一定规律性。价格预测是大数据的精华所在,通过大量的历史数据分析,预测未来的价格走势,为决策者提供更有力的数据支持。

    希望通过分析价格历史数据,对要求预测的农产品接下来固定时间的价格进行预测。并尽可能多的使用与价格有影响的其他数据以提高预测的准确率。

    2.8 基于多源数据的青藏高原湖泊面积预测

    全球气候变化对青藏高原的湖泊水储量有很大影响,因此精确的估计青藏高原湖泊面积变化对于研究气候变化变得很重要。海量多源异构数据和大数据处理与挖掘技术给湖泊面积变化研究带来新的解决思路;如何通过多源数据对青藏高原的湖泊面积进行预测,将大数据技术应用到全球气候变化研究中来成为一项新的挑战。

    希望通过研究青藏高原湖泊面积变化的多种影响因素,构建青藏高原湖泊面积预测模型。

    2.9 微博传播规模和传播深度预测

    近些年,一些研究表明,一条微博发出以后,只需要观察其在之后一小段时间内的转发情况,它的传播规模便可以被预测。但是不同类型的微博会有不同的传播方式,比如明星晒一张生活状态就能得到众多粉丝的热捧,具有较大的传播广度,但是往往在传播深度上稍显不足;相比之下,一些被广泛讨论的新闻类微博往往具有较深的传播深度。也有统计结果显示,一些谣言往往会得到大规模的传播,辟谣类的消息反而得不到广泛关注。不仅如此,我们在热门微博中能看到不少正能量的信息,同时也能看到一些话题被持正反两种不同意见的人掀起讨论热潮。简而言之,微博初期的传播速度、用户关系、信息类型、内容情感等特征都是影响微博传播规模和深度的重要影响因素。

    希望基于大约1-3万条微博及其它们的转发微博,结合微博用户的关注关系、微博的内容类型和情感分析以及初期的传播模式,来预测微博的传播规模和传播深度。

    2.10 鲍鱼年龄预测

    鲍鱼,在现代汉语中有多种含义。最常用的是指一种原始的海洋贝类,属于单壳软体动物,其只有半面外壳,壳坚厚、扁而宽,鲍鱼是中国传统的名贵食材,位居四大海味之首。直至现今,在人民大会堂举行的多次国宴及大型宴会中,鲍鱼经常榜上有名,成为中国经典国宴菜之一。被人们称为“海洋的耳朵”。和古代“用盐腌制的鱼”是两种东西。鲍鱼的优劣与年龄相关。一般来说,我们可以数鲍鱼的生长纹来确定鲍鱼的年龄,但数生长纹也是一件挺麻烦的事情。

    希望利用与鲍鱼年龄有关的因素来预测鲍鱼的年龄。

    2.11 学生成绩排名预测

    学生的校园行为数据,可以挖掘用户作息规律、兴趣爱好等,精准地预测学生之间的相对排名。通过对这些日常行为的建模来预测学生的学业成绩,可以实现提前预警学生的异常情况,并进行适当的干预,因而对学生的培养、管理工作将会起到极其重要的作用。从某高校的某个学院随机抽取一定比例学生,提供这些学生在三个学期的图书馆进出记录、一卡通消费记录、图书馆借阅记录、以及综合成绩的相对排名。这一部分数据将作为训练数据。我们从另外的某学院随机抽取一定比例的学生,然后提供他们在三个学期的图书馆进出记录、一卡通消费记录、图书借阅记录、以及前两个学期的成绩排名。

    希望通过借助大数据相关的挖掘技术和基础算法,预测第三学期的成绩排名。

    2.12 网约车出行流量预测

    在出行问题上,中国市场人数多、人口密度大,总体的出行频率远高于其他国家,这种情况在大城市尤为明显。然而,截止目前中国拥有汽车的人口只有不到10%,这也意味着在中国人们的出行更加依赖于出租车、公共交通等市场提供的服务。另一方面,滴滴出行占领了国内绝大部分的网络呼叫出行市场,面对着巨大的数据量以及与日俱增的数据处理需求。截止目前,滴滴出行平台每日需处理1100万订单,需要分析的数据量达到50TB,路径规划服务请求超过90亿。面对如此庞杂的数据,我们需要通过不断升级、完善与创新背后的云计算与大数据技术,从而保证数据分析及相关应用的稳定,实现高频出行下的运力均衡。供需预测就是其中的一个关键问题。供需预测的目标是准确预测出给定地理区域在未来某个时间段的出行需求量及需求满足量。调研发现,同一地区不同时间段的订单密度是不一样的,例如大型居住区在早高峰时段的出行需求比较旺盛,而商务区则在晚高峰时段的出行需求比较旺盛。

    希望能预测到在未来的一段时间内某些地区的出行需求量比较大,以提前对营运车辆提供一些引导,指向性地提高部分地区的运力,从而提升乘客的整体出行体验。

    2.13 红酒品质评分

    红酒口感的好坏,受很多因素的影响,例如年份、产地、气候、酿造的工艺等等。通过一些化学属性特征就能够很好地判断红酒的品质。通过监测红酒中化学成分的含量,可以控制红酒的品质和口感。

    希望基于红酒的化学特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等,构建机器学习模型,对红酒品质进行评分。

    2.14搜索引擎的搜索量和股价波动

    上市公司在互联网中搜索量的变化,会显著影响公司股价的波动和趋势,即所谓的投资者注意力理论。该理论认为,公司在搜索引擎中的搜索量,代表了该股票被投资者关注的程度。因此,当一只股票的搜索频数增加时,说明投资者对该股票的关注度提升,从而使得该股票更容易被个人投资者购买,进一步地导致股票价格上升,带来正向的股票收益。

    2.15 中国人口增长分析

    中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关。影响中国人口自然增长率的因素有很多,如经济整体增长、居民消费水平、文化程度、人口分布,以及非农业与农业人口的比率等。

    希望通过历史数据分析,对未来人口增长率进行预测。

    2.16 农村居民收入增长预测

    “三农”问题的核心是农村居民收入问题。改革开放以来,农村经济蓬勃发展,农村居民收入有了较大幅度的增长,但与城镇居民的收入相比,却表现出增长缓慢、差距越来越大的趋势。

    希望对影响我国农村居民收入的因素进行分析,再运用实证方法对农民的经济统计数据进行分析,得到了影响农村居民纯收入的模型。为预测农村居民的收入增长趋势提供工具,为农村地区的政策措施提供参考建议。

    2.17 房地产销售影响因素分析

    改革开放以来,我国的经济突飞猛进对城市商品房的价格产生了巨大影响,特别是进入21世纪后,伴随着商品房价格日益增长,出现了房地产投资过热。在这种房价居高不下的形势下,国内外诸多专家学者认为我国的房地产市场已经出现价格泡沫,在房地产业对我国国民经济发展起着积极作用的大环境下,这种价格泡沫势必会对我国的经济发展造成重大影响。

    年人均收入、新增住房面积及上一年商品房价格等因素对房地产销售有影响,期望利用历史数据分析测度其对商品房价格的影响,找出了引起房地产价格波动的主要因素当年年人均收入,根据实证结论提出了控制房价的建议。

    2.18 股价走势预测

    随着经济社会的发展,以及人们投资意识的增强,人们越来越多的参与到股票市场的经济活动中,股票投资也已经成为人们生活的一个重要组成部分。然而在股票市场中,众多的指标、众多的信息,很难找出对股价更为关键的因素;其次股市结构极为复杂,影响因素具有多样性、相关性。这导致了很难找出股市内在的模式。

    希望在尽可能全面的收集股市信息的基础上,建立股价预测模。

    2.19 全国综合运输总量预测

    以全国同期国民经济主要产品产量,如原煤、原油、生铁、钢材、水泥、木材、粮食的历史数据,建立数据挖掘模型,对全国综合运输总运量进行预测。

    2.20 地震预报

    根据历史全球大地震的时空图,找出与中国大陆大地震有关的14个相关区,对这些相关区逐一鉴别,选取较优的9个,再根据这9个相关区发生的大震来预测中国大陆在未来一年内会不会有大震发生。

    3聚类算法应用场景实例

    3.1 基于用户位置信息的商业选址

    随着信息技术的快速发展,移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时,会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及,结合用户位置和GIS地理信息将带来创新应用。如百度与万达进行合作,通过定位用户的位置,结合万达的商户信息,向用户推送位置营销服务,提升商户效益。

    希望通过大量移动设备用户的位置信息,为某连锁餐饮机构提供新店选址。

    3.2 中文地址标准化处理

    地址是一个涵盖丰富信息的变量,但长期以来由于中文处理的复杂性、国内中文地址命名的不规范性,使地址中蕴含的丰富信息不能被深度分析挖掘。通过对地址进行标准化的处理,使基于地址的多维度量化挖掘分析成为可能,为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段,因此具有重要的现实意义。

    3.3 国家电网用户画像

    随着电力体制改革向纵深推进,售电侧逐步向社会资本放开,当下的粗放式经营和统一式客户服务内容及模式,难以应对日益增长的个性化、精准化客户服务体验要求。如何充分利用现有数据资源,深入挖掘客户潜在需求,改善供电服务质量,增强客户黏性,对公司未来发展至关重要。

    对电力服务具有较强敏感度的客户对于电费计量、供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求,成为各级电力公司关注的重点客户。经过多年的发展与沉淀,目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,可以有效的支撑海量电力数据分析。

    因此,国家电网公司希望通过大数据分析技术,科学的开展电力敏感客户分析,以准确地识别敏感客户,并量化敏感程度,进而支撑有针对性的精细化客户服务策略,控制电力服务人工成本、提升企业公众形象。

    3.4 非人恶意流量识别

    2016年第一季度Facebook发文称,其Atlas DSP平台半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75% . 仅2016上半年,AdMaster反作弊解决方案认定平均每天能有高达 28% 的作弊流量。低质量虚假流量的问题一直存在,这也是过去十年间数字营销行业一直在博弈的问题。基于AdMaster海量监测数据,50%以上的项目均存在作弊嫌疑;不同项目中,作弊流量占广告投放5%到95%不等;其中垂直类和网盟类媒体的作弊流量占比最高;PC端作弊流量比例显著高于移动端和智能电视平台。广告监测行为数据被越来越多地用于建模和做决策,例如绘制用户画像,跨设备识别对应用户等。作弊行为,恶意曝光,网络爬虫,误导点击,甚至是在用户完全无感知的情况下被控制访问等产生的不由用户主观发出的行为给数据带来了巨大的噪声,给模型训练造成了很大影响。

    希望基于给定的数据,建立一个模型来识别和标记作弊流量,去除数据的噪声,从而更好的使用数据,使得广告主的利益最大化。

    3.5 求职信息完善

    有大约10万分优质简历,其中部分简历包含完整的字段,部分简历在学历、公司规模、薪水、职位名称等字段有些置空项。希望对数据进行学习、编码与测试,挖掘出职位路径的走向与规律,形成算法模型,再对数据中置空的信息进行预测。

    3.6 搜索引擎查询聚类以进行流量推荐

    在搜索引擎中, 很多网民的查询意图的比较类似的,对这些查询进行聚类,一方面可以使用类内部的词进行关键词推荐;另一方面, 如果聚类过程实现自动化,则也有助于新话题的发现;同时还有助于减少存储空间等。

    3.7 生物种群固有结构认知

    对动植物分类和对基因进行分类,获取对种群固有结构的认识。

    3.8 保险投保者分组

    通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。

    3.9 网站关键词来源聚类整和

    以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。

    3.10 图像分割

    图像分割广泛应用于医学、交通、军事等领域。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。聚类算法先将图像空间中的像素用对应的特征空间点表示,根据它们在特征空间的聚集对特征空间进行分割,然后将它们映射回原图像空间,得到分割结果。

    4关联规则应用场景实例

    4.1 穿衣搭配推荐

    穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。

    4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

    生猪是畜牧业的第一大产业,其价格波动的社会反响非常敏感。生猪价格变动的主要原因在于受市场供求关系的影响。然而专家和媒体对于生猪市场前景的判断、疫情的报道,是否会对养殖户和消费者的情绪有所影响?情绪上的变化是否会对这些人群的行为产生一定影响,从而影响生猪市场的供求关系?互联网作为网民发声的第一平台,在网民情绪的捕捉上具有天然的优势。本次赛题希望参赛者可以基于海量提供的数据,挖掘出互联网情绪指标与生猪价格之间的关联关系,从而形成基于互联网数据的生猪价格预测模型,挖掘互联网情绪指标与生猪价格之间的关联关系和预测。

    4.3 依据用户轨迹的商户精准营销

    随着用户访问移动互联网的与日俱增,随着移动终端的大力发展,越来越多的用户选择使用移动终端访问网络,根据用户访问网络偏好,也形成了相当丰富的用户网络标签和画像等。如何根据用户的画像对用户进行精准营销成为了很多互联网和非互联网企业的新发展方向。如何利用已有的用户画像对用户进行分类,并针对不同分类进行业务推荐,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送。

    希望根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内,则对用户推送符合该用户画像的商户位置和其他优惠信息。

    4.4 地点推荐系统

    随着移动社交网路的兴起,用户的移动数据得到了大量的累积,使得这些移动数据能够基于地点推荐技术帮助人们熟悉周遭环境,提升地点的影响力等。

    希望利用用户的签到记录和地点的位置、类别等信息,为每个用户推荐50个感兴趣的地点。

    4.5 气象关联分析

    在社会经济生活中,不少行业,如农业、交通业、建筑业、旅游业、销售业、保险业等,无一例外与天气的变化息息相关。随着各行各业对气象信息的需求越来越大,社会各方对气象数据服务的个性化和精细化要求也在不断提升,如何开发气象数据在不同领域的应用,更好的支持大众创业、万众创新,服务民计民生,是气象大数据面临的迫切需求。 

    为了更深入地挖掘气象资源的价值,希望基于共计60年的中国地面历史气象数据,推动气象数据与其他各行各业数据的有效结合,寻求气象要素之间、以及气象与其它事物之间的相互关系,让气象数据发挥更多元化的价值。

    4.6 交通事故成因分析

    随着时代发展,便捷交通对社会产生巨大贡献的同时,各类交通事故也严重地影响了人们生命财产安全和社会经济发展。为了更深入挖掘交通事故的潜在诱因,带动公众关注交通安全,贵阳市交通管理局开放交通事故数据及多维度参考数据,希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘,形成交通事故成因分析方案。

    4.7 基于兴趣的实时新闻推荐

    随着近年来互联网的飞速发展,个性化推荐已成为各大主流网站的一项必不可少服务。提供各类新闻的门户网站是互联网上的传统服务,但是与当今蓬勃发展的电子商务网站相比,新闻的个性化推荐服务水平仍存在较大差距。一个互联网用户可能不会在线购物,但是绝大部分的互联网用户都会在线阅读新闻。因此资讯类网站的用户覆盖面更广,如果能够更好的挖掘用户的潜在兴趣并进行相应的新闻推荐,就能够产生更大的社会和经济价值。初步研究发现,同一个用户浏览的不同新闻的内容之间会存在一定的相似性和关联,物理世界完全不相关的用户也有可能拥有类似的新闻浏览兴趣。此外,用户浏览新闻的兴趣也会随着时间变化,这给推荐系统带来了新的机会和挑战。

    因此,希望通过对带有时间标记的用户浏览行为和新闻文本内容进行分析,挖掘用户的新闻浏览模式和变化规律,设计及时准确的推荐系统预测用户未来可能感兴趣的新闻。

    4.8 银行金融客户交叉销售分析

    某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析,从而发现交叉销售的机会。

    4.9 电子商务搭配购买推荐

    电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

    4.10 银行营销方案推荐

    关联规则挖掘技术已经被广泛应用在金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。如各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。


    转自:http://blog.csdn.net/liulingyuan6/article/details/53648273

    展开全文
  • 机器学习算法应用场景实例六十则

    万次阅读 多人点赞 2016-12-14 22:19:23
    本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。 ——————...

            本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。


    目录

    1 分类算法应用场景实例

    1.1 O2O优惠券使用预测

    1.2 市民出行选乘公交预测

    1.3待测微生物种类判别

    1.4 基于运营商数据的个人征信评估

    1.5 商品图片分类

    1.6 广告点击行为预测

    1.7 基于文本内容的垃圾短信识别

    1.8 中文句子类别精准分析

    1.9 P2P网络借贷平台的经营风险量化分析

    1.10 国家电网客户用电异常行为分析

    1.11 自动驾驶场景中的交通标志检测

    1.12 大数据精准营销中搜狗用户画像挖掘

    1.13 基于视角的领域情感分析

    1.14 监控场景下的行人精细化识别

    1.15 用户评分预测

    1.16 猫狗识别大战

    1.17 微额借款用户人品预测

    1.18 验证码识别

    1.19 客户流失率预测

    1.20 汽车4S店邮件营销方案

    2回归算法应用场景实例

    2.1 机场客流量分布预测

    2.2 音乐流行趋势预测

    2.3 需求预测与仓储规划方案

    2.4 新浪微博互动量预测

    2.5 货币基金资金流入流出预测

    2.6 电影票房预测

    2.7 农产品价格预测分析

    2.8 基于多源数据的青藏高原湖泊面积预测

    2.9 微博传播规模和传播深度预测

    2.10 鲍鱼年龄预测

    2.11 学生成绩排名预测

    2.12 网约车出行流量预测

    2.13 红酒品质评分

    2.14搜索引擎的搜索量和股价波动

    2.15 中国人口增长分析

    2.16 农村居民收入增长预测

    2.17 房地产销售影响因素分析

    2.18 股价走势预测

    2.19 全国综合运输总量预测

    2.20 地震预报

    3聚类算法应用场景实例

    3.1 基于用户位置信息的商业选址

    3.2 中文地址标准化处理

    3.3 国家电网用户画像

    3.4 非人恶意流量识别

    3.5 求职信息完善

    3.6 搜索引擎查询聚类以进行流量推荐

    3.7 生物种群固有结构认知

    3.8 保险投保者分组

    3.9 网站关键词来源聚类整和

    3.10 图像分割

    4关联规则应用场景实例

    4.1 穿衣搭配推荐

    4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

    4.3 依据用户轨迹的商户精准营销

    4.4 地点推荐系统

    4.5 气象关联分析

    4.6 交通事故成因分析

    4.7 基于兴趣的实时新闻推荐

    4.8 银行金融客户交叉销售分析

    4.9 电子商务搭配购买推荐

    4.10 银行营销方案推荐


    1 分类算法应用场景实例

    1.1 O2O优惠券使用预测

            以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。

            现有O2O场景相关的丰富数据,希望通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。

    1.2 市民出行选乘公交预测

            基于海量公交数据记录,希望挖掘市民在公共交通中的行为模式。以市民出行公交线路选乘预测为方向,期望通过分析广东省部分公交线路的历史公交卡交易数据,挖掘固定人群在公共交通中的行为模式,分析推测乘客的出行习惯和偏好,从而建立模型预测人们在未来一周内将会搭乘哪些公交线路,为广大乘客提供信息对称、安全舒适的出行环境,用数据引领未来城市智慧出行。

    1.3待测微生物种类判别

            DNA是多数生物的遗传物质,DNA上的碱基(A,T,C和G)就储藏了遗传信息,不同物种的DNA序列在序列长度和碱基组成上差异显著。所以我们能够通过DNA序列的比较分析,来判断DNA序列是来自哪些物种。由于测序技术限制,我们只能得到一定长度的DNA序列片段。通过DNA序列片段与已知的微生物DNA序列进行比较,可以确定DNA片段的来源微生物,进而确定待测微生物种类。

            期望在相关数据基础上,建立分析方法,在计算资源消耗尽量小的情况下,尽可能快地给出准确的结果,以满足临床诊断需求。

    1.4 基于运营商数据的个人征信评估

            运营商作为网络服务供应商,积累了大量的用户基本信息及行为特征数据,如终端数据、套餐消费数据、通信数据等等。实名制政策保证了运营商用户数据能与用户真实身份匹配,并真实客观的反映用户行为。广泛覆盖的网络基础设施提供了积累大量实时数据的条件,这些用户数据实时反馈着用户的各个维度的信息及特征。

            在我国,个人征信评估主要通过引用央行个人征信报告,但对于很多用户没有建立个人信用记录的用户,金融机构想要了解他们的信用记录成本又较高,传统征信评估手段难以满足目前多种多样的新兴需求。金融业务不同于其他大数据业务,对数据的真实性、可信度和时效性要求较高,而这正是运营商数据的价值所在。

            期望利用运营商用户数据,提供完善的个人征信评估。

    1.5 商品图片分类

            京东含有数以百万计的商品图片,“拍照购”“找同款”等应用必须对用户提供的商品图片进行分类。同时,提取商品图像特征,可以提供给推荐、广告等系统,提高推荐/广告的效果。

    希望通过对图像数据进行学习,以达到对图像进行分类划分的目的。

    1.6 广告点击行为预测

            用户在上网浏览过程中,可能产生广告曝光或点击行为。对广告点击进行预测,可以指导广告主进行定向广告投放和优化,使广告投入产生最大回报。

            希望基于100万名随机用户在六个月的时间范围内广告曝光和点击日志,包括广告监测点数据,预测每个用户在8天内是否会在各监测点上发生点击行为。

    1.7 基于文本内容的垃圾短信识别

            垃圾短信已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛,传统的基于策略、关键词等过滤的效果有限,很多垃圾短信“逃脱”过滤,继续到达手机终端。

            希望基于短信文本内容,结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种。

    1.8 中文句子类别精准分析

            精确的语义分析是大数据必备技术,在分析句子时,不同句子类别即使用类似的关键词,表达的含义仍有很大差别,特别是在情感判断中。

            希望通过新闻以及微博等文本数据,对其句子类别进行判断。

    1.9 P2P网络借贷平台的经营风险量化分析

            P2P网络借贷即点对点信贷,其风险情况始终触碰着投资人的神经。据网贷之家统计,截止今年9月份,出现问题的网贷平台一共有1008家,而仅仅今年就有641家平台出现问题,这说明了随着我国p2p行业的迅猛发展,P2P平台的风险预测已经成为一个至关重要的问题。P2P平台的风险主要是在运营过程中产生的,与运营数据有着密不可分的关系。P2P平台的风险预测并非无线索可寻,像借款期限和年化收益率等指标,就对P2P平台的风险预测有很重要的参考意义。

            希望通过互联网数据,构建出P2P网贷平台的经营风险模型,从而能够比较准确的预测P2P网贷平台的经营风险,促进我国P2P行业向正规化方向发展。

    1.10 国家电网客户用电异常行为分析

            社会经济的发展使得社会用电量逐年增加,受利益驱使,窃电现象也日益严重。窃电行为不仅给供电企业造成了重大经济损失,也严重影响了正常的供用电秩序。根据国家电网公司统计,近年因窃电导致的损失达上千万元。近年来,窃电方式也由野蛮窃电发展到设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电,给反窃电工作进一步增加了很大的难度。随着电力系统升级,智能电力设备的普及,国家电网公司可以实时收集海量的用户用电行为数据、电力设备监测数据,因此,国家电网公司希望通过大数据分析技术,科学的开展防窃电监测分析,以提高反窃电工作效率,降低窃电行为分析的时间及成本。

            希望基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据,以及经过现场电工人员现场确认的窃电用户清单,希望参赛者利用大数据分析算法与技术,发现窃电用户的行为特征,形成窃电用户行为画像,准确识别窃电用户,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。

    1.11 自动驾驶场景中的交通标志检测

            在自动驾驶场景中,交通标志的检测和识别对行车周围环境的理解起着至关重要的作用。例如通过检测识别限速标志来控制当前车辆的速度等;另一方面,将交通标志嵌入到高精度地图中,对定位导航也起到关键的辅助作用。交通标志的检测是一项非常有挑战的任务,精确的检测对后续识别,辅助定位导航起着决定性的作用。交通标志的种类众多,大小、角度不依,本身就很难做到精确检测,并且在真实的行车环境中,受到天气、光照等因素的影响,使得交通标志的检测更加困难。

            希望机遇完全真实场景下的图片数据用于训练和测试,训练能够实际应用在自动驾驶中的识别模型。

    1.12 大数据精准营销中搜狗用户画像挖掘

            “物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。

            希望基于用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

    1.13 基于视角的领域情感分析

            情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时,站在不同的视角,同一个句子的情感倾向判断结果将有所差别。

            给定一个句子,如果该句子中包含“视角”词语,则应针对这一视角进行情感分析;如果句子中包含多个“视角”词语,则应对不同的视角进行单独的情感分析;如果句子中不包含视角,则不做情感判别处理。

    1.14 监控场景下的行人精细化识别

            随着平安中国、平安城市的提出,视频监控被广泛应用于各种领域,这给维护社会治安带来了便捷;但同时也带来了一个问题,即海量的视频监控流使得发生突发事故后,需要耗费大量的人力物力去搜索有效信息。行人作为视频监控中的重要目标之一,若能对其进行有效的外观识别,不仅能提高视频监控工作人员的工作效率,对视频的检索、行人行为解析也具有重要意义。

            希望基于监控场景下多张带有标注信息的行人图像,在定位(头部、上身、下身、脚、帽子、包)的基础上研究行人精细化识别算法,自动识别出行人图像中行人的属性特征。标注的行人属性包括性别、头发长度和上下身衣着、鞋子及包的种类和颜色,并提供图像中行人头部、上身、下身、脚、帽子、包位置的标注。

    1.15 用户评分预测

            个性化推荐已经成为各大电子商务网站的必备服务。准确的推荐不仅可以提高商家的产品销量,更能为顾客提供优质快速的购物体验。推荐系统发展至今,已经有许多非常优秀的推荐算法,从各种不同的角度来为电子商务大厦添砖加瓦。迄今为止,已经有不少研究表明,用户在短期时间内会浏览相似的商品,但其兴趣可能会随时间发生些许变化。

            希望通过训练带有时间标记的用户打分行为,准确地预测这些用户对其他商品的打分。

    1.16 猫狗识别大战

            有人说,猫与狗上千年历史的敌对状态,主要是由于在长期进化过程中迫于对生存资源进行争夺而造成的残酷竞争导致的;也有人说,是他们天生的交流方式不同导致的;今天猫狗大战开始了,为了避免被这些家伙拆房的危险,各位智慧的人类,请速来隔离高冷猫和憨厚狗。

            希望从训练集里建立一个模型去识别测试集里的小狗来。

    1.17 微额借款用户人品预测

            互联网金融近年来异常火热,大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。而在所有的互联网金融产品中,微额借款(借款金额500元~1000元)因其主要服务对象的特殊性,被公认为是风险最高的细分领域。

            希望通过数据挖掘来分析”小额微贷“申请借款用户的信用状况,以分析其是否逾期。

    1.18 验证码识别

            使用各类验证码的训练集进行学习、编码与测试,形成验证码算法模型。

    1.19 客户流失率预测

            我国的移动通信行业经过了前几年的高速发展,近一段时间的发展速度逐渐缓慢下来。注册用户常常处于一种动态变化的状态,即不断有老客户离网,又不断有新客户入网。大量的低消费客户和大量老客户的离网使得移动通信公司无法快速向前发展。

    希望建立客户流失模型,对新老客户进行分类。

    1.20 汽车4S店邮件营销方案

            直邮营销是直效行销的一种,是把传统邮件直接发送给消费者的营销方式涉及的行业主要是大型商场、大卖场、商业连锁店铺、专卖店等。一家汽车4S店,公司拥有完备的客户历史消费数据库,现公司准备举办一次高端品牌汽车的促销活动,为配合这次促销活动,公司计划为潜在客户寄去一份精美的汽车销售材料并附带一份小礼品。由于资源有限,公司仅有1000份材料和礼品的预算额度。

            希望根据与这次促销活动类似的已经举办过的促销活动的历史消费数据,用过机器学习算法得到一个分类器,对新客户进行分类,生成正类客户的客户列表,向他们寄出材料和礼品。

    2回归算法应用场景实例

    2.1 机场客流量分布预测

            为了有效利用机场资源,机场正利用大数据技术,提升生产运营的效率。机场内需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口,航站楼外的停机位、廊桥、车辆(摆渡车、清洁车、物流车、能源车),要想提升这些资源的利用率首先需要知道未来一段时间将会有多少旅客或航班会使用这些资源,其次需要精准的调度系统来调配这些资源和安排服务人员,帮助机场提升资源利用效率,保障机场安全与服务提升。

            以海量机场WiFi数据及安检登机值机数据,希望通过数据算法实现机场航站楼客流分析与预测。

    2.2 音乐流行趋势预测

            经过7年的发展与沉淀,目前某音乐平台拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。

            以某音乐平台用户的历史播放数据为基础,期望通过对艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。

    2.3 需求预测与仓储规划方案

            拥有海量的买家和卖家交易数据的情况下,利用数据挖掘技术,我们能对未来的商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,更精确的需求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率,朝智能化的供应链平台方向更加迈进一步。高质量的商品需求预测是供应链管理的基础和核心功能。

            以历史一年海量买家和卖家的数据为依据,希望预测某商品在未来二周全国和区域性需求量。用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。

    2.4 新浪微博互动量预测

            新浪微博作为中国最大的社交媒体平台,旨在帮助用户发布的公开内容提供快速传播互动的通道,提升内容和用户的影响力。希望能够最快找到有价值微博的方法,然后应用于平台的内容分发控制策略,对于有价值的内容可以增加曝光量,提高内容的传播互动量。对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度,也是对博文进行分发控制的重要参考指标。

            希望根据抽样用户的原创博文在发表一天后的转发、评论、赞总数,建立博文的互动模型,并预测用户后续博文在发表一天后的互动情况。

    2.5 货币基金资金流入流出预测

            某金融服务机构拥有大量会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。

            期望能够通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。

    2.6 电影票房预测

            中国是全球第二大电影市场,同时也是增长最快的市场之一;随着市场的成熟,影响电影票房的因素也越来越多,包括题材、内容、导演、演员、编辑、发行方等等。因此对电影制作公司而言,依靠主观经验制作一部高票房的电影也越来越困难,而随着大数据技术的发展,借助大数据分析对电影市场进行分析,指导电影制作成为可能。 

    希望依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。

    2.7 农产品价格预测分析

            农产品价格受市场影响的程度特别大,特别是受农产品的供求关系影响较大,同时价格本身又受自然条件、社会和经济条件的影响,特别是国际市场的影响。从价格本身来看,受供求、季节等发生波动,受外界各种影响比较多,这就造成了价格预测的困难。但从长期看,农产品价格随着时间的推移仍然呈现一定规律性。价格预测是大数据的精华所在,通过大量的历史数据分析,预测未来的价格走势,为决策者提供更有力的数据支持。

            希望通过分析价格历史数据,对要求预测的农产品接下来固定时间的价格进行预测。并尽可能多的使用与价格有影响的其他数据以提高预测的准确率。

    2.8 基于多源数据的青藏高原湖泊面积预测

            全球气候变化对青藏高原的湖泊水储量有很大影响,因此精确的估计青藏高原湖泊面积变化对于研究气候变化变得很重要。海量多源异构数据和大数据处理与挖掘技术给湖泊面积变化研究带来新的解决思路;如何通过多源数据对青藏高原的湖泊面积进行预测,将大数据技术应用到全球气候变化研究中来成为一项新的挑战。

            希望通过研究青藏高原湖泊面积变化的多种影响因素,构建青藏高原湖泊面积预测模型。

    2.9 微博传播规模和传播深度预测

            近些年,一些研究表明,一条微博发出以后,只需要观察其在之后一小段时间内的转发情况,它的传播规模便可以被预测。但是不同类型的微博会有不同的传播方式,比如明星晒一张生活状态就能得到众多粉丝的热捧,具有较大的传播广度,但是往往在传播深度上稍显不足;相比之下,一些被广泛讨论的新闻类微博往往具有较深的传播深度。也有统计结果显示,一些谣言往往会得到大规模的传播,辟谣类的消息反而得不到广泛关注。不仅如此,我们在热门微博中能看到不少正能量的信息,同时也能看到一些话题被持正反两种不同意见的人掀起讨论热潮。简而言之,微博初期的传播速度、用户关系、信息类型、内容情感等特征都是影响微博传播规模和深度的重要影响因素。

            希望基于大约1-3万条微博及其它们的转发微博,结合微博用户的关注关系、微博的内容类型和情感分析以及初期的传播模式,来预测微博的传播规模和传播深度。

    2.10 鲍鱼年龄预测

            鲍鱼,在现代汉语中有多种含义。最常用的是指一种原始的海洋贝类,属于单壳软体动物,其只有半面外壳,壳坚厚、扁而宽,鲍鱼是中国传统的名贵食材,位居四大海味之首。直至现今,在人民大会堂举行的多次国宴及大型宴会中,鲍鱼经常榜上有名,成为中国经典国宴菜之一。被人们称为“海洋的耳朵”。和古代“用盐腌制的鱼”是两种东西。鲍鱼的优劣与年龄相关。一般来说,我们可以数鲍鱼的生长纹来确定鲍鱼的年龄,但数生长纹也是一件挺麻烦的事情。

            希望利用与鲍鱼年龄有关的因素来预测鲍鱼的年龄。

    2.11 学生成绩排名预测

            学生的校园行为数据,可以挖掘用户作息规律、兴趣爱好等,精准地预测学生之间的相对排名。通过对这些日常行为的建模来预测学生的学业成绩,可以实现提前预警学生的异常情况,并进行适当的干预,因而对学生的培养、管理工作将会起到极其重要的作用。从某高校的某个学院随机抽取一定比例学生,提供这些学生在三个学期的图书馆进出记录、一卡通消费记录、图书馆借阅记录、以及综合成绩的相对排名。这一部分数据将作为训练数据。我们从另外的某学院随机抽取一定比例的学生,然后提供他们在三个学期的图书馆进出记录、一卡通消费记录、图书借阅记录、以及前两个学期的成绩排名。

            希望通过借助大数据相关的挖掘技术和基础算法,预测第三学期的成绩排名。

    2.12 网约车出行流量预测

            在出行问题上,中国市场人数多、人口密度大,总体的出行频率远高于其他国家,这种情况在大城市尤为明显。然而,截止目前中国拥有汽车的人口只有不到10%,这也意味着在中国人们的出行更加依赖于出租车、公共交通等市场提供的服务。另一方面,滴滴出行占领了国内绝大部分的网络呼叫出行市场,面对着巨大的数据量以及与日俱增的数据处理需求。截止目前,滴滴出行平台每日需处理1100万订单,需要分析的数据量达到50TB,路径规划服务请求超过90亿。面对如此庞杂的数据,我们需要通过不断升级、完善与创新背后的云计算与大数据技术,从而保证数据分析及相关应用的稳定,实现高频出行下的运力均衡。供需预测就是其中的一个关键问题。供需预测的目标是准确预测出给定地理区域在未来某个时间段的出行需求量及需求满足量。调研发现,同一地区不同时间段的订单密度是不一样的,例如大型居住区在早高峰时段的出行需求比较旺盛,而商务区则在晚高峰时段的出行需求比较旺盛。

            希望能预测到在未来的一段时间内某些地区的出行需求量比较大,以提前对营运车辆提供一些引导,指向性地提高部分地区的运力,从而提升乘客的整体出行体验。

    2.13 红酒品质评分

            红酒口感的好坏,受很多因素的影响,例如年份、产地、气候、酿造的工艺等等。通过一些化学属性特征就能够很好地判断红酒的品质。通过监测红酒中化学成分的含量,可以控制红酒的品质和口感。

            希望基于红酒的化学特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等,构建机器学习模型,对红酒品质进行评分。

    2.14搜索引擎的搜索量和股价波动

            上市公司在互联网中搜索量的变化,会显著影响公司股价的波动和趋势,即所谓的投资者注意力理论。该理论认为,公司在搜索引擎中的搜索量,代表了该股票被投资者关注的程度。因此,当一只股票的搜索频数增加时,说明投资者对该股票的关注度提升,从而使得该股票更容易被个人投资者购买,进一步地导致股票价格上升,带来正向的股票收益。

    2.15 中国人口增长分析

            中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关。影响中国人口自然增长率的因素有很多,如经济整体增长、居民消费水平、文化程度、人口分布,以及非农业与农业人口的比率等。

            希望通过历史数据分析,对未来人口增长率进行预测。

    2.16 农村居民收入增长预测

             “三农”问题的核心是农村居民收入问题。改革开放以来,农村经济蓬勃发展,农村居民收入有了较大幅度的增长,但与城镇居民的收入相比,却表现出增长缓慢、差距越来越大的趋势。

            希望对影响我国农村居民收入的因素进行分析,再运用实证方法对农民的经济统计数据进行分析,得到了影响农村居民纯收入的模型。为预测农村居民的收入增长趋势提供工具,为农村地区的政策措施提供参考建议。

    2.17 房地产销售影响因素分析

            改革开放以来,我国的经济突飞猛进对城市商品房的价格产生了巨大影响,特别是进入21世纪后,伴随着商品房价格日益增长,出现了房地产投资过热。在这种房价居高不下的形势下,国内外诸多专家学者认为我国的房地产市场已经出现价格泡沫,在房地产业对我国国民经济发展起着积极作用的大环境下,这种价格泡沫势必会对我国的经济发展造成重大影响。

            年人均收入、新增住房面积及上一年商品房价格等因素对房地产销售有影响,期望利用历史数据分析测度其对商品房价格的影响,找出了引起房地产价格波动的主要因素当年年人均收入,根据实证结论提出了控制房价的建议。

    2.18 股价走势预测

            随着经济社会的发展,以及人们投资意识的增强,人们越来越多的参与到股票市场的经济活动中,股票投资也已经成为人们生活的一个重要组成部分。然而在股票市场中,众多的指标、众多的信息,很难找出对股价更为关键的因素;其次股市结构极为复杂,影响因素具有多样性、相关性。这导致了很难找出股市内在的模式。

            希望在尽可能全面的收集股市信息的基础上,建立股价预测模。

    2.19 全国综合运输总量预测

            以全国同期国民经济主要产品产量,如原煤、原油、生铁、钢材、水泥、木材、粮食的历史数据,建立数据挖掘模型,对全国综合运输总运量进行预测。

    2.20 地震预报

            根据历史全球大地震的时空图,找出与中国大陆大地震有关的14个相关区,对这些相关区逐一鉴别,选取较优的9个,再根据这9个相关区发生的大震来预测中国大陆在未来一年内会不会有大震发生。

    3聚类算法应用场景实例

    3.1 基于用户位置信息的商业选址

            随着信息技术的快速发展,移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时,会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及,结合用户位置和GIS地理信息将带来创新应用。如百度与万达进行合作,通过定位用户的位置,结合万达的商户信息,向用户推送位置营销服务,提升商户效益。

    希望通过大量移动设备用户的位置信息,为某连锁餐饮机构提供新店选址。

    3.2 中文地址标准化处理

            地址是一个涵盖丰富信息的变量,但长期以来由于中文处理的复杂性、国内中文地址命名的不规范性,使地址中蕴含的丰富信息不能被深度分析挖掘。通过对地址进行标准化的处理,使基于地址的多维度量化挖掘分析成为可能,为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段,因此具有重要的现实意义。

    3.3 国家电网用户画像

            随着电力体制改革向纵深推进,售电侧逐步向社会资本放开,当下的粗放式经营和统一式客户服务内容及模式,难以应对日益增长的个性化、精准化客户服务体验要求。如何充分利用现有数据资源,深入挖掘客户潜在需求,改善供电服务质量,增强客户黏性,对公司未来发展至关重要。

            对电力服务具有较强敏感度的客户对于电费计量、供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求,成为各级电力公司关注的重点客户。经过多年的发展与沉淀,目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,可以有效的支撑海量电力数据分析。

            因此,国家电网公司希望通过大数据分析技术,科学的开展电力敏感客户分析,以准确地识别敏感客户,并量化敏感程度,进而支撑有针对性的精细化客户服务策略,控制电力服务人工成本、提升企业公众形象。

    3.4 非人恶意流量识别

            2016年第一季度Facebook发文称,其Atlas DSP平台半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75% . 仅2016上半年,AdMaster反作弊解决方案认定平均每天能有高达 28% 的作弊流量。低质量虚假流量的问题一直存在,这也是过去十年间数字营销行业一直在博弈的问题。基于AdMaster海量监测数据,50%以上的项目均存在作弊嫌疑;不同项目中,作弊流量占广告投放5%到95%不等;其中垂直类和网盟类媒体的作弊流量占比最高;PC端作弊流量比例显著高于移动端和智能电视平台。广告监测行为数据被越来越多地用于建模和做决策,例如绘制用户画像,跨设备识别对应用户等。作弊行为,恶意曝光,网络爬虫,误导点击,甚至是在用户完全无感知的情况下被控制访问等产生的不由用户主观发出的行为给数据带来了巨大的噪声,给模型训练造成了很大影响。

            希望基于给定的数据,建立一个模型来识别和标记作弊流量,去除数据的噪声,从而更好的使用数据,使得广告主的利益最大化。

    3.5 求职信息完善

            有大约10万分优质简历,其中部分简历包含完整的字段,部分简历在学历、公司规模、薪水、职位名称等字段有些置空项。希望对数据进行学习、编码与测试,挖掘出职位路径的走向与规律,形成算法模型,再对数据中置空的信息进行预测。

    3.6 搜索引擎查询聚类以进行流量推荐

            在搜索引擎中, 很多网民的查询意图的比较类似的,对这些查询进行聚类,一方面可以使用类内部的词进行关键词推荐;另一方面, 如果聚类过程实现自动化,则也有助于新话题的发现;同时还有助于减少存储空间等。

    3.7 生物种群固有结构认知

            对动植物分类和对基因进行分类,获取对种群固有结构的认识。

    3.8 保险投保者分组

            通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。

    3.9 网站关键词来源聚类整和

            以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。

    3.10 图像分割

            图像分割广泛应用于医学、交通、军事等领域。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。聚类算法先将图像空间中的像素用对应的特征空间点表示,根据它们在特征空间的聚集对特征空间进行分割,然后将它们映射回原图像空间,得到分割结果。

    4关联规则应用场景实例

    4.1 穿衣搭配推荐

            穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。

    4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

            生猪是畜牧业的第一大产业,其价格波动的社会反响非常敏感。生猪价格变动的主要原因在于受市场供求关系的影响。然而专家和媒体对于生猪市场前景的判断、疫情的报道,是否会对养殖户和消费者的情绪有所影响?情绪上的变化是否会对这些人群的行为产生一定影响,从而影响生猪市场的供求关系?互联网作为网民发声的第一平台,在网民情绪的捕捉上具有天然的优势。本次赛题希望参赛者可以基于海量提供的数据,挖掘出互联网情绪指标与生猪价格之间的关联关系,从而形成基于互联网数据的生猪价格预测模型,挖掘互联网情绪指标与生猪价格之间的关联关系和预测。

    4.3 依据用户轨迹的商户精准营销

            随着用户访问移动互联网的与日俱增,随着移动终端的大力发展,越来越多的用户选择使用移动终端访问网络,根据用户访问网络偏好,也形成了相当丰富的用户网络标签和画像等。如何根据用户的画像对用户进行精准营销成为了很多互联网和非互联网企业的新发展方向。如何利用已有的用户画像对用户进行分类,并针对不同分类进行业务推荐,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送。

            希望根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内,则对用户推送符合该用户画像的商户位置和其他优惠信息。

    4.4 地点推荐系统

            随着移动社交网路的兴起,用户的移动数据得到了大量的累积,使得这些移动数据能够基于地点推荐技术帮助人们熟悉周遭环境,提升地点的影响力等。

            希望利用用户的签到记录和地点的位置、类别等信息,为每个用户推荐50个感兴趣的地点。

    4.5 气象关联分析

            在社会经济生活中,不少行业,如农业、交通业、建筑业、旅游业、销售业、保险业等,无一例外与天气的变化息息相关。随着各行各业对气象信息的需求越来越大,社会各方对气象数据服务的个性化和精细化要求也在不断提升,如何开发气象数据在不同领域的应用,更好的支持大众创业、万众创新,服务民计民生,是气象大数据面临的迫切需求。 

            为了更深入地挖掘气象资源的价值,希望基于共计60年的中国地面历史气象数据,推动气象数据与其他各行各业数据的有效结合,寻求气象要素之间、以及气象与其它事物之间的相互关系,让气象数据发挥更多元化的价值。

    4.6 交通事故成因分析

            随着时代发展,便捷交通对社会产生巨大贡献的同时,各类交通事故也严重地影响了人们生命财产安全和社会经济发展。为了更深入挖掘交通事故的潜在诱因,带动公众关注交通安全,贵阳市交通管理局开放交通事故数据及多维度参考数据,希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘,形成交通事故成因分析方案。

    4.7 基于兴趣的实时新闻推荐

            随着近年来互联网的飞速发展,个性化推荐已成为各大主流网站的一项必不可少服务。提供各类新闻的门户网站是互联网上的传统服务,但是与当今蓬勃发展的电子商务网站相比,新闻的个性化推荐服务水平仍存在较大差距。一个互联网用户可能不会在线购物,但是绝大部分的互联网用户都会在线阅读新闻。因此资讯类网站的用户覆盖面更广,如果能够更好的挖掘用户的潜在兴趣并进行相应的新闻推荐,就能够产生更大的社会和经济价值。初步研究发现,同一个用户浏览的不同新闻的内容之间会存在一定的相似性和关联,物理世界完全不相关的用户也有可能拥有类似的新闻浏览兴趣。此外,用户浏览新闻的兴趣也会随着时间变化,这给推荐系统带来了新的机会和挑战。

            因此,希望通过对带有时间标记的用户浏览行为和新闻文本内容进行分析,挖掘用户的新闻浏览模式和变化规律,设计及时准确的推荐系统预测用户未来可能感兴趣的新闻。

    4.8 银行金融客户交叉销售分析

            某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析,从而发现交叉销售的机会。

    4.9 电子商务搭配购买推荐

            电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

    4.10 银行营销方案推荐

            关联规则挖掘技术已经被广泛应用在金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。如各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。

    展开全文
  • 本次课程诚邀PowerAI人工智能马拉松编程大赛获奖前三名团队精英,在线分享大赛获奖作品算法/模型等技术干货。
  • 机器学习算法应用场景实例

    千次阅读 2018-05-25 09:39:32
    标签: 人工智能数据挖掘机器学习竞赛算法 2016-12-14 22:19 8217人阅读 评论(2) 收藏 举报  分类: 竞赛(4)  版权声明:本文为博主原创文章,未经博主允许不得转载。  本文整理了60个机器学习...

    目录

    1 分类算法应用场景实例

    1.1 O2O优惠券使用预测

    1.2 市民出行选乘公交预测

    1.3待测微生物种类判别

    1.4 基于运营商数据的个人征信评估

    1.5 商品图片分类

    1.6 广告点击行为预测

    1.7 基于文本内容的垃圾短信识别

    1.8 中文句子类别精准分析

    1.9 P2P网络借贷平台的经营风险量化分析

    1.10 国家电网客户用电异常行为分析

    1.11 自动驾驶场景中的交通标志检测

    1.12 大数据精准营销中搜狗用户画像挖掘

    1.13 基于视角的领域情感分析

    1.14 监控场景下的行人精细化识别

    1.15 用户评分预测

    1.16 猫狗识别大战

    1.17 微额借款用户人品预测

    1.18 验证码识别

    1.19 客户流失率预测

    1.20 汽车4S店邮件营销方案

    2回归算法应用场景实例

    2.1 机场客流量分布预测

    2.2 音乐流行趋势预测

    2.3 需求预测与仓储规划方案

    2.4 新浪微博互动量预测

    2.5 货币基金资金流入流出预测

    2.6 电影票房预测

    2.7 农产品价格预测分析

    2.8 基于多源数据的青藏高原湖泊面积预测

    2.9 微博传播规模和传播深度预测

    2.10 鲍鱼年龄预测

    2.11 学生成绩排名预测

    2.12 网约车出行流量预测

    2.13 红酒品质评分

    2.14搜索引擎的搜索量和股价波动

    2.15 中国人口增长分析

    2.16 农村居民收入增长预测

    2.17 房地产销售影响因素分析

    2.18 股价走势预测

    2.19 全国综合运输总量预测

    2.20 地震预报

    3聚类算法应用场景实例

    3.1 基于用户位置信息的商业选址

    3.2 中文地址标准化处理

    3.3 国家电网用户画像

    3.4 非人恶意流量识别

    3.5 求职信息完善

    3.6 搜索引擎查询聚类以进行流量推荐

    3.7 生物种群固有结构认知

    3.8 保险投保者分组

    3.9 网站关键词来源聚类整和

    3.10 图像分割

    4关联规则应用场景实例

    4.1 穿衣搭配推荐

    4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

    4.3 依据用户轨迹的商户精准营销

    4.4 地点推荐系统

    4.5 气象关联分析

    4.6 交通事故成因分析

    4.7 基于兴趣的实时新闻推荐

    4.8 银行金融客户交叉销售分析

    4.9 电子商务搭配购买推荐

    4.10 银行营销方案推荐


    1 分类算法应用场景实例

    1.1 O2O优惠券使用预测

            以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。

            现有O2O场景相关的丰富数据,希望通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。

    1.2 市民出行选乘公交预测

            基于海量公交数据记录,希望挖掘市民在公共交通中的行为模式。以市民出行公交线路选乘预测为方向,期望通过分析广东省部分公交线路的历史公交卡交易数据,挖掘固定人群在公共交通中的行为模式,分析推测乘客的出行习惯和偏好,从而建立模型预测人们在未来一周内将会搭乘哪些公交线路,为广大乘客提供信息对称、安全舒适的出行环境,用数据引领未来城市智慧出行。

    1.3待测微生物种类判别

            DNA是多数生物的遗传物质,DNA上的碱基(A,T,C和G)就储藏了遗传信息,不同物种的DNA序列在序列长度和碱基组成上差异显著。所以我们能够通过DNA序列的比较分析,来判断DNA序列是来自哪些物种。由于测序技术限制,我们只能得到一定长度的DNA序列片段。通过DNA序列片段与已知的微生物DNA序列进行比较,可以确定DNA片段的来源微生物,进而确定待测微生物种类。

            期望在相关数据基础上,建立分析方法,在计算资源消耗尽量小的情况下,尽可能快地给出准确的结果,以满足临床诊断需求。

    1.4 基于运营商数据的个人征信评估

            运营商作为网络服务供应商,积累了大量的用户基本信息及行为特征数据,如终端数据、套餐消费数据、通信数据等等。实名制政策保证了运营商用户数据能与用户真实身份匹配,并真实客观的反映用户行为。广泛覆盖的网络基础设施提供了积累大量实时数据的条件,这些用户数据实时反馈着用户的各个维度的信息及特征。

            在我国,个人征信评估主要通过引用央行个人征信报告,但对于很多用户没有建立个人信用记录的用户,金融机构想要了解他们的信用记录成本又较高,传统征信评估手段难以满足目前多种多样的新兴需求。金融业务不同于其他大数据业务,对数据的真实性、可信度和时效性要求较高,而这正是运营商数据的价值所在。

            期望利用运营商用户数据,提供完善的个人征信评估。

    1.5 商品图片分类

            京东含有数以百万计的商品图片,“拍照购”“找同款”等应用必须对用户提供的商品图片进行分类。同时,提取商品图像特征,可以提供给推荐、广告等系统,提高推荐/广告的效果。

    希望通过对图像数据进行学习,以达到对图像进行分类划分的目的。

    1.6 广告点击行为预测

            用户在上网浏览过程中,可能产生广告曝光或点击行为。对广告点击进行预测,可以指导广告主进行定向广告投放和优化,使广告投入产生最大回报。

            希望基于100万名随机用户在六个月的时间范围内广告曝光和点击日志,包括广告监测点数据,预测每个用户在8天内是否会在各监测点上发生点击行为。

    1.7 基于文本内容的垃圾短信识别

            垃圾短信已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛,传统的基于策略、关键词等过滤的效果有限,很多垃圾短信“逃脱”过滤,继续到达手机终端。

            希望基于短信文本内容,结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种。

    1.8 中文句子类别精准分析

            精确的语义分析是大数据必备技术,在分析句子时,不同句子类别即使用类似的关键词,表达的含义仍有很大差别,特别是在情感判断中。

            希望通过新闻以及微博等文本数据,对其句子类别进行判断。

    1.9 P2P网络借贷平台的经营风险量化分析

            P2P网络借贷即点对点信贷,其风险情况始终触碰着投资人的神经。据网贷之家统计,截止今年9月份,出现问题的网贷平台一共有1008家,而仅仅今年就有641家平台出现问题,这说明了随着我国p2p行业的迅猛发展,P2P平台的风险预测已经成为一个至关重要的问题。P2P平台的风险主要是在运营过程中产生的,与运营数据有着密不可分的关系。P2P平台的风险预测并非无线索可寻,像借款期限和年化收益率等指标,就对P2P平台的风险预测有很重要的参考意义。

            希望通过互联网数据,构建出P2P网贷平台的经营风险模型,从而能够比较准确的预测P2P网贷平台的经营风险,促进我国P2P行业向正规化方向发展。

    1.10 国家电网客户用电异常行为分析

            社会经济的发展使得社会用电量逐年增加,受利益驱使,窃电现象也日益严重。窃电行为不仅给供电企业造成了重大经济损失,也严重影响了正常的供用电秩序。根据国家电网公司统计,近年因窃电导致的损失达上千万元。近年来,窃电方式也由野蛮窃电发展到设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电,给反窃电工作进一步增加了很大的难度。随着电力系统升级,智能电力设备的普及,国家电网公司可以实时收集海量的用户用电行为数据、电力设备监测数据,因此,国家电网公司希望通过大数据分析技术,科学的开展防窃电监测分析,以提高反窃电工作效率,降低窃电行为分析的时间及成本。

            希望基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据,以及经过现场电工人员现场确认的窃电用户清单,希望参赛者利用大数据分析算法与技术,发现窃电用户的行为特征,形成窃电用户行为画像,准确识别窃电用户,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。

    1.11 自动驾驶场景中的交通标志检测

            在自动驾驶场景中,交通标志的检测和识别对行车周围环境的理解起着至关重要的作用。例如通过检测识别限速标志来控制当前车辆的速度等;另一方面,将交通标志嵌入到高精度地图中,对定位导航也起到关键的辅助作用。交通标志的检测是一项非常有挑战的任务,精确的检测对后续识别,辅助定位导航起着决定性的作用。交通标志的种类众多,大小、角度不依,本身就很难做到精确检测,并且在真实的行车环境中,受到天气、光照等因素的影响,使得交通标志的检测更加困难。

            希望机遇完全真实场景下的图片数据用于训练和测试,训练能够实际应用在自动驾驶中的识别模型。

    1.12 大数据精准营销中搜狗用户画像挖掘

            “物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。

            希望基于用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

    1.13 基于视角的领域情感分析

            情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时,站在不同的视角,同一个句子的情感倾向判断结果将有所差别。

            给定一个句子,如果该句子中包含“视角”词语,则应针对这一视角进行情感分析;如果句子中包含多个“视角”词语,则应对不同的视角进行单独的情感分析;如果句子中不包含视角,则不做情感判别处理。

    1.14 监控场景下的行人精细化识别

            随着平安中国、平安城市的提出,视频监控被广泛应用于各种领域,这给维护社会治安带来了便捷;但同时也带来了一个问题,即海量的视频监控流使得发生突发事故后,需要耗费大量的人力物力去搜索有效信息。行人作为视频监控中的重要目标之一,若能对其进行有效的外观识别,不仅能提高视频监控工作人员的工作效率,对视频的检索、行人行为解析也具有重要意义。

            希望基于监控场景下多张带有标注信息的行人图像,在定位(头部、上身、下身、脚、帽子、包)的基础上研究行人精细化识别算法,自动识别出行人图像中行人的属性特征。标注的行人属性包括性别、头发长度和上下身衣着、鞋子及包的种类和颜色,并提供图像中行人头部、上身、下身、脚、帽子、包位置的标注。

    1.15 用户评分预测

            个性化推荐已经成为各大电子商务网站的必备服务。准确的推荐不仅可以提高商家的产品销量,更能为顾客提供优质快速的购物体验。推荐系统发展至今,已经有许多非常优秀的推荐算法,从各种不同的角度来为电子商务大厦添砖加瓦。迄今为止,已经有不少研究表明,用户在短期时间内会浏览相似的商品,但其兴趣可能会随时间发生些许变化。

            希望通过训练带有时间标记的用户打分行为,准确地预测这些用户对其他商品的打分。

    1.16 猫狗识别大战

            有人说,猫与狗上千年历史的敌对状态,主要是由于在长期进化过程中迫于对生存资源进行争夺而造成的残酷竞争导致的;也有人说,是他们天生的交流方式不同导致的;今天猫狗大战开始了,为了避免被这些家伙拆房的危险,各位智慧的人类,请速来隔离高冷猫和憨厚狗。

            希望从训练集里建立一个模型去识别测试集里的小狗来。

    1.17 微额借款用户人品预测

            互联网金融近年来异常火热,大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。而在所有的互联网金融产品中,微额借款(借款金额500元~1000元)因其主要服务对象的特殊性,被公认为是风险最高的细分领域。

            希望通过数据挖掘来分析”小额微贷“申请借款用户的信用状况,以分析其是否逾期。

    1.18 验证码识别

            使用各类验证码的训练集进行学习、编码与测试,形成验证码算法模型。

    1.19 客户流失率预测

            我国的移动通信行业经过了前几年的高速发展,近一段时间的发展速度逐渐缓慢下来。注册用户常常处于一种动态变化的状态,即不断有老客户离网,又不断有新客户入网。大量的低消费客户和大量老客户的离网使得移动通信公司无法快速向前发展。

    希望建立客户流失模型,对新老客户进行分类。

    1.20 汽车4S店邮件营销方案

            直邮营销是直效行销的一种,是把传统邮件直接发送给消费者的营销方式涉及的行业主要是大型商场、大卖场、商业连锁店铺、专卖店等。一家汽车4S店,公司拥有完备的客户历史消费数据库,现公司准备举办一次高端品牌汽车的促销活动,为配合这次促销活动,公司计划为潜在客户寄去一份精美的汽车销售材料并附带一份小礼品。由于资源有限,公司仅有1000份材料和礼品的预算额度。

            希望根据与这次促销活动类似的已经举办过的促销活动的历史消费数据,用过机器学习算法得到一个分类器,对新客户进行分类,生成正类客户的客户列表,向他们寄出材料和礼品。

    2回归算法应用场景实例

    2.1 机场客流量分布预测

            为了有效利用机场资源,机场正利用大数据技术,提升生产运营的效率。机场内需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口,航站楼外的停机位、廊桥、车辆(摆渡车、清洁车、物流车、能源车),要想提升这些资源的利用率首先需要知道未来一段时间将会有多少旅客或航班会使用这些资源,其次需要精准的调度系统来调配这些资源和安排服务人员,帮助机场提升资源利用效率,保障机场安全与服务提升。

            以海量机场WiFi数据及安检登机值机数据,希望通过数据算法实现机场航站楼客流分析与预测。

    2.2 音乐流行趋势预测

            经过7年的发展与沉淀,目前某音乐平台拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。

            以某音乐平台用户的历史播放数据为基础,期望通过对艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。

    2.3 需求预测与仓储规划方案

            拥有海量的买家和卖家交易数据的情况下,利用数据挖掘技术,我们能对未来的商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,更精确的需求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率,朝智能化的供应链平台方向更加迈进一步。高质量的商品需求预测是供应链管理的基础和核心功能。

            以历史一年海量买家和卖家的数据为依据,希望预测某商品在未来二周全国和区域性需求量。用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。

    2.4 新浪微博互动量预测

            新浪微博作为中国最大的社交媒体平台,旨在帮助用户发布的公开内容提供快速传播互动的通道,提升内容和用户的影响力。希望能够最快找到有价值微博的方法,然后应用于平台的内容分发控制策略,对于有价值的内容可以增加曝光量,提高内容的传播互动量。对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度,也是对博文进行分发控制的重要参考指标。

            希望根据抽样用户的原创博文在发表一天后的转发、评论、赞总数,建立博文的互动模型,并预测用户后续博文在发表一天后的互动情况。

    2.5 货币基金资金流入流出预测

            某金融服务机构拥有大量会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。

            期望能够通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。

    2.6 电影票房预测

            中国是全球第二大电影市场,同时也是增长最快的市场之一;随着市场的成熟,影响电影票房的因素也越来越多,包括题材、内容、导演、演员、编辑、发行方等等。因此对电影制作公司而言,依靠主观经验制作一部高票房的电影也越来越困难,而随着大数据技术的发展,借助大数据分析对电影市场进行分析,指导电影制作成为可能。 

    希望依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。

    2.7 农产品价格预测分析

            农产品价格受市场影响的程度特别大,特别是受农产品的供求关系影响较大,同时价格本身又受自然条件、社会和经济条件的影响,特别是国际市场的影响。从价格本身来看,受供求、季节等发生波动,受外界各种影响比较多,这就造成了价格预测的困难。但从长期看,农产品价格随着时间的推移仍然呈现一定规律性。价格预测是大数据的精华所在,通过大量的历史数据分析,预测未来的价格走势,为决策者提供更有力的数据支持。

            希望通过分析价格历史数据,对要求预测的农产品接下来固定时间的价格进行预测。并尽可能多的使用与价格有影响的其他数据以提高预测的准确率。

    2.8 基于多源数据的青藏高原湖泊面积预测

            全球气候变化对青藏高原的湖泊水储量有很大影响,因此精确的估计青藏高原湖泊面积变化对于研究气候变化变得很重要。海量多源异构数据和大数据处理与挖掘技术给湖泊面积变化研究带来新的解决思路;如何通过多源数据对青藏高原的湖泊面积进行预测,将大数据技术应用到全球气候变化研究中来成为一项新的挑战。

            希望通过研究青藏高原湖泊面积变化的多种影响因素,构建青藏高原湖泊面积预测模型。

    2.9 微博传播规模和传播深度预测

            近些年,一些研究表明,一条微博发出以后,只需要观察其在之后一小段时间内的转发情况,它的传播规模便可以被预测。但是不同类型的微博会有不同的传播方式,比如明星晒一张生活状态就能得到众多粉丝的热捧,具有较大的传播广度,但是往往在传播深度上稍显不足;相比之下,一些被广泛讨论的新闻类微博往往具有较深的传播深度。也有统计结果显示,一些谣言往往会得到大规模的传播,辟谣类的消息反而得不到广泛关注。不仅如此,我们在热门微博中能看到不少正能量的信息,同时也能看到一些话题被持正反两种不同意见的人掀起讨论热潮。简而言之,微博初期的传播速度、用户关系、信息类型、内容情感等特征都是影响微博传播规模和深度的重要影响因素。

            希望基于大约1-3万条微博及其它们的转发微博,结合微博用户的关注关系、微博的内容类型和情感分析以及初期的传播模式,来预测微博的传播规模和传播深度。

    2.10 鲍鱼年龄预测

            鲍鱼,在现代汉语中有多种含义。最常用的是指一种原始的海洋贝类,属于单壳软体动物,其只有半面外壳,壳坚厚、扁而宽,鲍鱼是中国传统的名贵食材,位居四大海味之首。直至现今,在人民大会堂举行的多次国宴及大型宴会中,鲍鱼经常榜上有名,成为中国经典国宴菜之一。被人们称为“海洋的耳朵”。和古代“用盐腌制的鱼”是两种东西。鲍鱼的优劣与年龄相关。一般来说,我们可以数鲍鱼的生长纹来确定鲍鱼的年龄,但数生长纹也是一件挺麻烦的事情。

            希望利用与鲍鱼年龄有关的因素来预测鲍鱼的年龄。

    2.11 学生成绩排名预测

            学生的校园行为数据,可以挖掘用户作息规律、兴趣爱好等,精准地预测学生之间的相对排名。通过对这些日常行为的建模来预测学生的学业成绩,可以实现提前预警学生的异常情况,并进行适当的干预,因而对学生的培养、管理工作将会起到极其重要的作用。从某高校的某个学院随机抽取一定比例学生,提供这些学生在三个学期的图书馆进出记录、一卡通消费记录、图书馆借阅记录、以及综合成绩的相对排名。这一部分数据将作为训练数据。我们从另外的某学院随机抽取一定比例的学生,然后提供他们在三个学期的图书馆进出记录、一卡通消费记录、图书借阅记录、以及前两个学期的成绩排名。

            希望通过借助大数据相关的挖掘技术和基础算法,预测第三学期的成绩排名。

    2.12 网约车出行流量预测

            在出行问题上,中国市场人数多、人口密度大,总体的出行频率远高于其他国家,这种情况在大城市尤为明显。然而,截止目前中国拥有汽车的人口只有不到10%,这也意味着在中国人们的出行更加依赖于出租车、公共交通等市场提供的服务。另一方面,滴滴出行占领了国内绝大部分的网络呼叫出行市场,面对着巨大的数据量以及与日俱增的数据处理需求。截止目前,滴滴出行平台每日需处理1100万订单,需要分析的数据量达到50TB,路径规划服务请求超过90亿。面对如此庞杂的数据,我们需要通过不断升级、完善与创新背后的云计算与大数据技术,从而保证数据分析及相关应用的稳定,实现高频出行下的运力均衡。供需预测就是其中的一个关键问题。供需预测的目标是准确预测出给定地理区域在未来某个时间段的出行需求量及需求满足量。调研发现,同一地区不同时间段的订单密度是不一样的,例如大型居住区在早高峰时段的出行需求比较旺盛,而商务区则在晚高峰时段的出行需求比较旺盛。

            希望能预测到在未来的一段时间内某些地区的出行需求量比较大,以提前对营运车辆提供一些引导,指向性地提高部分地区的运力,从而提升乘客的整体出行体验。

    2.13 红酒品质评分

            红酒口感的好坏,受很多因素的影响,例如年份、产地、气候、酿造的工艺等等。通过一些化学属性特征就能够很好地判断红酒的品质。通过监测红酒中化学成分的含量,可以控制红酒的品质和口感。

            希望基于红酒的化学特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等,构建机器学习模型,对红酒品质进行评分。

    2.14搜索引擎的搜索量和股价波动

            上市公司在互联网中搜索量的变化,会显著影响公司股价的波动和趋势,即所谓的投资者注意力理论。该理论认为,公司在搜索引擎中的搜索量,代表了该股票被投资者关注的程度。因此,当一只股票的搜索频数增加时,说明投资者对该股票的关注度提升,从而使得该股票更容易被个人投资者购买,进一步地导致股票价格上升,带来正向的股票收益。

    2.15 中国人口增长分析

            中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关。影响中国人口自然增长率的因素有很多,如经济整体增长、居民消费水平、文化程度、人口分布,以及非农业与农业人口的比率等。

            希望通过历史数据分析,对未来人口增长率进行预测。

    2.16 农村居民收入增长预测

             “三农”问题的核心是农村居民收入问题。改革开放以来,农村经济蓬勃发展,农村居民收入有了较大幅度的增长,但与城镇居民的收入相比,却表现出增长缓慢、差距越来越大的趋势。

            希望对影响我国农村居民收入的因素进行分析,再运用实证方法对农民的经济统计数据进行分析,得到了影响农村居民纯收入的模型。为预测农村居民的收入增长趋势提供工具,为农村地区的政策措施提供参考建议。

    2.17 房地产销售影响因素分析

            改革开放以来,我国的经济突飞猛进对城市商品房的价格产生了巨大影响,特别是进入21世纪后,伴随着商品房价格日益增长,出现了房地产投资过热。在这种房价居高不下的形势下,国内外诸多专家学者认为我国的房地产市场已经出现价格泡沫,在房地产业对我国国民经济发展起着积极作用的大环境下,这种价格泡沫势必会对我国的经济发展造成重大影响。

            年人均收入、新增住房面积及上一年商品房价格等因素对房地产销售有影响,期望利用历史数据分析测度其对商品房价格的影响,找出了引起房地产价格波动的主要因素当年年人均收入,根据实证结论提出了控制房价的建议。

    2.18 股价走势预测

            随着经济社会的发展,以及人们投资意识的增强,人们越来越多的参与到股票市场的经济活动中,股票投资也已经成为人们生活的一个重要组成部分。然而在股票市场中,众多的指标、众多的信息,很难找出对股价更为关键的因素;其次股市结构极为复杂,影响因素具有多样性、相关性。这导致了很难找出股市内在的模式。

            希望在尽可能全面的收集股市信息的基础上,建立股价预测模。

    2.19 全国综合运输总量预测

            以全国同期国民经济主要产品产量,如原煤、原油、生铁、钢材、水泥、木材、粮食的历史数据,建立数据挖掘模型,对全国综合运输总运量进行预测。

    2.20 地震预报

            根据历史全球大地震的时空图,找出与中国大陆大地震有关的14个相关区,对这些相关区逐一鉴别,选取较优的9个,再根据这9个相关区发生的大震来预测中国大陆在未来一年内会不会有大震发生。

    3聚类算法应用场景实例

    3.1 基于用户位置信息的商业选址

            随着信息技术的快速发展,移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时,会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及,结合用户位置和GIS地理信息将带来创新应用。如百度与万达进行合作,通过定位用户的位置,结合万达的商户信息,向用户推送位置营销服务,提升商户效益。

    希望通过大量移动设备用户的位置信息,为某连锁餐饮机构提供新店选址。

    3.2 中文地址标准化处理

            地址是一个涵盖丰富信息的变量,但长期以来由于中文处理的复杂性、国内中文地址命名的不规范性,使地址中蕴含的丰富信息不能被深度分析挖掘。通过对地址进行标准化的处理,使基于地址的多维度量化挖掘分析成为可能,为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段,因此具有重要的现实意义。

    3.3 国家电网用户画像

            随着电力体制改革向纵深推进,售电侧逐步向社会资本放开,当下的粗放式经营和统一式客户服务内容及模式,难以应对日益增长的个性化、精准化客户服务体验要求。如何充分利用现有数据资源,深入挖掘客户潜在需求,改善供电服务质量,增强客户黏性,对公司未来发展至关重要。

            对电力服务具有较强敏感度的客户对于电费计量、供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求,成为各级电力公司关注的重点客户。经过多年的发展与沉淀,目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,可以有效的支撑海量电力数据分析。

            因此,国家电网公司希望通过大数据分析技术,科学的开展电力敏感客户分析,以准确地识别敏感客户,并量化敏感程度,进而支撑有针对性的精细化客户服务策略,控制电力服务人工成本、提升企业公众形象。

    3.4 非人恶意流量识别

            2016年第一季度Facebook发文称,其Atlas DSP平台半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75% . 仅2016上半年,AdMaster反作弊解决方案认定平均每天能有高达 28% 的作弊流量。低质量虚假流量的问题一直存在,这也是过去十年间数字营销行业一直在博弈的问题。基于AdMaster海量监测数据,50%以上的项目均存在作弊嫌疑;不同项目中,作弊流量占广告投放5%到95%不等;其中垂直类和网盟类媒体的作弊流量占比最高;PC端作弊流量比例显著高于移动端和智能电视平台。广告监测行为数据被越来越多地用于建模和做决策,例如绘制用户画像,跨设备识别对应用户等。作弊行为,恶意曝光,网络爬虫,误导点击,甚至是在用户完全无感知的情况下被控制访问等产生的不由用户主观发出的行为给数据带来了巨大的噪声,给模型训练造成了很大影响。

            希望基于给定的数据,建立一个模型来识别和标记作弊流量,去除数据的噪声,从而更好的使用数据,使得广告主的利益最大化。

    3.5 求职信息完善

            有大约10万分优质简历,其中部分简历包含完整的字段,部分简历在学历、公司规模、薪水、职位名称等字段有些置空项。希望对数据进行学习、编码与测试,挖掘出职位路径的走向与规律,形成算法模型,再对数据中置空的信息进行预测。

    3.6 搜索引擎查询聚类以进行流量推荐

            在搜索引擎中, 很多网民的查询意图的比较类似的,对这些查询进行聚类,一方面可以使用类内部的词进行关键词推荐;另一方面, 如果聚类过程实现自动化,则也有助于新话题的发现;同时还有助于减少存储空间等。

    3.7 生物种群固有结构认知

            对动植物分类和对基因进行分类,获取对种群固有结构的认识。

    3.8 保险投保者分组

            通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。

    3.9 网站关键词来源聚类整和

            以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。

    3.10 图像分割

            图像分割广泛应用于医学、交通、军事等领域。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。聚类算法先将图像空间中的像素用对应的特征空间点表示,根据它们在特征空间的聚集对特征空间进行分割,然后将它们映射回原图像空间,得到分割结果。

    4关联规则应用场景实例

    4.1 穿衣搭配推荐

            穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。

    4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

            生猪是畜牧业的第一大产业,其价格波动的社会反响非常敏感。生猪价格变动的主要原因在于受市场供求关系的影响。然而专家和媒体对于生猪市场前景的判断、疫情的报道,是否会对养殖户和消费者的情绪有所影响?情绪上的变化是否会对这些人群的行为产生一定影响,从而影响生猪市场的供求关系?互联网作为网民发声的第一平台,在网民情绪的捕捉上具有天然的优势。本次赛题希望参赛者可以基于海量提供的数据,挖掘出互联网情绪指标与生猪价格之间的关联关系,从而形成基于互联网数据的生猪价格预测模型,挖掘互联网情绪指标与生猪价格之间的关联关系和预测。

    4.3 依据用户轨迹的商户精准营销

            随着用户访问移动互联网的与日俱增,随着移动终端的大力发展,越来越多的用户选择使用移动终端访问网络,根据用户访问网络偏好,也形成了相当丰富的用户网络标签和画像等。如何根据用户的画像对用户进行精准营销成为了很多互联网和非互联网企业的新发展方向。如何利用已有的用户画像对用户进行分类,并针对不同分类进行业务推荐,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送。

            希望根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内,则对用户推送符合该用户画像的商户位置和其他优惠信息。

    4.4 地点推荐系统

            随着移动社交网路的兴起,用户的移动数据得到了大量的累积,使得这些移动数据能够基于地点推荐技术帮助人们熟悉周遭环境,提升地点的影响力等。

            希望利用用户的签到记录和地点的位置、类别等信息,为每个用户推荐50个感兴趣的地点。

    4.5 气象关联分析

            在社会经济生活中,不少行业,如农业、交通业、建筑业、旅游业、销售业、保险业等,无一例外与天气的变化息息相关。随着各行各业对气象信息的需求越来越大,社会各方对气象数据服务的个性化和精细化要求也在不断提升,如何开发气象数据在不同领域的应用,更好的支持大众创业、万众创新,服务民计民生,是气象大数据面临的迫切需求。 

            为了更深入地挖掘气象资源的价值,希望基于共计60年的中国地面历史气象数据,推动气象数据与其他各行各业数据的有效结合,寻求气象要素之间、以及气象与其它事物之间的相互关系,让气象数据发挥更多元化的价值。

    4.6 交通事故成因分析

            随着时代发展,便捷交通对社会产生巨大贡献的同时,各类交通事故也严重地影响了人们生命财产安全和社会经济发展。为了更深入挖掘交通事故的潜在诱因,带动公众关注交通安全,贵阳市交通管理局开放交通事故数据及多维度参考数据,希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘,形成交通事故成因分析方案。

    4.7 基于兴趣的实时新闻推荐

            随着近年来互联网的飞速发展,个性化推荐已成为各大主流网站的一项必不可少服务。提供各类新闻的门户网站是互联网上的传统服务,但是与当今蓬勃发展的电子商务网站相比,新闻的个性化推荐服务水平仍存在较大差距。一个互联网用户可能不会在线购物,但是绝大部分的互联网用户都会在线阅读新闻。因此资讯类网站的用户覆盖面更广,如果能够更好的挖掘用户的潜在兴趣并进行相应的新闻推荐,就能够产生更大的社会和经济价值。初步研究发现,同一个用户浏览的不同新闻的内容之间会存在一定的相似性和关联,物理世界完全不相关的用户也有可能拥有类似的新闻浏览兴趣。此外,用户浏览新闻的兴趣也会随着时间变化,这给推荐系统带来了新的机会和挑战。

            因此,希望通过对带有时间标记的用户浏览行为和新闻文本内容进行分析,挖掘用户的新闻浏览模式和变化规律,设计及时准确的推荐系统预测用户未来可能感兴趣的新闻。

    4.8 银行金融客户交叉销售分析

            某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析,从而发现交叉销售的机会。

    4.9 电子商务搭配购买推荐

            电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

    4.10 银行营销方案推荐

            关联规则挖掘技术已经被广泛应用在金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。如各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。

    参考文档: https://blog.csdn.net/liulingyuan6/article/details/53648273
    展开全文
  • AI vs 深度学习 vs 机器学习:人工智能的 12 大应用场景

    AI vs 深度学习 vs 机器学习:人工智能的 12 大应用场景

    2017-01-25 新智元

    在本文中,作者先探讨了深度学习的特点和优势,然后介绍了12种类型的AI问题,即:在哪些场景下应该使用人工智能(AI)?作者强调企业AI问题,因为他认为AI会影响许多主流的应用。

    深度学习能解决什么问题?

    首先,让我们探讨深度学习是什么。

    深度学习是指由许多层组成的人工神经网络。“深”是指层数多。相比深度学习,其他的许多机器学习算法是浅的,例如 SVM,因为它们没有多层的深架构。多层的架构允许后面的计算建立在前面的计算之上。目前的深度学习网络已经有10+甚至100+层。

    多层的存在使得网络能够学习更多的抽象特征。因此,网络的较高层可以获得建立在来自较低层的输入上的更多抽象特征。深度学习网络可以被视为特征提取层(feature extraction layer),其顶部是分类层(Classification layer )。深度学习的能力不在于它的分类,而特征提取。特征提取是自动(没有人为干预)而且多层的。

    通过向网络展示大量有标记的示例来训练网络,通过检测误差并调整神经元之间连接的权重以改进结果。重复该优化过程以创建微调后的网络。一旦部署之后,可以利用优化的网络来评估没有标记的图像。

    特征工程(Feature engineering)包括找到变量之间的连接并将它们包装到一个新的变量中。深度学习执行自动特征工程。 自动特征工程是深度学习的主要特征。特别是对于图像等非结构化数据来说自动特征工程很重要,因为人工的特征工程非常缓慢而且耗费劳力,并且对执行执行工程的人的领域知识有很大依赖性。

    深度学习适合目标函数复杂且数据集较大的问题,但有正例和负例的例子。深度学习也适合涉及层次和抽象的问题。

    抽象(Abstraction)是一个概念过程,通过抽象从一般规则和概念中衍生出具体例子的使用和分类。我们可以将抽象视为一个“超级类”(super-category)的创建,包括描述特定目的的示例的共同特征,但会忽略每个示例中的“局部变化”(local changes)。例如,“猫”的抽象包括毛,胡须等。对于深度学习来说,每个层涉及对一个特征的检测,并且随后的层以先前的层为基础。因此,在问题域包括抽象和分层概念的情况下可以使用深度学习。图像识别属于此类别。 相比之下,垃圾邮件检测问题可以被建模为一个spreadsheet,可能就不是需要使用深度学习的复杂问题。

    AI vs. 深度学习 vs. 机器学习

    在探讨AI的应用类型之前,我们需要了解三个术语之间的差异,即 AI、深度学习、机器学习。

    AI 意味着能够推理的机器(a machine that can Reason)。AI 的更多特征如下(来源自 David Kelnar):

    推理(Reasoning):通过逻辑推理来解决问题的能力。
    知识(Knowledge):呈现有关世界的知识的能力(理解世界上存在某些物体,事件和状态;理解这些要素具有属性;以及理解这些要素可以分类)。
    规划(Planning):设立目标及实现目标的能力
    交流(Communication):理解书面语言和口语的能力。
    感知(Perception):从视觉图像,声音以及其他感官输入推断有关世界的事物的能力。

    AI的终极目标是通用的人工智能,它允许机器在普通的人类环境中独立运行。我们今天看到的主要是狭隘的AI(例如NEST恒温器)。AI正在快速发展。目前已有一系列的技术在驱动AI。这些技术包括:图像识别和自动标记,面部识别,文本 - 语音,语音 - 文本,自动翻译,情感分析和图像、视频、文本、语音的情感分析。资料来源:Bill Vorhies。

    深度学习算法的进步推动了AI。深度学习算法可以在没有特征的先前定义的情况下检测模式。它们可以被看作是一种混合形式的监督学习,因为仍然需要使用大量的示例训练网络,但不需要预先定义示例的特性(features)。深度学习网络由于算法本身的改进和硬件能力的提升(尤其是GPU)而得到了巨大的进步。

    最后,从广义上说,机器学习这个术语意味着可以应用于数据集以找到数据中的模式的任何算法应用。包括有监督,无监督,分割( segmentation),分类或回归等算法。

    12类AI问题

    在上述背景知识的基础上,我们现在讨论12种类型的 AI 问题。

    1. 领域专家:涉及基于复杂知识体系的推理问题

    包括基于学习法律、金融等知识体系的任务,然后构想在该领域中机器可以模仿专家的过程。

    1. 领域扩展:涉及对复杂知识体系进行扩展的问题

    在这个问题中,机器学习一个复杂的知识体系,如有关药物的信息,然后向这个领域本身提出新的见解——例如治疗疾病的新药。

    1. 复杂计划者:涉及计划的任务

    当前的算法(非AI)能够完成许多物流和调度任务。但优化变得越来越复杂,AI可以解决这个问题。一个例子是在物联网中使用AI技术处理稀疏数据集。在这个场景下AI的优势是,因为数据集非常大而且复杂,人类无法检测到数据中的模式,但机器可以很容易做到。

    1. 更好的沟通者:设计改善现有的沟通任务

    AI 和深度学习对多种沟通模式有帮助,如自动翻译,智能代理等。

    1. 新的感知:设计感知的任务

    AI和深度学习使更新的感知形式成为可能,如自动驾驶车辆。

    1. 企业 AI:AI与企业再造相符合。

    AI将被部署在几乎所有的经济部门,例如自动驾驶车辆等得到了媒体的大力关注。有一个原则能适用各种场景,即通过深度学习,AI将被用于自动特征检测(automatic feature dection)以得出新的洞见,这将有助于优化、改进或改变业务流程(比传统机器学习带来的改变更大)。从更广泛的意义来说,这是令AI与企业再造(Re-engineering the Corporation)相符合。

    1. 企业AI将非结构化的数据和认知能力添加到ERP和数据仓库

    非结构化数据为深度学习和AI提供了巨大的机会。正如 Forbes 在对2017年的技术趋势进行预测时所说:“绝大多数组织能得到的数据是非结构化的,例如通话日志、电子邮件、会议记录、视频和音频数据,虽然这些数据很有价值,但不容易进行一致的格式化以供直接进行定量分析。随着图像识别、情感分析和自然语言处理等领域的进步,这些信息开始开放,因此挖掘这些数据中的信息将是2017年的越来越大的业务。”我非常同意这个观点。在实践中,这意味着通过认知系统增强 ERP 和数据仓库(Data warehosing)系统的功能。

    1. 由于AI的二阶后果影响领域的问题

    MMC Ventures 投资总监 David Kelnar 在有关第四次工业革命的文章中写道:“机器学习的二阶后果(second-order consequences)将超过其直接影响。深度学习改进了计算机视觉,例如,使得自动驾驶使车辆成为可能。但这些进步带来的影响是什么呢?今天,全英国90%的人和80%的货物通过公路运输。自动驾驶车辆将影响:安全(90%的事故是由于驾驶员注意力不集中引起的);就业(全英国有220万人从事运输和物流行业,年薪约为570亿英镑);保险(自动驾驶车辆将导致预期的汽车保险收入降低63%);部门经济学(消费者可能更多使用按需运输服务来代替私家汽车);车辆吞吐量;城市规划;规章制度等。”

    1. 在不远的将来可能从改进的算法中受益的问题

    得益于更好的算法或更好的软件,在不远的将来,过去不可能的一些事物将变得可能。例如,语音识别的准确度将继续提高,目前语音识别已经达到人类的最高水平了。2012年谷歌使用LSTM驱动安卓系统上的语音识别。一个半月前,微软的工程师发布报告说,他们的语音识别系统的错误率已经降到5.9%,这个数字恰是人类的最佳水平。

    1. 专家系统的演变

    专家系统已经存在很长时间了。得益于 AI/深度学习算法,专家系统的大部分能力可以在不久的将来得到实现。如果了解过 IBM Watson 的架构,你可以看到 Watson 的方案带来了专家系统愿景。当然,相同的想法如今可以在 Watson 身上独立实现。

    1. 超长序列模式识别

    AI技术在序列模式识别中的应用仍然处于早期阶段(还没有得到例如CNN那般的关注),但在我看来,这将是一个快速扩展的空间。有关序列模式识别的背景,可以阅读 Pooyan Safari 的 thesis “Technische Universitat Munchen(TUM)”,以及 Jakob Aungiers 的博客文章“ LSTM Neural Network for Time Series Prediction”。

    1. 使用AI扩展情感分析

    AI和情感分析之间的相互作用也是一个新的领域。目前在AI和情感分析之间已经有很多协同作用,因为AI应用的许多功能需要情感分析。

    AI和情感分析的协同作用可以从四个方面来看,分别是物体识别(object identification),特征提取(feature extraction),定位分类(orientation classification)和集成(integration)。现有的解决方案或可用的系统仍然不完美,或不能满足终端用户的需求。主要的问题是,情感受许多概念化规则(conceptual rules )的支配,而且有更多的线索(也许无限多)可以将这些概念从领会转换为到人类的言语表达。

    结论

    总结而言,AI 是一个快速发展的领域。虽然 AI 不仅仅是深度学习,但 AI 大部分是由深度学习的进展驱动着的。自动特征学习是 AI 的主要特点。AI 需要许多详细、实用的策略,本文中没有涵盖。好的 AI 设计者应该能够提出更复杂的策略,如预训练和迁移学习(transfer learning)。

    AI 也不是万能药。AI 需要高成本(技能、开发和架构),但能带来指数级的性能提高。因此,AI 最终将是有钱的大公司的游戏。但 AI 也是一个“胜者全胜”的游戏,能带来极大的竞争优势。

    http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2651992704&idx=3&sn=6e629406efca5f84cfe5a4aea7532c47&chksm=f1214671c656cf674dbfe1baa8da179472ebcda3b422da6d9176f5ca778d2e19af8512490af4&mpshare=1&scene=5&srcid=0125iCh7wJCqZhL9xzebb5nd#rd

    展开全文
  • 基于深度学习的场景识别算法研究,姜轩,俎云霄,近几年,深度学习在计算机视觉领域取得了巨大的成就,场景识别作为计算机视觉中重要的研究方向具有一定的挑战性。随着数据规模的
  • 聚类算法应用场景实例十则

    万次阅读 2016-12-14 13:11:14
    本文整理了5个天池、DataCastle、CCF中可使用回归算法处理的问题场景。 1 基于用户位置信息的商业选址  随着信息技术的快速发展,移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时,会自然的留下...
  • 回归算法应用场景实例二十则

    万次阅读 2016-12-14 13:06:50
    本文整理了12个天池、DataCastle、CCF中可使用回归算法处理的问题场景。 1 机场客流量分布预测  为了有效利用机场资源,机场正利用大数据技术,提升生产运营的效率。机场内需要不断提升运行效率的资源有航站楼内的...
  • ASC区块链赋能AI人工智能逐渐成为了技术和产业发展的重要方向,可高效解决数据信任和隐私保护等问题,使之变得更加人性化、可视化、可信化、智能化。 ASC区块链AI协作生态平台将依托区块链底层构架,连接数据资源方...
  • 最近大家比较关心的围棋人机大战(google alphago深度学习+蒙特卡洛搜索算法 vs 李世石)中,google deepmind基于Nature2016文章的alphago算法在5局制的比赛中已经取得了3-1的成绩提前锁定了胜局。本文扒了一下...
  • 随着人工智能的发展与应用AI测试逐渐进入到我们的视野,传统的功能测试策略对于算法测试而言,心有余而力不足,难以满足对人工智能 (AI) 的质量保障。 结合在人脸检测、检索算法上的测试探索、实践的过程,本文将...
  • 云智慧智能研究院的Bowen与Kappa从场景算法、实践的角度为智能运维行业挖掘了一条算法体系建设的清晰路径。 章节目录 一、智能运维之问 二、以数据为基础、以场景为导向、以算法为支撑 三、场景与数据 四、...
  • 不仅云从、依图、旷视、商汤等CV企业和海大宇等传统安防企业开始布局人工智能算法,业内传闻称华为也即将在2019上半年推自研AI算法。随着投入不断加大,安防监控视频识别算法准确率大幅提升。例如,人脸识别算法早在...
  • AI 市场尚处于技术发展的萌芽期,其在技术层已有部分成熟应用场景,但受限于庞大的数据需求及有限识别精度,尚需突破技术瓶颈实现新场景开拓,而基础层同样期待成熟 AI 专用芯片,以实现AI移...
  • 本次课程诚邀PowerAI人工智能马拉松编程大赛获奖前三名团队精英,在线分享大赛获奖作品算法/模型等技术干货。
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达3D模型又有新玩法,Goolge的新AI算法实时生成3D场景!对于3D、AR/VR来说,三维重建、模型获取又有新思路啦。人工智能可以彻...
  • 深度学习 场景识别Recognizing the environment in one glance is one of the human brain’s most accomplished deeds. While the tremendous recent progress in object recognition tasks originates from the ...
  • 3D结构光摄像头深度算法

    千次阅读 2020-09-29 07:00:00
    点击上方“3D视觉工坊”,选择“星标”干货第一时间送达光学和算法是3D结构光的核心能力,性能优越的3D结构光摄像头必须是光学系统和深度算法的完美融合,两者高度耦合且技术上不可分割。本篇文...
  • 要求使用某种书本上常见的深度强化学习算法,实现训练场景大小不小于5x5,一次只有一个食物的贪吃蛇的AI,能让蛇吃满整个场景。 希望能讲清楚具体使用哪种算法,整个场景以什么样的格式提交给智能体做决策,奖励系统...
  • 本节课的主要内容是针对使用协同滤波算法进行电影评分预测的应用场景,分别使用Excel、Fast.AI、Pytorch、自主构建的网络,来实现相应功能。 所用数据为MovieLens数据,其中中的评分表存储了用户id,电影id,以及5...
  • 人工智能-机器学习笔记 定位 作为人工智能领域(数据挖掘/机器学习方向)的基础课程,为长期从事人工智能方向打下坚实的...1 人工智能应用场景 2 人工智能小案例 案例一: 参考链接:https://quickdraw.withgoogle.c
  • 资料来源:软件定义世界(SDX)文:e-works孙亚婷 郑倩来源:数字化企业人工智能的概念第一次被提出,是在20世纪50年代,距今已六十余年的时间。然而直到近几年,人工智能才迎来爆...
  • 人工智能的三大基石—算法、数据和计算能力,算法作为其中之一,是非常重要的,那么人工智能都会涉及哪些算法呢?不同算法适用于哪些场景呢? 一、按照模型训练方式不同可以分为: 监督学习(Supervised Learning)...
  • 大数据常用算法场景

    万次阅读 2018-03-28 13:09:42
    大数据常用算法场景 大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式...
  • 人工智能涉及算法

    千次阅读 2019-06-24 10:51:29
    人工智能的三大基石:算法、数据和计算能力。就算法来看,涉及如下几种。 一、按照模型训练方式不同分类 可以分为监督学习(Supervised Learning),无监督学习(Unsupervised Learning)、半监督学习(Semi-...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 64,378
精华内容 25,751
关键字:

ai深度算法应用场景