精华内容
下载资源
问答
  • 数据分析大赛总结

    2019-07-04 10:03:04
    参加公司数据分析竞赛参赛总结,虽结果不理想,但反省自身,为再战积累经验。

    数据分析大赛总结

    ETL

    在进行跨应用的数据融合计算时,首先需要将数据从孤立的数据源中采集出来,汇集到可被计算平台高效访问的目的地,此过程被称为 ETL,即数据的抽取(Extract)、转换(Transform)和加载(Load)

    #参赛总结
    1、决赛数据选择错误,选择了自己不熟悉的领域分析。
    2、对于所选数据的不熟悉,导致数据维度之间的关联性理解不深刻,无法找到有趣的切入点。
    3、分析思路不清晰,分析视角无趣,没找到聚焦点进行深入挖掘。
    4、知识体系单薄,无法提出有趣或深刻的观点。
    #改善
    1、以后比赛,必须选择自己最熟悉的数据进行分析,即便数据简单。
    2、必须在充分理解各数据维度相关性的基础上,再构建思路。
    3、保证思路明确,逻辑清晰,并且找到一个有趣的切入点,由面到点,进行深入挖掘。整体分析过程沿着一条线走,上下叙述逻辑紧扣,层层递进。
    4、广泛阅读,增强知识能力。

    展开全文
  • 竞赛数据集来自互联网视频,总量不少于1万段,其中包含共6类,每类不少于200段的特定行为视频。每段特定行为视频至少包含一段起止位置完整的某类特定行为,并包含与特定行为无关的背景视频内容,视频的平均帧率为24...

    参赛背景

    3周前,接到一项任务是准备视频行为识别模型并参赛。
    竞赛数据集来自互联网视频,总量不少于1万段,其中包含共6类,每类不少于200段的特定行为视频。每段特定行为视频至少包含一段起止位置完整的某类特定行为,并包含与特定行为无关的背景视频内容,视频的平均帧率为24FPS,时长区间为20s-200s之间。

    赛题分析

    该赛题是典型的视频行为识别任务,特点在于需要同时分析视频图像内容与视频图像变化信息,主要的方案有传统光流分析、骨架跟踪、卷积识别、序列预测等。在此基础上还衍生了行为检测的方案,此处不提。

    参考任务概述及多篇论文后,整理方案树如下

    • 传统方案:iDT
    • 骨架跟踪:OpenPose、stgcn、lstm
    • 卷积识别:双流法、TSN、C3D、双流I3D、多尺度卷积
    • 序列预测:骨架序列、双流序列
    • 行为检测:CDC、R-C3D

    在这里插入图片描述

    方案选取

    经过分析,当前识别效果较好且经过验证的网络模型有 tsn、i3d、slowfast。经过验证,i3d所需求的光流提取无法在比赛期间完成,因此选择tsn网络参赛。
    tsn网络基于双流卷积,论文水平为UCF-94.2%,HMDB-69.4%
    该网络的处理特点如下:

    1. 提取RGBdifferencewarpedOpticalFlowField两种特征,同图像流、光流一起输入到网络中
    2. 使用BN-Inception作为特征提取网络
    3. 通过跨模态预训练、正则化、数据增强等操作,提高模型质量

    参赛要点

    数据收集

    由于赛事组织者没有提供足够的训练样本,视频数据需要自己完成收集。
    这里选择了某大型视频网站,选取符合类别的短视频进行下载。
    由于网络视频具有个人色彩,需要对下载视频进行分段,筛除与主题无关片段。
    然后需要对分段视频进行标注及数据均衡的操作,训练集数据比例为5:1:1:1:1:1:1

    工程组织

    这里选择了百度深度学习paddle paddle,其提供了较便捷的训练、推断api,地址如下:
    https://www.paddlepaddle.org.cn/modelbasedetail/tsn
    https://github.com/PaddlePaddle/models/blob/develop/PaddleCV/video/models/tsn/README.md
    工程部署上面,使用了docker容器环境,Ubuntu16.04,Cuda10.1,python 3.6,paddle-gpu 1.8.4

    参赛总结

    1. 一定要找到合适的训练集样本比例,这个需要反复训练并测试,使得最终结果比例达成理想结果
    2. 视频分段并筛选是损失收敛的重要前提,由于tsn分段的特性,可以确保分段训练得出的模型在原始视频上有较好效果
    3. 视频预处理上面需要提前做好规划,有些模型视频信息提取环节耗时太长,无法满足快速训练、推测的要求
    4. 要对所选模型的训练时间、推测时间有明确的认知,避免出现由于时间规划失误带来的结果损失
    5. 服务器环境要提前熟悉,比赛开始后需要服务器环境与本地同步推进,这样可以更有效的利用比赛时间
    6. 比赛还是要摆正心态,避免由于慌乱出现操作失误,要学会笑着去面对竞赛,并在竞赛中不断学习、积累
    展开全文
  • 数据竞赛入门资料与参赛经验分享

    千次阅读 多人点赞 2018-10-22 13:25:40
    前言 本篇博文主要根据博主自身的参赛学习经历,分享一些关于机器学习和数据挖掘比赛的资料与经验。因为自己在学习过程中,也多亏大佬前辈们的指导和分享,才...2、2018 DF CCF 招商银行“奇点计划”数据竞赛 ...

    前言

    本篇博文主要根据博主自身的参赛学习经历,分享一些关于机器学习和数据挖掘比赛的资料与经验。因为自己在学习过程中,也多亏大佬前辈们的指导和分享,才慢慢学会一些技能,所以,希望大家一起学习交流,一起进步。

    博主(ID:16huakai)这半年来的参赛经历如下(按照时间先后):

    1、2018 华为软件精英挑战赛 武长赛区三等奖

    2、2018 DF CCF 招商银行“奇点计划”数据竞赛    5 / 1596  三等奖

    3、2018 DF CCF 光伏电站人工智能运维大数据处理分析   6 / 801  

    4、2018 DC 西南财经大学“新网银行”数据科学竞赛   2 / 1335  二等奖  ——(竞赛总结与分享

    (嗯~,就差一个一等奖)

     

    一、机器学习入门资料分享

    1、网课

    吴恩达Coursera《机器学习》课程(强烈推荐)

    这是个人十分喜欢的一门网课,也是我的入门课,通俗易懂,花个两三周的时间,机器学习基本可以小入门了。课程也有配套的编码作业,用于动手实践,巩固知识,本人自己整理的作业答案python版本,可以参考博客和GitHub。网上也有吴恩达的斯坦福大学机器学习公开课(2009年版),不过我不介意看这个,因为年代太久远了。当然吴恩达还有自己的deeplearning.ai系列的深度学习课程,有兴趣的也可以在网易云课堂上面搜索一下。

    台湾大学,李宏毅《机器学习》课程

    这位老师也有自己的机器学习和深度学习公开课课程,覆盖面较为广泛,我看过一些章节,个人感觉讲解的一般,所以入门的话,网课看①就够了。

    2、书籍

    ①Peter Harrington 《机器学习实战》

    这是一本非常经典的书籍,我第一本看的入门书籍,主要注重算法代码实现,理论知识都只是粗略带过,所以强烈建议与②周志华的西瓜书《机器学习》配套使用,效果更佳。关于这本书的代码,我个人从头到尾敲了一遍,并且整理了相关的一些资料,可以参考我的博客和GitHub

    ②周志华《机器学习》

    这是南京大学周志华教授编著的关于机器学习的书籍,算是国内相关书籍最好的(之一)。理论知识介绍很详细,知识面覆盖广泛,适合精读。

    ③李航《统计学习方法》

    这是清华的李航博士编著的书籍,理论推导详细,全书很多公式,最大的特点是,薄!!!可惜新手一下子看到很多公式,估计很容易一脸懵逼。

    网上有人实现了对应章节的代码实现:(WenDesi/lihang_book_algorithm) + (wzyonggege/statistical-learning-method

    ④范淼 李超 《Python机器学习及实践从零开始通往Kaggle竞赛之路》

    这是入门竞赛的一本书籍,理论知识很少,主要介绍如何利用python工具包(sklearn、pandas等),进行数据分析和竞赛,真的是从零开始,简单到一学就会。

    3、网站

    ①网易云课堂

    ②Coursera公开课

    ③GitHub搜索各种机器学习仓库——网友汇总的各种比赛的top解决方案

    4、语言基础

    ①python3

    主要在网上学习,推荐廖雪峰的网站,还有菜鸟教程中的python3教程。现在的趋势都是python3 ,所以不要学python2了吧。

    ②必学工具包

    numpy:用于科学计算——中文文档地址

    pandas:用于数据分析——pandas的作者有一本书叫做《利用python进行数据分析》

    matplotlib:用于数据可视化

    sklearn:机器学习算法的工具包,基本常规的算法都有,很强大——中文文档地址

    LightGBM、XGBoost等梯度提升树集成学习模型,基本参赛必用——ApacheCN中文文档(翻译了很多优秀的英文文档)

    ③进阶工具包

    heamy:用于模型融合

    TensorFlow:谷歌深度学习框架——中文文档

    keras:对用户及其友好的深度学习框架,底层默认用的是TensorFlow——中文文档

     

    PS:首先可以肯定,这些资料,并不是说,都得必须看,或者说一个接着一个的看。我只是觉得,自己看了感觉很棒,所以推荐给大家,至于怎么运用,需要找到自己的节奏。

     

    二、竞赛平台介绍

    1、kaggle:国际认可度最高的竞赛平台之一,想了解详情,请百度 / 谷歌。

    2、天池:阿里主办的竞赛平台,算国内认可度最高的。比赛一般奖金很高,难度较大,参赛人数也多。

    3、DC:好像是电子科大主办的,比赛很多,也还蛮成熟的。

    4、DF: CCF数据竞赛指定平台。

    5、其他:还有kesci,biendata,百度点石、京东JDATA、腾讯和华为等企业也会一年举办一次竞赛等。

    GitHub上的热心网友不定期汇总更新的比赛(iphysresearch/DataSciComp),包括的平台很多,比赛类型也很多!

    三、竞赛经验分享

    1、参赛的目的

    我从2018年4月中旬开始接触数据竞赛,当初觉得需要参赛实战一下,锻炼自己的动手编码和解决问题的能力,于是边做竞赛,边学习,哪里有知识盲区,就去补缺。所以一开始,一定要抱着学习的态度,在比赛过程中,有目的的学习,这样子,你会觉得提升的非常快。再者,尽量参加不同类型的比赛,这样子,学习内容更加广泛,也更加有趣。当你有一定经验的时候,如果你没有想获奖的野心和行动,那基本都是陪跑、划水,给人家当分母。那么当你到了参加比赛的后期,我感觉提升学习能力的边际效益是很小的,所以,需要对比赛有清楚的认识和明确的目的。

    2、参赛的流程

    参赛的流程介绍网上有很多博客资料,大概为:

    报名——下载数据——数据清洗与处理——特征构造——特性筛选——模型构建——模型融合——提交结果。

    这个我这里不想展开讲,因为这个内容,完全可以另开篇幅,所以引用几篇博文如下:

    Kaggle 数据挖掘比赛经验分享

    分分钟带你杀入Kaggle Top 1%

    对机器学习与数据竞赛的一些总结

    数据挖掘理论与实践

    3、参赛的感想

    ①竞赛是为了学习,为了锻炼自己的能力——永远不要眼高手低,学了一些理论知识之后,就想当然,打嘴炮。只有动手之后,才知道,什么模型有用,什么方法好用。

    ② 有人比赛是为了学习知识,有人比赛是为了拿奖金,有人比赛是为了拿名次,人有千千万, 目的各不同。找准自己的方向,just for fun!

    ③参赛队友很重要——一个人参赛很容易迷茫,做着做着,自己就没了。所以,找一个靠谱的队友吧。

    ④竞赛结束之后,多看一些数据竞赛的思路分享和优秀代码,一定多看、多写,学会总结!

    ⑤找到适合自己的数据竞赛类型,现在比赛大致分为:数据竞赛(数据挖掘)、图像比赛、NLP比赛......所以,找到自己感兴趣的方向,动手实践起来。

    ⑥最后,个人感觉,我们需要对数据竞赛有清楚的认识,不要盲目放大比赛带来的效益,要把握好一个度,掌握好自己的节奏!人啊,要保持清醒的头脑,在什么阶段,该做什么事,要心中有谱!

     

    展开全文
  • 中国大学生计算机设计大赛参赛经验与总结摘要:针对中国大学生计算机设计大赛第5届至第8届的比赛情况进行了总结,介绍和分析了东北大学软件学院数字媒体技术专业的学生连续4届参与该项赛事的具体情况和获奖结果,对...

    中国大学生计算机设计大赛参赛经验与

    总结

    摘要:针对中国大学生计算机设计大赛第5届至第8届的比赛

    情况进行了总结,介绍和分析了东北大学软件学院数字媒体技术专

    业的学生连续4届参与该项赛事的具体情况和获奖结果,对参赛作

    品进行归纳和总结。

    关键词:计算机设计大赛;东北大学;软件学院;数字媒体技

    0.引言

    第1届中国大学生计算机设计大赛是由文科计算机教委主办,

    于2008年7月下旬在华中师范大学举办。从2012年的第5届大学

    生计算机设计大赛开始,参赛对象扩大到本科所有专业的学生。从2013年开始,大赛由教育部高等学校计算机类专业教学指导委员会、软件工程专业教学指导委员会、大学计算机课程教学指导委员会、

    文科计算机教指委以及中国教育电视台联合主办。

    2012年第5届大赛是东北大学软件学院数字媒体技术专业的学

    生第一次代表东北大学组队参加的计算机设计大赛。截至2015年底,东北大学软件学院已连续参加4届计算机设计大赛。该项赛事已成

    为东北大学官方认定的最重要的赛事之一。

    1.大赛内容

    1.1大赛主题

    从中国大学生计算机设计大赛开设伊始,数字媒体设计类(包

    括普通组和专业组)就是每一届大赛的重要组成部分,参与其中的

    学校和团队最多。该类别每一届都有一个参赛主题,从第5届到第9届(2012-2016年)的大赛主题见表1。

    1.2大赛分类

    中国计算机设计大赛是根据国家有关高等学校创新能力提升计

    划以及进一步深化高校教学改革、全面提高教学质量的精神,为提

    高计算机教学质量,激励大学生学习计算机知识、技术、技能,进

    而培养大学生创新创业能力及团队合作意识、运用信息技术解决实

    际问题的综合实践能力,以提高学生综合素质,造就更多社会需要

    的创新创业型、实用型、复合型人才,而专门设置的全国性质的比

    赛口卅。从第5届到第9届(2012-2016年)参赛的类别也逐渐增多,具体内容见表2。

    展开全文
  • 天池可视化竞赛——“飞凤数创”2018全球物联网数据创新大赛赛后总结 ##天池数据可视化竞赛官网链接。 ##“飞凤数创”数据可视化竞赛阿里云官网链接。 ##作品的完整版介绍视频链接。 ####  飞凤览“山海”数...
  • 目录2021中国高校计算机大赛—微信大数据挑战赛—参赛总结摘要赛题任务数据处理特征工程特征筛选模型选择赛题得分参考链接写在最后 摘要 比赛网址:https://algo.weixin.qq.com/ 赛题任务:本次比赛基于脱敏和...
  • 2020csp参赛总结

    2020-11-22 14:20:53
    2020csp参赛总结 (本人第一次csp比赛,只参加了入门组) ——这次比赛表现还算理想 (入门315) ,但也有做得好和不好的地方, 过程与得失还是值得我去记录与总结的。 ——人们都说结果不重要,过程最重要,而我...
  • 前言: 本博客主要针对此次比赛做一些数据分析与总结,将我的思路分享给大家,开源的代码只整理了主要的model设计...想要系统学习机器学习和数据竞赛的知识,请参见我的博客:数据竞赛入门资料与参赛经验分享  ...
  • 总结一下这次参加华为大数据比赛的体会和收获 此次比赛最后止步200+ 没能进复赛 第一次参加大数据竞赛 虽然没能进复赛 但总得来说 还是很值得的 初赛一个月的备赛时间 我和我的组员大约只用了半个月在比赛上 首先 ...
  • 2019腾讯广告算法大赛参赛总结

    千次阅读 2019-07-20 11:57:28
    但跟着大佬一起学习讨论,收货颇丰,特此总结以下经验。 赛提描述 腾讯效果广告采用的是GSP(Generalized Second-Price)竞价机制,广告的实际曝光取决于广告的流量覆盖大小和在竞争广告中的相对竞争力水平。其中...
  • 2020中兴捧月算法大赛参赛总结

    千次阅读 2020-06-27 21:02:01
    这里做一下参赛总结。 初赛 初赛赛题是一道带约束的信道资源规划题,节点之间有链路相连,且链路本身也被划分为多条通道,每个通道都从1开始编号(类比道路上有多条车道)。根据输入数据的要求,在节点与节点之间...
  • 个人状况介绍 第一次参加数学建模类比赛,无MATLAB基础。。。以前一直以为数学建模全是用matlab做的,这次长见识了。...深度学习和神经网络都没看呢,天知道我哪来的勇气就参赛了。OMG! 参赛之缘 ...
  • 总结一下历时2个月的光设赛,不后悔吧反正,可能因为我一直没把它当成主线任务,所以说到比赛的前几天还会有方案的变动,其实我觉得最重要的是过程吧,我很感激遇到一群负责任的队友,针对方案的讨论,模型的选择,...
  • 题目描述 ...大数据量与分布式计算的一点思考 参加比赛和学习知识的对比 最后的感受 趣事 写在前面 我是一个之前PhD做分布式计算、虚拟机调度,毕业之后年初才转ML的家伙,自恃有...
  • 【天池大数据竞赛】“数智教育”2019数据可视化竞赛亚军方案总结   “数智教育”是我第二次参加天池的可视化的竞赛,对于我们来说,比赛最吸引人的地方在于天池的竞赛数据基于真实应用场景,在系统的设计与开发的...
  • 感觉对这种性能型比赛,IO方案用的最多的也就是池化DirectBuffer的FileChannel,或者不进行flush的mappedbytebuffer,第一种实现大家可以参考我这次的代码,第二种实现大家可以参考我github上第三次中间件大赛的代码...
  • 在此京东集团AI平台与研究院举办AI+Fashion挑战竞赛大赛将推出与时尚相关的AI+Fashion竞赛,包含两个子任务,并将在ChinaMM 2018举办专题技术交流和颁奖。 赛题1:时尚女装风格识别 赛题背景 服饰风格的判断因为...
  • 2020招行Fintech数据竞赛总结

    千次阅读 2020-06-12 09:33:35
    希望参赛选手基于训练数据集,通过有效的特征提取,构建信用违约预测模型,并将模型应用在评分数据集上,输出评分数据集中每个用户的违约概率。 一、 数据预处理 (1)观察数据分布。这里要将tag表训练数据和测试...
  • 首届文字速录技能竞赛参赛细则一、速录技能比赛评比细则1、比赛项目:文字看打速录、声音听打速录2、比赛形式:个人赛3、比赛内容:每个选手在规定时间内完成看打和听打速录,现场操作完成后,由裁判进行评分。...
  • DTI数据竞赛经验总结(高维小样本特征处理) 首先说这次比赛是我第一次正式打数据竞赛,结果比较扯,名次不好,模型过拟合很严重。写这篇文章主要是两个目的:一个是记录一下比赛中总结的一些经验和教训,另一个是...
  • 本文除介绍我们自己的竞赛方案外,还将总结其它获奖队伍的技术报告,并对此类竞赛给出个人意见。 直达链接: 官网:https://smp2020ewect.github.io/ 获奖队伍技术报告: ...
  • Datawhale发布2020 中国数据竞赛年鉴报告随着信息时代的发展,数据智能正逐渐渗透到生产、生活等方方面面,如何培养数据人才,促进产学研用协同发展,数据竞赛给出了一条清晰的路径。...
  • 全国大学生数学建模竞赛——大赛介绍与赛后总结

    万次阅读 多人点赞 2018-09-18 21:37:23
    全国大学生数学建模竞赛——训练过程及赛后总结 前言 今天是2018年9月18日,一个特殊的日子。距离全国大学生数学建模大赛已经过去两天了。三天两夜的比赛,每天晚上几乎做到凌晨,确实很辛苦,但是现在回过头来看...
  • 第八届全国大学生GIS技能大赛参赛分享

    千次阅读 多人点赞 2020-01-19 18:45:25
    全国大学生GIS技能大赛参赛分享 一、竞赛的主要内容: 1、空间数据的采集编辑与集成处理 展示学生对地图数据采集、遥感信息解译的完整业务流程、关键技术及常用GIS软件的了解和掌握程度。 测试学生面对不同比例...
  • 数据挖掘竞赛总结——津南数字制造算法赛

    千次阅读 热门讨论 2019-01-24 17:14:22
     在实际参赛中,往往会感受到“玄学”的力量,一些很有道理的特征或处理用上之后分数就是掉,而一些不小心写错代码造出来的特征却可能直接将分数提升一个档次。当然,“玄学”不是自己不努力的理由,在“玄学”之外...
  • 由于在pandas中数据的保存方式为NumPy ndarray,因此我们需要知道numpy中的数据子类型 正如我们之前简要提到的,在引擎盖下,pandas将数值表示为NumPy ndarrays,并将它们存储在连续的内存块中。此存储模型占用的...
  • Datacon21 参赛总结

    2021-11-01 10:24:36
    这次参加了软件供应链以及域名两个方向,都是第10名 本篇主要记录一下域名方向的做题记录 域名方向主要分两个题目,第一个题目是给你一堆黑产域名,需要判断域名所属的黑产家族,以及涉黄涉赌的情况。...
  • 例如本次参赛的“简说APP”项目,项目是一个短文章创作阅读平台,最为重要的就是基于用户喜好分析的的推荐系统。 比赛中评委的几个问题 问:你们的产品亮点是什么? 答:我们的产品亮点在于,我们能够...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,562
精华内容 1,424
关键字:

数据竞赛参赛总结