精华内容
下载资源
问答
  • 如何打杂的数据工作中找到可以展示的亮点?

    千次阅读 多人点赞 2020-02-12 21:09:49
    0x00 前言 本篇分享一些总结自己工作中亮点的思路。为什么会聊这样的一个话题?因为自从居士的《最近面了十多个数据分析师,聊一聊我发现的一些问题》这篇文章发出后,很多同学都反馈自己日常工...

    0x00 前言

    本篇分享一些总结自己工作中亮点的思路。

    为什么会聊这样的一个话题?因为自从居士的《最近面了十多个数据分析师,聊一聊我发现的一些问题》这篇文章发出后,很多同学都反馈自己日常工作就是打杂居多,实在不知道如何找到自己的亮点。特别是在绩效考核准备工作成果、找工作前准备项目经历的时候,无从下笔。

    正好在居士的职业交流群中,发现了一位朋友的简历也有类似的问题,就简单聊一下这个话题。

    本文以简历里面的项目经历为例,提供一些思路给大家参考。即使你的工作没有那么轰轰烈烈,依旧能写出让人眼前一亮的内容。

    0x01 亮点不一定非要是大项目!

    很多朋友以为,要写一个大的项目才算是亮点。

    其实,并不是这样的,不是每个人在项目经历里面都要写很多大项目的,小项目项目也有小项目的精彩,只是要能抓住一些有用的点。

    举个例子,下面是居士看到的第一种项目经历写法:

    项目名称:广告用户行为数据分析
    工作内容:负责规划广告用户数据的上报,定义相应的用户指标,通过数据预处理和特征工程,并使用xxx算法的分析,最终分析出了用户在app开平广告中的行为,并输出数据分析报告。
    使用技术:Sql、Python、统计学的中位数和假设检验、xxx算法
    

    嗯......

    这个项目经历描述的怎么样?

    从小伙伴给居士的反馈来讲,效果很差,没收到几个面试邀请。

    上面的项目经历,其实就是没有亮点的一种典型情况。整体来讲,写的很虚,从中看不到候选人是否具备足够的能力和经验胜任工作。

    那么,居士后面就提出几个优化点来帮助完善这份经历。

    一、清晰的项目背景和目标

    其实看完这个项目经历后,大部分一线工作者的第一反应应该是不知道这个项目是要做什么?

    所以,居士要分享的第一个技巧就是:有一个清晰的项目背景和目标。这一点不论是在工作总结还是项目经历中,都是十分重要的!

    比如这个项目经历可以大致这样描述:

    项目名称:广告用户行为数据分析
    项目背景和目标:由于从2019年10月起,xx公司的APP开屏广告转换率开始降低低,需要通过数据分析找到具体的原因和提升方法,提升开屏广告的转换率。
    工作内容:负责规划广告用户数据的上报,定义相应的用户指标,通过数据预处理和特征工程,并使用xxx算法的分析,最终分析出了用户在app开屏广告中的行为,并输出数据分析报告。
    使用技术:Sql、Python、统计学的中位数和假设检验、xxx算法
    

    一个清晰的目标更容易让人理解你的工作。现在是不是已经稍微清楚了一点这个项目了?

    二、学会用数据量化你的项目

    大部分数据从业者,其实并不善于将数据用于工作和生活中,比如这个项目经历,居士就想问,你的转换率到底是多少?你提升了多少效果?你们的数据量是多大?用户规模有多大?

    这些数字一方面可以让面试官了解你的工作成果,一方面也能了解你的遇到的困难。

    因此,居士要分享的第二个技巧就是:多用数据来描述你的项目难度和成果!

    我们再改一版:

    项目名称:广告用户行为数据分析
    项目背景和目标:由于从2019年10月起,xx公司的APP开屏广告转换率开始降低低,需要通过数据分析找到具体的原因和提升方法,提升开屏广告的转换率。
    工作内容:负责规划广告用户数据的上报,定义相应的用户指标(日均处理数据2亿条),通过数据预处理和特征工程,并使用xxx算法的分析,最终分析出了用户在app开屏广告中的行为,将点击率从3%提告到了7%,日均为公司带来了xx万的广告收入。
    使用技术:Sql、Python、统计学的中位数和假设检验、xxx算法
    

    有了一定的数据,是不是更清晰了,更能突出自己的价值了?

    小伙伴们要注意,作为一名数据从业者,在工作的方方面面都要学会用数据说话,这是你的职业性的重要体现!

    三、工作内容也可以这样写的

    前面改完之后,是不是整体已经像那么一回事了,这样已经够了吗?

    其实还是不太行的,因为工作内容还没有差异化,嗯,就是这种感觉:这么一段话,放在谁的简历里貌似都能说的出去,不太像是自己做的。

    因此,居士要分享的另一个点就是:如何走心地写一段工作内容?

    居士之前面过一位童鞋,他的简历里面没有特别大的项目经历,甚至连前面居士提到的点也没有写,但是他的简历却给居士留下了很深的印象。第一反应就是这位同学很善于思考和总结。

    如果结合到我们前面的项目经历里面,大概是这样的:

    项目名称:广告用户行为数据分析
    项目背景和目标:由于从2019年10月起,xx公司的APP开屏广告转换率开始降低低,需要通过数据分析找到具体的原因和提升方法,提升开屏广告的转换率。
    工作内容:负责从规划上报到效果分析的全过程,日均处理数据2亿条。通过对广告点击和非点击用户的画像分析和历史行为对比,发现非点击用户的设备类型、app版本等特征有明显的不同,并通过对当前广告策略的分析对比发现,该在19年9月份后上线的三款广告策略中,会对部分型号的设备和app版本的广告加载时间造成较大影响。将该问题修复后,开屏广告的点击率从3%提告到了7%,日均为公司带来了xx万的广告收入。
    使用技术:Sql、Python、统计学的中位数和假设检验、xxx算法
    

    上面的描述就是最好的吗,当然不是了,这依旧有很多的优化空间,比如说文字描述可以精简、项目中遇到的困难和解决方法、更多优化思路的对比等等。

    0xFF 总结

    一段优质的项目经历和工作总结,不一定是高大上的公司级项目(如果有,当然是最好的),它可以体现在多个点:

    1. 清晰的项目背景和目标描述

    2. 可以量化的工作量和项目成果

    3. 走心的项目思考和尝试

    当然也可以是:

    1. 项目中遇到的困难和解决思路

    2. 项目优化的跟进

    那么,看完了这篇文章的你,有什么建议可以给我们分享的吗?

    热门文章

    直戳泪点!数据从业者权威嘲讽指南!

    AI研发工程师成长指南

    数据分析师做成了提数工程师,该如何破局?

    算法工程师应该具备哪些工程能力

    数据团队思考:如何优雅地启动一个数据项目!

    数据团队思考:数据驱动业务,比技术更重要的是思维的转变

    展开全文
  • 找到数据文件 dll

    千次阅读 2016-05-05 21:37:49
    以前的项目明天做少许的改变就要上线了,这时我去重新生成时,出现未找到数据文件。其实一看就知道是dll的问题,一时觉得自己也引用了,并且尝试了卸载之后重新引用,但还是不行。 首先要说的是这些未找到数据...

    以前的项目明天做少许的改变就要上线了,这时我去重新生成时,出现未找到元数据文件。其实一看就知道是dll的问题,一时觉得自己也引用了,并且尝试了卸载之后重新引用,但还是不行。

    首先要说的是这些未找到元数据文件的dll是我解决方案中几个项目生成的dll,添加时我直接点击解决方案添加的。最后出现了一个我要引用第三方的dll时,我才想到要不我自己手动查找相关dll再添加进去。结果真的就可以了。看来任何一步都要清晰,否则就可能遇到这样的bug.

    最后,添加成功之后,就剩postsharp的错误,并伴随着各种对象名找不到。添加postsharp的dll就可以了。看来除了系统提供的dll外,自己写的dll(不管在本工程内还是其他工程内都要手动添加),第三方的dll更不用说了。

    展开全文
  • 如何找到时序数据中线性的趋势

    千次阅读 2020-06-23 09:31:17
    有时需要从时序数据中删除...如果趋势是线性的,你可以通过线性回归找到它。但如果趋势不是线性的呢?我们一会儿就会看到我们能做些什么。 但是此之前,我们先看看什么叫线性趋势 线性趋势 下面是带有趋势的时序数据: ...

    有时需要从时序数据中删除趋势,为下一步或数据清理过程的一部分做准备。如果您可以确定趋势,那么只需从数据中减去它,结果就是非趋势数据。

    如果趋势是线性的,你可以通过线性回归找到它。但如果趋势不是线性的呢?我们一会儿就会看到我们能做些什么。

    但是在此之前,我们先看看什么叫线性趋势

    线性趋势

    下面是带有趋势的时序数据:

    https://raw.githubusercontent.com/FlorinAndrei/misc/master/qdata.csv

    让我们加载它,看看它是什么样子:

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    from sklearn.linear_model import LinearRegression
    from sklearn.preprocessing import PolynomialFeatures
    from sklearn.metrics import mean_squared_error, r2_scoreser = pd.read_csv('qdata.csv', index_col=0, squeeze=True)
    serx
    0      473.917764
    1       75.324825
    2     -306.969479
    3       53.271476
    4      372.966686
             ...     
    95    4650.550473
    96    4604.573344
    97    4891.704638
    98    5265.948162
    99    5618.909339
    Name: y, Length: 100, dtype: float64plt.plot(ser)
    plt.show()
    

    好的,这里有一个趋势。我们假设它是线性的,我们来做线性回归来找出答案。这是线性回归的一个直接应用。上面导入的sklearn库拥有我们进行回归所需要的一切。

    X = ser.index
    X = np.reshape(X, (len(X), 1))
    y = ser.valuesmodel = LinearRegression()
    model.fit(X, y)
    trend = model.predict(X)plt.plot(y)
    plt.plot(trend)
    plt.legend(['data', 'trend'])
    plt.show()
    


    看起来很合适,但可能不是很合适。让我们从数据中减去趋势,看看非趋势数据是什么样的:

    detr = [y[i] - trend[i] for i in range(0, len(y))]
    plt.plot(detr)
    plt.title('data detrended in a linear fashion')
    plt.show()
    


    不是很令人信服。数据中仍有一个凹的趋势。最初的趋势可能不是线性的。

    让我们计算数据和我们提取的趋势之间的RMSE和R²。

    r2 = r2_score(y, trend)
    rmse = np.sqrt(mean_squared_error(y, trend))
    print('r2:', r2)
    print('rmse', rmse)
    r2: 0.8782399672701933
    rmse 553.6078593008505
    

    多项式趋势

    如果趋势不是线性的,我们可以尝试用多项式曲线来拟合它。但问题是:即使我们拟合的曲线是高次多项式,我们仍然可以用线性回归来找到它。

    考虑这个二次表达式:

    y = a + bx + cx²

    我们要找的值是a, b, c,和他们都是线性的。忘记x的权重,我们看的是权重,b和c,所以线性回归——它只是发生,我们将不得不在多个维度做线性回归。

    假设数据呈二次趋势。然后我们需要把X变换成二次形式:

    pf = PolynomialFeatures(degree=2)
    Xp = pf.fit_transform(X)
    Xp
    
    array([[1.000e+00, 0.000e+00, 0.000e+00],
           [1.000e+00, 1.000e+00, 1.000e+00],
           [1.000e+00, 2.000e+00, 4.000e+00],
           [1.000e+00, 3.000e+00, 9.000e+00],
           [1.000e+00, 4.000e+00, 1.600e+01],
           [1.000e+00, 5.000e+00, 2.500e+01],
           [1.000e+00, 6.000e+00, 3.600e+01],
    ...
           [1.000e+00, 9.600e+01, 9.216e+03],
           [1.000e+00, 9.700e+01, 9.409e+03],
           [1.000e+00, 9.800e+01, 9.604e+03],
           [1.000e+00, 9.900e+01, 9.801e+03]])
    

    第一列是X的0次方。第二列是X,第三列是X的2次方。这就像上面显示的二次表达式(y = a + bx + cx)

    现在我们将使用二次形式来拟合数据并生成二次趋势。用线性回归方法求出二次表达式的参数。

    md2 = LinearRegression()
    md2.fit(Xp, y)
    trendp = md2.predict(Xp)
    

    趋势是怎样的?

    plt.plot(X, y)
    plt.plot(X, trendp)
    plt.legend(['data', 'polynomial trend'])
    plt.show()
    

    更接近了,不是吗?现在让我们看看非趋势数据:

    detrpoly = [y[i] - trendp[i] for i in range(0, len(y))]
    plt.plot(X, detrpoly)
    plt.title('polynomially detrended data')
    plt.show()
    


    这显然更好。没有任何可以从视觉上看出的趋势。但是让我们看看数字是怎么说的:

    r2 = r2_score(y, trendp)
    rmse = np.sqrt(mean_squared_error(y, trendp))
    print('r2:', r2)
    print('rmse', rmse)
    r2: 0.9343217231542871
    rmse 406.5937924291518
    

    与线性趋势相比,随着多项式趋势,R²曲线增大,RMSE减小。两者都是好的改变。两种均值多项式的拟合效果都优于线性拟合。

    高阶多项式

    你可以选择任意阶的多项式只要在这里给N赋不同的值:

    pf = PolynomialFeatures(degree=N)
    

    一般来说,对N使用较低的值。如果增加了N,发生的情况不太严重,则返回较小的值。

    只有一个弯曲的曲线可以用二次函数来描述。有两个弯的曲线可以用三次函数来描述。等等。N-1弯需要一个N次幂的表达式。

    如果N增加很多,最终你的“最佳拟合”曲线将开始跟随数据中的杂音,而不是拟合趋势。你已经超拟合了曲线,现在没有意义了。或者减少N,或者增加更多数据点。

    这样我们将这个线性模型的数据去除(差值),使用剩余的数据进行时间序列的训练,可以得到更精确的结果

    作者:Florin Andrei

    展开全文
  • 我所能找到的疫情数据接口

    千次阅读 多人点赞 2020-07-23 21:20:28
    好久没更新了,最近做了一个疫情基础数据大屏可视化系统,这里分享下我好不容易找到数据接口,如果对有帮助就给个赞吧(球球了) 当前时间实时国内总数据(包含国内总确诊、新增、各省市地区实时数据) 国内...

    我所能找到的疫情基础数据接口

    好久没更新了,最近做了一个疫情基础数据大屏可视化系统,在这里分享下我好不容易找到的数据接口,如果对你有帮助就给个赞吧(球球了)

    当前时间实时国内总数据(包含国内总确诊、新增、各省市地区实时数据)https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5

    国内历史数据(包含历史日期总计与新增数据)https://view.inews.qq.com/g2/getOnsInfo?name=disease_other

    (这两个是真的好用,我的系统中大部分数据都来自前两个,谢谢腾讯爸爸👨)

    海外数据https://view.inews.qq.com/g2/getOnsInfo?name=disease_foreign(这个我没用过,不过找到了就分享下,都是国外的数据)

    未知 https://api.inews.qq.com/newsqa/v1/automation/modules/list?modules=FAutoCountryWeekCompRank,FAutoContinentConfirmStatis,FAutoConfirmMillionRankList,FAutoHealDeadRateRankList

    未知 https://api.inews.qq.com/newsqa/v1/automation/modules/list?modules=FAutoGlobalStatis,FAutoContinentStatis,FAutoGlobalDailyList,FAutoCountryConfirmAdd
    (这两个数据未知的原因是:数据的内容与modules后面的参数有关,但是具体这些参数有多少、都是什么意思、其他的参数有哪些,我都不知道。我也没找到腾讯的文档,可能这本来就是腾讯自己用的吧)

    河南省历史数据https://api.inews.qq.com/newsqa/v1/query/pubished/daily/list?province=河南(这个很好用,前两个提供了各个省的实时数据与全国的历史数据,但是就是没有各个省的历史数据。province后面的参数是省的名称,这里写的是河南,他就提供给你河南省的历史数据。自己设置一个省份list,替换province的参数内容,就可以获得各个省的历史数据啦)

    每日各省数据http://49.4.25.117/JKZX/yq_20200719.json(这个数据来自卫健委官方,我的用法是可以获得指定日期的各个省份的历史数据,与上面类似,不过这个你可以通过设置日期list替换连接中的日期内容)

    数据来源:除了最后一个来自卫健委,其他都是腾讯的接口

    好了这次把我找了好久的数据都分享给大家了,希望大家给我个大大的支持啊👍(疯狂暗示)
    在这里插入图片描述

    展开全文
  • 从一组数据找到指定的单条数据的方法一般情况下,我们会要求后端列表的时候输出一堆列表的JSON数据给我们,然后我们把这堆数据循环,就能前端上显示列表了.而我们内容页的时候,则要求输出一个内容页的JSON...
  • 数据结构:八大数据结构分类

    万次阅读 多人点赞 2018-09-05 18:23:28
    数据结构分类 数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中...数组是可以再内存中连续存储多个元素的结构,内存中的分配也是连续的,数组中的元素通过数组下标进行访问,数组下标从0开始...
  • GISer如何快速找到想要的数据

    千次阅读 2014-05-19 14:45:01
    我们工作和学习中经常需要用的多种多样的数据,如果每次都刚好有对应的数据很幸运,可以直接飞过,更多的时候我们并没有那么走运,总是需要我们千方百计的寻找我们需要数据。  通过使用5W1H的方法,可以...
  • 我以前不止一次给各位看过可视化大屏,无论是什么做的,最终的意义都是要让数据展现的更直白、美观、有科技感一点! 或许,以前是用Excel做可视化大屏 或者,以前是用vue.js等前端工具做可视化大屏 又或者,...
  • ORACLE - 未找到任何数据

    千次阅读 2017-06-02 17:12:52
    ORACLE - 未找到任何数据问题描述: 存储过程中当使用 SELECT ID INTO V_ID FROM TABLE WHERE 条件 ;没有返回值时,当前语句会抛出异常,并终止当前存储过程! 解决方案:BEGIN SELECT FID INTO v_groupID FROM t...
  • 假如我们要遍历以这个这样数据 var array = [ { id: 1, children:[{ id:2, children:[] }] }, ...
  • 找到一个可以下载开放式基金历史数据的网站

    万次阅读 热门讨论 2017-02-24 13:09:18
    查询后的历史数据不是分页显示,一个脚本就可以把基金历史数据全部提取出来。 =========================================================================== 近来有些网友想看看代码,可以从 ...
  • 背景今天使用:C# Json 序列化与反序列化反序列化的时候出现了下面的错误信息。具体原因是:我反序列化的实体类中新加了两个属性:
  • 嗯,因为这个问题,我想了好多办法,网上找各种数据接口,接口是找到了,但未必有自己想要的,刚好幸运是自己想要的,但居然要钱,还限制次数,甚至自己狠下心花钱买了数据接口,嗯,貌似还要处理处理才能得到自己...
  • 想了解的数据架构都

    万次阅读 2019-11-17 10:29:55
    最近领导和团队沟通,想提高数据建模团队的能力。结合自己工作的经验和朋友的交流,来总结下如何去做。 二、我做过什么 很多大数据数据仓库人员都是从事过传统BI业务或者数据库业务的。传统BI一般都是Oracle存储过程...
  • 未能找到数据文件

    千次阅读 2019-01-22 16:02:45
    其他项目的依赖性也同样操作进行调整,调整完毕后,以后不用一一去生成每个项目,只需要生成解决方案就可以了。 注:如果解决方案的项目生成顺序不准确,就算自己手动一个一个地生成项目后能够成功生成解决方案,...
  • 平时如果数据不重要,那么可以直接格式化就能用了。但是有的时候里面的数据很重要,那么就必须先恢复出数据再格式化。具体恢复方法可以看正文了解(不格式化的恢复方法)工具/软件:AuroraDataRecovery步骤1:先...
  • 今天我们来讲一下Excel的筛选功能,筛选功能可以在一大堆的数据中,按照某个条件筛选出来我们想要的数据;比如一整个年级的考试成绩,筛选出来某个班的。 1如何开启筛选 选中区域内的任一单元格;使用快捷键Ctrl ...
  • 未能找到数据文件 xxx.dll

    千次阅读 2018-07-05 13:55:20
    项目复制后出现的未能找到数据文件 xxx.dll 问题出现的情况是这样的子的编译的时候一直提示未能找到数据文件 xxx.dll,这个问题中会有一个路径,但是咋看之下这个路径是对的但是实际上去看下这个路径是错的,...
  • 原文链接:https://blog.csdn.net/hp961218/article/details/80002256错误提示:ORA-01403:未找到数据产生原因:当查询不到数据时,且把查询结果注入到定义的变量里面解决方法: 1.跳出此次存储过程: 可以写个错误提示:...
  • Python爬虫是一个神奇的东西,但是经常会面临爬不到数据等问题,今天,小编就教读者怎样解决这些问题,不过,或许讲到的面还不全面,希望大家理解。
  • DECLARE -- 声明变量 V_ID INTEGER := 1000145; BEGIN ... -- [02000][1403] ORA-01403: 未找到任何数据 ORA-06512: line 6 SELECT ID INTO V_ID FROM AGENT_CALL_RECORD acr WHERE acr.ID =...
  • 已经安装了MySQL的连接驱动但是管理工具 --数据源下没有找到该驱动 进到命令行,运行: C:\>cd \windows\SysWOW64 C:\Windows\SysWOW64>odbcad32
  • 敲机房收费管理系统时,遇到一个很奇葩的问题。 ...未找到方法或数据成员 有的显示:已经运行 VB工程右击:第一行原来是“打开” 变化是,变成了两行,一行“make”,另一行“run” ...
  • 大数据文摘作品作者:Susan...我们UCL机器学习数据库里一个糖尿病数据集,希望可以通过这一数据集,了解如何利用机器学习来帮助我们预测糖尿病,让我们开始吧!数据集github链接:https://github.com/susanli2016/Mac
  • 八问数据中台:关于数据中台想知道的都这里! 原创: 筱愚她爸 凯哥讲故事系列 1周前 数据中台最近特别火,各个企业都关注如何构建自己的数据中台,利用数据中台打造数据驱动的经营能力。数据中台的概念漫天...
  • UCI数据集整理(附论文常用数据集)

    万次阅读 多人点赞 2018-08-30 18:02:32
    摘要:UCI数据集作为标准测试数据集经常出现许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式...
  • VS2019中,解决“错误CS0006:未能找到数据文件” 前些日子,用三层架构做小项目时,编译时显示CS0006,无法找到数据文件。 傻傻的我,去根据提示去相应的目录查看,结果发现如下图: 这种情况说明没有相应的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,776,553
精华内容 1,110,621
关键字:

在哪里可以找到你需要的数据