精华内容
下载资源
问答
  • 今天,基于公司的情况不同,数据科学家可能是一个依旧是和从前一样集科研与工程于一身的人,也可能是一位统计学家、商业智能分析师、研究科学家、基建工程师、营销人员或者数据可视化专家。 在团队中拥有符合常规...

    无处不在的软件正在用数据重构这个世界

    对数据科学家的理解
    • 数据科学家这个角色本意是希望通过那些能写代码的科学家与软件开发团队通力协作,打造新产品或者系统,藉此弥合理论和实践之间的鸿沟。
    • 今天,基于公司的情况不同,数据科学家可能是一个依旧是和从前一样集科研与工程于一身的人,也可能是一位统计学家、商业智能分析师、研究科学家、基建工程师、营销人员或者数据可视化专家。
    • 在团队中拥有符合常规定义的数据科学家的人,亦即那种可以跨学科、跨领域工作,打造产品和平台的人,他们是非常有价值的。
    • 可以写代码、可以实现精密算法、做一些统计分析并且对于产品战略有很好直觉的人。
    如何提升自己的能力
    • 看书,做完练习册以及小项目,作真实的课程作业,以及和从事这方面技能的人一起工作。
    • 如果你想切实领悟并且掌握一些技能,必然是需要下达功夫去学习的。
    • 如果你只是不停的做自己早就会的东西,你不过就是在重复地造轮子而已。
    • 这是一个科技飞速迭代的世界,尤其是数据科学领域,所以,如果你即将转入管理岗位,我建议你不要完全放弃编程。
    在大公司里开发新产品是什么体验
    • 在大公司里开发新产品的过程更像是一个跨小组式的合作,而不是像小公司一样,你的小团队里每个人都顶着好几个称谓做着不同的事情。
    • 如果想要让想法尽快成为产品,就需要尽量把所需要的资源部署连接到位,这有那样做,我们才有机会切实动工开发。
    • 我认为加入一个项目最糟糕的事情莫过于你知道你的公司并不看好你的项目,并且你根本没有足够多的资源去启动这个项目。
    • 你需要解决产品到市场的问题。想要获得最终的成功,仅仅有点子是不够的,还需要对于客户的直觉上的想法,以及将产品运营到市场上的能力。
    成功的产品需要思考什么问题
    • 这个公司目前的首要任务是什么?我们应该如何去实现这个任务?
    • 有什么技术或者流行的产品可以开启新的机会?
    • 我们的客户是谁?市场是什么?
    • 我如何可以使用数据去以不一样的方法运营市场?
    数据科学在公司运营中的作用
    • 数据科学将会成为公司里辅助决策和产品开发的重要力量。为了让数据产生最大的力量,数据科学要在产品开发的初期发挥作用。
    • 数据科学的另一个作用是给产品开发部门提供质量反馈,有关产品质量的数据可以被设计部署并且采集过来,进而加以分析用来帮助未来的产品决策。
    如何领导一个团队
    • 一个卓越有效的软件工程经理需要的至关重要的一项能力,就是专业素养。你只有知道手下团队内的人正在做的事情,才能做出正确的决策。
    • 一个好的数据科学团队领袖当然需要了解数据科学,并且需要对于未来的发展路线有足够的视野,有能力引进合适的新人,为团队获取资源
    • 确保自己不成为团队的绊脚石的同时,还要确保其他人不会阻碍团队的前进。如果你的团队在公司里孤立无援、到处被欺负,而且各怀鬼胎地往不同方向发展,那你很难做下去。
    • 我觉得能是一个团队取得成功的方法,就是让团队中的每一个人都切实坚信他们所做的事情,专注于任务并且觉得他们有能力去完成它。
    对于个人的建议
    • 工程开发、工程开发、工程开发,尽力增强自己在这方面的绝对好过其他的进步方式。
    • 除了做好自己的工作,还有一个很重要的方面就是学会如何讲述它。科研就是一个不断沟通交流的领域。
    • 努力工作、努力工作、长时间工作,然后告诉别人你做了什么,之后你就可以向着下一步努力了。
    未来数据会被怎样应用起来
    • 我觉得人们现在在想的事情是,如何将Google和Netflix这类公司的模式复制到世界的其他领域中去。在未来,基于数据和基础设施开发出来的工具和应用,会以大的多的浪潮来袭。
    • 另外一个我们可以努力的方向是社交数据。现阶段所产出的社交数据其实都能够以一种全新的方式去表征世界现象以及人们的行为。
    • 下阶段,把各式各样的技术和从海量数据中产出的智能用于你的日常生活将成为趋势。在未来,你只要说出你的需求和期待,然后就会有东西将你的梦想化为现实。
    展开全文
  • 数据几乎无处不在。当前存在的数字数据量正在快速增长。这个数字每两年翻一番,完全改变了我们的基本生存方式。根据IBM的一篇论文,2012年每天生成约25亿千兆字节的数据。...这些包括数据科学,...

    数据几乎无处不在。当前存在的数字数据量正在快速增长。这个数字每两年翻一番,完全改变了我们的基本生存方式。根据IBM的一篇论文,2012年每天生成约25亿千兆字节的数据。《福布斯》的另一篇文章告诉我们,数据的增长速度比以往任何时候都要快。该文章还暗示,到2020年,每秒将为这个星球上的所有人类居民开发约17亿新信息。随着数据以更快的速度增长,出现了与处理和处理数据相关的新术语。这些包括数据科学,数据挖掘和机器学习。在以下部分中,我们将为您提供关于这些术语的详细见解。 

     

    什么是数据科学?

    Data Science

    数据科学处理结构化和非结构化数据。该字段包含与数据的清理,准备和最终分析相关的所有内容。数据科学结合了编程,逻辑推理,数学和统计学。它以最巧妙的方式捕获数据,并鼓励以不同的视角看待事物的能力。同样,它还会清理,准备和对齐数据。简而言之,数据科学是用于提取信息和数据见解的几种技术的保护伞。数据科学家负责创建数据产品和其他一些基于数据的应用程序,这些应用程序以传统系统无法做到的方式处理数据。

     

    什么是数据挖掘? 

    Data Mining

    数据挖掘只是从以前难以理解和未知的巨大数据库中收集信息,然后使用该信息制定相关业务决策的过程。简而言之,数据挖掘是在知识发现过程中用于区分以前未知的关系和模式的各种方法的集合。因此,我们可以将数据挖掘称为其他各个领域的融合,例如人工智能,数据室虚拟基础管理,模式识别,数据可视化,机器学习,统计研究等。数据挖掘过程的主要目标是从各种数据集中提取信息,以尝试将其转换为适当且易于理解的结构,以供最终使用。

     

    什么是机器学习? 

    Machine Learning

    机器学习是一种人工智能,负责为计算机提供学习新数据集的能力,而无需通过显式源进行编程。它主要关注于几种计算机程序的开发,这些程序可以在暴露于新数据集时以及在暴露于新数据集时进行转换。机器学习和数据挖掘遵循相对相同的过程。但是它们可能并不相同。机器学习遵循数据分析方法,该方法负责以分析方式自动进行模型构建。它使用算法从数据中反复获取知识,并且在此过程中;它使计算机无需外部程序的任何帮助即可找到看似隐藏的见解。为了从数据挖掘中获得最佳结果,将复杂的算法与正确的流程和工具配对。 

     

    这三个术语有什么区别?

     

    如前所述,数据科学家负责提供以数据为中心的产品和应用程序,这些产品和应用程序以传统系统无法处理的方式处理数据。数据科学的过程更加关注于处理任何类型数据的技术能力。与数据挖掘和数据机器学习不同,它负责评估特定产品或组织中数据的影响。 

     

    数据科学侧重于数据科学,而数据挖掘则与过程有关。它处理在大数据集中发现新模式的过程。它可能显然类似于机器学习,因为它对算法进行了分类。但是,与机器学习不同,算法只是数据挖掘的一部分。在机器学习中,算法用于从数据集中获取知识。但是,在数据挖掘中,算法也只是作为过程的一部分进行组合。与机器学习不同,它并不完全专注于算法。 

     

     

    展开全文
  • 【数据可视化有什么意义?】 举一个身边的例子,我们平时在电视上看到的... 【通解数据科学 拓宽收益渠道】 如今,许多行业都有数据方向的人才需求。 掌握数据分析与可视化技能,你就可以: 【适用人群】 【三重权益】
  • 作为程序员,我发现数据科学比巫术更能比巫术更精确。 我渴望获得原始数据并从中收集有用和具体的东西的能力。 多么有用的人才! 这让我开始思考数据科学家和程序员之间的区别。 数据科学家不只是可以编码的统计...

    数据隐私中nfl

    无论您最近使用哪种媒体内容(播客,文章,推文等),都可能会遇到一些对数据的引用。 无论是备份谈话要点还是对数据无处不在进行元视图,对数据及其分析的需求都很高。

    作为程序员,我发现数据科学比巫术更能比巫术更精确。 我渴望获得原始数据并从中收集有用和具体的东西的能力。 多么有用的人才!

    这让我开始思考数据科学家和程序员之间的区别。 数据科学家不只是可以编码的统计学家吗? 环顾四周,您会看到许多旨在帮助开发人员成为数据科学家的工具。 AWS拥​​有一整套的机器学习课程 ,专门针对将开发人员转变为专家。 Visual Studio具有内置的Python项目,只需单击一个按钮,即可创建用于分类问题的完整模板。 数十名程序员正在编写旨在使任何人都容易上手的数据科学的工具。

    我以为我会清楚地吸引到数据(或黑暗)方面来招聘程序员,并通过一个有趣的项目给它一个机会:训练一个机器学习模型,以使用国家橄榄球联盟(NFL)数据集预测比赛情况。

    搭建环境

    虚拟环境 这很重要,因为如果没有环境,我将无处工作。 幸运的是,Opensource.com拥有一些很棒的资源来安装和配置安装程序。

    您在这里看到的任何代码,我都可以查阅现有文档。 如果程序员熟悉一件事,那就是在浏览国外(有时非常稀疏)的文档。

    获取数据

    与任何现代问题一样,第一步是确保您拥有质量数据。 幸运的是,我遇到了2017年用于NFL大数据碗的一组NFL跟踪数据 甚至NFL也在尽力吸引数据领域中最耀眼的星星。

    我需要了解的所有架构都在README中。 该练习将训练一个机器学习模型,以使用plays.csv 数据文件预测跑步(持球人保持足球状态并向低处奔跑)和传球(将球传给接收球员)。 在本练习中,我不会使用玩家跟踪数据,但是以后进行探索可能会很有趣。

    首先,我需要通过将数据导入数据框来访问我的数据。 Pandas库是一个开放源代码的Python库,它提供用于轻松分析数据结构的算法。 样本NFL数据中的结构碰巧是一个二维数组(或更简单的说就是一个表),数据科学家通常将其称为数据框。 处理数据的Pandas函数是pandas.DataFrame 我还将导入其他一些库,供以后使用。

    import pandas as pd
    import numpy as np
    import seaborn as sns
    import matplotlib. pyplot as plt
    import xgboost as xgb

    from sklearn import metrics

    df = pd. read_csv ( 'data/plays.csv' )

    print ( len ( df ) )
    print ( df. head ( ) )

    格式化数据

    NFL数据转储未明确指示哪些播放是奔跑(也称为急速)和哪些是传球。 因此,我必须通过一些精明的足球和推理来对进攻性比赛类型进行分类。

    现在,我可以在isSTPLAY列中摆脱特殊团队的比赛。 特种球队既不是进攻也不是防守,因此与我的目标无关。

    #drop st plays
    df = df [ ~ df [ 'isSTPlay' ] ]
    print ( len ( df ) )

    略过playDescription列,我看到四分卫跪下的一些比赛,这实际上结束了一场比赛。 这通常被称为“胜利阵型”,因为这样做的目的是耗尽时间。 这些与正常的跑步比赛有很大的不同,所以我也可以放下它们。

    #drop kneels
    df = df [ ~ df [ 'playDescription' ] . str . contains ( "kneels" ) ]
    print ( len ( df ) )

    数据以正常进行游戏的季度为单位报告时间(以及每个季度的游戏时钟时间)。 就尝试预测序列而言,这是否最直观? 解决这个问题的一种方法是考虑时间间隔之间游戏玩法的差异。

    当一支球队在第一节还剩一分钟的球时,是否会像在第二节还剩一分钟的球一样? 可能不是。 在两半结束时,只要花一分钟,它的作用是否相同? 所有其他条件保持不变,在大多数情况下答案可能是肯定的。

    我将四分之一GameClock列从四分之一转换为一半,以秒而不是分钟表示。 我还将根据四分之一数值创建一个列。 有一些第五季度值,我认为这是加班费。 由于加班规则与正常游戏规则不同,因此我可以删除它们。

    #drop overtime
    df = df [ ~ ( df [ 'quarter' ] == 5 ) ]
    print ( len ( df ) )

    #convert time/quarters
    def translate_game_clock ( row ) :
        raw_game_clock = row [ 'GameClock' ]
        quarter = row [ 'quarter' ]
        minutes , seconds_raw = raw_game_clock. partition ( ':' ) [ :: 2 ]

        seconds = seconds_raw. partition ( ':' ) [ 0 ]

        total_seconds_left_in_quarter = int ( seconds ) + ( int ( minutes ) * 60 )

        if quarter == 3 or quarter == 1 :
            return total_seconds_left_in_quarter + 900
        elif quarter == 4 or quarter == 2 :
            return total_seconds_left_in_quarter

    if 'GameClock' in list ( df. columns ) :
        df [ 'secondsLeftInHalf' ] = df. apply ( translate_game_clock , axis = 1 )

    if 'quarter' in list ( df. columns ) :
        df [ 'half' ] = df [ 'quarter' ] . map ( lambda q: 2 if q > 2 else 1 )

    yardlineNumber列也需要转换。 当前数据将码列列出为从1到50的值。同样,这也无济于事,因为团队不会在自己的20码列和其对手的20码列上采取相同的行动。 我将其转换为代表从1到99的值,其中,一码线最接近控球区的终点区域,而99码线最接近对手的终点区。

    def yards_to_endzone ( row ) :
        if row [ 'possessionTeam' ] == row [ 'yardlineSide' ] :
            return 100 - row [ 'yardlineNumber' ]
        else :
            return row [ 'yardlineNumber' ]

    df [ 'yardsToEndzone' ] = df. apply ( yards_to_endzone , axis = 1 )

    如果我可以将人员数据转换成某种格式以供机器学习算法使用,则人员数据将非常有用。人员可以在给定的时间识别不同类型的技能职位。 目前在persons.offense中显示的字符串值不利于输入,因此我将把每个人员的位置转换为自己的列,以指示比赛中场上出现的数字。 国防人员稍后可能会感兴趣,以查看它是否对预测有任何结果。 现在,我只会坚持进攻。

    def transform_off_personnel ( row ) :

       rb_count = 0
       te_count = 0
       wr_count = 0
       ol_count = 0
       dl_count = 0
       db_count = 0

       if not pd. isna ( row [ 'personnel.offense' ] ) :
           personnel = row [ 'personnel.offense' ] . split ( ', ' )
           for p in personnel:
               if p [ 2 : 4 ] == 'RB' :
                   rb_count = int ( p [ 0 ] )
               elif p [ 2 : 4 ] == 'TE' :
                    te_count = int ( p [ 0 ] )
               elif p [ 2 : 4 ] == 'WR' :
                    wr_count = int ( p [ 0 ] )
               elif p [ 2 : 4 ] == 'OL' :
                    ol_count = int ( p [ 0 ] )
               elif p [ 2 : 4 ] == 'DL' :
                    dl_count = int ( p [ 0 ] )
               elif p [ 2 : 4 ] == 'DB' :
                   db_count = int ( p [ 0 ] )

       return pd. Series ( [ rb_count , te_count , wr_count , ol_count , dl_count , db_count ] )

    df [ [ 'rb_count' , 'te_count' , 'wr_count' , 'ol_count' , 'dl_count' , 'db_count' ] ] = df. apply ( transform_off_personnel , axis = 1 )

    现在,进攻人员值由单独的列表示。

    Result of reformatting offense personnel

    编队描述了球员在球场上的位置,这在预测比赛结果方面似乎也具有价值。 再一次,我将字符串值转换为整数。

    df [ 'offenseFormation' ] = df [ 'offenseFormation' ] . map ( lambda f : 'EMPTY' if pd. isna ( f ) else f )

    def formation ( row ) :
        form = row [ 'offenseFormation' ] . strip ( )
        if form == 'SHOTGUN' :
            return 0
        elif form == 'SINGLEBACK' :
            return 1
        elif form == 'EMPTY' :
            return 2
        elif form == 'I_FORM' :
            return 3
        elif form == 'PISTOL' :
            return 4
        elif form == 'JUMBO' :
            return 5
        elif form == 'WILDCAT' :
            return 6
        elif form == 'ACE' :
            return 7
        else :
            return - 1

    df [ 'numericFormation' ] = df. apply ( formation , axis = 1 )

    print ( df. yardlineNumber . unique ( ) )

    最后,是时候对播放类型进行分类了。 PassResult列具有四个不同的值:I,C,S和null,分别表示不完整的传球,完整的传球,麻袋(分类为传球)和空值。 由于我已经淘汰了所有特殊的团队比赛,因此我可以假设空值是连续比赛。 因此,我将播放结果转换为一个名为play_type的列,该列由0表示运行或1表示通过。 这将是我希望算法预测的列(或标签 ,如数据科学家所说)。

    def play_type ( row ) :
        if row [ 'PassResult' ] == 'I' or row [ 'PassResult' ] == 'C' or row [ 'PassResult' ] == 'S' :
            return 'Passing'
        else :
            return 'Rushing'

    df [ 'play_type' ] = df. apply ( play_type , axis = 1 )
    df [ 'numericPlayType' ] = df [ 'play_type' ] . map ( lambda p: 1 if p == 'Passing' else 0 )

    休息一下

    现在该开始预测事情了吗? 到目前为止,我的大部分工作一直在试图理解数据及其需要采用的格式,甚至在我开始进行任何预测之前。 其他人需要一分钟吗?

    在第二部分中,我将对数据进行一些分析和可视化,然后将其输入到机器学习算法中,然后对模型的结果进行评分,以查看它们的准确性。 敬请关注!

    翻译自: https://opensource.com/article/19/10/formatting-nfl-data-python

    数据隐私中nfl

    展开全文
  • 全文共3996字,预计学习时长12分钟 来源:Pexels 对于外行来说,“Jira”是一个项目管理工具,在科技公司之外几乎无处不在。 ...它最初是为了管理软件开发...管理数据科学项目会引起许多激烈的讨论(对于乐观主义...

    全文共3996字,预计学习时长12分钟

    来源:Pexels

    对于外行来说,“Jira”是一个项目管理工具,在科技公司之外几乎无处不在。

     

    它最初是为了管理软件开发项目而构建的,自然会被重新应用到数据科学项目中。

     

    尽管Jira可能是一个很好的工具,但数据科学项目是不同的!

     

    数据科学项目和建筑项目是不同的

     

    管理数据科学项目会引起许多激烈的讨论(对于乐观主义者而言)或大量的争论(对于悲观主义者而言)[1]。

     

    一方面,由于数据科学家通常在技术部门工作,因此应该像管理专业的软件开发人员一样管理他们,这是默认的情况。另一方面,有一种观点认为,因为数据科学家通常都有研究背景,所以应该像对待研究人员一样对待他们,并应赋予他们“创造”的自由。

     

    这两种管理方式都不合适。

     

    然而,后一种方式在管理类型上风险更大:给这些数据科学家自由,他们就会感到无关紧要,根本不做任何事情。所以本文着重讨论前一种方式的错误之处。

     

    为什么数据科学家如此抵制软件开发人员和管理人员认为理所当然的流程呢?

     

    首先,笔者是某种项目管理的忠实信徒。正如管弦乐队需要一个指挥[2],一个团队也需要一个可以进行协调的人。问题是,对于如何称呼这些人,并没有达成广泛的一致意见。在微软,他们都被称为Program Managers(程序经理)。其他地方会称他们为Project Managers(项目经理)。有的产品经理也负责这方面的事务,甚至商业分析师也做过类似的工作。

     

    面对这些困惑,有些公司(在这里不会说出具体的名字)只需每个职位雇一个人,并希望他们自己能弄清楚谁为自己做了什么。这可能会导致关于不同角色之间差异的恶意争论。此外,这也取决于思考者还是试探者的定位[3],在这样的团队中,一个产品经理,一个程序经理,一个业务分析师和一个项目经理都在管理两个可怜的数据科学家,这个景象又滑稽又悲惨。现在能责怪那两位数据科学家对四位经理创建的流程产生抵触情绪吗?毕竟,有谁在真正地工作呢 [4]?

     

    所以也许数据科学家对流程不满可能预示着流程的崩溃,而不是数据科学家的崩溃。

     

    现在,本文中把所有负责协调角色的人统称为“PM”。如果一名数据科学家不确定PM是指谁,就可以认为他们就是团队的乐队指挥,即他们站在最前面,挥舞着手臂,做着奇怪的表情。

     

    无论如何,在任何项目中,一个PM必须呈现任务进度。数据科学很复杂。所以,也许只是给团队成员分配任务,然后把燃尽图放在一起,显示完成了多少任务。甚至可以制作图表显示谁做了什么!高级管理人员很吃那一套。这是一个很棒的工具,它让所有这些事情变得非常非常容易,所以就用它吧…

     

    那么就用Jira吧。

     

    现在,Jira做得很好,并没有出现错误。然而,有一种思维模式认为,“我们正在完成任务,也就是说我们正在交付任务”。这是错误的。Jira鼓励这种思维方式,因为它把世界组织成了需要勾选完成的任务。

     

    来研究一下完成任务和交付有用的东西之间的区别。乍一看可能有悖常理。当然,项目管理的一个基本原则就是,把一件大事,分解成许多可预测的小事,然后通过这些小事来完成。换句话说,把大事分解成任务,然后把这些任务一个一个地完成。有一个很好理解,政府批准的系统来做这件事,叫做Prince2(关于敏捷,稍后讨论)。大量的人因为在这个Prince2系统中拥有各种花哨的发声资格而欢欣鼓舞。如果在建一座摩天大楼时用这个系统,那么它就能用在伦敦奥运会上了,对吧?

     

    于是问题就变成了:数据科学项目就像摩天大楼项目吗?

     

    当然不是,接下来会进行解释。

     

    来源:Pexels

     

    目的不是手段

     

    第一个区别是最终目标。摩天大楼项目的目标是建造一个人工制品。使用这些人工制品就是商业目标,即出租办公室、酒店、公寓、或任何一样被层层令人眼花缭乱的金融骗局抽象化的东西。这些骗局一直延伸到提供养老金的基金。别想每一层都能分到多少钱了。

     

    跑题了。

     

    关键是,作为一个卑微的工程师,可以继续建造这座该死的摩天大楼,而不必太担心商业方面。

     

    作为一个卑微的数据科学家,就没有这种好事了。工作不是建立一个人工制品,而是改变一个正在进行的业务流程,使之变得更好。举一个具体的例子:工作不是建立一个预测订阅流失的模型,而是减少实际的订阅流失。一个预测模型可能有用,也可能没用。耸耸肩说“我只是做了个模型,因为你就是这么说的”,是没有用的。

     

    要改进这个业务流程,从哪里开始,什么能改变这些数字的走向?数据科学家可能会想出一大堆东西。提醒邮件?个性化推荐?产品折扣?

     

    此时,作为一名数据科学家,会注意到两件事。首先,数据科学在想做的事情中只占很小的一部分,所以最好和其他人一起合作。其次,数据科学家根本不知道什么有用,什么没用。

     

    不确定性无处不在

     

    这里来谈谈数据科学项目和摩天大楼之间的第二个区别。摩天大楼是在一个基本可以预测的环境中建造的,使用基本可以预测的材料,根据基本上固定的设计。在这里,把这些基本可以预测的结果分解成基本可以预测的子任务,然后通过自己的方式来完成它们是完全合理的。

     

    在许多数据科学项目中,这些都不适用。环境总是在变化,因为高级管理人员似乎在不断改变他们的想法。数据科学家的材料相当于他们所使用的技术,基本上不可能预先预测哪些有用哪些不有用。不知道哪一个产品的特性会带来哪些不同。提醒邮件?推送文章?打折?所以想出一个固定的设计是不可能的,因为谁知道客户会有什么反应呢?

     

    能做的只有实验,尽可能快地实验。然后使用实验的结果来决定下一步要做什么实验,然后收集下一组结果,依此类推。换句话说,需要迭代。

     

    因此,不要嫌啰嗦。

     

    现在,因为MVP (Model-View-Presenter) 运动规则,所有人都只有口头功夫,而不真正去迭代。然而,一个公司的工作中很少充分考虑到这些影响。如果这样做,一旦完成了第一个任务,将不得不根据发现的任何东西改变下面的任务。

     

    换言之,计划将失效。

     

    现在,列出一个要做的事情的清单,可能会是一点安慰。然而,不应该自欺欺人地认为这个清单与最终要做的事情有任何关系。如果上面的内容与最终要做的事情无关,那就再想想这一点。

     

    这就是Jira思维的问题所在。如果按照预期使用这个工具,将要一直去删除、更改、去除某些标签的优先权——仅仅是因为任务总是会根据学到的东西而改变。问题不在于Jira本身,而在于一种想法,即人们能在一个可被列成任务清单的可预测的世界中进行操作。

     

    但是敏捷(Agile)是关于迭代的。而且Jira就是敏捷,所以错了!

     

    不是这样的。

     

    敏捷(Agile,大写A)软件开发的12条原则是非常棒的。这是笔者反复提及的。而且,它们表达得很委婉,没有进行总结。点击此处进行了解[5]。

     

    印象不错吧?好吧,敏捷(Agile,大写A)的流程并没有敏捷宣言本身那么棒。事实上,敏捷宣言的一位作者已经否认了敏捷流程。因此,从现在开始,笔者将使用agile(小a)这个词来指代与敏捷宣言一致的流程,而Agile(大A)则指代公司推给数据科学家完成的各种流程。

     

    这些流程是什么?它们可能很复杂,令人费解,涉及到文学故事、史诗、仪式和尖峰辐射的术语。然而,尽管意图可能不同,笔者最终只看到过敏捷(Agile)被做为需要打勾的任务的集合。这就是“Jira思维”,它更接近Prince2,而不是敏捷宣言。

     

    那么数据科学项目应该如何管理呢?

     

    来源:Pexels

     

    这才是本文的主题!这里有一个简短的列表,供数据科学的PM们思考:

     

    1. PM的工作很大一部分是把不确定的部分“拿出来”,并确保项目团队有一个明确的目标要交付。99%的时间应该用来处理一个数字。

    2. 一旦确定了这一数字,项目就必须有时间限制。这并不是说过了一段时间就会停止,更像是“我们在这个日期会举行一次大型会议,在会议上必须展现数字的改善”。然后就不得不紧张起来,因为一开始似乎什么都没发生,然后看着人们在最后期限到来时熬夜工作,显然,与创造性思维有关。

    3. 计划虽无用,但有必要。必须对事情可能会迭代到哪里进行一些最佳猜测。好吧,不确定会发生什么,但是会考虑发邮件吗?那么最好提前和CRM(客户关系管理)团队谈谈。

    4. 大概就这些。如果自己鞭策别人去完成任务,那就说明出了严重的问题。

     

    最后,本文对项目经理有些刻薄。他们很容易成为攻击的对象,而且数据科学在这方面没什么经验。接下来将回到数据科学家和项目经理未来应如何合作的问题上。现在来谈谈项目经理的两种类型。有些人并不真正了解目前的情况,他们试图将所有的事情都生搬硬套到他们所学过的项目管理方法中。这些人基本上是一个项目的净负值,企业无法承受净负值。

     

    另一种在科技公司中很常见,但在科技公司之外可能更少见,他们基本上都是价值不菲的。如果公司中碰巧有一个,也许应该考虑如何不惜一切代价留住他们!

     

    注释:

    [1] 例子参阅O’Reilly的 敏捷数据科学2.0。

    [2] 每条规则都有例外。参考Persimfans 乐团。

    [3] “我经常说,而且经常认为,这个世界对思考的人来说是喜剧,对感受的人来说是悲剧——这是为什么德谟克利特笑而赫拉克利特哭。”——霍勒斯·沃波尔,《写给霍勒斯·曼爵士的信(1769年12月31日)》

    [4] 参阅David Graeber的B******t Jobs。

    [5] 可见敏捷宣言早期的辉煌。

    留言 点赞 关注

    我们一起分享AI学习与发展的干货
    欢迎关注全平台AI垂类自媒体 “读芯术”

    (添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

    展开全文
  • 来源:机器之心 本文约2300字,建议阅读6分钟掌握工程技能可能是更重要的。 「作为数据科学家,我还有机会吗?」不,你更应该成为数据工程师。数据无处不在,而且只会越来越多。在过去的...
  • 自从数据科学兴起,Python成为必要的数据分析工具,大受欢迎,Python受到如此多赞誉和关注,主要是因为它的数据科学库和它的用户友好性。这并不奇怪,因为这种高级编程语言使用了类似英语的语法。 另一个让Python...
  • 微软小冰写诗,腾讯的DreamWriter在奥运会...而这一切,都依赖于海量数据的喂养训练和数据科学家的算法算力,为了获取准确的结果,需要这些海量数据准确且更加贴近业务。但是你可曾想过,这些基础数据的整理和归类...
  • 好的,我们已经了解了我们的第一个数据类型String! 现在让我们对字符串进行一些练习。 我们将使用在上一课中介绍的方法和功能来弯曲我们操纵弦的肌肉! 目标 你将能够: 应用字符串方法对字符串进行更改 使用串联...
  • 时间序列数据在数据科学领域无处不在,在量化金融领域也十分常见,可以用于分析价格趋势,预测价格,探索价格行为等。 学会对时间序列数据进行可视化,能够帮助我们更加直观地探索时间序列数据,寻找其潜在的规律。 ...
  • 尽管Python广受欢迎,并且在数学和数据项目中无处不在,但在协作方面,Python传统上还是落后于JavaScript。作为部落社会的生物群体,人类喜欢一起工作。这在青少年和年轻人中非常明显,他们愿意花费大量时间与朋友...
  • 每个数据科学家一旦开始研究统计模型,就会遇到马尔可夫链和马尔可夫过程这两个术语。本文将以一种易于理解的方式解释马尔可夫过程的基本概念。 马尔可夫链广泛应用于金融、汽车、食品、博彩业,在日常生活中几乎...
  • 本篇文章翻译整理自Sethuraman Janardhanan博士的演讲。...由于无处不在的计算设备和新时代的颠覆性技术的革命,大数据已成为业务中不可或缺的一部分。数据的指数级增长为企业提供了商业智能的巨大机会。然而,大...
  • 时间序列数据在数据科学领域无处不在,在量化金融领域也十分常见,可以用于分析价格趋势,预测价格,探索价格行为等。 学会对时间序列数据进行可视化,能够帮助我们更加直观地探索时间序列数据,寻找其潜在的规律。 ...
  • 时间序列数据在数据科学领域无处不在,在量化金融领域也十分常见,可以用于分析价格趋势,预测价格,探索价格行为等。 学会对时间序列数据进行可视化,能够帮助我们更加直观地探索时间序列数据,寻找其潜在的规律。 ...
  • 最简洁的Python时间序列可视化:数据科学分析价格趋势,预测价格,探索价格发布时间:2020-07-14 15:07:03来源:51CTO阅读:352作者:学Python派森时间序列数据在数据科学领域无处不在,在量化金融领域也十分常见,...
  • 本节书摘来自华章计算机《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一书中的第2章,第2.1节,作者:[美] 德博拉·诺兰(Deborah Nolan) 邓肯·坦普·朗(Duncan Temple Lang) 更多章节内容可以...
  • 作为斯坦福大学物理学博士,他醉心于无处不在的链接和丰富的用户资料。虽然这两者通常只能形成混乱的数据和浅显的分析,但当他着手挖掘人际联系时,却从中发现了“新大陆”。他开始构建理论、检验预设,并研究出了...
  • 表达-源码

    2021-03-04 11:32:07
    表达 来自数据科学和Expresso的功能强大的分解器。... 数据科学无处不在。 通过shell脚本进行para fazercriaçãoda imagem curl https://raw.githubusercontent.com/giovanirorato/expresso/main/expresso.sh | bash
  • 微生物无处不在 微生物组:以群体形式发挥作用 人体基因组决定了人体健康基础,微生物组决定了人体健康状态。 人体微生物组计划—精准医学—精准医疗 DNA(变异、遗传病相关,药物治疗)、临床、基因组,表...
  • 无处不在的残差网络

    2020-12-04 14:04:57
    CW,广东深圳人,毕业于中山大学(SYSU)数据科学与计算机学院,毕业后就业于腾讯计算机系统有限公司技术工程与事业群(TEG)从事Devops工作,期间在AI LAB实习过,实操过道路交通元素与医疗病例图像分割、视频实时...
  • 从笔记本电脑到数据中心,从游戏控制台到科学超级计算机,从手机到互联网,Java 无处不在! 近年来我国信息化发展越来越快,使得全国各地的信息化建设如火如荼,出现了大量的信息化人才,尤其是Java软件人才的缺口。...
  • Java 技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。 生活中,无处不在的java 只要能够接触到...
  • 副标题: 一个无处不在的计算机算法问题 原作名: In pursuit of the traveling salesman:Mathematics at the limits of computation 译者: 隋春宁 内容简介 · · · · · · 假设一名旅行商打算拜访一张城市列表中...
  • 我们正处于大数据和数字化转型的时代:数据无处不在;运用数据驱动的思想和策略在实践中逐渐成为共识;数据的价值已在科学研究和工商业的不同领域得到充分展现。然而,如果无法从数据中提取出知识和信...
  • 数据结构与算法 JavaScript描述 在过去几年中,JavaScript 凭借Node.js 和SpiderMonkey 等平台,在服务器端编程中得到了广 泛应用。JavaScript 程序员因而迫切需要使用传统...学习过计算机科学相关课程的“跨界”程序员
  • 大数据技术从最初的科学概念发展到实际应用,经历的时间并不长,最初的大数据分析可能只是小范围的,局部的数据应用。基于互联网技术的快速发展,人们获得数据的能力越来越强,大数据分析开始更广泛,更深入。在医疗...

空空如也

空空如也

1 2 3 4 5 ... 10
收藏数 185
精华内容 74
关键字:

数据科学无处不在