精华内容
下载资源
问答
  • BigDOT 一个Android应用程序,使数据科学家能够使用AWS服务可视化和分析IoT数据。 YouTube演示: :
  • 演算法 该存储库包含与常用算法和数据结构相关的作业项目,重点是Java实现的应用程序和科学性能分析
  • 星座是一流的领域不可知数据可视化和分析应用程序,使用户能够以简单直观的方式解决大型和复杂的数据问题。 用户:数据分析师,数据科学家以及对图形数据分析感兴趣的所有人员。 数据分析领域:具有丰富特征数据的...
  • 因此,在这里,我们向数据科学领域介绍我们的想法。 每个机器学习数据分析的有志者/研究者都面临着无法可视化或理解数据的问题。 从这个无底深渊中发现最重要的事情,人们迷失在黑暗的回声中,无法获得他们所寻找...
  • 对于软件开发人员来说,这通常意味着定制编码应用程序和微服务。 数据科学家与dataops进行数据集成,通过分析模型进行预测,并创建仪表板以帮助最终用户浏览结果。 寻求与运营工程师实现自动化协作的Devops...

    机器学习与数据科学

    数据科学家与软件开发人员有一些共同的做法和需求。 数据科学家和软件工程师都计划,构造,编码,迭代,测试和部署代码以实现其目标。 对于软件开发人员来说,这通常意味着定制编码应用程序和微服务。 数据科学家与dataops进行数据集成,通过分析模型进行预测,并创建仪表板以帮助最终用户浏览结果。

    寻求与运营工程师实现自动化和协作的Devops工程师应扩大范围,并作为章程的一部分向数据科学家提供服务。

    [理解机器学习的意义: 人工智能,机器学习和深度学习:您需要知道的一切 | 机器学习的解释 | 深度学习解释了 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

    拥有多个数据科学团队的大型组织可以投资于数据科学平台,例如Alteryx Analytics,Databricks和Dataiku,这些平台提供了用于开发,测试和部署分析模型的多种工具。 这些工具在数据操作和分析功能,集成选项,治理,面向业务用户的工具以及部署选项上竞争。

    对数据科学家的Devops要求与应用程序开发人员不同

    并非每个组织都准备好在数据科学平台上进行投资,或者不是只有少量的数据科学团队需要基本的操作能力。 在这些情况下,最好将devop最佳实践应用于数据科学团队,而不是选择和测试平台。

    为此,可以对软件开发团队使用的许多敏捷和开发范例进行一些重大调整,然后将它们应用于数据科学工作流。 尽管数据科学家的流程与开发人员的工作流程相似,但仍存在一些重要差异。

    • 数据科学工作需要围绕数据集,模型和配置进行更多的实验。 大多数软件开发版本管理实践所遵循的并不是简单的计划,构建,测试,部署周期。
    • 开发和测试模型可能不会利用统一的计算堆栈。 某些模型可以使用简单的Python脚本实现,而其他模型则可以利用Apache Spark和其他大数据平台。
    • 即使在开发模型时,计算需求也会有很大的不同。 想要对一个大型数据集测试模型的六个变体的数据科学家,将需要比另一个对较小数据集一次测试一个模型的科学家进行更多的计算和存储。
    • 部署到生产中的模型也需要持续的维护,但是存在更多的变量,而不仅仅是更改基础代码。 模型还需要使用更新的数据集进行重新培训,重新配置操作参数以及调整基础结构,所有这些都可能触发新的部署。
    • 监视数据管道通常需要更复杂的验证。 仅仅知道一个dataops进程正在运行并且一个模型正在处理数据还不够。 这些工具投入生产后,必须对其吞吐量,错误状况,数据源异常以及可能影响下游结果的其他状况进行监控。
    • 为了获得成功,数据科学家必须与开发人员,工程师和业务负责人合作,这比在应用程序开发中加强开发人员和运营之间的协作要艰巨得多。 另外,许多数据科学家和团队可能没有向IT组织报告,这使得为这些小组规定标准和治理变得更加困难。

    支持数据科学家需要在着手开发实践和解决方案之前了解这些差异和其他差异。 这里是一些起点。

    从数据科学家的经验开始

    像应用程序开发人员一样,数据科学家对解决问题最感兴趣,对工具的配置非常感兴趣,对配置基础结构的兴趣通常较小。 但是与软件开发人员不同,数据科学家可能没有完全配置其开发工作流程的经验和背景。 这为devop工程师提供了将数据科学家视为客户 ,帮助定义他们的要求并掌握提供解决方案所有权的机会。

    这可以从数据科学家的基础设施开始。 他们使用Python,R或其他语言编码吗? 他们使用哪些工具(Jupyter,Tableau,Apache Kafka和NLTK)进行分析和建模? 它们将哪些数据库和云用作数据源,用于存储经过训练的数据以及用于部署模型?

    从那里,devops工程师可以帮助选择和标准化开发环境。 传统上,这可以在计算设备或虚拟桌面上完成。 无论哪种方式,将其应用程序和配置镜像到开发环境都是与数据科学家合作的重要的第一步。

    之后,devops工程师应检查数据科学家将代码存储在何处,如何对代码进行版本控制以及如何对代码进行打包以进行部署。 一些数据科学家相对较不熟悉使用版本控制工具(如Git)的情况。 其他人可能正在使用代码存储库,但尚未自动进行任何集成。 实施持续集成是devop工程师帮助数据科学家的第二个要点,因为它可以创建标准并消除测试新算法时的一些手动工作。

    要记住的一件事是,某些SaaS和企业数据平台可能具有内置的版本控制,而不能自然地与为代码设计的版本控制系统对接。 这些平台中的许多平台确实具有可以触发集成和部署的API,或者可以模仿CI / CD管道的其他机制。

    定义部署管道并配置基础架构

    开发环境和标准化的持续集成之后,开发人员的工程师应该考虑自动化测试和生产环境的其他方面。 这可以通过使用诸如Jenkins之类的工具引入部署管道并使用Chef,Puppet,Ansible或其他工具将基础结构配置为代码来完成。

    数据科学环境也是Docker等容器以及Kubernetes等容器管理和编排工具的理想选择 数据科学环境通常是数据操作,数据管理和数据建模平台的组合,需要作为集成环境进行部署和管理。

    了解运行数据集成,机器学习培训和其他数据分析工作的规模和频率至关重要。 Devops工程师可能会发现多种模式,因为数据科学家会处理各种不同的工作负载,例如针对部分数据集频繁测试新模型,计划运行以重新训练生产机器学习模型,以及特殊工作来训练新的分析模型。 这些工作负载类型应帮助开发人员的工程师决定如何最好地配置和扩展云基础架构,以满足不同的计算和存储需求。

    开发人员,开发人员工程师和数据科学家应就业务成果进行协作

    实施devop的最重要方面是促进具有冲突目标的 开发人员和工程师之间的协作 开发人员承受着频繁发布应用程序更改的压力,工程师对生产工作流程的性能和可靠性负责。 让开发人员和工程师协作进行自动化并标准化配置可以实现这两个目标。

    数据科学家是这种合作的第三方。 他们经常面临向主管和业务经理提供分析的压力。 其他时候,他们正在开发模型,希望开发人员可以在其应用程序中使用它们。 他们对可变容量的基础架构有强烈的需求,并且在尝试新平台,库和基础架构配置时,甚至比开发人员的要求更高。

    数据科学家需要与开发人员和工程师建立这种伙伴关系,以提供成功的分析。 这些小组如何理解他们的目标,定义目标目标以及在devop实施方面进行合作,是他们如何协作并交付业务成果的方式。

    翻译自: https://www.infoworld.com/article/3409620/applying-devops-in-data-science-and-machine-learning.html

    机器学习与数据科学

    展开全文
  • Imdb情绪分析 统计 1. CountVector - 84.02% 2. TfIDf - 85.79% 3. Deep Learning (using Single-Label Binary Classification) - 88.3% 板球评论球预测 统计 1. CountVector Written from Scratch - 62.45% 2. ...
  • 正在开发一个跨平台的开源应用程序,用于处理,可视化和分析3D层析成像数据。 它具有完整的流水线,能够处理从对齐,重建和分段到显示,可视化断层摄影数据的3D重建以及与之交互的数据。 许多数据运算符都是可编辑的...
  • 敏捷数据科学pdf 几乎每个组织都在试图变得更加以数据为驱动力,希望利用数据可视化,分析和机器学习来获得竞争优势。 通过分析提供可行的见解需要强大的dataops程序来集成数据,并需要一个主动的数据治理程序来解决...

    敏捷数据科学pdf

    几乎每个组织都在试图变得更加以数据为驱动力,希望利用数据可视化,分析和机器学习来获得竞争优势。 通过分析提供可行的见解需要强大的dataops程序来集成数据,并需要一个主动的数据治理程序来解决数据质量,隐私,策略和安全性。

    提供数据操作,分析和治理是一个重要的工作范围,需要使利益相关者在优先事项上保持一致,实施多种技术,并召集具有不同背景和技能的人员。 敏捷方法可以形成工作流程,以帮助多学科团队确定优先级,计划并成功交付增量业务价值。

    [ 也在InfoWorld上:如何在敏捷开发中解决数据和体系结构标准 ]

    敏捷方法还可以帮助数据和分析团队捕获并处理来自客户,利益相关者和最终用户的反馈。 反馈应推动数据可视化的改进,机器学习模型的重新校准,数据质量的提高以及数据治理的合规性。

    定义数据科学和数据操作的敏捷过程

    将敏捷方法学应用于分析和机器学习生命周期是一个巨大的机会,但它需要重新定义一些术语和概念。 例如:

    • 敏捷数据科学团队可能由分析所有者(而不是敏捷产品所有者)领导,后者负责根据所提供的见解推动业务成果。
    • 数据科学团队有时会通过改进仪表板和其他工具来完成新的用户案例,但更广泛地说,他们提供了可行的见解,改进的数据质量,数据操作自动化,增强的数据治理和其他可交付成果。 分析所有者和团队应在积压中捕获所有这些可交付成果的基本要求。
    • 敏捷数据科学团队应该是多学科的,并且可能包括数据操作工程师,数据建模人员,数据库开发人员,数据治理专家,数据科学家,公民数据科学家,数据管理员,统计学家和机器学习专家。 团队构成取决于工作范围以及所需数据和分析的复杂性。

    敏捷的数据科学团队可能会从事多种类型的工作。 这是应填补积压和冲刺承诺的三个主要方面。

    1.开发和升级分析,仪表板和数据可视化

    数据科学团队应构想仪表板,以帮助最终用户回答问题。 例如,销售仪表板可能会回答以下问题:“在过去90天内,哪些销售代表的销售活动最多? 敏捷软件开发团队的仪表板可能会回答:“在过去的三个版本中,该团队在提供功能,解决技术问题和解决生产缺陷方面的生产力如何?”

    敏捷的用户故事应解决三个问题 :最终用户是谁? 他们想解决什么问题? 为什么这个问题很重要? 问题是编写提供分析,仪表板或数据可视化效果的敏捷用户故事的基础。 问题可以解决打算使用仪表板的人员以及他们需要的答案。

    然后,当利益相关者和最终用户提供答案的假设以及他们打算如何使结果可行时,它会提供帮助。 洞察力如何变为可操作的,及其对业务的影响,有助于回答敏捷用户故事应解决的第三个问题(问题为何如此重要)。

    Tableau或Power BI仪表板的第一个版本应该是“最小可行的仪表板”,足以与最终用户共享以获取反馈。 用户应让数据科学团队知道仪表板能够很好地解决他们的问题以及如何进行改进。 分析产品所有者应将这些增强功能放在待办事项上,并考虑在未来的sprint中优先考虑它们。

    2.开发和升级机器学习模型

    开发分析和机器学习模型的过程包括对数据进行分段和标记,特征提取以及通过多种算法和配置来运行数据集。 敏捷数据科学团队可能会记录敏捷用户故事,以准备用于模型开发的数据,然后为每个实验创建单独的故事。 透明性可以帮助团队审查实验结果,确定下一个优先级,并讨论方法是否正在收敛于有益结果。

    可能会有不同的用户案例将模型从实验室移至生产环境。 这些故事是用于数据科学和机器学习的内容 ,并且可能包括脚本基础结构,自动化模型部署以及监视生产过程。

    一旦模型投入生产,数据科学团队就有责任维护它们。 随着新数据的涌入,模型可能会偏离目标,并需要使用更新的数据集进行重新校准或重新设计。 来自Twitter和Facebook等公司的高级机器学习团队实施持续培训,并使用新的培训数据重新校准模型。

    3.发现,集成和清理数据源

    敏捷数据科学团队应始终寻找新的数据源,以整合和丰富其战略数据仓库和数据湖。 一个重要的例子是市场部门使用的SaaS工具中孤立的数据来达到潜在客户或与客户沟通。 其他数据源可能会提供有关影响购买决策的供应链,客户人口统计信息或环境环境的其他观点。

    分析师所有者应使用故事卡填充敏捷的积压订单,以研究新的数据源,验证样本数据集并将优先级排序的数据集集成到主要数据存储库中。 当敏捷团队集成新数据源时,团队应该考虑自动化数据集成,实施数据验证和质量规则,以及将数据与主数据源链接。

    Talend产品营销副总裁Julien Sauvage提出了以下建立数据源信任的准则。 “如今,公司需要对他们的报告和仪表板中使用的数据更有信心。 通过基于数据质量,数据受欢迎程度,合规性和用户定义的等级的内置信任分数可以实现。 信任分数使数据从业人员可以实时查看数据清理任务的效果,从而可以迭代地解决数据质量问题。”

    数据科学团队还应该捕获数据债务并确定其优先级。 从历史上看,数据源缺乏所有者,管家和数据治理实施。 如果没有适当的控制,许多数据输入表单和工具将没有足够的数据验证,并且集成数据源也没有清理规则或异常处理。 许多组织在分析和数据可视化中使用的数据仓库和湖泊中堆积着大量脏数据。

    就像没有解决技术债务问题的快速解决方案一样,敏捷数据科学小组也应该迭代地确定优先级并解决数据债务问题。 当分析所有者添加用于交付分析的用户案例时,团队应审查并询问必须在积压订单上列出哪些基础数据债务并确定优先级。

    用敏捷方法实施数据治理

    我分享的所有示例均有助于数据科学团队提高数据质量并提供用于在决策,产品和服务中利用分析的工具。

    在积极主动的数据治理计划中,围绕数据策略,隐私和安全性的问题将得到优先处理,并与交付和改进数据可视化,分析,机器学习和数据操作的工作并行解决。 有时,数据治理工作属于数据科学团队的职责范围,但通常情况下,由单独的小组或职能部门负责数据治理。

    组织对分析和数据治理法规,合规性以及不断发展的最佳实践的竞争需求不断增长。 应用敏捷方法为组织提供了完善的结构,流程和工具,可以对数据驱动的影响进行优先级排序,计划和交付。

    翻译自: https://www.infoworld.com/article/3562346/3-ways-to-apply-agile-to-data-science-and-dataops.html

    敏捷数据科学pdf

    展开全文
  • 数据科学关注查找噪声中隐藏的信号。这一点说起来容易做起来难,但无需依靠众多数据...1.观察:移动用户数据趋势可能会带来一些不可预料的见解,帮助更好地理解用户使用应用程序的方式、时间、地点原因。这些见...

    数据科学关注查找噪声中隐藏的信号。这一点说起来容易做起来难,但无需依靠众多数据专家即可实现。本文介绍的定量分析技术是非常实用的入门方法(链接中提供额外信息),适用于想亲自使用基础统计技术的人员。从本质上来讲,其流程可以总结为以下四步:

    1.观察:移动用户数据趋势可能会带来一些不可预料的见解,帮助更好地理解用户使用应用程序的方式、时间、地点和原因。这些见解具有潜在价值,可以据此制定后续决策,优化用户体验。

    2.形成假设框架:无法获取全部信息时,需要进行归纳推理。对于移动应用程序来说,这一点显然正确,因为目标用户不可能聚在一起等着你去采访。

    3.数据采集:对假设进行判断需要面对的挑战是确定对相关任务有帮助的可用证据。在我看来,这得先做好才考虑机器学习算法的细节。

    4.评估假设:生成模型的出发点是希望进一步解释数据。接下来,根据模型对目前所观察到数据的解释情况,对模型可信度进行评估。

    制定高质量并且切实可行的决策

    数据科学可以描述为业务假设实际运行情况之间的竞争。与 Countly 合作将获取完整的移动用户行为数据集以及数据可视化所需的整套工具。定量分析需要使用完整的移动用户行为数据集,而非抽样技术分析所采集的数据,后者可能会在分析中引入不确定性的偏差。只需单击几次,就能够以可视化方式查看关于用户的各种详细信息。例如,可以使用 Countly 在多种语言环境下快速可视化应用程序用户的原始数据和百分比数据(请参见下方屏幕截图)。此方法比 Excel 更加形象生动,无需额外导出原始数据进行日常数据分析,为团队节省时间。

    此外,Countly 可以灵活整合其他来源的移动数据和人口统计数据,例如银行可能需要从后端整合数据(年龄、估计收入、婚姻状况、最近大宗交易记录和近期地址变更),以便 Countly 更好地了解用户在应用程序内的行为并通过特定推送通知促进微目标定位。这样数据分析就能够更具有针对性,更加适应业务需要。

    为了帮助您在令人兴奋的数据驱动领域中不断发展,您需要扩展成功的定义:对您来说,“成功”意味着什么?这个问题其实并不像看起来那样简单。您优先考虑什么问题?如果您重点关注应用程序内购买,那么您的目标是收入和用户生命周期价值 (LTV)。对于其他大部分不以货币化为中心的应用程序来说,主要关注点可能在于留存用户。

    那么,现在我们开始观察数据。利用 Countly 您能够访问 100% 应用程序用户数据,还可以详细查看高参与度用户(假设您运营一款健身应用程序,并选择留存率作为成功标准)以及这些用户注册时执行的操作。观察高参与度用户行为模式,然后进行定量访问确定应用程序最令人兴奋的特点。随后,您的团队可以获取下载应用的初 10 天内完成对提高留存率有帮助操作的主要假设:

    1.完成 3 项推荐锻炼

    2.在社区发布 5 件信息

    3.关注5 份健康饮食

    我们为每项操作定义队列,然后在采样数据上使用二分类测试比较注册 2 个月后每组用户留存表现。之后我们可以观察每项测试的正负预测值(定义如下),确定我们正在寻找的关键阈值。

      测试 1:用户在初 10 天内是否完成 ≥ 3项推荐锻炼?

    测试 2:用户在初 10 天内在社区发布 ≥ 5 件信息?

    测试 3:用户在初 10 天内关注 ≥ 5 份健康饮食?

    显然完成 3 项推荐锻炼胜出。因此,这项操作有较高的 2 个月留存正预测值;相反地,完成少于 3 项锻炼有较高的负预测值。这项测试可以很好地预测 2 个月留存情况:达到标准,有 99% 机率留存应用程序;未达到标准,有 95% 机率会丢失用户。

    发布 5 件信息和关注 5 份健康饮食与留存情况有很大关联(因此有较高的正预测值),但未达到关键条件标准。未执行这些操作的用户仍有很高机率在 2 个月后仍留存应用程序。

    到目前为止,完成推荐锻炼似乎成为关键性阈值。另一项评估要点在于让用户完成行动的价值。换言之,让用户完成 3 项推荐锻炼进而提高 2 个月后留存应用程序所需付出的代价。分析数字时,完成 3 项推荐锻炼可使 2 个月后留存机率提高大约 20 倍,而发布 5 次更新和关注 5 份健康饮食甚至无法让留存率翻倍(分别提高 1.3 倍和 1.1 倍)。你可以通过回归分析得出这一结论,但所需时间过长。如要了解更多信息,我建议阅读该URL。数据分析结果表明,值得投入时间和精力鼓励用户完成 3 项推荐锻炼。发布 5 件信息和关注 5 份健康饮食与留存情况有很大关联(因此有较高的正预测值),但未达到关键条件标准。未执行这些操作的用户仍有很高机率在 2 个月后仍留存应用程序。

    如果对机器学习和更复杂的模型感兴趣,我建议针对非结构化数据使用 K 均值聚类(K-Means Clustering),使用 R 语言实现。该技术提供另一种识别与 3 个月后留存率等业务目标相关特定聚类的方法。观察结果按指定标准分为 K 组并重新分组,形成关联最为紧密的聚类(请参见以下示例)。

    与分层聚类相比,K 均值聚类可以处理更大规模的数据集。此外,观察结果不会永远固定在一个聚类中。分析时,观察结果会移动,从而改善整体结果。要了解更多关于 K 均值聚类的信息,我建议阅读《R 语言实战》作者 Rob Kabacoff 发表的文章

    保持简洁

    误差最小的通用模型最有可能准确预测未来观察结果——奥卡姆剃刀原理。确定关键性阈值时的两个重要注意事项:保持稳定简洁。如果涉及过多不同行动,将难以衡量并且可能会随时间发生变化。同时也会分散团队的注意力 — 这引出我们的下一步骤。

    采取行动

    既然已经确定关键指标,即必须加以克服以便提高用户满意度和参与度的阈值,那么就应该采取相应行动。Sokrati,印度领先的网络广告绩效管理公司,已成功在开节日期间展开2-3天的Facebook 活动为珠宝品牌赢了超过300%的销售增长。他们的策略包括三个步骤: 

    关键在于利用节日期间有针对性地鼓励更多用户尽快行动。深入挖掘不同的受众群以扩大受众群体,你会看到参与和保留度上升。我希望这些概念与结构可以帮你。欢迎你联系Countly继续讨论与分享自己的故事!





    作者:陈俊勋
    来源:51CTO
    展开全文
  • 对于软件开发人员来说,这通常意味着定制编码应用程序和微服务。 数据科学家与dataops进行数据集成,通过分析模型进行预测,并创建仪表板以帮助最终用户浏览结果。 希望实现运营工程师自动化协作的Devops工程师...

    数据科学家与软件开发人员有一些共同的实践和需求。 数据科学家和软件工程师都计划,构造,编码,迭代,测试和部署代码以实现其目标。 对于软件开发人员来说,这通常意味着定制编码应用程序和微服务。 数据科学家与dataops进行数据集成,通过分析模型进行预测,并创建仪表板以帮助最终用户浏览结果。

    希望实现运营工程师自动化和协作的Devops工程师应扩大其范围,并作为章程的一部分向数据科学家提供服务。

    [理解机器学习的意义: 人工智能,机器学习和深度学习:您需要知道的一切 | 机器学习的解释 | 深度学习解释了 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

    拥有多个数据科学团队的较大型组织可以投资于数据科学平台,例如Alteryx Analytics,Databricks和Dataiku,这些平台提供了用于开发,测试和部署分析模型的多种工具。 这些工具在数据操作和分析功能,集成选项,治理,面向业务用户的工具以及部署选项上竞争。

    对数据科学家的Devops要求与应用程序开发人员不同

    并非每个组织都准备好在数据科学平台上进行投资,或者不是只有少量的数据科学团队需要基本的操作能力。 在这些情况下,最好将devops最佳实践应用于数据科学团队,而不是选择和测试平台。

    为此,可以对软件开发团队使用的许多敏捷和开发范例进行一些重大调整,然后将它们应用于数据科学工作流。 尽管数据科学家的流程与开发人员的工作流程相似,但仍存在一些重要差异。

    • 数据科学工作需要围绕数据集,模型和配置进行更多的实验。 大多数软件开发版本管理实践所遵循的并不是简单的计划,构建,测试,部署周期。
    • 开发和测试模型可能不会利用统一的计算堆栈。 某些模型可以使用简单的Python脚本实现,而其他模型则可以利用Apache Spark和其他大数据平台。
    • 即使在开发模型时,计算需求也会有很大的不同。 想要与大型数据集测试模型的六个变体的数据科学家相比,一次要在较小的数据集上测试一个模型的科学家,将需要更多的计算量和存储量。
    • 部署到生产中的模型也需要进行持续的维护,但是存在更多的变量,而不仅仅是更改基础代码。 模型还需要使用更新的数据集进行重新培训,重新配置操作参数以及调整基础结构,所有这些都可能触发新的部署。
    • 监视数据管道通常需要更复杂的验证。 仅仅知道一个dataops进程正在运行并且一个模型正在处理数据还不够。 这些工具投入生产后,必须对其吞吐量,错误状况,数据源异常以及可能影响下游结果的其他状况进行监控。
    • 为了获得成功,数据科学家必须与开发人员,工程师和业务负责人合作,这比在应用程序开发中加强开发人员和运营之间的协作要艰巨得多。 此外,许多数据科学家和团队可能没有向IT组织汇报,这使得为这些小组规定标准和治理变得更加困难。

    支持数据科学家需要在着手开发实践和解决方案之前了解这些差异和其他差异。 这里是一些起点。

    从数据科学家的经验开始

    像应用程序开发人员一样,数据科学家对解决问题最感兴趣,对配置工具的投入非常大,而对配置基础结构的兴趣通常较小。 但是与软件开发人员不同,数据科学家可能没有完全配置其开发工作流程的经验和背景。 这为devop工程师提供了将数据科学家视为客户 ,帮助定义他们的要求并掌握提供解决方案所有权的机会。

    这可以从数据科学家的基础设施开始。 他们使用Python,R或其他语言编码吗? 他们使用哪些工具(Jupyter,Tableau,Apache Kafka和NLTK)进行分析和建模? 它们将哪些数据库和云用作数据源,用于存储经过训练的数据以及用于部署模型?

    从那里,devops工程师可以帮助选择和标准化开发环境。 传统上,这可以在计算设备或虚拟桌面上完成。 无论哪种方式,将其应用程序和配置镜像到开发环境都是与数据科学家合作的重要的第一步。

    之后,devops工程师应检查数据科学家将代码存储在何处,如何对代码进行版本控制以及如何对代码进行打包以进行部署。 一些数据科学家在使用版本控制工具(例如Git)方面还比较陌生。 其他人可能正在使用代码存储库,但尚未自动进行任何集成。 实现持续集成是开发人员工程师帮助数据科学家的第二个要点,因为它可以创建标准并省去测试新算法的一些手动工作。

    要记住的一件事是,某些SaaS和企业数据平台可能具有内置的版本控制,而不能自然地与为代码设计的版本控制系统对接。 这些平台中的许多平台确实具有可以触发集成和部署的API,或者可以模仿CI / CD管道的其他机制。

    定义部署管道并配置基础架构

    通过开发环境和标准化的持续集成,开发人员的工程师应该考虑自动化测试和生产环境的其他方面。 这可以通过使用诸如Jenkins之类的工具引入部署管道并使用Chef,Puppet,Ansible或其他工具将基础结构配置为代码来完成。

    数据科学环境也是Docker等容器以及Kubernetes等容器管理和编排工具的理想选择 数据科学环境通常是数据操作,数据管理和数据建模平台的组合,需要作为集成环境进行部署和管理。

    了解运行数据集成,机器学习培训和其他数据分析工作的规模和频率至关重要。 Devops工程师可能会发现多种模式,因为数据科学家会处理各种不同的工作负载,例如针对部分数据集频繁测试新模型,计划运行以重新训练生产机器学习模型,以及特殊工作来训练新的分析模型。 这些工作负载类型应帮助开发人员的工程师决定如何最好地配置和扩展云基础架构,以满足不同的计算和存储需求。

    开发人员,开发人员工程师和数据科学家应就业务成果进行协作

    实施devop的最重要方面是促进具有冲突目标的 开发人员和工程师之间的协作 开发人员承受着频繁发布应用程序更改的压力,工程师对生产工作流程的性能和可靠性负责。 让开发人员和工程师协作进行自动化并标准化配置可以实现这两个目标。

    数据科学家是这种合作的第三方。 他们经常面临向主管和业务经理提供分析的压力。 有时他们正在开发模型,希望开发人员可以在其应用程序中使用它们。 他们对可变容量的基础架构有强烈的需求,并且在尝试新平台,库和基础架构配置时,甚至比开发人员的要求更高。

    数据科学家需要与开发人员和工程师建立这种伙伴关系,以提供成功的分析。 了解他们的目标,定义目标目标以及在devop实施上进行合作是这些小组如何协作和交付业务成果的方式。

    From: https://www.infoworld.com/article/3409620/applying-devops-in-data-science-and-machine-learning.html

    展开全文
  • Tablexplore是使用PySide2 / Qt工具包在Python中构建的数据分析和绘图应用程序。 它使用pandas DataFrame类存储表数据。 Pandas是一个开放源代码Python库,提供高性能的数据结构和数据分析工具。 该应用程序主要...
  • 一个Python应用程序,用于分析在TRIUMF采集的β-检测到的核磁共振四极共振(β-NMRβ-NQR)数据。 这些技术类似于介子自旋旋转(μSR),使用放射性原子离子代替介子。 已编写bfit以满足以下需求: 提供在射线...
  • matlab在数据包络分析中的应用-MATLAB在数据包络分析中的应用.pdf 彭育威,徐小湛 吴守宪 西南民族学院计算机与科学技术学院 四川大学数学系 ...包含数据包络分析(DEA)的的MATLAB程序和实现
  • 使用R的Shiny软件包为数据科学和机器学习操作创建基于交互式GUI的应用程序。 安装R Project进行统计计算 点击 安装RStudio 点击 Shiny v1.5.0文档 点击 目录结构 C:\ Users \ Desktop \ Shiny_APP> ls server.R ...
  • 在这个项目中,我构建了一个端到端的股票投资观察者仪表板应用程序,该应用程序利用机器学习来预测股票的评级与行业分析师给出的评级。 在这个项目中,我使用来自星巴克奖励应用程序的模拟数据来预测用户接受要约的...
  • 机器学习信用分析 介绍 机器学习是当前的技术之一... 通常,它是所有数据科学过程的重要组成部分,并且可以进行一些分析。 另一方面,本案例研究中探讨的主要方面与某些预测原型的执行有关。 因此,这一点不会深入探讨
  • 三级 数据科学技术及应用(A 场) (本试卷考试时间 150 分钟) 一、单选题 ( 本大题 15 道小题 ,每小题 1 分,共 15 分),从下面题目给出的A、B、C、D四个可供选择的答案中选择一个正确答案。 1.下面关于数据科学...
  • 了解BLUAcceleration如何在Codename:BlueMix上以服务的形式提供了数据仓库和分析,以及开发人员如何使用云中提供的非常快的IBMBLU技术来开发和部署重型应用程序。这就是云中更快速、更简单的数据挖掘方式。Codename:...
  • SciDAVis为科学entific d ATA甲nalysis显示ualization的免费应用程序。 执照 该程序是免费软件; 您可以根据自由软件基金会发布的GNU通用公共许可证的条款重新分发/或修改它; 许可版本2,或(您可以选择)任何...
  • 用Python数据科学和R LiveLessons是为了定制的初学者数据科学家寻求使用Python或R数据科学。本课程包括数据准备基础、数据分析、数据可视化、机器学习和交互式数据科学应用。学生们将学习如何建立预测模型,以及如何...
  • 数据科学和机器学习是未来汽车工业中实现自动学习和优化的过程和产品的关键技术。本文定义了术语“数据科学”(也称为“数据分析”)和“机器学习”以及它们之间的关系。此外,它定义了术语“优化分析”,并说明了...
  • 每个人都喜欢Python,如果您打算开始从事数据科学事业,我们可以肯定Python在您心中已经占有特殊的位置。...实际上,关于Python编程,还有更多的话要说–应用程序,工作前景,IDE,库,框架,从何处开始...
  • 数据科学是“统一统计,数据分析,机器学习及其相关方法的概念”,目的是“理解和分析数据的实际现象”。它采用了在数学,统计学背景下从许多领域中汲取的技术和理论。 ,信息科学和计算机科学。” -维基百科...
  • 一些公司正在通过将数据可视化嵌入到Web移动产品中或从传感器(物联网),可穿戴设备第三方API收集新形式的数据来开发面向客户的应用程序。 还有一些人正在利用来自非结构化数据源(例如文档,图像,视频口头...
  • 调研机构Gartner公司将数据科学和机器学习平台定义为“具有凝聚力的软件应用程序,它提供了创建多种数据科学解决方案以及将这些解决方案合并到业务流程、周围基础设施和产品中所必需的基本构建块的混合体。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 838
精华内容 335
关键字:

数据科学和分析应用程序