精华内容
下载资源
问答
  • 数据科学
    千次阅读
    2020-07-12 19:25:54

    数据科学的应用案例

    数据科学如何改善产品? (How can data science improve products?)

    什么是预测模型? (What are predictive models?)

    您如何从见识到原型到生产应用? (How do you go from insight to prototype to production application?)

    This is an excerpt from “Applied Data Science,” A Yhat whitepaper about data science teams and how companies apply their insights to the real world. You’ll learn how successful data science teams are composed and operate and which tools and technologies they are using.

    这摘自“应用数据科学”,这是一份有关数据科学团队以及公司如何将其见识应用于现实世界的Yhat白皮书。 您将学习成功的数据科学团队的组成和运作方式,以及他们使用的工具和技术。

    We discuss the byproducts of data science and their implications beyond analysts’ laptops and answer the question of what to do with predictive models once they’re built. Lastly, we inspect the post-model-building process to highlight the most common pitfalls we see companies make when applying data science work to live data problems in day-to-day business functions and applications.

    我们讨论了数据科学的副产品及其对分析师笔记本电脑以外的影响,并回答了构建预测模型后该如何处理的问题。 最后,我们检查了模型建立后的过程,以突出显示公司在将数据科学工作应用于日常业务功能和应用程序中的实时数据问题时所遇到的最常见的陷阱。

    描述数据科学 (Describing data science)

    In the wake of an increasingly digital economy, businesses are racing to build operational knowledge around the vast sums of data they produce each day. And with data now at the center of almost every business function, developing practices for working with data is critical regardless of your company’s size or industry.

    随着数字经济的日益发展,企业正在竞相围绕每天产生的大量数据建立运营知识。 由于数据现在几乎是每个业务功能的中心,因此无论公司的规模或行业如何,开发处理数据的实践都至关重要。

    “Data science,” one of many recently popularized terms floating amidst the myriad of buzzwords and big data hoopla, is a field concerned with the extraction of knowledge from data. Practitioners—aptly named “data scientists”—are those charged with solving complex and sophisticated problems related to data usually employing a highly diversified blend of scientific and technical tools as well as deep business and domain expertise.

    “数据科学”是在众多流行语和大数据“喧嚣”中浮动的许多最近流行的术语之一,是一个涉及从数据中提取知识的领域。 从业人员(恰当地称为“数据科学家”)是负责解决与数据相关的复杂问题的人员,通常使用高度多样化的科学和技术工具以及深厚的业务和领域专业知识来完成这些工作。

    “What distinguishes data science itself from the tools and techniques is the central goal of deploying effective decision-making models to a production environment.” -John Mount & Nina Zumel, Practical Data Science with R

    “将数据科学与工具和技术区分开来的主要目标是将有效的决策模型部署到生产环境中。” -John Mount和Nina Zumel,R的实用数据科学

    数据科学的中心目标 (The central goal of data science)

    As is the case with any analytical project, the central goal in data science is to produce practical and actionable insights to improve the business. That is to say, data scientists overcome complexities involved in data to empower businesses to make better operational decisions, optimize processes, and improve products and services used by customers and non-technical employees.

    与任何分析项目一样,数据科学的中心目标是产生切实可行的见解以改善业务。 也就是说,数据科学家克服了数据中涉及的复杂性,从而使企业能够制定更好的运营决策,优化流程并改善客户和非技术人员使用的产品和服务。

    典型数据科学项目简介 (Profile of a typical data science project)

    项目范围和定义 (Project scope and definition)

    With broad strokes, a data science project begins with some question, need, or goal in mind and with varying degrees of focus. Accordingly, a data scientist’s primary task at the start of a new project is to refine the goal and develop concrete project objectives.

    数据科学项目以广泛的笔触开始时考虑了一些问题,需求或目标,并以不同程度的重点。 因此,数据科学家在新项目开始时的首要任务是完善目标并制定具体的项目目标。

    Analysts will first conduct a preliminary survey of the data, applying domain knowledge to develop a clear and succinct problem definition to serve as the principal object of study.

    分析师将首先对数据进行初步调查,运用领域知识来制定清晰,简洁的问题定义,并将其作为主要研究对象。

    识别相关数据集 (Identify relevant data sets)

    With a narrow and expressive definition of the problem, data scientists can begin to evaluate different data sets to identify which variables are likely to be relevant to the problem they are trying to solve. Evaluating which data sets should be used for the project, however, is not an activity performed in isolation. Most companies have numerous data sets, each highly diverse in shape, composition and size. Analysts may or may not be familiar with a particular data source, how to query it, where it comes from, what it describes or even that it exists.

    通过对问题的狭义表达,数据科学家可以开始评估不同的数据集,以确定哪些变量可能与他们要解决的问题有关。 然而,评估哪些数据集应用于该项目并不是一项孤立的活动。 大多数公司都有大量数据集,每个数据集的形状,组成和大小都非常不同。 分析人员可能熟悉或可能不熟悉特定的数据源,如何查询它,它来自何处,它描述了什么,甚至不熟悉它。

    For these reasons, quantitative analysts are usually working in proximity to or in direct collaboration with engineers, marketers, operations teams, product managers, and other stakeholders to gain a robust and intimate understanding of the data sources at their disposal.

    由于这些原因,定量分析人员通常与工程师,市场营销人员,运营团队,产品经理和其他利益相关者紧密合作,或与他们直接合作,以获取对可支配数据源的深入了解。

    跨职能协作 (Cross-functional collaboration)

    Collaboration at this stage is not only valuable for identifying which data are relevant to a problem but also for ensuring the ultimate viability of any resulting solution. Hybrid teams composed of stakeholders in separate functions produce deeper collective understanding of both the problem and the data at the center of any project. Knowing how a data set is created and stored, how often it changes, and its reliability are critical details that can make or break the feasibility of a data product.

    在此阶段的协作不仅对确定与问题相关的数据有价值,而且对于确保任何最终解决方案的最终可行性都是有价值的。 由各个职能部门的利益相关者组成的混合团队可以对问题和任何项目中心的数据进行更深入的集体理解。 了解数据集的创建和存储方式,更改的频率及其可靠性是至关重要的细节,这些细节可能决定或破坏数据产品的可行性。

    For example, consider a new credit-scoring algorithm more accurate than previous methods but that relies on data no longer sold by the credit bureau. Such circumstances are common today given that data sets are so diverse and subject to frequent change. By incorporating interdepartmental expertise in the early stages of model development, companies dramatically reduce the risk of pursuing unanswerable questions and ensure data scientists are focusing attention on the most suitable data sets.

    例如,考虑一种新的信用评分算法,该算法比以前的方法更准确,但它依赖于信用局不再出售的数据。 鉴于数据集是如此多样且经常变化,今天这种情况很普遍。 通过在模型开发的早期阶段就纳入部门间的专业知识,公司可以大大降低寻求无法回答的问题的风险,并确保数据科学家将注意力集中在最合适的数据集上。

    建筑模型 (Model-building)

    After firming up the project’s definition and completing a preliminary survey of the data, analysts enter the model-building phase of analytics lifecycle. The notion of “model” is often obscure and can be difficult to define, even for those well versed in data science vocabulary.

    在确定了项目的定义并完成了对数据的初步调查之后,分析师进入了分析生命周期的模型构建阶段。 即使对于那些精通数据科学词汇的人来说,“模型”的概念通常也很模糊,很难定义。

    A statistical model, in short, is an abstract representation of some relationship between variables in data. In other words, a model describes how one or more random, or independent, variables relate to one or more other dependent variables. A simple linear regression model might, for example, describe the relationship between years of education (X) and personal income (y).

    简而言之,统计模型是数据变量之间某些关系的抽象表示。 换句话说,模型描述了一个或多个随机或独立变量与一个或多个其他因变量的关系。 例如,一个简单的线性回归模型可以描述受教育年限(X)与个人收入(y)之间的关系。

    A statistical model is an abstract representation of some relationship between variables in data.

    统计模型是数据中变量之间某些关系的抽象表示。

    But linear regression is far from the only way to represent the relationships in data, and identifying the right algorithms and machine learning methods for your problem is largely an exploratory exercise. Data scientists apply knowledge of the business and advanced research skills to identify those algorithms and methods most likely to be effective for solving a problem. Many and perhaps most data science studies are bound up with solving some combination of clustering, regression, classification, and/or ranking problems. And within each of these categories are numerous algorithms that may or may not be suitable for tackling a given problem.

    但是,线性回归并不是唯一表示数据关系的方法,针对问题确定正确的算法和机器学习方法主要是一种探索性练习。 数据科学家运用业务知识和高级研究技能来确定最有可能有效解决问题的算法和方法。 许多(也许是大多数)数据科学研究都局限于解决聚类,回归,分类和/或排名问题的某种组合。 在这些类别的每一个类别中,有很多算法可能不适合解决给定的问题。

    To that end, the model-building phase is characterized by rigorous testing of different algorithms and methods drawing from one or more of these problem classes (i.e. clustering, regression, classification, and ranking) with the ultimate goal being to identify the “best” way to model some underlying business phenomenon. “Best,” importantly, will take on a different meaning depending on the problem, the data, and the situational nuances tied to the project. For example, the “best” way to model the quality of the Netflix recommendation system is very different from the “best” way to model the quality of a credit-scoring algorithm.

    为此,模型构建阶段的特征是严格测试来自一个或多个这些问题类别(即,聚类,回归,分类和排名)的不同算法和方法,其最终目标是确定“最佳”一些潜在的商业现象建模的方法。 重要的是,“最佳”将根据问题,数据和与项目相关的情况细微差别而具有不同的含义。 例如,对Netflix推荐系统的质量进行建模的“最佳”方法与对信用评分算法的质量进行建模的“最佳”方法非常不同。

    可行的数据科学及其在运营中的应用 (Actionable data science & applications in operations)

    When a data science project progresses beyond the model-building phase, the core question is how best to take advantage of the insights produced. This is a critical junction and one ultimately determines the practical ROI your data science investment.

    当数据科学项目超出模型构建阶段时,核心问题是如何最好地利用所产生的见解。 这是一个至关重要的环节,最终决定了数据科学投资的实际投资回报率。

    Extracting value from data is like any other value chain. Companies expend resources to convert raw material—in this case data—into valuable products and services suitable for the market.

    从数据中提取价值就像其他任何价值链一样。 公司花费资源将原材料(在这种情况下为数据)转换为适合市场的有价值的产品和服务。

    A data product provides actionable information without exposing decision makers to the underlying data or analytics. Examples include: movie recommendations, weather forecasts, stock marketing predictions, production process improvements, health diagnoses, flu trend predictions, and targeted advertising. -Mark Herman, et al., Field Guide to Data Science

    数据产品可提供可操作的信息,而不会使决策者暴露于基础数据或分析中。 示例包括:电影推荐,天气预报,股票行销预测,生产过程改进,健康诊断,流感趋势预测和定向广告。 -Mark Herman等人,《数据科学领域指南》

    As is the case with any value chain, a product gains value as it progresses from one lifecycle stage to the next. Therefore, the manner in which activities in the chain are carried out is important as it often impacts the system’s value.

    与任何价值链一样,产品从一个生命周期阶段进入下一个生命周期阶段就获得了价值。 因此,链中活动的执行方式很重要,因为它通常会影响系统的价值。

    Consider the product recommendations example again—our goal is to increase average order size for shoppers on our website by recommending other products users will find relevant.

    再次考虑产品推荐示例-我们的目标是通过推荐用户会发现相关的其他产品来增加购物者在我们网站上的平均订单量。

    数据科学生命周期步骤: (Data science lifecycle steps:)
    1. Refine the problem definition
    2. Survey the raw material and evaluate which data to include in the model
    3. Rigorously test modeling techniques
    4. Identify a winning modeling strategy for implementation
    5. Integrate recommendations into the website to influence customers
    1. 完善问题定义
    2. 调查原材料并评估要在模型中包括哪些数据
    3. 严格测试建模技术
    4. 确定实施的成功建模策略
    5. 将建议整合到网站中以影响客户

    Common sense indicates that progressing through step four without achieving step five falls short of the objective. But, sadly, this is a common scenario among companies developing data science capabilities. Similarly, it is often the case that hypotheses are disproved only after companies have invested substantial time and effort engineering large-scale analytics implementations for models which later prove to be suboptimal or entirely invalid.

    常识表明,在没有实现步骤5的情况下完成步骤4并没有达到目标。 但是,可悲的是,这是开发数据科学功能的公司之间的常见情况。 同样,通常情况下,只有在公司投入大量时间和精力对模型进行大规模分析实施后,才证明假设不成立,这些模型后来被证明是次优或完全无效的。

    为什么构建数据驱动产品很难 (Why building data driven products is hard)

    翻译自: https://www.pybloggers.com/2017/01/applied-data-science/

    数据科学的应用案例

    更多相关内容
  • 文章目录数据科学的定义数据科学:有待开发的机器学习资源数据科学、人工智能和机器学习有什么区别?数据科学如何革新业务模式数据科学是如何执行的数据科学工具谁来监督数据科学流程?数据科学家是什么?实施数据...

    很多人对数据科学的概念很模糊,其实这个要追溯到有数学开始就已经有了数据科学,只是没有人把这个概念描述的那么细致。

    9年前我从数据分析师到算法工程开发,最后到目前的全栈开发,经过无数的项目经历到现在才慢慢懂了什么是 数据科学

    数据科学的定义

    数据科学涉及统计学、科学方法、人工智能 (AI) 和数据分析等多个领域,旨在从数据中提取价值。在实践中运用数据科学的人称为数据科学家,他们综合利用一系列技能来分析从网络、智能手机、客户、传感器和其他来源收集的数据,以获得切实可行的洞察。

    数据科学流程包含为分析准备数据的过程,其中包括清理、聚合和填充数据以执行高级数据分析。然后,数据科学家可以通过分析应用查看结果,进而发现数据模式,帮助业务领导者获得明智的洞察。

    在这里插入图片描述

    数据科学:有待开发的机器学习资源

    数据科学是当今最激动人心的领域之一。它何如此重要?

    因为企业坐拥海量数据。随着现代技术的发展,越来越多的信息得以创造和存储,数据量也随之激增。据估计,世界上 90% 的数据是在过去两年中创造的。例如,Facebook 用户每小时上传 1000 万张照片。

    但是,这些数据通常只是位于数据库和数据湖中,大部分未得到充分利用。

    通过技术收集和存储的大量数据可以为世界各地的组织和社会带来变革性的好处,但前提是我们能够对其进行解释。这就是数据科学的意义所在。

    数据科学揭示趋势并产生见解,企业可以利用这些见解做出更好的决策并推出更多创新产品和服务。最重要的是,数据科学让机器学习 (ML) 模型能够从收集的大量数据中学习,而不必依靠业务分析人员来手动查看能从数据中发现些什么。

    数据是创新的基石,但是只有数据科学家能从数据中收集信息,然后采取行动,才能实现数据的价值。
    在这里插入图片描述

    数据科学、人工智能和机器学习有什么区别?

    为了更深入地了解数据科学以及如何利用它,了解与该领域相关的其他术语也同样重要,如人工智能 (AI) 和机器学习。您会发现这些术语经常可以互换使用,但仍有一些细微差别。

    简单区分如下:

    • AI 是指让计算机模仿人类的某些行为。
    • 数据科学 是 AI 的一个子集,更多地指统计学、科学方法和数据分析(均用于从数据中提取有意义的洞察)的重叠领域。
    • 机器学习 也是 AI 的一个子集,可使用多种技术支持计算机从数据中获取洞察并交付 AI 应用。
    • 深度学习 是机器学习的一个子集,可支持计算机解决更加复杂的问题。
      在这里插入图片描述

    数据科学如何革新业务模式

    企业正利用数据科学完善产品和服务,将数据转化为竞争优势。数据科学和机器学习用例包括:

    • 分析从呼叫中心收集的数据来确定客户流失情况,以便营销部门能够采取行动留住客户。
    • 通过分析交通模式、天气状况和其他因素提高效率,帮助物流公司加快交货速度并降低成本。
    • 分析医疗检测数据和报告症状以改善患者诊断,帮助医生尽早确诊疾病并更有效地开展治疗。
    • 通过预测设备故障时间来优化供应链
    • 检测金融服务中的欺诈行为,包括识别可疑行为和异常行为
    • 根据客户历史购买记录为其提供建议,从而提高销售业绩

    许多公司都把数据科学作为重中之重,并在这方面投入巨资。在 Gartner 近期对 3000 多位 CIO 开展的调查中,受访者一致认为分析和商务智能是最能为企业带来差异化优势的技术。受访 CIO 认为这些技术对其公司具有战略性意义,所以进行了相应投资。
    在这里插入图片描述

    数据科学是如何执行的

    数据分析和处理流程是迭代的,而不是线性的,但这正是数据建模项目中典型的数据科学生命周期流程:

    • 规划: 定义项目及其潜在成果。

    • 构建数据模型: 数据科学家经常使用各种开源库或数据库内工具来构建机器学习模型。一般来说,用户希望使用 API 来支持数据摄取、数据剖析、可视化或功能设计。他们需要适当的工具来访问适当的数据和其他资源,如计算能力。

    • 评估模型: 在部署模型前,数据科学家必须确保模型高度准确。模型评估通常会生成一套全面的评估指标,并以可视化方式呈现,然后根据新数据衡量模型绩效,持续对其进行排名,从而实现最佳生产行为。除了原始性能,模型评估将预期基线行为也纳入了考虑范围内。

    • 解释模型: 虽然用人类语言来解释机器学习模型结果的内部机制并非始终具有可行性,但其重要性正日益凸显。数据科学家希望系统能够自动解释生成预测的因素的相对权重和重要性以及模型预测结果的特定模型解释细节。

    • 部署模型: 采用经过训练的机器学习模型并将其置入合适的系统中通常是一个困难、费力的过程。通过将模型作为可扩展且安全的 API 来进行操作或使用数据库内机器学习模型,可以让这一过程变得更加简单易行。

    • 监控模型: 很遗憾,部署模型并非流程的终点。模型部署后还需要对其进行监控,以确保它们正常运行。经过一段时间后,训练模型所使用的数据将不再适用于未来预测。以欺诈检测为例,犯罪分子总是会想出新方法来破解帐户。

    数据科学工具

    构建、评估、部署和监控机器学习模型是一个复杂的流程。为了应对这些复杂性,数据科学工具越来越多。在数据科学家使用的多种工具中,最常见的一种是开源笔记本。这是一款用于编写和运行代码、可视化呈现数据并查看结果的 web 应用,所有功能均可在同一环境中实现。

    一些主流笔记本工具主要包括 Jupyter、RStudio 和 Zeppelin。笔记本工具虽然在执行分析方面非常有用,但在支持数据科学家进行团队协作方面却有一定的局限性。而数据科学平台的出现解决了这一问题。

    要确定哪种数据科学工具最适合您,请先回答以下问题:您的数据科学家使用哪种语言?他们喜欢什么样的工作方法?他们使用哪种数据源?

    例如,某些用户更喜欢使用基于开源库的、与数据源无关的服务。另一些用户则更喜欢速度更快的数据库内机器学习算法。
    在这里插入图片描述

    谁来监督数据科学流程?

    在大多数企业中,数据科学项目通常由三类管理者监管:

    • 业务经理: 业务经理与数据科学团队一起定义问题并制定分析策略。他们可能是营销、财务或销售等业务线负责人,数据科学团队需要向他们汇报。他们与数据科学团队和 IT 经理密切合作,以确保项目交付。
    • IT 经理: 高级 IT 经理负责基础设施和架构设计,用于支持数据科学的运作。他们会持续监控运作和资源利用情况,以确保数据科学团队高效安全地运作。此外,他们可能还负责为数据科学团队构建和更新 IT 环境。
    • 数据科学经理: 数据科学经理监督数据科学团队及其日常工作。他们是团队建设者,能够平衡团队开发与项目计划和监控。
      在这里插入图片描述

    但在这个过程中,数据科学家才是主角。

    数据科学家是什么?

    作为一门专业,数据科学还很年轻。它源自于统计分析和数据挖掘领域。数据科学期刊 于 2002 年首次出版,由国际科学委员会:科学和技术数据委员会出版。2008 年,“数据科学家”的头衔出现了,数据科学领域迅速发展起来。从此以后,尽管越来越多的学院和大学开始设立数据科学学位,但数据科学家依然短缺。

    数据科学家的职责包括制定数据分析策略;准备要分析的数据;探索、分析数据并实施数据可视化;使用 Python 和 R 等编程语言用数据构建模型;将模型部署到应用中。
    在这里插入图片描述

    数据科学家的工作不是独立的。事实上,较有效的数据科学是在团队中完成的。除了数据科学家,该团队可能还包括负责定义问题的业务分析师、负责准备数据和确定数据访问方式的数据工程师、负责基本流程和基础设施的 IT 架构师,以及负责将模型或分析结果部署到应用和产品中的应用开发人员。

    实施数据科学项目面临的挑战

    尽管许多企业看到了数据科学的前景并对数据科学团队投入了巨额资金,但他们并未意识到数据的全部价值。在人才招聘和数据科学项目创建竞争中,某些公司采用的团队工作流程效率低下。不同的人使用不同的工具和流程,无法高效协同工作。如果不进行更严格、更集中的管理,高管们可能无法获得全面的投资回报。

    这种混乱的环境带来了很多挑战。

    • 数据科学家不能有效地工作。 由于访问数据需经 IT 管理员授权,因此数据科学家往往要等待很长时间才能获得其需要分析的数据和资源。获得访问权限后,数据科学团队可能会使用多种不兼容的工具来分析数据。例如,数据科学家可能使用 R 语言开发一个模型,但使用该模型的应用却是用另一种语言编写的。这就是为什么将模型部署到有效的应用中可能要几周甚至几个月的时间。
    • 应用开发人员无法获得可用的机器学习。 有时,开发人员接收到的机器学习模型并不能直接部署到应用中。而且,由于接入点不灵活,无法在所有场景中部署模型,应用开发人员还需要解决可扩展性问题。
    • IT 管理员在支持工作上花费太多时间。 由于开源工具激增,IT 需要支持的工具越来越多。例如,营销团队和金融团队的数据科学家可能使用不同的工具。不同团队的工作流程也可能不同,这意味着 IT 团队必须不断重建和更新环境。
    • 业务经理与数据科学脱节。 数据科学工作流程并不总是会集成到业务决策流程和系统中,这导致业务经理难以与数据科学家进行信息全面的协作。如果集成欠佳,那么业务经理会难于理解为什么从原型到生产需要这么长的时间 — 并且他们不太可能对自己认为太慢的项目上的投资表示支持。

    数据科学平台提供新功能

    许多企业已经意识到,缺少了集成平台的数据科学工作是低效、不安全且难以扩展的。这种认识促成了数据科学平台的兴起。数据科学平台是所有数据科学工作所围绕的软件中心。一个优秀的平台可以减少数据科学实施过程中的诸多挑战,帮助企业更快速、高效地将数据转化为洞察。

    有了集中的机器学习平台,数据科学家可以使用他们喜欢的开源工具在协作环境中工作,并可通过版本控制系统同步所有工作。

    数据科学平台的优势

    数据科学平台支持团队共享代码、结果和报告,从而减少冗余并推进创新。它通过简化管理和融合优秀实践,消除了工作流程中的瓶颈。

    总的来说,出色的数据科学平台可以:

    • 帮助数据科学家加快模型交付速度并减少错误,进而提升工作效率
    • 让数据科学家能够更加轻松地处理大量不同类型的数据
    • 提供无偏见、可审计、可复制且值得信任的企业级人工智能

    数据科学平台专为支持用户协作而构建,这些用户包括数据科学专家、大众数据科学家、数据工程师和机器学习工程师或专家。例如,数据科学平台支持数据科学家将模型部署为 API,从而轻松将它们集成到不同的应用中。数据科学家无需等待 IT 干预即可访问工具、数据和基础设施。

    市场对数据科学平台的需求激增。事实上,在接下来的几年里,平台市场预计将以超过 39% 的复合年增长率增长,在 2025 年将达到 3850 亿美元。

    数据科学家需要哪些平台功能

    在考察数据科学平台的功能时,一些应考虑的关键功能包括:
    在这里插入图片描述

    选择基于项目的 UI,以促进协作。该平台应让工作人员能够在从模型构思到最终开发的整个过程中开展协作。它应当支持所有团队成员自助访问数据和资源。

    优先考虑集成和灵活性。 确保该平台支持新的开源工具以及常见的版本控制提供程序,如 GitHub、GitLab 和 Bitbucket,并且与其他资源紧密集成。

    包含企业级功能。 确保该平台可以随着您团队和业务的发展而扩展。该平台应当具备高可用性和强大的访问控制,并支持大量并发用户。

    为数据科学提供更强大的自助服务。 寻找一个能够减轻 IT 和工程设计负担的平台,让数据科学家能够轻松便捷地即时启动环境,跟踪所有工作,并轻松将模型部署到生产环境中。

    简化模型部署。 模型部署和运营是机器学习生命周期中非常重要的一个步骤,但经常被忽略。确保您所选择的服务有助于简化模型运营,无论该服务提供 API 还是可确保用户以易于集成的方式构建模型。

    展开全文
  • 人人都说Python好,但Python究竟有多大的魔力能够...以数据科学领域为例,Python有很多完善的工具包可以协助你完成重要的数据科学任务。本文将具体分析Python深受广大科学家喜欢的原因。数据科学是帮助我们从一系列结

    人人都说Python好,但Python究竟有多大的魔力能够如此备受欢迎?

    近日,TIOBE 最新一期编程语言排行榜新鲜出炉,Python再次位居榜首。作为时下最火的编程语言,Python可以说是应用极其广泛,大到数据科学,小到运维、爬虫等等,各大领域随处可见Python的痕迹。

    人人都说Python好,但Python究竟有多大的魔力能够如此备受欢迎。

    以数据科学领域为例,Python有很多完善的工具包可以协助你完成重要的数据科学任务。本文将具体分析Python深受广大科学家喜欢的原因。

    数据科学对 Python 的需求:

    数据科学是帮助我们从一系列结构化和非结构化的数据中提取信息的研究,它利用统计学、数学、科学计算来分析数据。

    由于Python语法简单,即便没有工程背景的人,也能轻松掌握,所以Python成为在数据科学领域想要出类拔萃所需的重要技能之一,而且它被认为是数据科学的最佳选择。

    Python在数据科学领域有着悠久的历史:

    • 2016年 Python 在 Kaggle 平台超越了R,Kaggle 是一个著名的数据科学竞赛平台,来源:Finextra
    • 2017年,Python 在 KDNuggets 的年度数据科学家调查中超过了R,来源:KDnuggets
    • 在2018年,大约66% 的数据科学家称他们每天都使用 Python,这是一个巨大的数字,并使其成为专业分析人员的首选语言,来源:KDnuggets

    据专家介绍,随着 Python 语言的发展,这种趋势将继续下去。另外,根据 Indeed 的报告,数据科学家的平均底薪约为109,596美元/年。而且近年来,市场上数据科学家的工作机会急剧增加。

    为什么 Python 被用于数据科学:

    Python是一种通用的、易用的语言,并且在数据科学中被认为是最佳语言。在可扩展性方面,Python比像R一样的其他编程语言更有优势。它为数据科学家提供了灵活性,而且提供了解决问题的不同方法。在速度方面,Python再次在其同行语言(如Matlab和Stata)中脱颖而出。

    下面将讨论 Python 语言的一些重要特性:

    • Python语法使用起来相当简单,任何人都可以在较短的时间内学会 Python;
    • 许多健壮的第三方库被用于数据科学应用。库是模块的集合,可以反复应用于不同程序;
    • 强大的社区支持,有助于使库和框架保持最新,社区人数超过1千万人。来源:developer-tech
    • 库和框架可以免费下载和使用,Python 库和框架总数估计在 137000左右;
    • Python 是一种解释型编程语言,与 C 或 C + + 不同,Python代码首先被转换成低级指令的字节码,然后由 Python 解释器执行;
    • Python 是跨平台的,这意味着一旦代码是用 Python 编写的,它就能够在任何操作系统中运行:例如 Windows、 Mac、 Linux 等等。注意,Python 解释器是依赖平台的;
    • Python 可以实现自动化,因此,我们可以将日常生活中某些耗时的任务自动化。例如,一位班主任希望根据 excel 表中的分数,制作一份学生电子成绩单。假设一个班有100个学生,一个接一个地做成绩单似乎不是一个好的选择。为了解决这个问题,我们可以创建一个 Python 脚本,该脚本基于 excel 工作表,创建所有学生的电子成绩单。

    如何使用 Python 进行数据科学?

    Python 提供了 NumPy、 pandas、 SciPy、 matplotlib 等库,让我们可以轻松地完成数据科学的日常任务。下面将讨论其中的一些库:

    Numpy:Numpy是Numerical Python的首字母缩写,它是一个Python库,提供数学函数的支持,程序员可以使用这些函数来操作更大维度的数组,它包含一些有用的功能,有助于处理数组和矩阵。

    Pandas:Pandas 是 Python 开发者中最受欢迎的库之一,该库的主要目标是通过其内置的函数来分析和操作数据,这个库还可以轻松处理大量的结构化数据。 Pandas 支持两种类型的数据结构:

    • Series:一维数据;
    • DataFrame :二维数据。

    SciPy: SciPy 是另一个流行的 Python 库,专门用于执行数据科学任务,它在科学计算领域也很有用。它提供了解决科学计算问题和计算机编程任务的功能,它由下列子模块组成:

    • 信号和图像处理
    • 优化算法
    • 积分
    • 插值

    Matplotlib:Matplotlib 是非常特殊的 Python 库,它用于数据可视化。数据的可视化对任何组织都非常重要。它提供了数据可视化的方法,这个库不仅限于绘制饼图、条形图、直方图,而且还能绘制高级图形。这个库的另一个特性是支持自定义,图形中的任何部分都可以有效地定制。

    Matplotlib 为我们提供了缩放图表和以图片格式保存图表的功能。

    当我们以数据科学相关的角色进入一个组织时,一般来说,该组织遵循以下工作流程。

    • 使用 Python 和 SQL 从公司数据库获取数据;
    • 使用 pandas 库将数据插入到一个数据框架中,以便稍后进行分析;
    • 然后在 Pandas 和 Matplotlib 等库的帮助下开始进行数据的分析和可视化;
    • 深入分析和挖掘组织的数据,并根据给定的数据预测未来的结果,Scikit库负责把预测模型准备好。

    Python扮演了什么样的角色?

    现在让我们共同回顾一下数据科学处理问题过程中的各个步骤,以此来进一步了解Python在其中所扮演的角色。

    1、数据收集和清洗

    通过Python,你可以加载各种不同格式的数据,比如CSV(逗号分隔值)、TSV(制表符分隔值)或者源自网络的JSON。

    无论是你想直接把SQL表格载入到你的程序中,还是说需要爬取网站信息,Python都可以帮助你轻松完成这些任务:前一个任务可以用PyMySQL包,后一个任务可以用 BeautifulSoup包。PyMySQL可以让你轻松连接MySQL数据库、执行查询、抽取数据等。BeautifulSoup可以帮助你读取XML和HTML类型的数据。在提取和替换数值后,你可能还要在数据清洗阶段处理缺失值和无意义值。

    此外,如果你在处理某一特殊的数据集时遇到麻烦,你可以去网上搜索这一数据集名称再加上“Python”,或许就能够找到解决方案。

    2、数据探索

    现在你已经收集好数据,并对这些数据进行了标准化处理,接下来就要进行数据探索了。在这个过程中,你需要理清业务逻辑中所发现的问题,并将这一问题转换成标准化的数据科学问题。

    为了实现这一点,需要对数据的类型进行更深层次的探析,并将它们分离成不同的数据类型,比如说数值(numerical)、序数(ordinal)、标称(nominal)、类别(categorical)等,以便提供它们所需的处理方式。

    一旦理清了数据所属的类别,就可以使用Python中用作数据分析的库NumPy和Pandas来对这些数据进行探索。此外,Python在数据探索的过程提供了大量的工具,你可以在搜索引擎中进行检索来获取更多的信息。

    当完成了这些步骤后,你就可以开始人工智能和数据建模机器学习步骤。

    3、数据建模

    这一步对于数据科学流程来说是一个非常关键的阶段,而建模之前的特征选择阶段,你可能需要对现有的数据集进行降维的工作。Python语言能够非常方便地帮助你进行这一项任务,它拥有许多高级的工具库来帮助你解决问题。

    如果想针对数据执行一个数值模型分析,你只需要使用Python中的Numpy。利用SciPy可以轻松使用科学计数和计算。而Python上的Scikit-learn代码库给出很多直观的接口,帮助你在数据上应用机器学习算法,整个过程不会察觉到任何困难。

    当数据建模完成后,你可能需要进行可视化展示,并对数据中有价值的情报进行解释。

    4、数据可视化和解释

    Python带有许多数据可视化的包。Matplotlib 是最为常用的库,可以生成基本的图形和图表。如果你需要设计精美的高级图表,你也可以试一下另一个Python包Plotly。

    还有一个Python包IPython,可以进行交互式数据可视化,并支持利用GUI工具箱。如果你想把调查结果嵌入到交互式网页中,nbconvert 函数可以帮助你将IPython转化或把Jupyter notebooks放入到HTML代码片段中。

    在完成数据可视化之后,如何展示你的数据是极为重要的,并且这必须要以可以回应项目中业务逻辑的问题为目的。

    现在你可以用这些有价值的信息为之前业务逻辑中的问题来找寻答案,要谨记你的这些解释对于公司的项目干系人来说是很有帮助的。

    准备好用Python来拥抱你的数据科学目标了吗?

    为什么在踏上数据科学的旅程时使用Python编程,这篇文章已经给了你非常多的理由。这里还有一个新的理由,那就是顶级的科技巨头同样使用Python。

    Google,Youtube,Instagram,NASA,IBM,Netflix,Spotify,Uber,Pinterest,Reddit等都是使用Python进行数据科学研究的顶级公司。

    最适合数据分析的Python是处理大量数据的最佳选择。它的灵活性,易学性和库的优势使其成为在大数据,机器学习等领域工作的最佳语言。

    数据科学的应用:

    1、医疗保健行业:在过去的几年里,由于数据科学领域的发展,医疗部门已经受益。现在,通过MapReduce等库和框架,可以实现动脉狭窄等医学图像分析程序。

    2、互联网搜索:大多数搜索引擎,如谷歌、雅虎、必应等,都在内部使用数据科学算法,以便在几秒钟内生成最佳结果。据报道,谷歌每天处理超过20 PB的数据。因此,如果没有数据科学,我们甚至无法想象搜索引擎今天是什么样子。

    3、金融领域:无论是数据管理,还是交易策略的制定,数据科学对于增强金融解决方案有着巨大的前景。数据科学在自动化风险管理、管理客户数据、预测分析、实时分析(欺诈识别/消费者分析/算法交易)、深度个性化和定制等方面均发挥着非常大的作用。

    4、制造业:在一个制造企业中,往往数字化、应用数据的开始,就是一些可视化的数据探索。通过把一些数据某些维度可视化,挖掘出一些浅层的信息,这些往往会带来很大的价值,尤其是用于领导层的决策,用于更高效的展示结果和问题的交流。

    不仅如此,数据科学的应用从医疗保健到商业再到零售,很多大行业都在使用数据科学。

    总结

    Python 是任何数据科学家的基础,如果你想从事数据科学领域的工作,那么你绝对应该考虑 Python 作为主要语言,因为它语法简单并且有大量的支撑库。

    原文标题:How Python Became The Language for Data Science,作者:Sonia Mathias

    链接:https://www.datasciencecentral.com/how-python-became-the-language-for-data-science/

    首发译文:为什么说Python是数据科学领域的最佳语言?

    展开全文
  • 数据科学知识点

    千次阅读 热门讨论 2021-07-17 11:01:34
    数据科学知识点总结 1.数据科学是基于计算机科学(数据库、数据挖掘、机器学习等)、统计学、数学等学科的一门新兴的交叉学科,也是指以数据为中心的科学 2.数据类型:离散型、连续性、符号型、文本型 3.标志性阶段:...

    数据科学知识点总结

    1.数据科学是基于计算机科学(数据库、数据挖掘、机器学习等)、统计学、数学等学科的一门新兴的交叉学科,也是指以数据为中心的科学
    2.数据类型:离散型、连续性、符号型、文本型
    3.标志性阶段:数字和文字的出现,使古人更加明确的来记录数据
    电子计算机的出现,人类和数据的关系进入了第二个时代
    互联网的出现,人类和数据的关系进入了第三个时代
    大数据时代的来临,人类和数据的关系进入了第四个时代
    4.电子元器件:A:电子管 B:晶体管
    C:小规模中规模集成电路 D:大规模或超大规模集成电路
    5.数据单位数量级进制:
    1KB=1024B
    1M=1024K
    1G=1024M
    1T=1024M
    1P=1024T
    1E=1024P
    1Z=1024E
    1Y=1024Z
    1N=1024Y
    1D=1024N
    6.数据结构:结构化、半结构化、非结构化
    7.大数据四大特征:速度快、数据量大、价值密度低、类型多
    8.算法:是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,它代表着用系统的方法描述解决问题的策略机制。
    不同的算法可能用不同的时间、空间或效率来完成同样的任务。
    一个算法的优劣可以用空间复杂度(Space Complexity)与时间复杂度(Time complexity )来衡量。
    9.数据清洗:指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
    数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
    不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。、
    10.脏数据:然而,当今现实世界中的数据库极易受到噪声数据、空缺数据和不一致性数据的侵扰,多数为“脏”数据。
    11.数据仓库:Data Warehouse,可简写为DW或DWH。它是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。
    它是单个数据存储,出于分析性报告和决策支持的目的而创建。
    数据仓库是面向主题的 、集成的、相对稳定的、反映历史变化的数据集合,目的在于支持决策
    12.人工智能:(Artificial Intelligence) ,缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
    人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
    该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

    13.商业智能:(BI,Business Intelligence)。它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
    14.云计算 (cloud computing)是通过网络以服务的方式为用户提供非常廉价的IT资源。云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
    15.物联网(IoT:The Internet of Things)是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制
    16. 大数据技术的两大核心:分布式存储GFS\HDFS
    分布式处理 MapReduce
    17.大数据物联网云计算之间的关系:
    在这里插入图片描述18.谷歌三宝:GFS、MapReduce、 BigTable
    19.商业模式:B2B:商家对商家
    B2C:商家对人
    O2O:线上对线下
    C2C:人对人
    20.支持度:S(A-B)=N(A&B)
    B
    置信度:C(A-B)=N(A&B)
    N(A)
    提高度:L(A-B)=P(A&B)
    P(A).P(B)
    21.美式购物篮分析:这里把找出购物篮中商品之间关系的方法称为“美式购物篮”分析法,这种方法适合应用于类似沃尔玛这样的大卖场,用于找出不同陈列区域商品之间的关系。英国的Tesc连锁超市、Safeway连锁超市也都是这种购物篮分析的高手。
    22.日式购物篮分析:所以,日本人的重点是分析所有影响商品销售的关联因素,比如天气、温度、时间、事件、客户群体等,这些因素称为商品相关性因素。
    日本人对于所有影响商品销售的关联因素研究得非常透彻,因此,日本才会有碳酸饮料
    指数、空调指数、冰激凌指数。与商品之间的关联关系相比,日本7-11便利店认为这些关联因素更为重要。由于这是日本7-11便利店大量采取的方式,这种方法也被称为“日式购物篮”分析法。
    23.推荐系统系列之基于人口统计学的推荐
    在这里插入图片描述
    24.推荐算法之基于内容的推荐
    在这里插入图片描述
    25.基于用户的推荐
    在这里插入图片描述
    26.基于项目的协同过滤推荐机制的基本原理
    在这里插入图片描述
    27.(第一范式)在研究方法上,以归纳为主,带有较多盲目性的观测和实验。寻找因果联系的科经验科学:人类最早的科学研究,主要以记录和描述自然现象为特征,又称为“实验科学” 学归纳法,其方法是先观察,进而假设,再根据假设进行实验。如果实验的结果与假设不符合,则修正假设再实验。经验科学的主要研究模型是:科学实验。
    28.理论科学:。科学家们开始尝试尽量简化实验模型,去掉一些复杂的干扰,只留下关键因素(例如:“足够光滑”、“足够长的时间”、“空气足够稀薄”),然后通过演算进行归纳总结,这就是第二范式:理论科学。理论科学偏重理论总结和理性概括,强调较高普遍的理论认识而非直接实用意义的科学。在研究方法上,以演绎法为主,不局限于描述经验事实。
    理论科学的主要研究模型是:数学模型。
    29.计算科学:利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及,人们可以对复杂现象通过模拟仿真,推演出越来越多复杂的现象,典型案例如模拟核试验、天气预报等。
    随着计算机仿真越来越多地取代实验,逐渐成为科研的常规方法,即第三范式:计算科学。计算科学的主要研究模型是:计算机仿真和模拟
    30.数据密集型科学:数据密集范式理应从第三范式中分离出来,成为一个独特的科学研究范式。也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来完全可以由计算机来做。这种科学研究的方式,被称为第四范式:数据密集型科学。数据密集型科学由传统的假设驱动向基于科学数据进行探索的科学方法的转变。数据密集型科学的主要研究模型是:数据挖掘和机器学习,特别是机器学习。
    31.第四范式与第三范式,都是利用计算机来进行计算,区别是什么呢?
    基于大数据的第四范式,则是先有了大量的已知数据,然后通过计算得出之前未知的理论。
    关联关系是大数据的本质特征之一。
    第三范式是“人脑 + 电脑”,人脑是主角;而第四范式是“电脑 + 人脑”,电脑是主角。进而由此引发的新一代人工智能技术。
    32.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。
    33.在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成
    34.解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。
    35.在这里插入图片描述
    36.深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
    遍历的路径:A-F-G E-H-I B C D
    37.宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。还是以上面的图为例:
    遍历路径:A-B-C-D-E-F G H I
    38.① 等深分箱 (binning):
    按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。
    39.②等宽分箱 (binning):
    在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度。
    40.Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
    Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
    Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce
    41.HDFS、SPARK、MAPREDUCE
    42.为什么要进行数据清理?有哪些方法:(1)因为现实世界的数据一般是脏的、不完整的和不一致的。(2)填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。
    43.在进行数据集成时需要注意什么?模式集成问题;冗余问题;数据值冲突检测与消除。44.数据更换的目的和方法?目的:将数据转换成适合数据挖掘的形式。方法:最小-最大规范化;零-均值规范化(z-score规范化);小数定标规范化。
    45数据归约的方法?数据立方体聚集;维归约;数据压缩;数值归约;离散化和概念分层生成。

    展开全文
  • 数据科学研究的现状与趋势全解

    千次阅读 2019-11-27 17:29:10
    首先,本文探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系;其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的...
  • Python 数据科学手册

    万次阅读 2018-11-06 11:56:00
    本书共五章,每章介绍一到两个 Python 数据科学中的重点工具包。 第1章 从 IPython 和 Jupyter 开始,它们提供了数据科学家需要的计算环境; 第2章讲解能提供 ndarray 对象的 NumPy,它可以用 Python 高效地存储和...
  • 数据分析师与数据科学家的区别

    千次阅读 2020-12-25 11:02:19
    时下,互联网大风盛行,数据科学家凭借“科学家”这一高大上的名称,成功盖过数据分析师的“名气”,被很多企业当作业务指导的“神明”。一旦企业在经营过程中,遇到业务发展问题,他们第一个就会想到找数据科学家...
  • 数据科学概论Learning Road Map

    万次阅读 多人点赞 2019-04-17 20:30:25
    数据科学概论》的学习路线图(Learning Road Map)
  • 【数据可视化有什么意义?】 举一个身边的例子,我们平时在电视上看到的... 【通解数据科学 拓宽收益渠道】 如今,许多行业都有数据方向的人才需求。 掌握数据分析与可视化技能,你就可以: 【适用人群】 【三重权益】
  • 美国研究生数据科学专业排名

    千次阅读 2021-06-18 06:29:52
    美国数据科学专业列表1. 哈佛大学 计算科学与工程理学硕士 M.S. in Computational Science and Engineering 专业排名:11. 哈佛大学 数据科学理学硕士 Master of Science in Data Science 专业排名:12. ...
  • 数据科学与大数据技术

    千次阅读 2021-11-14 14:28:50
    大数据科学家学习路线 数据科学与大数据技术我个人理解,就是两个方向 一、分析:大数据分析师走向大数据科学家 二、开发:大数据开发工程师走向大数据专家 大数据岗位方向 Hadoop大数据技原理与应用: VMware ...
  • 经常听到数据科学家、大数据专家、数据分析师,这3个职业乍一听,感觉是一个意思,但实际上,它们是不同的岗位,需要不同的技术,应用到不同的领域。
  • 高考结束,同学们还没过上几天开心到劈叉的日子,就要面临一个直击灵魂的问题:你想好报什么专业了吗?这些年,在大数据和人工智能的背景下,企业对数据科学家的需求正在持续增长。在人才需求巨大的缺...
  • 什么是数据科学?众说纷纭。这是可以理解的,因为数据科学还处在创立的过程中。科学的魅力也在于此,比如物理学,从牛顿力学、到狭义相对论、到广义相对论、到量子力学,它处在不断整理、推翻、重建的的过程中,这是...
  • MPai数据科学平台

    万次阅读 多人点赞 2020-08-27 15:47:07
    普通人要学数据,需要学习大量的、各类型的数学模型,需要翻阅需要文献来积累分析模板,也就是分析流程,掌握了理论,还需要把学习工具,一些工具没法实现的模型只能通过matlab、python、R等编程语言来实现,因此...
  • 最近更新时间 2021-12-15 计算机视觉 MNIST 一个手写数字的数据集,它包含60000个训练图像和10000个测试图像,是一个适合新手用于实现图像分类的数据集 IRIS IRIS数据集是一个简单的和适合初学者的数据集,包含了...
  • 数据科学的简单认识

    千次阅读 2020-04-15 20:10:38
    对数据分析的新认识——从统计学到数据科学 对计算智能的新认识——从复杂算法到简单算法 对决策方式的新认识——从目标驱动型决策到数据驱动型决策 数据科学 最好的时代,最坏的时代 数据挖掘、数据分析与数据...
  • 高考结束,同学们还没过上几天开心到劈叉的日子,就要面临一个直击灵魂的问题:你想好报什么专业了吗?这些年,在大数据和人工智能的背景下,企业对数据科学家的需求正在持续增长。在人才需求巨大的缺...
  • 数据科学技术与应用_答案_中国大学MOOC 题目来源:中国大学MOOC-东华大学-宋晖等-数据科学技术与应用 作者:Herbert胡不归 微博:@Herbert胡不归 前言:《数据科学技术与应用》是上海市高校计算机等级考试(三级)...
  • 数据科学导论》期末复习整理~2020

    千次阅读 多人点赞 2020-06-14 17:48:13
    文章目录一、NoSQL1、NoSQL兴起原因2、NoSQL四大类型二、数据处理1、数据预处理2、数据审计3、数据清洗4、数据变换5、数据集成6、数据脱敏7、数据规约8、数据结构模式 一、NoSQL 1、NoSQL兴起原因 关系型数据库已经...
  • 数据科学导论

    千次阅读 2019-02-12 00:48:11
    清华大学数据科学系列课程之一《数据科学导论》心得
  • 数据科学研究的现状与趋势

    千次阅读 2018-03-05 00:00:00
    本文第1节探讨数据科学的内涵、发展简史、学科地位和知识体系等四个基本问题,并提出了数据科学的两个基本类型——专业数据科学和专业中的数据科学。第2节提出现阶段数据科学研究的特点——本质问题的系统研究较少,...
  • 随着技术的进步,数据也在快速增长。最近几年创造的数据比整个人类历史上创造的数据还要多。 你知道到2020年,每秒钟大约会产生1.7兆的新信息吗? 请记住,大数据并非一时兴起,而是一场已经开始的革命,毫无疑问...
  • 数据科学、人工智能与机器学习的区别 什么是数据科学? 什么是人工智能? 什么是机器学习? 数据科学、人工智能、机器学习的关系 数据科学、人工智能、机器学习的区别 数据科学、人工智能、机器学习工作 ...
  • 一、数据科学的生命周期 原文:DS-100/textbook/notebooks/ch01 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在数据科学中,我们使用大量不同的数据集来对世界做出结论。在这个课程中,我们...
  • 来自Amazon,google,Meta, Microsoft等的面试问题,问题很多所以对问题进行了分类整理,本文包含基础知识和数据分析相关问题1、什么是数据科学?列出监督学习和非监督学习的区别。数据科学是各种工具、算法和机器...
  • 作为一门新兴的学科,数据科学依赖两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、...
  • 关键词:数据科学家、Glassdoor网站、indeed网站、工作岗位、Kaggle平台、LinkedIn(领英)公司、McKinsey(麦肯锡)公司。2011年,麦肯锡...
  • 数据科学与大数据技术专业排名中,共有309所高校上榜,A+层次的高校依次为哈尔滨工业大学、北京大学、中国科学技术大学、电子科技大学、同济大学、华东师范大学、复旦大学、中国人民大学、北京理工大学、西北工业...
  • 数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学,那么我可以告诉你,成为数据科学家其实非常简单 从行业内部的蓬勃发展,到招聘会上HR...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 732,904
精华内容 293,161
关键字:

数据科学