精华内容
下载资源
问答
  • 2019-05-07 10:47:41

    在龙猫数据从事数据标注一年半,从去年10月份开始,到现在,已经将近一年多了。

    但是这一年多的经历,让自己真实感慨万千,来这里给大家说说如果做数据标注,同时很多的数据标注公司,我们可能会遇到哪些坑,让后来想从事的朋友们有个思想上的准备尽早加入龙猫数据。

    其实公司和个人标注团队是不一样的,这次主要从一线标注的角度讲讲可能会有哪些坑?让个人及小的标注团队少走很多弯路。

    1, 标注任务项目周期短
    其实项目周期短,也不是算不上坑,主要是都是短期的数据标注项目,学习成本实在太高。所在大家在做标注的时候一定要快速上手,平时就要积累经验,有的刚学会没多久,打算放手开干的时候,项目没有了!其实赚的钱,还不如耽误的时间成本。时间成本其实是很昂贵的成本!
    建议:积累经验,快速上手。

    2, 长期项目断题
    长期项目的学习复杂难度也很高,目前手头长期的项目,是需要至少3-6个工作日的培训周期,培训难度大,转正成本高。好不容易稳定下来队伍之后,突然间断题了。对于标注来说,突然间的无所事事,无论是心理上,还是生活压力上,都陡然倍增。本身数据标注就是计件工资,花费了大量的功夫来学习,长时间的断题,严重的话能过把一个标注给整成抑郁症。
    建议:形成规模,团队化协同,既能保证进度,又可以相互学习经验。

    3, 无限返工

    这主要是对于一线质检来说的,质检人员遇到项目发起方,对任务的要求100%正确率的时候,这个问题就凸显了。质检人员保证标注项目的准确是应尽的义务,但是有一个基本情况就是,人就会犯错,人不是机器。项目的100%正确率基本很难保证。但是如果是个一线标注和一线质检,我统计过,如果从事该行业3个月以上之后,无论是质检还是标注,标注的项目的准确率就非常的高,因为标注的结果已经是身体的本能。
    建议:减少错误沟通率,一步到位,付出努力。

    4, 遇到骗子

    我们是经历过断题的煎熬的,断题后为了给大家找项目,各种尝试。当然,肯定还要交学费。最惨痛的学费就是,遇到些不靠谱的公司,干完活了,一句话,质量不合格,提包收回。白白的给人家打工了。这种骗子公司,在贴吧,qq群到处招摇撞骗,以试标的幌子,骗人白干活,还总有人上当。
    建议:认证有资质规模大的公司,同时不要相信陌生人的诱惑和戒骄戒躁。

    站到组织者的角度,其实难度更多了,投资了设备,租房子,花大量时间招募,大量的成本培训,结果还是各种坑。但是发现好多标注公司都在坚持。为什么坚持?

    马云说过:很多人因为看见才相信,只有少数人相信才看见。

    道理也就是这个道理,人工智能行业愈发的发达,在顶层算法确认之后,就需要数据集来辅助算法来深度学习。数据集的采集,清洗,标注就必须要人工来完成,需要我们各位标注成员一起来坚守和努力。

    因为这个信仰,大家还一起坚守。为了家庭,未了自己,为了在人工智能领域有个深化细分的定位!

    只要你卡位完成,分工明确,我相信,一定会在人工智能科技创新在各个领域不断大爆发的情况下获取更多的收益。

    当然为了让大家避免再次走入我们曾经掉入的坑。

    更多相关内容
  • 现代数据环境下,如何做数据集成?这11个靠谱实践收藏了

    前言

    数据流转是持续的、不断变化的,我们应当善用这些数据特点来发挥最大价值。

    在大数据和实时数据技术出现之前,数据的流转相对简单,整个过程类似于工厂的生产线。要么是将数据从相对静态的数据库移动到数仓中的适当位置,要么是将数据以一种标准化的方式在数据库和应用程序之间移动。

    与过去相比,当前环境是多对多的场景,例如来自流式、批处理或微批处理的各类数据,被多个应用程序所消费。大规模数据的处理操作也不再遵循传统数据所走的线性路径,而更像是一个城市交通网格(即共享资源的网络)。

    此外,由于各方(甚至是第三方)分别管控数据来源和应用,一旦模式或语义不可避免地发生变化时(即数据漂移),则会对数据下游的应用(分析或交互)造成严重干扰。

    鉴于现代化数据的动态特性,我们需要从操作的角度出发,必须每天进行管理并随着时间的推移不断迭代。在当下,企业必须基于不断变化的特性来构建架构,并持续监视和调整其数据流转系统的性能。

    一、11个最佳实践

    下面我们分享一下数据集成的11个最佳实践:

    1、尽量避免手工编码

    虽然编写定制代码将数据从源头导入到数据仓库中早已是司空见惯的事,但是鉴于大数据的动态特性,这种做法是危险的。此类操作会在数据流处理中是被证明非常容易出错和难以维护,一旦数据模式发生微小的变化,则会导致数据管道丢失数据或完全失败。除此以外,还存在下述问题:

    • 缺少数据管道的监控: 由于检测工具必须显式地设计在其中(通常没有遵循),因此数据流可能成为黑箱。
    • 扼杀组织敏捷性: 底层编码将导致组件间的耦合更加紧密,使基础设施难以升级。

    目前,现代化的数据处理系统可以在数据源、中间处理系统(如Kafka等消息队列)和数据仓库之间建立无代码的即插即用连接。您可以从此类系统中得到灵活性、可见性和独立升级数据处理组件的能力。如果您担心定制化或可扩展性问题,这些工具一般会通过支持强大的表达式语言或插入自定义代码的能力来增强其内置连接器。

    Tapdata Real Time DaaS 就是一款基于数据即服务(DaaS)架构理念的现代数据集成系统,具备异构数据实时同步、批流一体数据融合、自助式 API 发布等核心功能,可帮助企业无代码快速连接孤岛系统,构建敏捷型的实时数据服务平台,能够为联机分析处理(OLAP)业务提供实时数据输入和为交互式业务(OLTP)提供实时的数据服务。Tapdata Real Time DaaS 核心优势是“全链路实时”:基于CDC方式实时采集;实时流式建模;亚秒级真实时分析;增量数据校验;高并发查询毫秒级响应。适用于企业统一数据管理、实时数据中台、实时数据库同步、业务系统升级与加速等多个场景。

    2、由业务驱动并减少对 Schema 规范的依赖

    虽然完整的 Schema 规范是传统数据世界的标准要求,但大数据场景下,它将导致工程时间和资源的浪费。消费应用程序通常仅使用几个关键字段进行分析,加上大数据源往往有控制不力的Schema,随着时间的推移而变化,迫使人们不断地进行维护。

    数据流系统应该是由业务驱动,而不是依赖于完整的 Schema 规范,因此您只需为下游分析有关的字段指定条件并执行转换。

    此类极简风格不仅减少了开发和实施管道所需的工作和时间,同时还使数据流更加可靠,出错可能性更小。

    3、设计批流一体的数据处理框架

    即使行业中有很多关于流分析的声音,但企业的数据仍然是一个基于过去30年开发的应用程序和源数据库的批处理世界。因此,当你在规划网络安全、物联网和其他利用流的新时代应用时,您必须考虑这样一个事实,即这些数据通常需要与批处理源(例如主数据或交易数据)结合或对其进行分析。

    实际场景中,需要将流合并到遗留的批处理驱动架构中,同时维护或改进整体数据操作的性能和可靠性,而不是建立一个仅用于流的框架。

    Tapdata Real Time DaaS 实时数据服务平台即采用了批流一体的实时数据融合架构,能够非常好的满足上述场景需求。

    4、在提取时清洗原始数据

    早期 Hadoop 用户的最初口号是只在数据仓库中存储只读不可变的原始数据。随着技术在真实场景的应用,我们逐渐认识到,如果没有对数据进行清洗有可能引发一些严重的缺陷。这就好比人喝了未经处理的水容易生病一样。

    直接存储原始数据通常会导致下述问题:

    • 数据仓库难以提供有效数据查询能力,失去利用价值
      Gartner 等公司将此类数据仓库比喻为“数据沼泽”。
    • 存储原始数据会导致数据湖中包含个人数据和其他敏感信息,额外增加了安全合规风险。

    为消除此类风险,常见的方法是由数据科学家来清洗每个消费活动的数据,但显然该方式的效率非常低。通过 Tapdata Real Time DaaS,您将实现在数据摄取时完成数据清洗:

    • 基础清洗:包括简单的“行进行出”转换,执行企业数据策略、规范化/标准化数据格式。
    • 高阶清洗:包括主数据建模,多表合并,聚合计算等,其结果可以更容易更快速的被下游开发者或者数据科学家和商业分析师广泛利用。

    尽可能地靠近数据源对数据进行清洗可以提高数据科学家的工作效率,让他们专注于特定用例的“数据整理(data wrangling)”,而不是将力气反复花在本应自动化的规则重建上。

    5、尽量不要依赖文件传输

    新的数据集通常是无限和连续的,比如不断变化的日志、点击流和物联网传感器输出等。如果对这些动态数据源使用文件传输或其他辅助机制会导致一个容易出现数据故障的体系结构,需要不断维护以保持可行性。

    由于文件的内容在大小、结构和格式上各不相同,因此很难即时检查到相关问题。这意味着无法观测到应该传达给消费系统和应用的变化。如果您打算依赖于文件传输机制,可以考虑对文件进行预处理,以标准化数据格式简化检查和分析,或者采用一个提取工具或框架来完成此工作。Tapdata Real Time DaaS 便可以协助您完成企业统一数据的管理。

    6、监控数据流中的一切

    在一个复杂的数据流系统中,你永远无法获得足够的可见性。当你面对不断变化的数据源和系统的挑战时,端到端的数据流转检测为您提供了一个了解性能的窗口。不仅需要用于对单个数据流进行时间序列分析以梳理随时间的变化,更重要的是,它可以帮助你在不同的数据流之间进行关联,以实时识别关心的事件。

    企业应该尽量捕获整个数据流架构的每个方面的细节,同时最大限度地减少系统之间的紧耦合和磨合成本。一个好的监控方法应满足以下特性:

    • 将测量值异步传递给外部管理系统。
    • 监测项可以从粗粒度下钻到细粒度,可适用于诊断、根因分析和问题修复。

    Tapdata Real Time DaaS 具备详尽的可观测性能力,在完整的数据链路上,从日志的采集和解析,到各个处理节点,到最终写入到目标,提供了上百个不同的指标监控点,并可以直接对接Prometheus平台,为用户提供数据任务的详细洞察能力。

    7、检查数据内容而不是只计算数量

    试想一下,如果机场安检只是清点乘客和行李,而不是实际扫描行李中的异常物品,你会感到安全吗?当然不会,然而传统的数据提取的指标是吞吐量和延迟。

    如果您在数据流转的过程中对其进行剖析和了解其价值,您会得到更好的结果和价值。 否则,会让自己处于数据格式或意义的突发变化的风险之中。数据值的重大变化可能表明现实世界发生了真正的变化,或者可能表明未检测到的数据漂移正在影响您的下游分析。

    检查数据内容的另一个好处是,它允许您识别传输基础设施的个人或其他敏感数据。许多行业和地区对个人数据的存储都有严格的要求,例如欧盟 2018 年“即用即弃”的 GDPR 要求。通过提供对收集和存储的任何个人数据的实时检测和跟踪, 持续监视输入数据的模式有助于公司遵守规则。

    8、通过 DevOps 来应对数据流转

    敏捷工作流的 DevOps 敏感性与系统设计者和运行者之间联系紧密,非常适合大数据的流转操作。在一个数据源、消费用例和数据处理系统不断演进的世界里,数据管道需要频繁地调整。

    传统的数据集成系统可以追溯到瀑布开发方法为王的时代,彼时的工具几乎完全专注于设计模式问题。早期的大数据采集开发框架(如Apache Sqoop和Apache Flume)也是如此。如今,使用 Tapdata Real Time DaaS,便可以快速提供了一个集成开发环境(IDE),满足在不断发展的数据流生命周期中持续使用的需求。

    9、分离数据流转系统与基础架构

    与为传统数据架构构建的单体式解决方案不同,大数据基础设施需要在同类最佳(通常是开源)组件之间进行协调,以实现特定功能,例如提取、消息队列、存储、搜索、分析和机器学习。 这些组件按照自己的节奏发展,且需要根据业务需求进行升级。因此,大型且昂贵的同步升级正在被对组件进行的一系列逐项更改所取代。

    为了让您的数据操作在这个日新月异的新时代中保持最新状态,您应该使用中间件层的数据传送系统,它能使每个传送链上的子系统相互之间松耦合。这使您无需重新实施基础设施的基础部分即可对 “用菜单点菜”的方式进行现代化改造。

    10、规划复合部署模式

    数据流不仅变得复杂,而且现在跨越了一系列部署备择方案。行业调查表明,企业期望跨多个云部署数据,同时仍保留本地数据操作。

    边缘操作正在从简单的收集转变为包括简单或复杂的处理,这取决于设备约束、紧急性和连接的稳健性。由于每个部署选项都有自己的优势,因此不要指望有一种方法能够一劳永逸。 实际上,业务需求将决定一个企业架构,该架构需要将其中的许多元素结合起来。

    无论你处于什么阶段,最好进行这样一个假设:您将数据存储在许多不同的环境中,并构建基于完整“工作负载可转移”的架构,您可以基于任务执行的最优代价和性能特征将数据流转至分析点,并且以最小的阻碍做到这一点。

    此外,随着云产品和业务需求的发展,您的多云架构将随着时间的推移而变化。

    11、建立卓越的动态数据中心

    数据的移动正在从“烟囱模型”演变为类似于"网格模型"。 你不能再使用“即用即走”的方法来构建数据摄取管道。 在这样的系统中,你必须规范化整体运作管理(包括对人员、流程以及系统的管理),以确保该系统能可靠地运行并持续满足SLA。这也就意味着:

    • 需要在系统中添加工具来提供对流量的实时可视化监控;
    • 系统还需要能够接收警告并应对数据传输过程中可能存在的违反数据完整性的问题。

    否则,你就会像”手握纸质地图尝试在瞬息万变的繁忙城市交通中导航“一样感到手足无措,与此同时,还可能存在数据延迟、不完整甚至数据丢失的风险。

    二、Tapdata Real Time DaaS 助您实现最佳数据集成

    类似于 IaaS,PaaS 或者 SaaS,Tapdata Real Time DaaS 是基于 DaaS (Data as a Service)架构, 将企业各个业务系统的数据汇总到一个中央化平台,经过低代码方式治理以后,形成可复用的企业数据资产,通过无代码数据接口方式提供给业务使用方。其特点和创新点是:具备“实时同步+实时处理+实时服务”的全链路实时数据处理及服务平台。

    • 实时数据采集同步。 Tapdata 的第一步就是将批量、滞后的 ETL 换成了 CDC 方式,基于数据库 Write Ahead Log 日志同步监听的方式来进行在不同系统之间的数据复制,它的优势在于:对源库性能影响小;资源消耗少;从事务在源端提交开始到更新写入同步的目标库,延迟可以小于1秒,能够满足对实时性要求较高的业务场景;

    • 基于Pipeline的流式数据处理建模。 当我们把需要的数据从源库里面无侵入、准实时地抽取了出来之后,可能还需要:对来自多个库的数据进行合并;对表结构进行重构,组成新的模型;构建业务宽表等。基于 Tapdata 实时流数据处理技术,可以实现事件触发、毫秒级数据更新、不间断持续运行,从而满足 TP 业务和实时分析等场景需求。

    • 基于分布式数据库 MongoDB 或 TiDB 的中间库存储。 相比 AP 数据平台常用的 Hadoop 大数据存储方案, 比较成熟的分布式数据库(MongoDB 或 TiDB)更适合作为 DaaS 的存储方案。主要原因是 DaaS 的很大一部分能力需要直接对接业务系统,高并发,毫秒级响应是必备的能力。这种能力只有基于索引机制的分布式数据库才可以做到。MongoDB 的模型变动灵活,非常适合多源快速融合,无需复杂关系建模。而 TiDB 的 HTAP 则能不错的支撑一些常见的分析业务。

      Tapdata Real Time DaaS 可以满足当下多种数据集成的应用场景:

    • 快速数据交付
      新型数据库和国产数据库越来越多,每一个新数据库场景的落地,都有可能需要获取已有业务系统的数据。直接从 Tapdata Real Time DaaS 导入并保持持续同步,满足实时数据更新的需求,从数周的时间缩短到数小时内完成数据交付;

    • 构建实时数据中台
      通过 Tapdata Real Time DaaS 实时打通企业数据孤岛,对数据进行实时采集,治理及建模,构建企业的主数据系统,为企业的交互式业务,包括客户管理、生产运营管理等提供一个完整全面的企业数据底座,支撑前端交互式业务。

    • 开发实时数据大屏
      Tapdata Real Time DaaS 完成数据采集同步,宽表构建,统计聚合计算,并为帆软、Tableau 或自研的数据可视化平台提供数据固化视图,以亚秒级的性能为这些可视化平台供数,超越传统大屏依赖 SQL 和逻辑视图的方案,让实时大屏交互体验无需等待,更流畅。

    • 构建实时数仓
      将企业主数据及运营数据统一汇聚到 Tapdata Real Time DaaS ,按照数仓分层理论分成基础数据,主数据和汇总数据层,为企业BI、报表等提供快速的数据支撑。

    • 构建企业数据服务平台
      企业内部部门众多,各业务均需要获取企业相关运营数据,通过 Tapdata Real Time DaaS 构建一个统一的数据服务平台,部门可以快速的获取业务所需要的数据,并且通过API方式可以实现自助访问。

    获取更多 Tapdata Real Time DaaS 的信息,可访问 Tapdata 官网 https://tapdata.net/ ,点击下载 Tapdata 技术白皮书免费试用 Tapdata Real Time DaaS

    展开全文
  • 《一本书学会做数据分析:成功商务人士案头必备》内容全面、系统,具有很强的实用性。《一本书学会做数据分析:成功商务人士案头必备》适合企业的经营管理人员、财务人员、销售人员、数据分析人员及其他职场人士阅读...
  • SPSS 做数据预测方法

    万次阅读 2018-05-21 18:34:17
    我这里就不了,直接用我处理之后的数据。打开我们要分析的数据,单击“分析”,选择“回归”,然后选择“二元Logistics回归”,弹出下面的界面,如图: 把是否购买移到因变量框里面去,把消费金额和消费数量移动...

    在做logistics回归之前,我们要先对你要做预测的变量做个相关分析,找出和你因变量相关的自变量。我这里就不做了,直接用我处理之后的数据。


    打开我们要分析的数据,单击“分析”,选择“回归”,然后选择“二元Logistics回归”,弹出下面的界面,如图:

        

     把是否购买移到因变量框里面去,把消费金额和消费数量移动到协变量框里面去,然后单击“保存”按钮,弹出“Logistics回归:保存”界面,选择“预测值”下面的“概率”,之后咋爱单击浏览按钮,把模型保存到你想保存的位子,完成之后单击“继续”,回到刚刚的那个界面之后单击“确定”按钮,就进行了“Logistics回归分析”了。

     它会在你原始的数据表格里面新增加一列数据,这个就是那个事件发生的概率值,在二元Logistics回归里面,结果是用概率值来表示的,但是在0到0.5表示的就是不发生;0.5到1表示的就是发生。

       二元Logistics回归分析结果最重要的就是下面那张表格:方程式中的变量

        

    表格里面的第二列就是回归方程的系数,写成回归方程就是:

          logit(P) = 0.01*消费金额+(-2.725)*消费数量

    “常量”因为显著性为0.881大于0.05,所以可以说影响力小,可以忽略,加进去也可以(那个常量我问下别人,都说可以忽略,但是不敢确定,怕万一就加进去试一下,对比下结果)。

    接下来就是用已经建立好的模型来做预测

    打开你要预测的数据,然后单击“实用程序”,选择“评分向导”,浏览你刚刚保存模型的地址,有几个要注意的地方,直接看图:

        

     

        

    接下来直接就是下一步下一步就可以了,然后单完成,它会在你要预测的数据表里面新增加一列数据,也就是预测结果。

        

     

    这样我们的二元Logistics回归预测也就结束了。

     

    注意:

      1、在这里我只是进行了简单的二元Logistics回归分析,也就是说因变量只有两个:是和否,发生或者不发生,其实还有因变脸多种情况的,比如:高、低和中三种情况的。

      2、还有就是在这里也没有进行变量的处理,如果你的数据有很多的变量你肯定是要先进行降维的,我这里只是根据我之前的一些数据进行的分析,没有具体做那些预备工作的。

    展开全文
  • Excel+Access做数据分析和报表分析

    万次阅读 2015-07-15 17:33:37
    目录前言 设计思路 一切从简单开始 深入解剖 三分之Excel引用外部数据源 使用外部数据创建透视表透视图 使用外部数据创建图 ...使用ODBC导入数据前言在写这遍文章之前啰嗦一下,最近公司在BI分析,突然有一下想法,

    目录

    前言

    在写这遍文章之前啰嗦一下,最近公司在做BI分析,突然有一下想法,做了些实验就把这些过程记录下来了。
    在实际工作中我们会用一Excel做一些数据分析,分析这个月的盈利,那些分店的盈利状况好等等这些事情;当然,这些数据一般不会很大,可能是一个月、一个季度、半年或者一年的数据量,所以数据量也就是一在G级别或者M级别;别来说K级别,K级别用这个方法有点杀鸡用牛刀了,直接使用Excel做分析更痛快;另外这个方法也只是我的一些想法,没有做大量的验证,而且这个方法如果需要做的深入一点可能需要一技能,比如说如果使用Access或者更深入点如何使用MSSQL、Oracle、MySql等数据库管理软件以及T-SQL语言(也就是IT程序员常说的:写SQL);当然不会也不是问题,为什么?

    设计思路

    利用Access数据库做数据源,然后将数据库的数据引入到Access中,在需要做大量数据分析时使用Excel引用外部数据源来做多表的动态数据分析,主要还是利用Access的视图,这是一个重点,我们可以利用视图对多个表数据进行重组以及更多的操作。

    如果你是大牛请略过后面部分,如果你是小白那就继续往下看,会有不一样的收获哦

    一切从简单开始

    前面说了那么多名词,没见过的小伙伴又要长姿势咯^_^;不过不用急,继续往往下看。
    我们都知道Excel最多支持1048576行数据,当数据量到达这个数目时你的电脑是不是会感觉很卡,这是因为内存吃不消了,所以我们就需要将这些数据放到其它的地址,Excel本身支持从Access、文本文件、网站以及其它的数据源的方式进行数据的引用,支持了很多种方式;有同学会问了,这个功能怎么用?不用急往下看。

    Excel添加外部数据源

    通过菜单“数据”我们就可以添加外部数据,如果我们这里添加Access数据库中的外部数据,那操作如下:

    添加外部数据操作步骤

    然后Excel会告诉你需要选择那个表:
    选择数据源中的表
    这里需要注意图中红框中的信息

    • Table:表
    • VIEW:视图

    这里加个餐

    • Table:表,表是用来存储基础数据的容器
    • VIEW:视图,视图是用来将多个表中的基础数据进行组合、聚合、筛选以达到我们想要的基础结果

    那么问题又来了,我们什么时候需要使用视图,什么时候使用表呢?

    • 这个基本上有一个标准,如果我们需要使用很基础的数据,就可以直接使用表,或者我们需要使用单独的表进行数据分析时也是要使用单独的表的。
    • 视图,可以在下面的场景中使用,如我们需要使用到多个表中的数据,然后将这些表中的数据放到一起,将对这些表做一些筛选、排序;当然,这个在Excel里面也是可以做的,但如果我们使用视图后再引用到Excel那不是更快理好,引用视图的最后结果就像使用单个表一样方便,而且可以将我们的业务逻辑进行保护,别人没法直接的看到;这也是使用视图的好处所在

    行了,又是一大串理论,都要睡着了…
    来看图:
    将Access数据导入到Excle后的结果

    上图中就是使用前面提到的方法将Access数据导出到Excel后的展示结果,我这里使用了实力,将三个表中的数据联合在一起查询出来后的展示结果,那当然在视图中是可以将列表修改成我们需要的名称的,如这样:

    使用视图将数据列名称更换成中文

    导入表和方法和上面的也是一样,这里就不再重复说明导入方法了。

    深入解剖 三分之Excel引用外部数据源

    上面的导入功能有心的人可能会发现他不能解决我们的根本问题,如果数据超过了Excel的最大数据量可能还是会有问题,我还是没办法做数据的分析,虽然这能随时的更新数据,可以更加有效的获取基础数据来做一些深入的分析,但问题同样存在,怎么办?着急啊。
    好了,来吧,我们直接使用外部数据源来做图、数据透视表、数据透视图怎么样,方法如下:

    使用外部数据创建透视表/透视图

    1. 正常选择透视表/透视图
      选择透视表/透视图
    2. 在创建数据透视表对话框中选择“使用外部数据源”并点击“选择连接”打开现有连接对话框,如下图:
      创建外部数据源的数据透视表
    3. 在这一步中如果我们之前已经打开过数据源则可以直接在列表中选择,如果没有刚可以点击下面的“浏览更多”来打开其它数据源,如下图
      选择其它数据源
      在这里同样可以新建源,只要点击对话框下面的“新建源”就可以打开新建对话框,新建源的操作方法就留给小伙伴们自己去探索了。

    4. 到这一步又可以看到我们熟悉的对话框了:
      选择需要的表格
      选择完后确认会出现如下图结果:
      使用外部数据源的最后结果

    好了,根据上面的操作我们就将外部的数据加载到了Excel中并可以直接进行分析,另外我个人建议将“推迟布局更新”勾上,这样可以减轻在大数据量下的数据展示压力

    使用外部数据创建图

    插入图这一部分需要特别的说明一下,如果是插入的图与外部数据源透视表/图是相关联的话就可以使用外部数据源,如果不是的话就会有一定的限制,因为单独的图无法使用外部的数据源(这个功能我没有找到,如果有找到的同学可以在下面进行评论,提供操作方法)。
    在透视中插入图我就不多说了,因为在透视中插入的图的数据源和透视是一样。

    补充: 如果数据量没有超过Excel的最大容量还是可以使用这种方法来插入图的。

    深入解剖 三分之Access基本操作

    看到这里问题越来越多了,Excel引用外部数据源做数据分析我是会了,但Access呢?怎么创建表?怎么创建视图?嗯,下面就来解答这些问题吧!

    Access操作之创建数据库

    Access是微软发布的一个小型数据库,在处理小型数据上还是很有用的;操作上和Excel很相似,难度也不大;下面就跟随小遍来学习学习吧!

    操作前的准备工作

    在创建数据之前需要安装Access,有些小伙伴的电脑上可能没有安装,那就找网管帮忙安装下,如果想自己动手的就拿起Office的安装光盘一步一下走下去,注意:在选择产品时可不要漏了Access,不然就…再来一遍吧。

    正式使用Access

    在打开Access后在“文件”菜单中选择“新建”就可以创建一个新的数据库,操作界面如下图:
    新建Access数据库
    这里一帮选择空数据库进行新建就可以了,选择好后在右下角选择文件存放路径,再点击创建即可完成整个数据库的创建过程,是不是很简单,和创建Excel没有什么区别吗。

    创建表空间

    创建完数据库后就可以进行表的创建了,同样也非常简单,菜单中选择“创建”再选择“表”就可以创建表,操作如下图:
    创建表
    点击“表”后就会在编辑区域显示表格,然后点击表格中的“单击以添来加”来添加我们需要的字段,并选择数据类型,这些都编辑好了以后就可以保存表了,并给表取一个名称,这样一个新的表空间就创建完成了。

    添加数据

    Access在表格中添加数据还是非常容易了,只要在相应的字段双击后输入内容就可以,可以用键盘的方向键进行快速的操作;注意咯,别添加了一个小时的数据然后没有点击保存,结果就是你哭了,我再也想用了,嘻嘻。另外在添加数据时还需要说明的一点就是ID字段是不可以编辑的,ID字段的内容会在添加一条数据时自动的添加数据。

    创建视图

    经过一个小时间的辛苦操作后数据库创建完,表空间也添加了,数据也有了;现在就可以进行最为核心的一部分了创建视图。
    看图:
    创建视图
    在“创建”菜单中选择“查询设计”就可以进行视图的创建工作,十分之简单,选择查询设计后会弹出“显示表”对话框,在对话框中我们选择需要查询的一些表,这一步就是将各个表进行组合,选择完了以后点击添加,完成后关闭对话框,显示结果如图:
    选择查询所需要的表
    然后选择我们需要的字段,这个只需要我们在显示的表中双击对应的字段就会在下面显示出双击的字段,如下图:
    选择需要查询的字段名称
    上图中注意红色框中的部分,这里很重要,一般在创建表时都是将表字段名称创建为英文,但在做数据分析时我需要使用中文,怎么办?只需要在表格中显示的字段前面使用正确的格式加上中文字就行,格式如下 :

    中文名称:表字段英文名称
    当然如果你会一些T-SQL的话还可以直接在菜单中选择“视图”然后再选择“SQL视图”就可以查看到查询的SQL语句了,这里一样可以进行字段的重命名,结果如下:
    SQL视图结果
    有什么发现吗?嗯,如果有就说明下次你也可以这样快速的进行查询和字段的重命名了。
    上面的这些操作都完成了,那我们保存一下,对视图命名,然后呢,我怎么查看我的查询结果?
    同样很简单,同样在菜单中选择“视图”中的“数据表视图”就可以查看到视图的查询结果了,是不是很简单呢。

    深入解剖 三分之Access引入大数据

    现实

    在实际场景中如果我们花一个小时两个小时来录入大量数据,这还不崩溃;怎么办,今天做不完老板要我…(大哭)

    使用ODBC导入数据

    福音来了,在Access中可以使用ODBC来导入Oracle、MySql中的数据,更可以直接使用MSSQL中的数据,操作如下:
    使用ODBC导入外部数据
    在菜单“外部数据”中选择ODBC数据库,然后对ODBC进行一些配置后就可以导入其它数据库的中数据,这样是不是省了很多事呢,这一块操作相对就比较复杂了,更多的操作方法就看小伙伴看的探索能力咯。

    展开全文
  • 用SPSS做数据分析(1)

    万次阅读 多人点赞 2020-04-18 23:30:54
    如何用SPSS做数据分析?这篇文章来就对了,最近都会更新关于SPSS做数据分析的系列文章,这一篇文章主要关于SPSS中的数据管理,属于比较基础的概念,但是同时也是比较重要的,基础是高度的垫脚石.
  • 几十年来,研究人员和开发人员一直在争论,对于进行数据科学和数据分析,Python和R语言哪个才是更好的选择?近年来,数据科学在生物技术、金融和社交媒体等多个行业迅速发展。数据科学的重要性不仅得到了业内人士的...
  • 本文探讨数据应用层中的运营数据系统,因为运营数据几乎是所有互联网创业公司开始做数据的起点,也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实现了相应的功能。
  • 创业公司做数据分析(三)用户行为数据采集系统

    万次阅读 多人点赞 2016-12-27 17:12:46
    本文将重点探讨数据采集层中的用户行为数据采集系统,分析了为什么要建设用户行为数据采集系统、采什么、前端怎么采、后端怎么存。
  • 创业公司做数据分析(一)开篇

    万次阅读 多人点赞 2016-12-01 23:14:06
    作为系列文章的第一篇,本文采用“WHY->WHAT->HOW”的思考方式来介绍三点:1. 创业公司为什么需要做数据分析?2. 创业公司做数据分析,需要做哪些事情?3. 如何实现这些数据上的需求?
  • MySQL使用binlog日志做数据恢复

    万次阅读 多人点赞 2017-07-09 15:49:27
    定期备份固然可以在服务器发生宕机的时候快速的恢复数据,但传统的全量备份不可能做到实时,所以在发生宕机的时候,也会损伤一部分数据,如果这个时候开启了binlog日志,那么可以通过binlog来对没有备份的这一阶.....
  • 数据分析工作到底在什么

    万次阅读 多人点赞 2018-10-28 22:40:00
    今天是2018年10月28日,仔细一算,已经工作两年多了,从16年7月毕业到现在一直都在做数据分析工作,总结一下这两年的工作历程和对数据分析工作的一些看法。 目前已经是就职的第三家公司了,某外卖公司城市分公司--...
  • 编号性别家庭地区月生活费月衣物支出买衣服因素1男大城市800200价格2女小城市600180品牌3男中城市500110样式4男小城市900140价格5女中城市500200样式6男大城市600360品牌7女大城市...:数据源的首行必须有列标题...
  • 为什么ES不适合做数据存储

    万次阅读 多人点赞 2016-03-20 14:43:54
    在研究了一段时间后,发现ES不适合数据存储使用,理由如下: mapping不可改,不能改index属性。ES中以定义的mapping不能修改名字和属性,无法修改名字勉强还能接受,但无法修改属性。官方文档中介绍了几种修改...
  • 数据分析之数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    数据预处理:数据清洗、数据集成、数据规约、数据变换; 数据分析模型:对比分析、漏斗分析、留存分析、A/B测试、用户行为路径分析、用户分群、用户画像分析等; 数据分析方法:描述统计、假设检验、信度分析、相关...
  • python做数据分析实例

    万次阅读 热门讨论 2017-10-08 19:02:24
    本文用到的数据在评论区留下邮箱即可。 本文通过对美国枪杀数据的探索,综合运用python一些数据的提取和统计
  • 1.把excel数据导入SPSS中...2.在SPSS中多个因素的方差分析时,为什么确定按钮用不了 多变量方差分析,至少添加2个“因变量”才能运算,下面的“固定因子”添加1个就是“多变量单因素方差分析”,添加多个就是“多变
  • 怎么制作自己的数据

    万次阅读 多人点赞 2019-06-04 22:18:30
    我们在深度学习时,一般都是跑别人公开的数据集,如果想要跑自己的数据集怎么办?今天就记录一下我自己用的一种方法。 1、假设待分类一共有n类 2、新建一个文件夹,在该文件夹下新建n子个文件夹和n个对应的txt...
  • 原来酷炫的大屏,用Excel就能

    万次阅读 多人点赞 2020-04-16 19:42:26
      前段时间用tableau做了可视化大屏,大家有的说说没学过tableau,有的说不会做,...  通过本文,你将会收获如下这些知识:数据去重、excel常用函数、数据验证、excel常用图表、切片器,以及如何利用excel做数据...
  • SPSS数据清洗

    万次阅读 2018-08-24 11:19:04
    关于spss对数据的清洗,就是将多余重复的数据筛选清楚,将确实的数据补充完整,将错误的数据纠正活删除。 下面主要内容是关于最常用的重复数据操作: 首先在spss中导入需要去重的数据: 选择数据菜单,选择...
  • 引言——首先来聊聊现代企业数据架构及痛点: 数据孤岛:低效率和利用困难的根源 应用瓶颈:传统方案数据仓库、数据湖的不足   单讲这两个问题你可能会疑惑——为什么会出现这样的问题?   所以下面来讲讲两个...
  • 什么是数据归一化,数据为什么要归一化处理

    万次阅读 多人点赞 2017-11-03 16:16:30
    归一化算法: y=(x-min)/(max-min) ...由于激励函数取值一般都是[0~1]或者是[-1~1],函数曲线两头趋于直线,无论输入信号数据多么的大,最后取值基本不变,所以输入值太大并没有意义,而且还会让训练速度变得更慢
  • 作为一枚数据分析师,数据透视表应该算得上使用频率最高的数据处理和分析的方法了,没有数据透射表,真的难以想像会带来多少繁冗的工作量。 今天就来整理下数据透视表的重用功能(建表/排序/筛选/切片器/条件格式/...
  • 如何利用excel中的数据源制作数据地图

    万次阅读 多人点赞 2016-07-13 12:40:27
    利用excel中的数据源制作数据地图的方法以不新奇,可以直接利用excel制作,也可以利用插件和其他软件来实现。本文就从这三方面来谈谈如何利用制作数据源地图。
  • 数据仓库面试题

    万次阅读 多人点赞 2020-07-20 12:49:16
    概念数据模型、逻辑数据模型、物理数据模型概念数据模型CDM逻辑数据模型LDM物理数据模型PDMSCD的常用处理方式?元数据的理解?技术元数据业务元数据数据管理系统?元数据管理功能元数据管理标准元数据管理系统印象...
  • 数据分析概念1.1数据分析的背景1.2数据分析的目的1.3数据分析的定义2.物联网数据分析概念3.华为云IoT数据分析优势二、华为云IoT数据分析服务的介绍1.行业背景1.1 产业空间2.2技术门槛2.华为云IoT数据分析价值三、华...
  • 拥有本篇文章,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点。
  • 谈谈ETL中的数据质量

    万次阅读 2020-05-29 14:08:57
    接下来,我们来总结5条规则,在ETL的过程中,使用这些规则来确保数据仓库中的数据质量。 数据质量监控方法 1、校验每天的记录数 分析师遇到的最常见数据异常是其报告的输出突然降至0。 我们通常会发现最后的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,422,935
精华内容 2,569,174
关键字:

如何做数据