精华内容
下载资源
问答
  • 22种大数据分析可视化工具
    千次阅读
    2020-12-03 16:46:55

      22种大数据分析可视化工具有哪些?数据可视化工具在软件测试领域中扮演着非常重要的角色。

      数据可视化包括数据可视表示的设计和分析。

      在当今世界,我们正在处理海量数据,其中对数据可视化软件的需求日益突出,以通过图形,趋势,仪表板,图表等可视化辅助手段帮助人们理解数据的重要性。

      

    22种大数据分析可视化工具

     

      2020年排名前22位的最佳数据可视化工具

      此处列出了最流行的免费和商业数据可视化软件的列表,以及它们的比较和网站链接,以方便您理解。

      一、Xplenty

      Xplenty是基于云的数据集成平台,可为您的数据可视化软件准备数据。它可以集成来自100多个数据存储和SaaS应用程序的数据。

      Xplenty的本机连接器将使配置公共云,私有云或内部部署基础架构上流行数据源中的拉取或推送数据变得容易。它具有用于数据库,应用程序,数据仓库等的连接器。

      Xplenty提供了一个包设计器,用于实现各种数据集成用例。它提供了单击界面,可以执行简单的复制,复杂的数据准备和转换任务。

      Xplenty可以处理计划作业,监视作业进度以及状态和样本数据输出,从而确保正确性和有效性。

      

    22种大数据分析可视化工具

     

      优点:

      Xplenty提供了丰富的表达语言,高级API和webhooks,并成为了可定制和可扩展的平台。

      允许您集成来自100多个数据存储和SaaS应用程序的数据。

      提供可伸缩的弹性基础结构,并帮助您运行简单的复制任务和复杂的转换。

      通过电子邮件,聊天,电话和在线会议支持提供支持。

      Xplenty提供低码或无码选项。

      缺点:

      Xplenty仅提供年度计费选项。每月结算选项不可用。

      费用:请联系Xplenty了解价格详情和免费试用。

      开源/许可:许可。

      二、HubSpot

      HubSpot提供销售报告,使您可以全面了解销售过程。HubSpot CRM附带了一组基本的销售报告。它提供围绕仪表板构建的报告功能。该仪表板将是报告的集合。仪表板的数据范围是可定制的。

      Sales Hub Professional和Reporting Add-on将为您提供Sale团队成功的完整情况。它将为您提供一个自定义报告生成器。您将能够基于数据创建自定义报告。

      

    22种大数据分析可视化工具

     

      优点:

      一组基本的销售报告包括交易预测,销售业绩,生产率,已完成交易与目标的交易以及近期活动。

      该工具将允许您自定义谁可以访问仪表板。

      根据团队的优先级,您可以调整各个报告的大小。

      仪表板可容纳10个报告。

      它是一个灵活而强大的自定义报告生成器。

      缺点:

      缺少分段的流量报告。

      成本: HubSpot CRM是完全免费的,因此有这些销售报告。

      开源/许可:许可。还提供免费工具。

      三、Whatagraph

      Whatagraph定价: 根据您要使用的功能而有所不同。您无需为不打算使用的功能多付钱。

      Whatagraph为营销机构提供了一种向客户报告营销活动数据的简便方法。无论您向谁报告结果,该平台都会创建易于理解的可视数据。

      

    22种大数据分析可视化工具

     

      特征:

      与40多个顶级数字营销平台(例如Google Analytics(分析),Facebook Ads,MailChimp等)无缝集成。

      无限的自定义选项。从几乎数百种不同的预制报告小部件中进行选择,或者创建自己的数据呈现方法。

      跨平台数据分析很简单。在一份报告中比较不同营销平台及其效果的好方法。

      自动化的报告创建和交付。在管理各种客户时,自动化功能可以帮助您以最少的输入来处理数据并将数据交付给合适的客户。

      白标报告。按您认为合适的方式自定义报告。添加您自己的图像或徽标–让您的品牌在创建的每个报告中大放异彩!

      结论: Whatagraph是功能丰富的营销数据报告平台,可供代理商使用。它可以轻松管理多个客户端,同时为您提供大量的集成和自动化功能。

      四、Tableau桌面

      Tableau是一种商业智能工具,可帮助人们可视化和理解他们的数据。它被广泛用于商业智能领域。它使您可以设计仪表板和工作表形状的交互式图形和图表,以获得业务远景。

      优点:

      1)出色的可视化功能。

      2)使用方便。

      3)很好的表现;很好的绩效。

      4)与多个数据源的连接。

      5)健康的社区和论坛。

      6)移动友好。

      7)强大的计算能力。

      8)快速见解。

      缺点:

      1)非常昂贵,定价不灵活。

      2)没有用于计划和自动刷新报告的选项。

      3)限制性的视觉导入。

      4)存在每次修改数据时都需要手动更新的静态参数。

      5)列表格式很难。

      费用:每年每用户每月$ 70 USD。

      开源/许可:许可。它有一个免费试用版。

      五、科学

      Sisense可为组织中任何地方的任何人提供即时见解。它使您可以创建可视化的仪表板和报告来陈述任何数据,发现潜在趋势和模式并做出以数据为依据的决策。

      优点:

      1)它具有非常友好的用户界面。

      2)巨大的数据集上出色的分析性能。

      3)出色的支持

      4)轻松升级

      5)与不同的数据源很好地集成。

      6)该产品非常灵活,可以轻松自定义。

      缺点:

      1)难以维护和开发分析多维数据集。

      2)它没有任何内置的数据类型来支持时间格式。

      3)可视化类型有限。

      4)如果需要重建多维数据集,则在此期间无法访问该多维数据集。

      成本: Sisense没有透露价格。但是,它提供了“无意外”定价,其中费用取决于数据大小和用户数量,视情况而定。

      开源/许可:许可。它有一个免费试用版。

      六、自适应发现

      自适应发现工具专门针对企业用户而设计,使您可以将分析和决策重点放在重要的方面。

      通过交互式深入分析和视觉讲故事,您可以确定根本原因,即时回答问题并发现趋势,以解决曲线前的问题。它为您提供了推动财务,销售和运营绩效所需的完整视角。

      它允许建模,规划和预测来做出更好的决策。

      优点:

      1)连接到任何数据源。无论是ERP,CRM还是HCM。

      2)个性化仪表板。

      3)模块化指标。

      4)共享指标。

      5)借助完全在云中交付的分析,您可以随时随地访问信息。

      6)开箱即用的计划,预算和预测过程。

      缺点:

      1)由于使用Java,有时响应速度很慢。

      2)最初,要学习此工具有点困难(主要是设置报告)。

      3)无法修改报告而不创建新报告。

      4)总体而言,报告功能可以得到改善。

      费用:您需要与公司联系以获取价格详细信息。它具有基于订阅的定价模型。价格将由您要选择的实例数决定。该工具有两个版本,即Adaptive Discovery Professional和Adaptive Discovery Enterprise。

      开源/许可:许可。它有一个免费试用版。

      网站:自适应发现

      七、TeamMate Analytics

      此工具是150多种计算机辅助审核工具和生产力工具的套件。

      它是专为审计师,财务经理和会计师而设计的。它完全可以在Excel工作表中运行,并向您的Excel添加新的功能区栏。它被设计为直观且易于使用的工具。

      它支持的数据可视化功能包括分析,关系显示,模拟模型和过滤视图。

      优点:

      1)友好使用。

      2)与标准API和工具的出色集成。

      3)有吸引力且直观的用户界面。

      4)出色的质量和最终用户培训与支持的可用性。

      5)提高自动化工作流程的效率。

      6)学习曲线短。

      7)革命性的部分模块。

      缺点:

      1)小用户社区,因为此工具不是很旧。

      2)Teammate plus Cognos报告引擎应得到改进。

      3)升级缺乏稳定性。

      成本:卖方未披露。

      开源/许可:许可。它有一个免费试用版。

      八、JupyteR

      Jupyter项目的存在是为了通过许多编程脚本构建用于协作计算的开源工具,开放标准和服务。

      优点:

      1)快速原型制作

      2)视觉效果

      3)共享见解

      缺点:

      1)棘手的合作

      2)版本控制和代码审查很困难。

      3)容易产生复杂性。

      费用:此工具是免费的。

      开源/许可:开源

      九、邓达斯BI

      Dundas BI是一个非常古老且著名的数据可视化工具。

      它提供了超级交互式的可视化效果,可帮助用户更快更好地理解数据。它的其他可视化功能包括丰富的记分卡,智能表,多种图表类型,仪表,地图,树形图,数据标签,迷你图,指标,图表和关系。

      该工具基于响应式HTML5 Web技术,该技术允许用户从任何地方在任何设备上连接,交互和分析其数据。

      优点:

      1、伟大的ETL。

      2、它还允许针对您选择的数据源编写直接SQL。

      3、设计的灵活性。

      4、伟大的Dundas支持。

      5、各种出色的可视化效果。

      缺点:

      1、它不提供预测分析。

      2、它不支持3D图表。

      成本:卖方未披露。它遵循一次性许可证和基于订阅的定价模型。

      开源/许可:许可。它有一个免费试用版。

      十、信息报

      它是基于Web的数据可视化和信息图表工具,允许用户创建和共享数字海图,信息图表和地图。

      它具有一个称为WYSIWYG(所见即所得)的直观编辑器,可将用户的数据转换为可共享的信息图表。

      优点:

      1)使用此工具不需要任何编码技能。

      2)有两个版本可用-免费和付费。

      3)它使您可以将可视化连接到实时和公共数据源,例如Google等。

      4)它提供了超过35种图表类型和200种地图类型的选择。

      5)一个用于处理复杂数据的好平台。

      缺点:

      1)免费版本要求您在设计中包含信息报徽标。

      2)免费包中不提供RTF编辑。

      3)与竞争对手相比,在数据集成功能方面落后很多。

      费用:此工具的基本版本免费。专业版的价格为$ 19 /月,商务版的价格为$ 67 /月,团队版的价格为$ 149 /月。对于企业版,您将必须与供应商联系。

      开源/许可:此工具提供免费和许可版本。

      十一、Google图表

      Google Chart是一款功能强大,易于使用的交互式数据可视化工具,适用于浏览器和移动设备。它具有丰富的图表库,可让您根据需要进行自定义。图表的呈现基于HTML5 / SVG技术。

      优点:

      1)简单易学且用户友好。

      2)快速准确。

      3)高度互动。

      4)完全免费

      5)3年的向后兼容性。

      6)交互式仪表板。

      7)跨浏览器兼容。

      8)具有任何其他插件的跨平台可移植性。支持iPhone,iPad和Android。

      9)可以读取多个数据源-Excel,SQL数据库,CSV,Google Spreadsheets等。

      缺点:

      1)使用此工具时必须进行网络连接。

      2)缺少有关高级功能的演示。

      3)使用API​​进行复杂的演示有时很难学习。

      4)缺乏复杂的统计处理。

      费用:此工具是免费的。

      开源/许可:开源图表库。

      十二、Visme

      Visme是用于在线演示,信息图表或任何其他视觉内容的工具。该软件主要供小型企业用户设计各种类型的可视化效果,包括HTML动画。

      您可以根据需要在许多可用的演示文稿中进行选择,并以在线/离线模式添加或编辑设计并共享/下载。

      优点:

      1、非常直观的工具。

      2、醒目的设计。

      3、使用方便。

      4、大量的模板。

      5、自动保存功能

      6、它还允许您插入视频和动画。

      7、伟大的定制。

      8、很棒的图标库。

      缺点:

      1、在免费版本中包含Visme品牌。

      2、可以在标准包中允许更多项目和字体。

      3、在平板电脑和智能手机上尚不可用。

      4、有时您会在项目中间退出。

      费用:此工具的基本版本是免费的。

      除此之外,它还提供3个付费版本:标准版(每月15美元),完整版(每月28美元)和团队版(每月84美元)。这些版本取决于用户数量,下载选项,项目等。

      开源/许可:许可。可以免费试用。

      十三、多莫

      Domo是一种商业智能工具,可以一目了然地提供重要的见解。

      Domo完全可移动(也可在iPad和平板电脑上使用)并且基于云,可将所有人,数据和系统进行数字连接,而每个人都在同一页面上。它提供了微观和宏观分析以及可视化。

      优点:

      1、它提供了各种各样的数据连接器。

      2、无限的数据存储。

      3、令人印象深刻的共享功能。

      4、强大的协作能力。

      5、无尽的可视化功能和报告功能。

      6、在云上。

      7、实时仪表板。

      缺点:

      1、很难学习。

      2、不建议初学者使用。

      3、用户界面不是很直观。

      4、它不提供ML(机器学习)和NLP(自然语言处理)组件。

      费用:定价基于年度订阅。

      它有3个版本–入门版,专业版和企业版。入门版为免费版本,其余两个为付费版本。最低价格为每用户每月$ 83。

      开源/许可:许可。可以免费试用。

      十四、克鲁维奥

      它是一个出色的基于云的分析和可视化平台,主要用于初创公司和数据驱动的团队。它使您可以快速设计漂亮的交互式仪表板。它使用SQL和R进行分析。这些仪表板可以通过链接共享。它还提供了筛选视图和视觉发现功能。

      优点:

      1、简单易用。

      2、可以快速设计和部署报告。

      3、克鲁维奥团队的大力支持和反馈。

      4、很棒的UX。

      5、各种有用的锅选项。

      缺点:

      1、Cluvio可以向结构仪表板添加更多元素/仪表板布局。

      2、对于小型企业来说相当昂贵。

      成本:它有4个版本:

      入门级(€99 /月)

      专业版(€249 / mo)

      商业(€599 / mo)

      Enterprise(€1999 + / mo)

      开源/许可:许可。提供免费试用。

      十五、TapClicks

      Tapclicks通过其营销分析仪表板提供了完整的可视化控制。

      它支持150多个数据连接器。它的突出功能包括白标和自定义品牌,自动营销报告,导出为多种格式,超过100种平台集成,自定义视图和自定义效果警报。

      优点:

      1、该工具的外观和感觉很棒。

      2、信息可以下载并发送给客户端。

      3、使用方便。

      4、多种预设形式。

      5、多级登录。

      6、新电话报告。

      缺点:

      1、信息不能被推回发布者。

      2、可以改进设计。

      3、可以允许有关小部件尺寸,颜色等的更多自定义。

      成本:它有3个版本可用-Basic,Pro和Elite。

      基本版本起价为499美元/月。它主要用于小型公司。有关Pro和Elite版本的价格,您必须与供应商联系。

      开源/许可:许可。可以免费试用。

      十六、BI平台

      借助面向团队的Looker的BI平台,您可以使用单个代码创建可视化,然后从那里可以设计更复杂的可视化。

      您可以使用SQL创建和共享报告,以及设计自己的分析模块。

      优点:

      1、优质的客户服务。

      2、使用方便。

      3、流程简单。

      4、快速学习曲线。

      5、快速组织庞大的数据集。

      6、简单查询。

      缺点:

      1、缺少某些可视化功能-主要在仪表板上。

      2、难以进行LDAP集成设置。

      3、有限的文档和帮助手册。

      费用: 10个用户每月约$ 3000。有关SMB和企业版定价的准确详细信息,您必须与供应商联系。

      开源/许可:许可。可以免费试用。

      十七、Microsoft Power BI

      描述:

      Power BI是Microsoft开发的可视化和分析工具。

      它使您可以连接到各种数据源,设计自定义的仪表板和详细的报告。它同时支持移动和网络。

      优点:

      1、基于云。

      2、提供仪表板的单一视图。

      3、价格适中。

      4、由于这是一个Microsoft工具,因此它与其他MS工具具有很强的品牌集成度。

      5、有很多有关此工具的文档。

      6、庞大而活跃的社区。

      7、多种图表选项可用于数据可视化。

      8、一致的升级。

      9、广泛的数据库连接。

      缺点:

      1、很难学习。

      2、不是处理大量数据的正确工具。它有时会挂起大量数据集。

      3、云版本没有Windows版本中的所有可用功能。

      成本:它有两个企业定价计划-第一个是完全免费的,具有1GB的数据存储限制。第二个计划称为Power BI Pro,每位用户每月需支付9.99美元(数据存储限制为10GB)

      开源/许可:许可。好消息是它有免费和付费(pro)版本。

      十八、Zoho Analytics

      Zoho Analytics是一个自助式BI和分析平台。它允许用户创建有洞察力的仪表板并以可视方式分析任何数据。它具有一个由AI驱动的助手,该助手允许用户以有意义的报告的形式提出问题并获得明智的答案。

      它使您可以设计直观的仪表板和数据可视化。

      特征:

      1、100多个现成的连接器,用于流行的商业应用程序,云驱动器和数据库。

      2、多种可视化选项,包括图表,数据透视表,摘要视图,KPI小部件和自定义主题的仪表板。

      3、统一的业务分析,可分析来自各个业务应用程序的数据。

      4、使用AI和ML支持的智能助手进行增强的分析,可以理解以自然语言提出的查询。

      5、适用于嵌入式分析和BI /分析门户的白标解决方案。

      优点:

      1、连接到任何数据源。

      2、数据同步是自动的,可以定期进行计划。

      3、漂亮的图形界面。

      4、只需很少的精力就可以生成新的报告。

      5、足够大的数据库空间。

      6、价格合理且可扩展。

      7、易于学习和使用。

      缺点:

      1、限制计划报告中收件人电子邮件ID的最大数量。

      2、它不允许在项目中进行太多自定义。

      3、有时它运行缓慢。

      费用:免费计划,基本(每月22美元),标准(45美元),高级(112美元)和企业版(445美元)。

      开源/许可:许可。它有一个免费试用版。判断

      :该工具提供智能数据警报和预测。它利用了AI,ML和NLP技术。

      很少有其他数据可视化软件

      除了上面提到的,我们还有一些其他的数据可视化软件,在这里值得一提。

      十九、Chartio

      这是一个基于云的分析平台,提供交互式仪表板,精美的图表和数据浏览功能。

      它不需要任何SQL知识。

      二十、SAP Analytics Cloud

      该工具基于内存中的SAP HANA技术,可深入了解业务,以便在云上快速做出明智的决策。

      此工具的起价为INR 1,576 /用户/月。

      二十一、IBM Watson Analytics

      它提供了自动数据可视化功能,可帮助确定业务数据中的模式,趋势和复杂关系。

      二十二、Salesforce爱因斯坦分析平台

      该工具提供了预构建的应用程序和仪表板,从而使您几乎可以从任何来源浏览数据。

     

    摘自:https://www.aaa-cg.com.cn/data/2978.html

    更多相关内容
  • 数据分析可视化

    2018-08-15 11:16:33
    数据分析可视化数据分析可视化数据分析可视化数据分析可视化数据分析可视化
  • 通过python爬去豆瓣网的数据,用大数据基础对数据进行清洗,然后对清洗的数据可视化,更直观的展示出来
  • 现在比较流行的大数据数据可视化都是大屏,有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案,但是在国内还是小公司比较多,本人50年大数据开发经验,精通数据可视化,曾经处理过百万亿级别的数据,现在...

    介绍

    现在比较流行的大数据数据可视化都是大屏,有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案,但是在国内还是小公司比较多,本人50年大数据开发经验,精通数据可视化,曾经处理过百万亿级别的数据,现在就让我带领大家做一个开源的大数据可视化系统吧,爬虫部分我们用python开发

    开发思路

    使用python爬取网易云音乐的音乐数据---->数据处理(机器学习tensflow pandas numpy)---->存入MySQL---->进行可视化显示

    开发技术

    pymysql pandas 百度echarts requests

    创新点(特色)

    爬虫、可视化、大数据分析

    Demo样例图

    Python网易云音乐爬虫大数据分析可视化系统
    实现代码如下:

    """歌单数据随天数变化"""
    @app.route('/get_day_data')
    def get_day_data():
        non_vip_df = df[df['vip_type']=='0'].groupby(df['create_time'].str[8:10]).sum().reset_index()[['create_time', 'subscribed_count']]
        vip_df = df[(df['vip_type']=='10') | (df['vip_type']=='11')].groupby(df['create_time'].str[8:10]).sum().reset_index()[['create_time', 'subscribed_count']]
        vip_type_df = pd.merge(non_vip_df, vip_df, left_on='create_time', right_on='create_time', how='inner')
    
        sub_data = {
            "day": [str(int(x)) for x in vip_type_df["create_time"].tolist()], 
            "vip": vip_type_df["subscribed_count_y"].tolist(),
            "nonvip": vip_type_df["subscribed_count_x"].tolist(),
            
        }
    
        return json.dumps(sub_data, ensure_ascii=False)
    

    Python网易云音乐爬虫大数据分析可视化系统
    Python网易云音乐爬虫大数据分析可视化系统
    Python网易云音乐爬虫大数据分析可视化系统
    Python网易云音乐爬虫大数据分析可视化系统
    Python网易云音乐爬虫大数据分析可视化系统
    实现代码如下:

    """动态地图"""
    @app.route('/get_map_data')
    def get_map_data():
        time_df = df.groupby([df['create_time'].str[:4], df['province'].apply(replace_str)])[['play_count', 'share_count']].count().reset_index()
        re_time_df = time_df[time_df['province'] != '海外']
        province = re_time_df['province'].drop_duplicates().tolist()
    
        re_time_df2 = add_province(re_time_df, province)
    
        final_time_df = re_time_df2.sort_values(by=['create_time', 'province']).reset_index(drop=True)
        final_province = final_time_df['province'].drop_duplicates().tolist()
        final_year = final_time_df['create_time'].drop_duplicates().tolist()
    
        playlist_num = []
        for year in final_year:
            playlist_num.append(final_time_df.loc[final_time_df['create_time']==year, 'play_count'].tolist())
    
        playlist_data = {"year": final_year, "province": final_province, "playlist_num": playlist_num}
    
        return json.dumps(playlist_data, ensure_ascii=False)
    

    Python网易云音乐爬虫大数据分析可视化系统

    演示Demo

    Python网易云音乐爬虫大数据分析可视化系统

    开发经验总结

    好大一棵二叉树

    黄昏,暮霭漫漫

    谁在寂寞的遍历树上每一个结点?

    你从无边的代码中抬起头

    夜色,瞬间淹没了每一字节

    春的芬芳

    夏的清香

    秋的艳阳

    冬的晨霜

    是岁月编译了你的芳华

    还是,你打包压缩了岁月的流淌?

    昼夜

    以亘古的规律交替

    城市

    以奔腾的速度刷新

    而你,孜孜不倦皓首穷经以求的该是怎样的一个索引?

    不知道此生,我将创造多少

    bug

    也不知道

    今世,我会手刃bug几何

    但是,我知道

    你用等待,守候我晚归的夜

    虚拟世界

    你是内存中哪一个孤独的进程?

    现实社会

    你是人群中哪一个平凡的身影?

    此端,彼岸

    在冯·诺伊曼体系中切换

    是,程序员设计了程序

    还是,程序造就了程序员?

    程序,程序员——

    你的名字,我的姓氏

    展开全文
  • python爬虫,并将数据进行可视化分析数据可视化包含饼图、柱状图、漏斗图、词云、另附源代码和报告书。
  • 通过requests抓包方式爬取拉勾网深圳市的数据分析岗位信息,并利用pandas、pyecharts、jieba、WordCloud等工具,从多维度进行岗位数据的可视化分析。
  • 利用python爬虫技术爬取中国气象网的天气数据,并对数据进行分析处理可视化,绘制图线,内涵源码及说明文档,完美应付课设及大作业
  • Matplotlib 数据分析可视化

    万人学习 2019-08-30 15:43:53
    数据分析三剑客,NumPy、Pandas、Matplotlib,本课程是对Matplotlib的讲解,Matplotlib可以是分析的数据可视化,可以更直观的查看数据分析的结果,本课程独辟蹊径,不光教大家如何绘图,例如:饼图、柱状图、条形图...
  • 9月2日更:中国大学MOOC课程信息之数据分析可视化二 写在前面 上一篇我的博客:中国大学MOOC课程信息爬取与数据存储于8月24日爬取并存储了中国大学MOOC的各个学科的课程信息。如下: 今天我就来简单做一哈...

    版权声明:本文为博主原创文章,转载 请注明出处:https://blog.csdn.net/sc2079/article/details/82263391

    9月2日更:中国大学MOOC课程信息之数据分析可视化二

    • 写在前面

    上一篇我的博客:中国大学MOOC课程信息爬取与数据存储于8月24日爬取并存储了中国大学MOOC的各个学科的课程信息。如下:

    今天我就来简单做一哈MOOC课程信息的数据分析及可视化。

    PS:初入茅庐,参考了网上很多大佬的文章,特别感谢!

    Python数据可视化-seaborn

    6 种 Python 数据可视化工具

    『数据可视化』基于Python的数据可视化工具

    Python数据分析可视化Seaborn实例讲解

    Python数据可视化:饼状图

    • 环境配置与安装

    运行环境:Python3.6 Spyder

    依赖模块:scipy、matplotlib、pymysql、 jieba、re、collections、wordcloud 、pandas、seaborn、numpy、PIL、pyecharts等

    注:部分模块的安装比较麻烦,可以网上查询相关方法。

    • 开始工作

    1、从Mysql 中获取数据

    比较简单,我就直接贴代码了。

    def get_mysql(): 
        kc_info=[]
        db = pymysql.connect(host='localhost',user='root',passwd='root',db='mooc_courses_info',charset='utf8')
        cur = db.cursor()
        sql = '''SHOW TABLES'''
        cur.execute(sql)
        tables= cur.fetchall()
        for subject in tables:
            cur.execute("select * from %s"% subject)  
            results=cur.fetchall()
            kc_info.append(results)
        return tables,kc_info
    tables,kc_info=get_mysql()

    2、课程名做词云

    我现将全部的课程名提取出来并连接在一起。

    courses_text=''
    for kc in kc_info[0]:
        course_text=kc[1]
        courses_text=courses_text+' '+course_text

    再用jieba分词,Counter计数,导出前100个高频词汇

    courses_jieba = list(jieba.cut(courses_text))
    # 使用 counter 做词频统计,选取出现频率前 100 的词汇
    c = Counter(courses_jieba)
    common_c = c.most_common(100)
    print(common_c)

    结果是这样的:

    x

    显然,“与”、“一”、“上”、标题符号等都不是我们所期待的,必须将其去掉。关于这一点,网上的方法是要利用停用词表去掉这些字词符号,参考这篇:python结巴分词、jieba加载停用词表。由于我所处理的精度以及量不算太多,我直接采用re去除。

    courses_text= re.sub("[\“\”\《\》\(\)\,\——\:\、\-\(\)一二三上下与的及之和中 ]", "",courses_text )

    处理后的结果是这样的:

    x

    看着还算可以吧。

    接下来,就要做词云啦。参考我以前做过的词云,稍微修改一哈就可以啦。特别心酸的是:字体的正确选择,花了我好长时间。

    def word_cloud(common_c):
        # 读入词云模板
        bg_pic = imread('D:\\python_data\\词云模板\\29.jpg')  #一张枫叶图片
        # 配置词云参数
        wc = WordCloud(
                # 设置字体  
                font_path ='C:\\windows\\Fonts\\STSONG.TTF',
    			  # 设置背景色
                background_color='white',
                # 允许最大词汇
                max_words=200,
                # 词云形状
                mask=bg_pic,
                # 最大号字体
                max_font_size=50,
                random_state=100,
                )
        # 生成词云
        wc.generate_from_frequencies(dict(common_c))
        # 生成图片并显示
        plt.figure()
        plt.imshow(wc)
        plt.axis('off')
        plt.show()
        # 保存图片
        wc.to_file('D:\\python_data\\词云图片\\2.jpg')

    x

    3.大学开课数统计

    创建一个数组,记录开课数前20个的大学,并用柱形图表示出来。

    def bar_plot(datas):   
        plt.rcParams['font.sans-serif'] = ['SimHei']  # 中文字体设置-黑体
        plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
        sns.set(font='SimHei')  # 解决Seaborn中文显示问题
        datas=pd.DataFrame(datas[0:20],columns=['大学','开课数'])
        sns.barplot(x=datas['大学'],y=datas['开课数'],palette="muted")
        plt.xticks(rotation=90)
        plt.show()
    
    #大学开课数统计
    uni_courses_num={}
    for kc in kc_info[0]:
        uni_courses_num[kc[2]] = uni_courses_num.get(kc[2],0) + 1
    items = list(uni_courses_num.items())
    items.sort(key=lambda x:x[1], reverse=True)
    bar_plot(items)

    得到的结果如下:

    x

    可以看出,哈工以巨大优势问鼎,电科、东北大学紧追其后。开心的是,母校也榜上有名!母校加油!

    4.课程热度分析

    这里我是在全部课程里统计课程热度的,如果有兴趣的话,你也可以选取你感兴趣的学科进行热度统计。

    def bar_plot2(datas):
        f, ax=plt.subplots(figsize=(8,12))
        datas=pd.DataFrame(datas[0:20],columns=['课程名称','热度'])    
        #orient='h'表示是水平展示的,alpha表示颜色的深浅程度
        sns.barplot(y=datas['课程名称'], x=datas['热度'],orient='h', alpha=0.8, color='red')
        #sns.barplot(y=datas['课程名称'], x=datas['热度'],palette="muted")
        #设置X轴的各列下标字体是水平的
        plt.xticks(rotation='horizontal')
        #设置Y轴下标的字体大小
        plt.yticks(fontsize=10)
        plt.show()
    
    #课程热度统计
    courses_hot=[]
    for kc in kc_info[0]:
        courses_hot.append((kc[1],kc[5]))
    courses_hot.sort(key=lambda x:x[1], reverse=True)
    bar_plot2(courses_hot)

    运行结果如下:

    x

    可以看出,财务管理最受欢迎,达到18万之多。另外,高数、编程类、英语口语类、财务类受欢迎度远超其他学科门类。

    5、学科开课数统计

    先统计各个学科的课程数量,为了绘图更简洁美观,有些课程少的我打包放进了“其它”。

    num=5
    subject_courses=[]
    for i in range(1,len(tables)):
        subject_courses.append((tables[i][0],len(kc_info[i])))
    subject_courses.sort(key=lambda x:x[1], reverse=True)
    left_courses=0
    for i in range(num):
        print(subject_courses[-i-1][1])
        left_courses+=subject_courses[-i-1][1]
    deal_subject_courses=subject_courses[0:len(subject_courses)-num]
    deal_subject_courses.append(('others',left_courses))

    参考了网上一些代码,做了一些修改,如下:

    def pie_plot(datas):
        # # 饼状图
        labels,sizes=[],[]
        for i in range(len(datas)):
            labels.append(datas[i][0])
            sizes.append(datas[i][1]) 
        # plot.figure(figsize=(8,8))
        colors = ['red', 'yellow', 'blue', 'green','blueviolet','gold','pink','purple','tomato','white']
        colors=colors[0:len(sizes)]
        explode = (0.2, 0, 0, 0,0,0,0,0,0,0,0)
        explode=explode[0:len(sizes)]
        patches, l_text, p_text = plt.pie(sizes, explode=explode, labels=labels, colors=colors,
                                           labeldistance=1.1, autopct='%2.1f%%', shadow=False,
                                           startangle=-180, pctdistance=0.6)
    
        # labeldistance,文本的位置离远点有多远,1.1指1.1倍半径的位置
        # autopct,圆里面的文本格式,%3.1f%%表示小数有三位,整数有一位的浮点数
        # shadow,饼是否有阴影
        # startangle,起始角度,0,表示从0开始逆时针转,为第一块。一般选择从90度开始比较好看
        # pctdistance,百分比的text离圆心的距离
        # patches, l_texts, p_texts,为了得到饼图的返回值,p_texts饼图内部文本的,l_texts饼图外label的文本
    
        # 改变文本的大小
        # 方法是把每一个text遍历。调用set_size方法设置它的属性
        for t in l_text:
            t.set_size = 30
        for t in p_text:
            t.set_size = 20
        # 设置x,y轴刻度一致,这样饼图才能是圆的
        plt.axis('equal')
        plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))
        # loc: 表示legend的位置,包括'upper right','upper left','lower right','lower left'等
        # bbox_to_anchor: 表示legend距离图形之间的距离,当出现图形与legend重叠时,可使用bbox_to_anchor进行调整legend的位置
        # 由两个参数决定,第一个参数为legend距离左边的距离,第二个参数为距离下面的距离
        plt.grid()
        plt.show()

    运行结果如下:

    x

    可以看出,理工类课程开课最多,管理类、生命科学类其次,文学历史、教育教学等相对较少。

    另外,我还用了pyecharts生成动态图表

    如:

    x

    比较疑惑的是,最上边图例为什么没有注释(去掉这个学科便出现了)。如果有知道原因或解决方法的,欢迎留言或私戳,不甚感谢!

    • 结语

    其实还有很多可以做的,比如统计每个省份开课数(通过大学定位)、统计每月开课数等。有空再补吧!

    展开全文
  • [实操]Python财务数据分析可视化

    千次阅读 2020-09-21 08:32:01
    from matplotlib import pyplot as plt plt.rcParams['font.family'] = 'Noto Sans CJK JP' plt.rcParams['axes.unicode_minus'] = False plt.figure() plt.subplot(1,1,1) x=[0,1,2,3,4] y=[3,7,5,9,4] ...
    from matplotlib import pyplot as plt
    plt.rcParams['font.family'] = 'Noto Sans CJK JP'
    plt.rcParams['axes.unicode_minus'] = False
    plt.figure()
    plt.subplot(1,1,1)
    x=[0,1,2,3,4]
    y=[3,7,5,9,4]
    plt.ylabel('Y_LABEL')
    plt.xlabel('X_LABEL')
    plt.title('Matlib_案例')
    plt.plot(x,y)
    plt.show()

    import pandas as pd
    df1 = pd.read_excel(r'./fin_databak.xlsx',sheet_name=0,converters={'年':str,'公司':str})
    monthdict={'Jan':'01','Feb':'02','Mar':'03','Apr':'04','May':'05','Jun':'06','Jul':'07','Aug':'08','Sep':'09','Oct':'10','Nov':'11','Dec':'12'}
    df1 = df1.drop('月2',axis=1,errors='ignore')
    df1.insert(2,'月2',value=df1['月'].map(lambda x:monthdict[x]))
    df2 = df1.sort_values(by=['公司','年','月2'],ascending=True).reset_index(drop=True)
    df3 = pd.read_excel(r'./fin_databak.xlsx',sheet_name=1,converters={'年':str,'公司':str})
    df4 = pd.merge(df2,df3,how='left')
    df6 = df4.groupby(['年','月2','月'],as_index=False).sum()
    df6.head(12)

     

    df6['毛利率'] = (df6['营业收入']-df6['营业成本'])/df6['营业收入']
    df6['利润率'] = df6['利润总额']/df6['营业收入']
    df6['净利率'] = df6['净 利 润']/df6['营业收入']
    df6['资产净利率'] = df6['净 利 润']/df6['资产合计']
    df6['权益净利率'] = df6['净 利 润']/df6['权益合计']
    df6['资产负载率'] = df6['负债合计']/df6['资产合计']
    df6['平均单价'] = df6['营业收入']/df6['销售量']
    df7 = df6.loc[(df6['年']=='2018'),['年','月','毛利率','利润率','净利率','资产净利率','权益净利率','平均单价']]
    df7

    df7.plot(x='月',y=['毛利率','利润率','净利率','资产净利率','权益净利率'],title='2018年公司个指利率统计',figsize=(12,4))

     

    df7.plot('月',['平均单价','毛利率'],secondary_y=['毛利率'],kind='bar',title='2018年平均单价&毛利率对比',figsize=(12,4),rot=0)

    figure,axes = plt.subplots(2,1,figsize=(12,8),sharex=True)
    ax0 = df7.plot('月',['毛利率','利润率','净利率','资产净利率','权益净利率'],title='2018年平均单价&毛利率对比',ax=axes[0])
    ax1 = df7.plot('月','平均单价',kind='bar',title='2018平均单价&毛利率比对',color='gold',ax=axes[1])
    ax2 = df7.plot('月','毛利率',secondary_y=True,color='orangered',ax=axes[1],style='--',marker='o',linewidth=2)

    from pyecharts.charts import Bar
    from pyecharts import options as opts
    bar = (
        Bar()
        .add_xaxis(['A公司','B公司','C公司','D公司','E公司','F公司'])
        .add_yaxis('库存量',[100,200,360,100,750,900])
    )
    bar.render_notebook

     

    from pyecharts.globals import ThemeType
    bar = (
        Bar(init_opts=opts.InitOpts(theme=ThemeType.DARK))
        .add_xaxis(['A公司','B公司','C公司','D公司','E公司','F公司'])
        .add_yaxis('库存量',[100,200,360,100,750,900])
        .add_yaxis('销量',[100,200,160,100,650,200])
        .set_global_opts(title_opts=opts.TitleOpts(title='主标题:各公司库存量对比',subtitle='副标题:2019年'))
    )
    bar.render_notebook()

    from pyecharts.charts import Line
    
    
    y1 = df7['毛利率'].tolist()
    y2 = df7['利润率'].tolist()
    y3 = df7['净利率'].tolist()
    y4 = df7['资产净利率'].tolist()
    y5 = df7['权益净利率'].tolist()
    x = df7['月'].tolist()
    
    line = (
        Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
        .add_xaxis(x)
        .add_yaxis('毛利率',y1,linestyle_opts=opts.LineStyleOpts(width=3))
        .add_yaxis('利润率',y2,linestyle_opts=opts.LineStyleOpts(width=3))
        .add_yaxis('净利率',y3,linestyle_opts=opts.LineStyleOpts(width=3))
        .add_yaxis('资产净利率',y4,linestyle_opts=opts.LineStyleOpts(width=3))
        .add_yaxis('权益净利率',y5,linestyle_opts=opts.LineStyleOpts(width=3))
        .set_global_opts(title_opts=opts.TitleOpts(title='2018年公司各指标利率统计',
                        pos_left='center'),legend_opts=opts.LegendOpts(pos_top='5%'),
                        toolbox_opts=opts.ToolboxOpts(pos_top='%5'))
        .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    )
    line.render_notebook()

     

     

    展开全文
  • 数据聚焦于数据的采集、清理、预处理、分析和挖掘,图形聚焦于解决对光学图像进行接收、提取信息、加工变换、模式识别及存储显示,可视化聚焦于解决将数据转换成图形,并进行交互处理。 信息:是数据的内涵,信息是...
  • python小白,在“一心学”公众号学习了一点疫情数据分析可视化的课程,记录下来,供小白参考。 目录 一、基本数据的查看和初步处理 二、时间序列与区域划分 三、快速查看不同省市疫情现状 四、累计确诊病例走势 五、...
  • 疫情数据分析可视化

    千次阅读 多人点赞 2021-01-07 14:24:56
    疫情数据分析可视化python实现数据分析可视化前言一、什么是Python爬虫?二、Python爬虫相关知识1.相关书籍资料推荐(建议谷歌打开)2.数据获取3.知识点三、数据分析可视化1.安装2.CSV表格操作3.可视化总结 ...
  • 数据分析之数据可视化

    千次阅读 2021-08-28 14:43:21
    数据可视化主要借助于图形化手段,清晰有效地传达与沟通信息。通过图表使冗长的数据表达更加形象化,可以把问题的重点有效传递给观者。 一 看懂不同类型的图表 在实现数据可视化之前,我们首先要了解有哪些图表...
  • 司南智图: 一站式大数据分析可视化平台 司南智图遵从“开放、融合、创新、共赢”的建设理念,紧密结合“大数据、互联网+”技术,提供“空间数据+非空间数据”的全平台解决方案,解决一份数据需要使用多个平台的烦恼...
  • 该资源是针对这次肺炎疫情写个Python大数据分析系列博客,包括网络爬虫、可视化分析、GIS地图显示、情感分析、舆情分析、主题挖掘、威胁情报溯源、知识图谱、预测预警及AI和NLP应用等。希望该系列线上远程教学对您...
  • python数据分析基础(一) 该部分将对python数据结构、函数等基础内容进行回顾,python大牛和想要直接套用模板进行数据分析方法的朋友可以直接跳过此部分。 一、基本数据结构-元组和列表 元组和列表是python最...
  • Python数据分析可视化--Titanic

    千次阅读 2021-01-16 16:55:49
    Python数据分析可视化–Titanic 这篇文章主要介绍泰坦尼克幸存者问题的数据处理以及可视乎部分,关于机器学习部分: 机器学习2:KNN决策树探究泰坦尼克号幸存者问题 文章目录Python数据分析可视化--Titanic导入数据...
  • Python爬虫以及数据可视化分析

    万次阅读 多人点赞 2020-12-25 17:43:30
    Python爬虫以及数据可视化分析之B站动漫排行榜信息爬取分析 简书地址:https://www.jianshu.com/u/40ac87350697 简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析 源码文件可以参考Github上传的...
  • Python是进行数据分析的一种很不错的语言,主要是因为以数据为中心的库非常适合。 Pandas是其中的一种,使导入和分析数据更加容易。 在本文中,我使用了来分析斯坦福网站的公共数据集中的Country Data.csv文件中的...
  • Spark-数据分析可视化Zeppelin

    千次阅读 2016-04-26 12:21:21
    官网介绍Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析可视化。背后可以接入不同的数据处理引擎,包括Spark, hive, tajo等,原生支持scala, Java, shell, markdown等。它的整体展现和使用...
  • 目录关于前言步骤与思路代码效果总结 关于 关于本次代码用到的库有xpath库和requests和pygal ...pygal用法 chart=pygal.Bar ...x轴数据的名字 chart.x_title x轴居中位置填写的标题 chart.add 显
  • 几十个炫酷可视化数据分析网站你值得拥有

    千次阅读 多人点赞 2021-07-03 22:01:25
    事情是这样的最近这几天肥学在做项目的时候搞数据分析,就找到了这么多好东西有数据可视化的,还有词频分析的,等等我不多说了,大家自己打开看吧。估计以后最项目能用的上,我就简单的分个类费给大家,好了“我们不...
  • 来源丨高下制图你眼中的数据可视化的作品是否是各种条形图、柱状图等等堆积在一起进行数据的展示?今天看完为大家整理的17个数据可视化优秀作品,你就知道原来数据可视化作品还可以这样做,欢迎大家分...
  • 淘宝双11大数据分析(数据可视化

    万次阅读 多人点赞 2020-02-27 18:18:08
    这一篇是最终篇,也是展示数据分析之后的结果的一篇。 其他文章: 淘宝双11大数据分析(环境篇) 淘宝双11大数据分析(数据准备篇) 淘宝双11大数据分析(Hive 分析篇-上) 淘宝双11大数据分析(Hive 分析篇-下) ...
  • python数据分析可视化

    千次阅读 2020-05-21 15:14:00
    某大型超市的年销售数据信息如下所示: 从左往右的相应字段分别为:订单日期、订单编号、商品门类、采购地区、销售额、数量以及利润。 首先导入所需要的库,并读取表格: import pandas as pd from pyecharts ...
  • 文章目录全部9 全部 9
  • Python 天气 简单 数据分析可视化

    万次阅读 多人点赞 2020-06-02 22:05:50
    Python 天气情况数据分析可视化 环境配置 Pycharm开发环境 python 版本 python3.7 Anconda 集成开发环境 第三方库导入 ## pip install 模块 清华大学镜像源 import requests from bs4 import BeautifulSoup ...
  • python小白,在“一心学”公众号学习了一点疫情数据分析可视化的课程,记录下来,供小白参考。 目录 一、基本数据的查看和初步处理 二、时间序列与区域划分 三、快速查看不同省市疫情现状 四、累计确诊病例走势 五、...
  • 本篇文章小编为大家专门推荐24款好用的数据可视化分析工具,全到你无法想象。 1、Excel 作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上课选择的范围...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 327,642
精华内容 131,056
关键字:

数据分析可视化