精华内容
下载资源
问答
  • “使用Python进行化学数据分析和机器学习简介”示例程序 这是“用Python进行化学数据分析和机器学习简介”一书(由Hiromasa Kaneko编写)的示例程序。 这本书的网址欧姆沙(Ohmsha): : (即使在亚马逊上缺货,...
  • 最近1年的主要学习时间,都投资到了 python 数据分析和数据挖掘上面来了,虽然经验并不是十分丰富,但希望也能把自己的经验分享下,帮助到更多想转行python数据分析和人工智能的朋友,给广大同学朋友规划个适合学习...

    最近1年的主要学习时间,都投资到了 python 数据分析和数据挖掘上面来了,虽然经验并不是十分丰富,但希望也能把自己的经验分享下,帮助到更多想转行python数据分析和人工智能的朋友,给广大同学朋友规划个适合学习规划。

    我大学学习的应用化学,后来毕业做了2年全栈设计师(PS:设计和前端都不熟练的那种),后来出于对爬虫开发的喜欢(爬图片、爬视频)还有人工智能、机器学习、大数据的火热程度的追捧,毅然决然报了培训班,在深圳培训了半年python,后来出来找工作,在期货交易所工作,主要工作是数据处理和分析、机器学习、自然语言处理、图像处理等,项目是一个全自动化智能云测试云平台,现大概讲下想转行数据分析、机器学习、人工智能应该必备的知识和学习路线

    转行数据分析(机器学习、人工智能)学习路线:

    0、学习python基础语法知识(ps:0是第一个公众号回复:python)

    1.学习MySQL,能熟练对数据库数据的增删改查命令,面试也会经常问到

    2.学习正则表达式,用于数据的提取 re模块

    3、前端入门html\css\jquery,用于分析网页页面结构

    4.学习爬虫技术,熟练掌握requests、scrapy模块,可以从网络上爬很多数据源,用于分析统计(转行数据分析可以先从爬虫做起,公众号回复:爬虫)

    (以下几个模块是数据分析最常用的库,一定要学好)

    5.学习科学计算和分析包,numpy 和 pandas(公众号回复:数据分析)

    6.学习可视化,分析结果可视化的包 matplotlib,实现数据绘图展示

    7.学习数据挖掘模型,这个包主要是 sklearn,里面的算法基本都有对应的包,但希望大家能对高等数学、概率论、线性代数、信息论的基础理论进行学习,这些算法都是基于数学基础,如果数学理解不透,也只能当一个调包侠(公众回复:机器学习)

    8.神经网络的框架,推荐学习 TensorFlow 或者 keras,karas 是把TensorFlow 封装起来的高级包,学习难度比较低。还有一个更加高级的框架 caffe,据说很厉害。

    9.常见神经网络:回归网络,分类网络,卷积神经网络(CNN)在图像语言等领域处理方面优秀,循环神经网络(RNN)利于时间序列分析分析,长短时间记忆(RNN LSTM ),避免过度拟合。自编码网络,这个我不了解,也不感兴趣。神经网络还很多,技术前沿的东西还不知道。

    10.如果你想做正规的 Python 工程师,需要学习面向对象,掌握面向对象思维,无往而不利

    数据分析要不要学高数、概率论、线性代数?

    如果不想只当调包侠,也不想在工作中因为不理解数学过程太痛苦的话,多补补数学理论吧,至少我工作中接触到简单的数学概念有:标准差、方差、协方差、协方差矩阵、余弦相似度、导数、对数、偏导、概率论、熵、信息论、矩阵运算、向量的运算等等。只能说列举的这些是基础中的基础,比这更难的我也正在学。

    数据分析要不要学后端框架?比如django和flask

    以上过程是一个快速转行数据分析的路线,可能有些介绍不是太全,但大致的学习方向就按这个来,就会少走弯路,但其实作为一名python开发者,个人建议最好还能运用一种后端框架,能够搭建web后端项目也很重要,虽然在公司工作是数据分析,但是公司经常可能性的会让搭一些简单的项目,艺多不压身,我个人喜欢用django

    数据分析要不要学前端?(html、css、js)

    回答是肯定的:必须学,能阅读懂是基本,越熟练深入越好,因为做数据分析很多都是从爬虫和web转过来的,而爬虫和web都对前端技术有一定要求,比如如下原因:

    爬虫读取页面结构,获取标签,你要能看懂HTML

    爬虫的很多反爬虫措施基于厉害的js代码和一些复杂的css,如果不懂,爬虫很难做到深层次

    后台项目,至少在PC端的,很多情况下,都要求后端开发人员能读懂前端代码

    Python 数据分析是一个非常专业的方向,需要有较多的数学理论知识,而且需要有刻苦专研的精神。既然是编程语言,就需要写很多代码,我至少写了 10k行代码了。最后你还需要了解你自己希望从事什么行业,传统数据挖掘在银行,保险,电信,电商等领域已经很普及了成熟了。对于那些高级的神经网络,也就是类似AI 领域,在图片语音视频识别,自动驾驶,量化投资,机器人等领域有很好的。很多分析师都转行做这块了,还是话说回来,想学习的很多,多实践,加油!

    经验有限,不足之处欢迎指正!

    展开全文
  • 因为不同仪器软件导出来的数据格式不具有通用性和可移植性,常见的有xls、txt,还有很多不常见的bin、csv、opj这些,有时候希望能够通过数据分析软件直接达到图表展示目的。但是因为互相不兼容的问题,程序之间的...

    化学材料科研不可缺少的环节:数据处理以及做图

    我印象中我大多数处理数据的时间是在不同数据格式的转换,复制粘贴等。因为不同仪器软件导出来的数据格式不具有通用性和可移植性,常见的有xls、txt,还有很多不常见的bin、csv、opj这些,有时候希望能够通过数据分析软件直接达到图表展示目的。但是因为互相不兼容的问题,程序之间的衔接和数据传递都做不到,另外在不同的工具之间切换也实在令人不爽。

    当我认识python之后发现这一切原来是可以实现的。python 本身可以作为script语言来使用;它的强大的数学库numpy和scipy几乎可以替代matlab完成复杂的数据处理;matplotlib 可以实现高质量的数据做图;pymol 本身就是 python 写成的,可以实现结构做图。python的面向对象的特点可以自己定义需要的库,方便以后调用。由于这些工具都集成在python中,移植性当然不成问题。另外,python还提供了其他的很有用的库,比wxpython可以用来做出一个图形界面;另外还有库可以将程序嵌入到网页当中,成为一个网页应用。这些都可以使计算化学更加方便和友好。

    我们课题组方向主要就是做材料,材料领域要发高档次论文,理论计算(theoretical calculation)必不可少。理论计算常用的就是高斯和MS,我的理论计算就是采用MS软件包中的Visualizer模块来构建计算所需的结构模型,然后随后的计算则是在MS软件的Dmol3模块中完成的。

    python在理论计算程序也有实质性的贡献。PyQuante (Python Quantum Chemistry) 就是一个使用python写成的量化计算软件。尽管PyQuante使用一些C语言来加速某些模块,它的计算速度与常用的量化软件还是差了一些。但PyQuante的优势在于容易阅读和修改。及其适用于新手学习,上手快。

    展开全文
  • 数据分析4.1 质量评分分析4.1.1 质量评分的频数统计4.1.2 质量评分的描述性统计4.1.3 绘制质量评分的直方图4.1.4 T检验4.2 化学成分间的相关性分析4.3 建立线性回归模型4.3.1 选取样本4.3.2 自变量标准化4.3.3 建立...

    1. 明确需求和目的

    以葡萄酒类型为标签,分为白葡萄酒和红葡萄酒。比较这两种葡萄酒的差别并选取葡萄酒的化学成分:固定酸度、挥发性酸度、柠檬酸、氯化物、游离二氧化硫、总硫度、密度、PH值、硫酸盐、酒精度数共11个,针对酒的各类化学成分建立线性回归模型,从而预测该葡萄酒的质量评分。

    2. 数据收集

    3. 数据预处理

    3.1 数据整合

    3.1.1 加载相关库和数据集

    • 使用的库有:pandas、numpy、matplotlib、seaborn、statsmodels
    • 使用的数据集:winequality-both.csv
      在这里插入图片描述
      在这里插入图片描述

    3.1.2 数据概览

    在这里插入图片描述
    在这里插入图片描述
    从上图可以看出特征和质量评分的均值和方差,分位数等,其中,质量评分的均值为5.818378。

    3.2 数据清洗

    3.2.1 列名重命名

    从上面发现列名不符合Python的命名规范,对列名进行一下重命名,采用下划线命名法:
    在这里插入图片描述

    3.2.2 数据类型处理

    查看各个列的数据类型:
    在这里插入图片描述
    从上图可以看出,除了葡萄酒的type位object类型,其余特征的数据类型都为float型,没有问题,所以不需要进行数据类型处理。

    3.2.3 缺失值处理

    查看缺失值情况:
    在这里插入图片描述
    发现没有缺失值,所以不需要进行缺失值处理。

    3.2.4 异常值处理

    简单查看一下是否有异常值:
    在这里插入图片描述
    没发现明显的异常值,不需要进行处理。

    4. 数据分析

    4.1 质量评分分析

    4.1.1 质量评分的频数统计

    在这里插入图片描述
    可以看出质量评分为3-9分,其中质量评分为6的数量是最多的,其次是评分为5, 质量评分为9的数量是最少的。

    4.1.2 质量评分的描述性统计

    按葡萄酒的类型分组,分为两组,:红葡萄酒和白葡萄酒。分别打印出两组葡萄酒的质量的摘要统计量。
    在这里插入图片描述
    可以看出红葡萄酒和白葡萄酒的数据量相差很大,但均值、最值等都相差不大。

    4.1.3 绘制质量评分的直方图

    在这里插入图片描述
    在这里插入图片描述
    上图显示了不同类型葡萄酒的质量评分密度条形图,可以发现葡萄酒的质量评分大部分集中在5-7分,评分为9的几乎没有。从对比来看,白葡萄酒的质量评分普遍高于红葡萄的质量评分,尤其是评分为6分和7分的较为显著,白葡萄酒评分为6分和7分的数量将近是红葡萄酒的2倍。不过,评分为5的白葡萄酒和红葡萄酒的数量相当,甚至,红葡萄酒更胜一筹。

    4.1.4 T检验

    对不同葡萄酒的质量评级进行t检验(原假设设为红白两种葡萄酒质量相同)
    在这里插入图片描述
    从检验的结果来看,p值<0.05,拒绝原假设,即认为红白两种葡萄酒质量有显著性差异,并且从均值上来看白葡萄酒的平均质量等级在统计意义上大于红葡萄酒的平均质量等级。

    4.2 化学成分间的相关性分析

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    从各变量的相关系数来看酒精含量、硫酸酯、pH 值、游离二氧化硫和柠檬酸这些指标与质量呈现正相关,即当这些指标的含量增加时,葡萄酒的质量会提高;非挥发性酸、挥发性酸、残余糖分、氯化物、总二氧化硫和密度这些指标与质量呈负相关即当这些指标的含量增加时,葡萄酒的质量会降低。从相关系数可以看出,对葡萄酒质量影响最大的是葡萄酒是酒精含量,其相关系数为0.444,其次是酒的密度,但酒的密度对酒的质量是负影响的。

    4.3 建立线性回归模型

    4.3.1 选取样本

    因为红葡萄酒和白葡萄酒的数据量相差很大,所以各选取200个样本。
    在这里插入图片描述

    4.3.2 自变量标准化

    在这里插入图片描述

    4.3.3 建立回归模型

    在这里插入图片描述
    在这里插入图片描述
    线性回归模型为:quality= 0.0877fixed acidity -0.2186volatile acidity -0.0159citric_acid+ 0.2072residual_sugar-0.0169chlorides+ 0.1060free_sulfur_dioxide -0.1648density-0.1402total_sulfur_dioxide+0.0706pH+0.1143sulphates+ 0.3185*alcohol+5.8184

    4.4 预测

    有了线性回归模型,当给出了葡萄酒的化学成分的数据就可以预测该葡萄酒的质量评分。

    参考文章:https://blog.csdn.net/weixin_42384784/article/details/106179705

    展开全文
  • 用于与大气化学和技术实验室有关的数据分析Python脚本 它是什么 ACT是一个python库,用于解析和分析与大气化学领域有关的数据。 主要特点 解析Thermo Scientific分析仪中的数据并导出为csv,txt或xlsx格式 将数据...
  • MolSSI Python数据和脚本研讨会是为当前正在参与或计划开始计算化学研究的学生而设计的。 本次研讨会旨在帮助学生发展实用的编程技能,这将有益于他们的本科研究,并将引导学生通过Python进行入门编程和脚本编写,...
  • 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。 本专栏数据分析全系列:将使用Excel,Powerbi...

    @Author : By Runsen
    @Date : 2020/5/13

    作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。

    本专栏数据分析全系列:将使用Excel,Powerbi,Python,R,Sql,SPSS,stata以及Tableau,后面还会补充BI。这个从2020年期末考试,由于大三上大学挂了大学以来的两科化工原理和热力学。从此,决定逃离CSDN,但是发现我已经深深爱上了CSDN,这个我从大一奋斗到现在的地方。

    于是将每天一直写,不断地回顾和反省,大学三年搞数据的从小白变老手的经验,想看就给钱,就是这么直接。这些是一月份我决定写书,结果别人看不起我写的。

    没看上篇的先看上篇

    十二、Powerbi绘制人员地区分布图和后期学习

    正如标题所言,写了两年多Python文章的我,带你走进Python数据分析。

    我在零基础学Python专栏,写了搭建环境,我真的不想再写了,直接看下面两篇,内容基本一致。

    搭建Python环境和安装Pycharm(一)

    搭建Jupyter Notebook环境(二)

    2、Python数据分析

    @Author:By Runsen (版权所有)

    前言:对于初学者来说,Python是一个不错的语言,Python语言简单易懂,而且有着丰富的数据库以及活跃的社区,对于大数据分析有很明显的帮助。

    2.1 Python科学计算

    2.1.1 Anaconda的安装

    Anaconda官网下载链接:https://www.anaconda.com/distribution/#download-section,选择Python3版本的安装包下载即可,如下图 2-1所示

    如果下载速度过慢,可以选择安装Anaconda的清华镜像,网址https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive

    下载完成之后,直接双击安装包安装即可。安装后添加清华镜像源解决conda install 下载速度慢的问题,打开Anaconda Prompt命令行,依次添加命令

    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
    conda config --set show_channel_urls yes
    

    2.1.2 conda常见命令和虚拟环境搭建

    conda不仅可以方便安装,更新,卸载工具包,而且安装时能自动安装相应的依赖包。conda命令多数时候是在配置虚拟环境时使用,下面是conda常见命令

    conda list              //查看当前的包
    conda search request    //查找request库
    conda install request   //安装request库
    conda uninstall request //删除request库
    conda update request    //更新request库
    

    很多时候不同的库依赖不同的依赖包,需要创建虚拟环境,下面是conda创建虚拟环境的常用命令

    conda info --envs       //查看安装好的环境
    # deeplearn代指克隆得到的新环境的名称,base代指被克隆的环境的名称
    conda create --name deeplearn --clone base
    # 激活虚拟环境
    activate envname //for windows
    source activate envname //for liunx and mac
    # 退出虚拟坏境
    deactivate
    

    在创建的虚拟环境上运行jupyter notebook,但发现在notebook中的python其实并没有运行在指定的虚拟环境引擎上,只需要安装nb_conda_kernels插件即可解决,注意是在base环境下安装,而不是虚拟环境

    (base) conda install nb_conda_kernels
    

    安装成功后,在kernel -> change kernel中即可切换到指定的虚拟环境

    2.1.3 Python和Pycharm安装

    进入Python官网https://www.python.org/,找到首页的Download,点击最新Python版本3.8进行安装。下载Pyhon安装包。下载成功后双击下载的安装包,注意要勾选:Add Python 3.8 to PATH,添加环境变量到系统中,如下图2-2所示。

    安装完成后,进行验证,win+R输入cmd,进入命令提示符,输入Python进行测试,如果出现和测试结果如图,说明Python安装成功

    注意:安装Anaconda即默认安装Python,即不再需要再次安装Python

    PyCharm是一种Python IDE (Integrated Development Environment ) ,翻译为集成开发环境,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。所以Pycharm是一款付费的IDE,这里不提供如何破解。

    进入JetBrains开发公司官网:https://www.jetbrains.com/,安装Pycharm。

    总结

    一个anconda,一个Pycharm就足够了。

    Python数据分析是最没有难度的东西,也是最辣鸡的简单的东西,一个numpy,一个pandas,一个matplotlib,跟着我来就对了。

    展开全文
  • 原标题:从化学实验室到数据分析师,月薪翻倍后的转行经验总结!从一名化学专业的学生蜕变为一位互联网大厂数据分析师,我花了三年时间。写这篇文章的首要目的是对自己三年工作经历的复盘和总结;其次是将自己的这段...
  • 葡萄酒质量数据集   葡萄酒质量数据集包括两个文件——红...输入变量是葡萄酒的物理化学成分和特性,包括非挥发性酸、挥发性酸、柠檬酸、残余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐和酒精含...
  • Python----数据分析-使用scikit-learn构建模型实训(wine数据集、wine_quality数据) 目录: 实训1 使用 sklearn处理wine和wine_quality数据集 实训2 构建基于wine数据集的k- Means聚类模型 实训3 构建基于wine数据...
  • 我对 Python 语言及其用于数据操作、处理、清理和可视化的主要库(Pandas、Numpy、Scikit-learn 和 Seaborn)有基本的了解。 链接: [网站](建设中) 在这里,您可以找到我在数据科学、机器学习和深度学习领域的...
  • AlphaTims是一个开放源代码的Python软件包,它提供了来自仪器的未处理LC-TIMS-Q-TOF数据的快速访问和可视化。 它索引数据,以便可以轻松地沿所有五个维度切片:LC,TIMS,QUADRUPOLE,TOF和DETECTOR。 它是由的开发...
  • Python语言可以利用Pandas、Pyecharts等各种类库,进行数据分析。 本文介绍的成绩分析大体分为三步: 一、拼合单科成绩,合成学年成绩,计算总分,按总分成绩排名次,然后由学年成绩筛选出各个班级的成绩,将学年...
  • DFT的matlab源代码很棒的Python化学 与化学相关的精选Python框架,库,软件和资源的精选清单。 受启发。 目录 普通化学 通用化学包装和工具。 -基于wxPython的GUI应用程序,用于通过其组分的摩尔比计算出特定组成的...
  • 是一个Python软件包,可通过提供的数据访问和查询化学-基因/蛋白质相互作用,化学-疾病和基因-疾病关系。 数据安装在(本地或远程)RDBMS中,通过使用SQLAlchemy数据库层,可以使生物信息算法对复杂查询的响应时间...
  • Python脚本:聚类小分子数据

    千次阅读 2018-07-25 15:10:54
    聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。 基于...
  • 最近1年的主要学习时间,都投资到了python分析数据挖掘上面来了,虽然经验并不是十分丰富,但希望也能把自己的经验分享下,最近也好多朋友给我留言,和我聊天,问我python该如何学习,才能少走弯路,今天整理这...
  • 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。 本专栏数据分析全系列:将使用Excel,Powerbi...
  • 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。 本专栏数据分析全系列:将使用Excel,Powerbi...
  • 目的是使科学家能够对生物系统的结构,动力学和化学进行分析,并支持生物分子NMR光谱学领域的进一步发展。 BMRB将其数据保存在关系数据库中,并以格式保存为平面文件。 它还通过API提供数据访问,并提供处理NMR-...
  • Python 3中的数据结构和算法 这里是使用Python3练习和展示数据结构,算法和其他有用概念的地方。 目录信息: 算法: 使用具有图像字节数组和密钥的按位... 数据分析(猜疑?) 水/化学分析 物理和虚拟安全自动化
  •  和主成分分析相似,首先从原理上说,主成分分析是试图寻找原有自变量的一个线性组合,取出对线性关系影响较大的原始数据,作为主要成分。  因子分析,是假设所有的自变量可以通过若干个因子(中间量)被观察到。...
  • 从RDKit的基本用法中看到了化学信息学中使用的各种概念。... 另一方面,在使用python进行数据科学和探索性数据分析中,主流是使用pandas Series和DataFrame数据类型。这次,将通过学习如何使用pandas D...

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 209
精华内容 83
关键字:

python化学数据分析

python 订阅