精华内容
下载资源
问答
  • 常用的文献信息分析方法
    万次阅读 多人点赞
    2019-04-24 16:43:00

    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。

    注:这些统计分析方法基本都是统计学的方法,统计学专业的同学对此应该都非常熟悉

    一、描述统计

    描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

    1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。

    2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    二、假设检验

    1、参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。

    1)U验   使用条件:当样本含量n较大时,样本值符合正态分布

    2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布

    A  单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

    B  配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

    C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

    2、非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    A 虽然是连续数据,但总体分布形态未知或者非正态;

    B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

    三、信度分析

    检査测量的可信度,例如调查问卷的真实性。

    分类:

    1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

    2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

    四、列联表分析

    用于分析离散变量或定型变量之间是否存在相关。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    五、相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    六、方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    分类

    1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,

    七、回归分析

    分类:

    1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2、多元线性回归分析

    使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

    2)横型诊断方法:

    A 残差检验: 观测值与估计值的差值要艰从正态分布

    B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

    C 共线性诊断:

    • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
    • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

    3、Logistic回归分析

    线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

    分类:

    Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等

    八、聚类分析

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    1、性质分类:

    Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

    R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等

    2、方法分类:

    1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

    2)逐步聚类法 :适用于大样本的样本聚类

    3)其他聚类法 :两步聚类、K均值聚类等

    九、判别分析

    1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

    2、与聚类分析区别

    1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

    2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

    3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

    3、进行分类 :

    1)Fisher判别分析法 :

    以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;

    以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于

    适用于多类判别。

    2)BAYES判别分析法 :

    BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    十、主成分分析

    将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。

    十一、因子分析

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

    与主成分分析比较:

    相同:都能够起到済理多个原始变量内在结构关系的作用

    不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途:

    1)减少分析变量个数

    2)通过对变量间相关关系探测,将原始变量进行分类

    十二、时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

    十三、生存分析

    用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

    1、包含内容:

    1)描述生存过程,即研究生存时间的分布规律

    2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3)分析危险因素,即研究危险因素对生存过程的影响

    4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

    2、方法:

    1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

    A 乘积极限法(PL法)

    B 寿命表法(LT法)

    3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

    4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    十四、典型相关分析

    相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    十五、R0C分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

    用途:

    1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

    用途 ;

    2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

    十六、其他分析方法

    多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

     

    参考文献

    http://www.cdadata.com/18530

    转载于:https://www.cnblogs.com/shujuxiong/p/10763234.html

    更多相关内容
  • 文献管理与信息分析

    千次阅读 2019-09-07 22:48:36
    文献管理与信息分析搜索引擎使用1.谷歌百度的高级搜索功能 中国大学慕课-罗昭锋 搜索引擎使用 1.谷歌百度的高级搜索功能


    中国大学慕课-罗昭锋

    一、搜索引擎使用

    1.谷歌百度的高级搜索功能

      (1)百度
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
      (2)谷歌
    在这里插入图片描述
    在这里插入图片描述

    2.命令搜索

      (1)常用命令
    在这里插入图片描述
      (2)site命令
    在这里插入图片描述
      (3)Filtetype使用及Filetype,site结合使用
    在这里插入图片描述
      (4)部分应用举例
    在这里插入图片描述

    3.图片搜索

      (1)搜图工具,google支持命令搜索图片
    在这里插入图片描述
    在这里插入图片描述
      (2)以图搜图
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    4.语音搜索

    5.本地搜索工具Everything

      熟悉菜单栏,易上手使用,非常方便的进行本地搜索!
    在这里插入图片描述
    在这里插入图片描述

    二、RSS-同步世界最新资讯

    1.RSS的意义及使用

    在这里插入图片描述
    在这里插入图片描述
      推荐中间,注册即可使用,有移动端和网页版
    在这里插入图片描述
      推荐订阅:小木虫科研工具、科学网
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2.订阅科技文献

      操作方法:视频最后

    三、为知笔记和思维导图

    1.为知笔记

    2.思维导图

    在这里插入图片描述

    3.快速学习某个主题知识的步骤

    在这里插入图片描述

    四、十大信息源及图书馆资源

    1.科研常用的十大信息源

    在这里插入图片描述
    在这里插入图片描述
    国家科技报告服务系统国家自然科学基金:查询立项项目
    产品资料查询:命令搜索
    在这里插入图片描述
    在这里插入图片描述

    2.文献调研起步

    在这里插入图片描述
    在这里插入图片描述

    3.校内图书馆数据库资源使用

    在这里插入图片描述

    五、文献数据库

    1.数据库导航-应该了解的数据库

    在这里插入图片描述
    在这里插入图片描述

    2.数据库使用(Web of Science)

    (1)Web of Science检索技巧
      用的不多
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    (2)插件技巧-辅助查找全文
    在这里插入图片描述
      小知识-期刊影响因子、h-index(h因子)
    在这里插入图片描述
    在这里插入图片描述
    (3)基本操作界面
    在这里插入图片描述
      创建关键词跟踪,RSS订阅
    在这里插入图片描述

    3.前沿在哪里

    在这里插入图片描述

    六、文献管理软件EndNote使用

      手把手教你使用EndNote X9.pdf

    1.软件学习的万用思路

    在这里插入图片描述

    2.信息输入-导入文献

    在这里插入图片描述
    在这里插入图片描述
      PDF导入识别信息不全:复制标题到Reference,右键更新Reference。
    在这里插入图片描述
      自动导入某文件夹的PDF
    在这里插入图片描述

    3.EndNote的功能

    在这里插入图片描述
      (1)去除重复文献
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
      (2)排序:星标,作者名,年份等
    在这里插入图片描述
      (3)智能分组
    在这里插入图片描述
      (4)分享
    在这里插入图片描述
      (4)分析
    在这里插入图片描述

    4.编辑参考文献

      导入参考文献的四种方法
      (1)EndNote中操作:打开word定位光标,EndNote中选择文献插入
    在这里插入图片描述
      (2)Word中操作:EndNote中选择文献,打开word定位光标,插入。
    在这里插入图片描述
      (3)复制粘贴:EndNote中选择复制,word中粘贴
      (4)拖拽:EndNote中选择,拖到word中指定位置
      特殊格式:某作者说、网站下载其他格式
    在这里插入图片描述
    在这里插入图片描述
      投稿之前转为plain text
    在这里插入图片描述
      编辑参考文献格式
    在这里插入图片描述
      EndNote中添加图片附件,word中插入,可以编号,自动修改图片位置等等。
    在这里插入图片描述

    5.高效阅读文献及高效的文献调研

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    七、快速锁定核心文献(HistCite)

    1.HistCite的功能

    在这里插入图片描述

    2.HistCite的使用(当前仅支持Web of Science)

    在这里插入图片描述
      (1)第一步,数据下载
    在这里插入图片描述
    在这里插入图片描述
      (2)第二步,数据导入
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
      (3)第三步,作图分析
    在这里插入图片描述
    在这里插入图片描述

    3.HistCite pro使用

      开发者使用说明
      Web of Science核心合集,搜索结果导出“其他文件格式”,一次500条,“全记录与引用的参考文献”,“纯文本”,把所有txt放大HistCite pro的TXT文件夹下,运行main。
      重要参数
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
      分析出开创性无关键词的文献
    在这里插入图片描述
      如果打开有误,进行下列操作
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
      选择重要文献导入到EndNote
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    后缀修改为txt,导入EndNote
    在这里插入图片描述
      其他参数
    在这里插入图片描述
    在这里插入图片描述
      一般建议:导出LCS高的30篇,LCR高的10篇,遗漏文献添加

    八、创新

    1.江雷院士“原创科研选题的八条原则”

    在这里插入图片描述

    2.科研选题的来源

    在这里插入图片描述
    在这里插入图片描述

    3.老师的一些选题经验:

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    九、问题解决与头脑风暴

    在这里插入图片描述

    1.三种问题的解决及原则

    在这里插入图片描述
    在这里插入图片描述

    2.问题解决的思路及科研问题解决方案

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    3.反馈式学习

      骑自行车,反馈明确。打台球,不进,找正确原因,错误原因不会对水平进步影响。1w小时能不能成为专家,关键在于找到正确问题并不断改进!
    在这里插入图片描述
    在这里插入图片描述

    4.头脑风暴

    在这里插入图片描述

    5.NoteExpress(适合中文文献管理)

    6.一起写(多人共享协作平台)

    十、六顶思考帽与课程总结

    1.六顶思考帽

      (1)常见思维误区
    在这里插入图片描述
      (2)常见思维方法
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
      (3)学习思维方法的必要性
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
      (4)六顶思考帽的使用和应用
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2.课程总结

      (1)快速学习能力
    在这里插入图片描述
      (2)快速学习能力
    在这里插入图片描述
      (3)创新思维的能力
    在这里插入图片描述

    3.个人感想和赠言

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 基于关键词共现的文本信息分析方法及应用研究--以信用评价为例,王功辉,刘卫江,关键词共现分析是文献计量学中常用的一种重要的量化研究方法,本文以文本的关键词为基础,从关键词的共同标引为切入点,采用量化
  • 文章目录1 背景2 信息源分类2.1 专利2.1.1 检索方式2.1.1.1 中国专利检索2.1.1.2 外国专利检索2.2 会议文献2.2.1 检索方式2.3 期刊2.3.1 影响因子的计算2.3.2 国内常用的核心期刊标准2.4 科技报告2.5 学位论文2.6 ...

    1 背景

    在听罗老师的课程之前,让我对新的方向或课题进行调研是一个非常大的挑战。除了去谷歌学术和知网搜索相关的文献外,我不知道还能从哪儿去查到更多的的信息。我很庆幸上个月我在中国大学MOOC平台上看到了罗老师的国家精品课程——《文献管理与信息分析》。罗老师系统的讲述了文献了管理和信息分析的思路和工具,虽然目前学习进度还不到一半,但收获颇多。罗老师的课程中讲述了传统十大信息源,当然还有博客、微博、公众号等更新型方式和传播更迅速的方式。下面我将按照自己的对课程内容的理解讲述这十大信息源,作为课程同容的回顾和整理。

    2 信息源分类

    罗老师的课程里面讲述了10大信息源。这十大信息源分别是专利、会议文献、期刊、科技报告、学位论文、科技档案、图书、产品资料、标准和政府出版物。下图展示了这10个信息源,信息源从左到右时效性依次递减,其中专利、会议文献的时效性最高,政府出版物的时效性最差。

    在这里插入图片描述

    为什么专利会议期刊的时间就会比较高呢?这是因为他们的发表周期相较于后面的几种信息源来说的话比较短。虽然专利有那个18个月的专利保护期,但是却可以申请提前公示以尽早拿到专利权。一部分比较水的专利会为么做。如果想法没有很强的实用性,一般会选择发表会议论文,会议论文发表周期相比期刊要短很多,所以说专利和会议文献时效性比较强,有利于了解领域最新的科研方向。期刊对论文的要求比较高,一般需要有一个比较完备系统性整理,发表周期从三个月到两年不等。科技报告内容是多种多样的,几乎会涉及到整个科研领域,部分报告可能都会有一定的保密性,控制范围比较严格。如果科技报告中包含了在期刊发表的工作,通常科技报告会比期刊提前一年左右的时间。当一个方向有比较多的研究的时候,这些方向便会出现在学位论文的选题中,学位论文完成后便会被档案馆收藏。当研究进一步增多时,有人便会对这些研究进行系统性的整理后写成书。一旦有书面市,说明这个方向已趋于成熟,各大公司便会尝试将其进行产品化。随着这个方向的产品越来越多,性能,质量可能会参差不齐,为了规范产品,标准便应运而生。为了进一步支持或是规范行业市场,政府会陆续出台相关的政策。以上便是各类信息源的时效性上大致的区别,下面将介绍这十大信息源的特点和查询方法。

    2.1 专利

    专利说白了就是公开自己的想法,以寻求法律对自己想法的保护。从国家层面上讲,这样也有利于资源整合,防止资源的浪费。专利的有效期是20年,20年后便变成公众所有,不再被保护。专利具有新颖性、创造性且实用性比较强的特点。一切与专利制度有关的各种专利文件都可以称为专利,具体包括专利说明书、专利局公报、专利文摘、专利分类与检索工具书、申请专利时提交的各种文件、与专利有关的法律文件和诉讼资料等。由于专利制度中存在优先权原则,发明人往往在发明完成的第一时间里提出专利的申请,90%~95%的发明创造会很快地出现在专利文献中。一般80%以上的专利呢不再以其它形式(论文、会议等)发表。

    2.1.1 检索方式

    2.1.1.1 中国专利检索

    2.1.1.2 外国专利检索

    免费的外国专利检索,可以在各国的知识产权网里面进行。通常用到的一些检索网站如下:

    2.2 会议文献

    各类学术会议上形成的资料和出版物,包括会议论文、会议文件、会议报告、讨论稿等统称为会议文献。会议注重学术交流,具有信息传递及时、内容新颖、实效性和原创性都比较强的特点。大多数的会议都会经过同行评议或者审稿,具有一定的质量,但也要注意筛选出比较水的会议。会议文献的出版形式多样,涉及到的专业内容集中、针对性很强,有利于了解专业领域的最新研究方向。会议文献各阶段的材料如下图所示。

    在这里插入图片描述

    2.2.1 检索方式

    • ACM Digital Library: 美国计算机协会(Association for Computing Machinery)的会议录全文
    • IEEE/IEE Electronic Library(IEL): 美国电气电子工程师学会(IEEE)和英国电气工程师学会(IEE)出版的会议录全文
    • ISI Proceedings: 世界上最新出版的会议录资料,包括专著、丛书、预印本以及来源于期刊的会议论文,提供了综合全面、多学科的会议论文资料。可以看到论文的题录和文章
    • 中国学术会议论文(1998-)万方: 国家级学会、协会、研究会组织召开的全国性学术会议论文全文
    • 中国重要会议论文全文数据库(CPCD):中国期刊网的会议论文全文书收录了1998年以来我国300个一级学会、协会和相当的学术机构或团体主持召开的国际性和全国性会议的会议,论文全文
    • SPIE Digital Library: 国际光学工程学会(SPIE)的所有的会议录全文。

    2.3 期刊

    期刊是一种以印刷形式或其他形式逐次进行的,并打算无限期连续出版下去的出版物。期刊具有内容新颖、及时、广泛,但不如图书成熟、成系统的特点。相比于图书,期刊出版周期短、速度快,它们出版周期从三个月到两年不等。期刊数量多、发行面广、连续性也很强,通常都会随着相应的学科领域发展和前进。
    期刊主要用于学习专业知识,了解某学科的动态。当作学术研究时,用于了解自己课题相关的研究状况和查找必要的参考文献。

    2.3.1 影响因子的计算

    影响因子是指杂志的影响力,不是某篇文章的。那么影响因子怎么计算呢?

    假设某杂志前两年发表的论文数为 p 1 p_{1} p1 p 2 p_{2} p2,这些文章在第三年的总引次数为 q q q, 那么影响因子为 q p 1 + p 2 \frac{q}{p_{1} + p_{2}} p1+p2q
    比如: 某杂志2016年发表100篇论文,2017年发表120篇论文,这些论文在2018年共被引用了1760次。
    该期刊的影响因子= 1760 100 + 120 = 8 \frac{1760}{100+120} = 8 100+1201760=8
    现在说的期刊的影响因子多指Web of Science网站上给出的值

    2.3.2 国内常用的核心期刊标准

    2.4 科技报告

    科技报告是由科技人员按照有关规定和格式撰写,以积累、传播和交流为目的,能够完整而真实的反映其所从事科研活动的技术内容和经验的特种文献。科技报告反映新的科研成果非常快,以科技报告念科研成果上面发表一般要早一年左右,部分在科学报告中反映的科研成果不会在期刊上发表。科技报告内容多种多样,它几乎涉及到了整个科学领域、技术领域等领域。它可能具有一定的保密性,因为它通常与政府的研究活动、高新技术有关,使用范围控制也比较严格。

    科技报告按研究阶段可分为下面几类

    • 研究过程中的报告
      • 现状报告
      • 预备报告
      • 中间报告
      • 进展报告
    • 研究工作结束里的报告
      • 终结报告
      • 试验结果报告
      • 峻工报告

    科技报告按文献形式可分为下面几类

    • 报告书: 一种比较正式的文件
    • 札记: 研究中的临时记录或小结
    • 论文: 准备在学术会议上或期刊上发表的报告
    • 备忘录: 供同一专业或同一机构中的少数人沟通信息用的资料
    • 通报: 对外公布的、内容较为成熟的摘要性文件
    • 技术译文

    美国是科技报告管理制度最完善的国家,明确规定政府投入超过2.5万美元以上的项目都要提交科技报告。美国政府科技报告包括国防部AD报告、商务部PB报告、航空航天局NASA报告和能源部DE报告四大体系,每年约产生60万份科技报告,其中公开发行6万多份,占全世界科技报告总量的80%以上。

    中国1984年启动国防科技报告体系建设,2000年进入规范化管理,至今共收入13万份科技报告。资助项目或已经结题的项目的科技报告可从下面的途径查询

    2.5 学位论文

    高等院校科研机构的毕业生为申请学位而撰写和提交的学术论文。一般学士学位论文需要完成一项有意义的工作,硕士学位论文则需对某一课题发表独到的见解,博士学位论文需要有系统的创作性成果。

    学术论文写选题先验理论性系统性较强,阐述也比较详细。它记录了人类大量的科研成果,参考文献多全面有助于对相关文献进行追踪检索。学位论文一般不会公开出版,需要图书馆购买,对了解实验室前期工作非常重要。学位论文的收藏机构是档案馆,电子版提交到图书馆,学术不端检测由研究生院完成。一般只有很牛的学位论文才会进行公开发表。

    学位论文可以从以下两个数据库进行查找:

    2.6 科技档案

    科技档案是指在科学技术研究和生产建设部门在相关活动中形成的,有具体事务对象的技术文件,图纸,图表,照片和原始记录等的总称。科技档案一般为内部使用,不会公开发表,部分可能还有密级限制,一般存于各级档案馆。科技档案具有全面性,综合性和系统性的特点,同时又兼具历史查考凭证作用。科技档案质量的核心是完整、准确、系统。它通常是成套的。

    科技档案一般需要从各级档案局或者档案馆进行查询。

    2.7 图书

    由出版社或者出版商出版的,不包括封面和封底在内49页以上的印刷品,具有特定的书名和著者名,编有国际标准书号,有定价并取得版权保护的出版物。图书的内容比较系统全面成熟可靠,但是它的出版周期较长,报道速度相对来说较慢。通过它可以系统的学习某方面的知识,了解某知识领域的概要或者查找某一具体问题的答案。

    2.8 产品资料

    产品资料一般是厂商为宣传和推销产品而免费赠与消费者的出版物,大多对定型的产品的性能、构造原理、用途、使用方法、操作规程、产品规格,所做的具体说明。因为产品需要考虑各种各样的情况,所以通常情况下来自产品中的方法往往比文献中的方法更加可靠。产品资料具有图文并茂、形象直观的特点,同时,它的内容又比较具体,会包含产品的技术特点、性能、应用范围、使用方法等不易获取的数据资料,但通常不会介绍关键技术。

    2.8.1 获取方式

    • 全球产品样本数据库GPD
    • 向对口厂商索引产品样本
    • 向国内收藏产品样本的单位索引
      • 外贸部各进出口公司
      • 中国科技情报研究所
      • 各专业部和各省市科技情报研究所等
    • 向“中国国际贸易促进委员会国外新产品样本、样品介绍中心”索取
    • 展览会或技术座谈上收集产品样本(费时费力)

    2.9 标准

    标准是指通过标准化活动,按照规定的程序进行协商一致制定,为各种活动或其结果提供规则、指南或特性,供共同使用和重复使用的文件。标准按照使用范围,可分为国际标准、工业标准、国家标准、行业标准、地方标准和企业标准。国家标准又分为强制性国家标准和推荐性国家标准。行业标准、地方标准是推荐性标准。强制性标准必须执行,国家鼓励采用推荐性标准。强制性国家标准的代号为GB,推荐性国家标准的代号为GB/T。

    标准具有明确的适用范围和用途,它的可靠性和现实性比较强。随着技术的发展,标准编制、修订和复查期限不断缩短,更新速度也不断提高。标准通常有一定的法律效力和约束力。
    标准文献主要应用在产品设计、生产、检验;工程设计,施工;进出口贸易;写作、文献著录等场景。

    国内标准在以下网站下载:

    2.10 政府出版物

    政府出版物又称官方出版物是由各国政府部门及其下属机构出版的文献。政府出中国出版物可分为行政类政府出版物和科学技术类政府出版物。其中科学技术类出版物一般包括科技发展政策文件、科技研究报告、专利文献等等。政府出版物一般都是公开的,公益性质大于经营性质。电子版可以从政府网站、人民网等网站获取。纸质版可以在档案馆、图书馆、政府管理大厅获取。

    3 其他搜索方式

    3.1 综合搜索

    3.2 引文搜索

    4 总结

    文献的调研当然不能仅仅局限于以上10种不同的数据源,还有其他的,比如像公众号,微博等等。我们进行文献调研时,需要紧扣检索与目标紧密结合这个原则,然后根据不同的阶段对信息源进行选择。在入门阶段我们要讲究快。这个时候查看图书、科技报告花费时间太长。举个例子,怎么快速的了解导师的研究方向。此时,我们应选择实验室网页、导师在研课题基金申请书、实验室学位论文、发表的会议、期刊论文、跟师兄师姐面对面交流、或者直接跟导师交流。当我们进入到解决具体科研问题阶段时,对文献的检索要求广泛而准确,这个时候主要的信息源是会议、论文、期刊和科技报告。选题阶段需要对领域了解有一定的广度,深度和创新性的要求,主要会选择查阅会议文献、期刊、科技报告等。
    撰写此笔记的目的主要有两个,其一是梳理罗老师课上教授的知识点,加深自己的理解和记忆;其二是为以后查询文献提供一个查询复习的渠道。希望本文能够对刚做文献调研的同学提供一定的帮助。最后再安利下参考中罗老师的精品课程。

    5 参考

    展开全文
  • 我个人认为生物信息学是生命科学和...目前生物信息常用分析法有如下几种: 基因差异表达的显著性分析(又称差异表达分析) DEG 功能富集分析(Go分析和Kegg分析) 加权基因共表达网络分析(WeightedGeneCo-exp...

    我个人认为生物信息学是生命科学和计算机科学还有统计学所构成的一门交叉学科。私以为目前网络上的文献有些晦涩难懂。为了更好地帮助新手入门,现将目前网络上的各种文献资料总结为本文,供各位同行参阅。

    目前生物信息学常用的分析法有如下几种:

    • 基因差异表达的显著性分析(又称差异表达分析)  DEG
    • 功能富集分析(Go分析和Kegg分析)
    • 加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis )

    我们逐次讲起,首先来讲讲基因差异表达的显著性分析。这种分析法又被简称为差异表达分析,通常指的是一个基因在两个条件中表达水平的检测值,再排除实验检测等因素外,达到的一定差异。这个差异既具有统计学意义同时也具有生物学意义。

    对于差异表达分析来说常用的算法有算法有三大类:

    • 倍数分析-计算每一个基因在某种两情况下的比值若大于某一定值则为差异表达基因
    • 统计模型-t检验、方差分析等方法,计算置信度选取一定P值以下的作为差异表达基因
    • 机器学习-贝叶斯,SVM,随机森林等算法

    倍数分析法由于过于简单粗暴,本文不进行集中介绍。基本上,统计课上都会介绍如何使用T检验来从统计学意义上比较两个样本间的差异,然后在样本量较大的时候考虑使用方差分析。不过这样做的前提是样本来自服从正态分布的群体。这种思想在生物信息学中依然可用。

    单总体检验的T值为

     

    其中   是样本个数,  为样本平均数, 

    在做完差异表达分析之后,你得到了好多P值很小的基因。

    下面你可以做功能富集分析来让你的结果更可信。

    那么什么是功能富集?功能富集我个人认为就是分类,而分类的标准就是按照基因的功能的不同。为了解决这种分类问题,科学家们联合起来开发了很多数据库。

    比较有名的是The Gene Ontology Consortium和Kyoto Encyclopedia of Genes and Genomes,前者通常用于描述基因间的层级关系,而后者大多数人把它当做一个基因通路的数据库,其实不然KEGG是一个整合了基因组、化学和系统功能信息的综合数据库。功能富集分析的算法很多,工具也很多。比如说DAVID,GESA,GoMiner等其中最常用也是最权威的工具便是DAVID。

    最后我们来讲讲最近很火的WGCNA加权共表达网络分析。WGCNA适合用于非常复杂的数据,推荐5组以上比如说:

    • 不同器官、组织类型的发育调控;
    • 统一组织不同时期的发育调控;
    • 非生物胁迫不同时间点的应答;
    • 病原物侵染后不同时间的应答;

    从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分,主要包括基因之间相关系数计算、基因模块的确定、共表达网络、模块与性状关联四个步骤。

    首先计算任意两个基因之间的相关系数。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。但是这样如果将阈值设为0.8,那么很难说明0.8和0.79两个是有显著差别的。因此,WGCNA分析时采用相关系数加权值,即对基因相关系数取N次幂,使得网络中的基因之间的连接服从无尺度网络分布,这种算法更具生物学意义。第二步通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。得到模块之后可以进行模块功能富集,模块与形状间的相关性的分析等等。

     

    展开全文
  • 工具丨5款常用文献管理软件

    千次阅读 2021-07-10 04:27:35
    2、可以非常方便地管理文献信息,包括文摘、全文、笔记、以及其它的附件材料等等;检索功能方便查找到需要的文献;多数软件还具备一定的分析功能; 3、文末参考文献格式的编辑,轻松便捷5款常用的文献管理软件 常用...
  • 比较基因组学常用分析软件和分析方法 (1)同源基因的查找 OrthoMCL or Orthofinder; (2)多序列比对 Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好点 (3)调取保守区域,并收尾连接,形成supergene ...
  • 阅读文献--常用方法总结

    万次阅读 多人点赞 2018-11-14 14:53:33
      总结一[1] (从phd到现在工作半年,发了12篇paper,7篇firstauthor.)  我现在每天还保持读至少2-3篇的...但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,一合上就...
  • 一般来说,常用的学术论文研究方法主要有观察法、调查法、实验法、经验总结法、个案法、比较法、 文献法这几种方法。  文献研究法是最经常最普遍用到的研究方法,无论你是理科工科文科商科,在写论文时通通都会用上...
  • 英文文献调研方法综述

    千次阅读 多人点赞 2020-11-09 20:42:47
    进行英文文献调研的理由2. 文献调研的纲要2.1. 文献调研的目的2.2. 文献调研的原则2.3. 文献调研的步骤3. 常用的论文搜索平台及数据库3.1. Text Analyzer - JSTOR3.2. Web of Science3.3. Google Scholar3.4. CORE ...
  • 介绍了用Web of Science 检索文献方法,并使用Cite Space对获取的数据进行分析的一般步骤。
  • 聚类分析方法的研究与应用综述

    千次阅读 2020-12-04 18:23:43
    聚类分析方法的研究与应用综述 417109070529 李蓉珊 河北地质大学信息工程学院软件工程2017级503班 石家庄 050031 摘要:聚类分析是一种研究如何将相似的事物归为一类,使得组内对象相似,组间对象不同.是研究(样品...
  • 生物信息分析常用网站

    万次阅读 多人点赞 2018-06-09 09:07:34
    1. BLAST(核酸蛋白序列比对):https://blast.ncbi.nlm.nih.gov/Blast.cgi2. miRBase(miRNA数据库网站):http://www.mirbase.org/3. PlantCARE(启动子元件分析网站): ...
  • PAGE 欢迎下载 PAGE 欢迎下载 一单项选择题 信息分析与预测的特点不包括 A.针对性 B.精确性 C.系统性 D.局限性 商业性信息分析与预测机构课题的主要来源渠道是 A....声像型文献 以下哪种方法是搜集实物信息常用方法 A
  • 文献综述——Meta analysis(荟萃分析 or 元分析

    万次阅读 多人点赞 2020-12-10 18:33:04
    文献综述大致分两种Non-systematic review和systematic review Non-systematic review这种一般是领域大牛写的,一些大牛在某个领域深耕多年也有了一定的成果后,系统的对这个领域的目前发展状况和未来发展的可行性...
  • 五款常用文献管理神软件

    千次阅读 2020-12-19 08:12:24
    2.可以非常方便地管理文献信息,包括文摘、全文、笔记、以及其它的附件材料等等;检索功能方便查找到需要的文献;多数软件还具备一定的分析功能;3.文末参考文献格式的编辑,轻松便捷。常用的文献管理软件首推...
  • 文献信息资源按照加工深度划分,可以分为五种,分别是(), 一次文献 , 二次文献 ,三次文献和高次更多相关问题[填空题] 量表常常用来测量人们的态度,看法,意见性格等()较强的内容[填空题] 访谈者对结束访谈和()...
  • 信息组织 | 信息内容分析与标引

    千次阅读 2020-05-05 09:16:24
    工具书的主题标引 特种文献的主题标引 5 分类主题一体化标引 5.1 分类标引和主题标引的流程分析   对文献信息的主题进行一次性分析,在此基础上基于"分类表和主题词表互为映射的一 体化标引工具",给出分类检索...
  • 安全事件关联分析方法

    千次阅读 2021-06-30 18:32:37
    综述性文章可以参考... 技术方法 主要特点 应用场景 文献 属性特征 有限状态机 行为动作明确清晰且具有极强的逻辑约束性;不够灵活,不支持
  • 6、共被引文献分析 共被引分析中最为关键的是共被引文献分析,即挖掘共同被引频次前十的文献信息,相当于该领域的经典文献,如表1。 把握经典文献如同抓住领域的研究命脉,需要高度重视这些文献的价值。 主要方法:...
  • 地理建模方法-徐建华

    2018-10-30 11:34:02
    8.2.2 小波分析方法的地理建模实例 8.3 人工神经网络建模方法 8.3.1 人工神经网络简介 8.3.2 人工神经网络方法的地理建模实例 思考题 参考文献 第9章 地理建模分析中常用的软件 9.1 SPSS及相关软件在地理...
  • 聚类分析-层次聚类(Hierarchical Clustering)解析 层次聚类 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。层次聚类可以被分为两类:...
  • 信息检索的策略和方法

    千次阅读 2021-06-26 04:49:03
    本文中给出了计算机信息检索的策略和方法,以及最终有助于网络用户查找信息的检索技术。【关键词】信息检索 检索策略随着计算机技术和通讯技术的发展,信息检索的理论与实践也随之不断地推陈出新。其历史沿革可划分...
  • 语义分析的一些方法

    千次阅读 2018-08-08 18:05:04
    图片分类是一个最基本的图片语义分析方法。 基于深度学习的图片分类 传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如...
  • 数据结构论文参考文献

    千次阅读 2021-05-26 02:19:04
    数据结构论文参考文献[1]严蔚敏.数据结构C语言版[M].清华大学出版社,2007.[2]舞动的排序算法.http://v.youku.com/v_show/id_XMjU4MTg3MTU2.html.[3]丽水学院在线联系和考试系统.http://acm.lsu.edu.cn.[4]范德宝...
  • 文献管理与信息分析 第一章 罗昭锋老师的目标:帮助科研工作者,提高效率,助力科研,推动创新。 (知识分子的风骨~~) 科研是什么? 科研就是一个解决未知问题的过程。 (科研也可以很快乐,因为喜欢...
  • 排序分析方法

    千次阅读 2019-10-08 10:08:54
    相信大家在做微生物多样性研究时经常听到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它们对物种(或基因、功能)的分析具有重要作用,因而频频出现在16S测序及宏基因组测序中。 首先,以上分析本质上都属于...
  • 在数据分析中,可视化是非常重要的环节,它通过呈现图形图像直观的体现数据或算法的好坏,给读者最直观的视觉信息。 一.Matplotlib可视化分析 基础用法参考前文: [Python从零到壹] 十一.数据分析之Numpy、Pandas、...
  • 本文版权归《遗传》杂志,已获授权,转载请联系杂志社微生物组数据分析方法与应用刘永鑫1,2,秦媛1,2,3,郭晓璇1,2,白洋1,2,31. 中国科学院遗传与发育生物学研究所,植物基因组学...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 35,101
精华内容 14,040
热门标签
关键字:

常用的文献信息分析方法