精华内容
下载资源
问答
  • GWAS - plink文件类型

    千次阅读 2020-06-05 12:47:55
    plink文件类型 Plink常见格式有五种:ped,map,bed,fam,bim PLINK接受VCF文件作为输入,但在PLINK中使用的首选格式是带有结尾.ped(和.map)的文件,以及带有结尾.bed(+ .bim + .fam)的文件 ( ped 和 map 是...

    自己的学习笔记,欢迎各路大神批评指正

    plink文件类型

    • Plink常见格式有五种:ped,map,bed,fam,bim
    • PLINK接受VCF文件作为输入,但在PLINK中使用的首选格式是带有结尾.ped(和.map)的文件,以及带有结尾.bed(+ .bim + .fam)的文件
      ( ped 和 map 是一组的,bed fam bim 是一组的。因为Plink指令是一对一对识别,例如.ped文件一定要有配对的名字.map文件,一对起来才能运行,名字要保持一致)
      一般我们提出来了SNP的文件为 .vcf文件, 需要先转换为plink认识的文件类型
    # 使用vcftools来实现
    vcftools --vcf my.vcf --plink --out plink
    
    # 使用plink来实现 
    plink --vcf file.vcf --recode --out file
    

    .ped文件

    ped是pedigree的缩写,差不多是记录家系(pedigree ) 信息的文件
    ped
    1.第一列: Family ID表示家族,同一个家族用同一个family ID表示
    2.第二列: Individual ID用来表示个体ID,第一列和第二列的信息加起来可以确定出唯一个体
    3.第三列: Paternal ID表示父本ID(如果缺少该信息则为’0’,如这个样本没有采集父本的表型信息,相当于确实数据)
    4.第四列: Maternal ID表示母本ID(如果缺少该信息则为’0’)
    5.第五列: 性别代码(‘1’=男性,‘2’=女性,‘0’=未知)
    6.第六列: Phenotype(表型),Plink会自己判断表型的类型,如果缺少该表型数据,可以使用-9/0/非数字来表示。
    7.第七列第八列: 分别为第一个变体,第二个变体等的等位基因。缺失的数据被编码为0(或-9)。

    .map文件

    map文件包含变体位置,用来记录每个maker(一般为SNP)的位置信息。
    每行一个maker。它有4列:
    map2

    1. chr 染色体名称
    2. snp identifier: SNP的表示符/ID
    3. morgans: 基因摩尔根距离,不知道就写0
    4. bpunits: marker在染色体上的坐标位置
      *map2中为输出文件,其中PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。

    • 看到这里你应该明白了,我们研究的是SNP的信息,然而genotype file (GD file,也就是上面的ped文件)里面是没有SNP位置信息的。
      因此需要一个额外的map file(GM file),像地图一样告诉别人这个SNP在哪里。
      GM里的SNP顺序需要和GD中的保持一致。

    .bed .fam 和 .bim文件

    三个文件时一起使用的:

    • bed文件是一个二进制文件,是不能打开看的

    • bim文件是对map文件的拓展,包含了snp的具体信息,可以看成是binary(二进制)+map(地图)的合成文件。
      总共有六行,包含了snp(variants)的具体信息:
      1染色体信息
      2snp的名字
      3摩尔距离
      4物理距离
      5次要等位基因
      6主要等位基因

    • .fam文件记录了每个样本家系的信息(family嘛- -)
      主要有6 列:
      1Family ID (‘FID’)
      2 Within-family ID (‘IID’; cannot be ‘0’)
      3 Within-family ID of father (‘0’ if father isn’t in dataset)
      4Within-family ID of mother (‘0’ if mother isn’t in dataset)
      5性别 (‘1’ = male, ‘2’ = female, ‘0’ = unknown)
      6表型 (‘1’ = control, ‘2’ = case, ‘-9’/‘0’/non-numeric = missing data if case/control)

    总结

    • ped与map相当于两个实质为txt的原始文件,其中ped记录家系信息,map补充snp位置信息
    • .bed .fam 和 .bim文件一起使用,其中fam记录家系信息,bim记录位置信息

    参考资料:

    https://www.jianshu.com/p/07c23dba05ea?utm_campaign=haruki
    https://www.jianshu.com/p/343ad060cc99

    展开全文
  • 1.plink转vcf plink --file test --make-bed --out ...###这样就把plink文件转换成vcf格式了 2. 将vcf格式文件转化为plink格式文件 vcftools --vcf my.vcf --plink --out plink 3. 也可使用plink进行转换 plink --vc

    1.plink转vcf

    plink --file test --make-bed --out test_1 
    

    ###此步是将map和ped文件转换为二进制的文件

    plink --bfile test_1 --recode vcf-iid --out test_vcf  
    

    ###这样就把plink文件转换成vcf格式了

    2. 将vcf格式文件转化为plink格式文件

    vcftools --vcf my.vcf --plink --out plink
    

    3. 也可使用plink进行转换

    plink --vcf my.vcf --recode --allow-extra-chr --out my_reseq 
    

    #–allow-extra-chr是当出现错误,无法读取chrom时加的,可以强制程序接受编号

    4. 筛选SNPs
    在file.txt中, snp名字作为一列,无header,输出格式为vcf

    vcftools --gzvcf my.vcf --snps snps.txt --recode --recode-INFO-all --out filter.snp
    
    展开全文
  • plink.exe是一个网络模块,通过该程序你可以实现一些网络相关的命令等。plink.exe下载,plink.exe文件,plink.rar
  • 该软件包为PLINK .bed文件提供了解压缩和压缩例程。压缩的基因型矩阵x存储为一串Int8组件,其中每个8位整数最多存储四个基因型。 PLINK.jl还提供了线性代数例程,可实时解压缩x ,包括x * y和x' * y 。 未来的发展...
  • plink PED 文件格式介绍

    千次阅读 2018-06-19 19:41:00
    欢迎关注"生信修炼手册"!plink是进行全基因组关联分析常用的软件之一,该软件需要两种基本格式的输入文件,ped和map。本篇重点介绍一下ped格式。对于ped格式而言...

    欢迎关注"生信修炼手册"!

    plink是进行全基因组关联分析常用的软件之一,该软件需要两种基本格式的输入文件,pedmap。本篇重点介绍一下ped格式。

    对于ped格式而言,包含了以下几种信息

    1. 家系结构;

    2. 性别信息;

    3. 表型信息;

    4. snp calling信息;

    ped格式是一个纯文本的文件,至少需要6列,每列有空格或者\t分隔。这6列
    分别代表以下含义

    1. Family ID

    2. Individual ID

    3. Paternal ID

    4. Maternal ID

    5. Sex

    6. Phenotype

    Family ID用来表示家族,同一个家族用同一个family ID表示;Individual ID用来表示个体,family IDIndividual ID连起来必须能够唯一表示每个样本;Paternal ID表示父本ID, Maternal ID表示母本ID, 通过以上4个属性,可以完全表征样本的家系结构信息。

    Sex表示性别, 1代表male,2代表female, 其他数字表示unknown。

    phenotype代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

    对于关联分析而言,除了表型相关信息,还需要基因型信息。在ped格式的文件中,剩余的列通常用来表示基因型信息。在ped文件中,每个snp位点的基因型需要两列来表示,分别表示major allel 和 minor allel。在表示基因型时,既可以使用A,C,G,T字母的形式,也可以采用1,2数字编码的形式。默认情况下,用0来表示基因型的缺失。

    一个ped文件的示例如下

    1 1 0 0 1  1  A A  G T
    2 1 0 0 1  1  A C  T G
    3 1 0 0 1  1  C C  G G
    4 1 0 0 1  2  A C  T T
    5 1 0 0 1  2  C C  G T
    6 1 0 0 1  2  C C  T T

    在这个ped文件中,所有样本之间相互独立,没有亲缘关系,所以每个样本有一个唯一的family ID;对于样本而言,只需要family IDIndividual ID两个字段的信息连起来,能够唯一表示一个样本即可,由于family ID已经和样本是一一对应关系了,所以这里的Individual ID统一用1表示。

    由于没有亲缘关系,Paternal IDMaternal ID也没有了意义,取值全都为0; 性别全部为1,表明所有样本都为男性;phenotype的取值有1和2两种,是离散型的。最后的4列信息代表2个SNP位点的基因型信息,每两列一个SNP位点。

    扫描关注微信号,更多精彩内容等着你!

    展开全文
  • plink1.9版本支持转化为VCFv...对于plink1.9版本,转化为vcf文件的命令行为: plink --bfile binary_fileset --recode vcf-iid --out new_vcf 生成的vcf为4.2版本 对于plink2.0版本,转化为vcf文件的命令行为...

    plink1.9版本支持转化为VCFv4.2格式

    plink2.0版本支持转化为VCFv4.3格式

    两个版本用到的命令不一样

    对于plink1.9版本,转化为vcf文件的命令行为:

    plink --bfile binary_fileset --recode vcf-iid --out new_vcf

    生成的vcf为4.2版本

    对于plink2.0版本,转化为vcf文件的命令行为:

    plink --bfile binary_fileset --export vcf --out new_vcf

    生成的vcf为4.3版本

     

    参考链接:

    http://www.cog-genomics.org/plink/2.0/formats#vcf

    http://www.cog-genomics.org/plink/1.9/formats#vcf

    转载于:https://www.cnblogs.com/chenwenyan/p/8574237.html

    展开全文
  • plink格式的map文件和ped文件

    千次阅读 2019-12-01 15:23:18
    .map文件 格式说明链接:link map格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标. map文件包括: 染色体编号(数字), 未知为0 SNP名称(字符或数字), 如果不重要, 可以从1...
  • plink合并文件需要用到“merge”参数 如果是ped和map格式文件,则用以下命令: plink --file data1 --merge data2.ped data2.map --recode --out merge   如果是二进制文件和ped,map格式文件,则用以下...
  • plink:将bed文件转化为ped,map文件

    千次阅读 2016-05-16 21:33:00
    用--recode命令,--out表示转化的文件的名字,本例已经命名为“filter” /plink-1.07-x86_64/plink --bfile filter --recode --out filter --noweb 转载于:...
  • I have the following data (small part of it) named "short2_pre_snp_tumor.txt" rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 ... # --file: plink.bed + plink.bim + plink.fam written.
  • plink质控及转换文件、admixture软件学习记录 目的:自定义ped文件和map文件,用plink质控及转换文件,使用admixture做群体结构学分析。 ped文件和map文件根据格式用pandas生成即可。 非vcf文件,可按照以下两个文件...
  • Plink 输出文件plink.assoc.linear包含的内容及其含义 CHR Chromosome SNP SNP ID BP Physical position (base-pair) A1 Minor allele name (based on whole sample) TEST Type of test ...
  • plink --bfile Uyghur --bmerge CEU_CHB_202.bed CEU_CHB_202.bim CEU_CHB_202.fam --make-bed --out merge_Uyghur_CEU_CHB 合并时报错 解决三以上等位基因的问题 三等位基因所在文件: /xtdisk/chenhua_group/...
  • PLINK二进制文件的样本和SNP QC 样例质量控制任务检查: 性别信息不一致 计算缺失 杂合度评分 相关性 分歧血统 SNP QC任务检查: 次要等位基因频率 SNP缺失 差异性缺失 Hardy Weinberg平衡偏差 关联测试 基本的...
  • 1)plink.exe属于putty套件, 注册到环境变量;... 2)在.emacs中增加如下: (require 'tramp)(setq tramp-default-method "plink... 这样在emacs的minibuffer中C-x C-f之后就不必再输入/plink:(byte-compile-file "E:/t...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,852
精华内容 740
关键字:

plink文件