精华内容
下载资源
问答
  • 2021-05-18 11:45:23

    NCBI

    NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据生物信息学分析工具来帮助人类更好的认知生物学问题。 目前有将近40个在线的文库分子生物学数据库,包括:PubMed, PubMed Central, and GenBank等。网址: https://www.ncbi.nlm.nih.gov/

    一、任务

    为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;
    从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;
    促进生物学研究人员和医护人员应用数据库和软件;
    努力协作以获取世界范围内的生物技术信息。

    二、内容

    1.文献数据库

    包括:PubMed,PubMed Central,Books等

    2.序列资源库

    包括人,小鼠,果蝇,线虫等各种物种的基因组数据库

    包含DNA,RNA,蛋白等各种类型的数据

    如:SNP,GEO,SRA等

    3.常用序列分析工具

    Entrez – 数据挖掘的工文本条件查询工具(Text Term Searching) 来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和文献信息检索 网址:https://www.ncbi.nlm.nih.gov/gquery/

    BLAST – 序列比对工具

    https://blast.ncbi.nlm.nih.gov/Blast.cgi

    4.数据下载与上传

    数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/

    上传的工具有:Sequin,tbl2asn等,链接地址:https://www.ncbi.nlm.nih.gov/guide/data-software/

    5.其他合作项目

    比较常用的就是检索文献,检索序列,比对序列。了解更多内容可以参考官网手册:https://www.ncbi.nlm.nih.gov/books/NBK143764/

    参考资料

    https://baike.baidu.com/item/NCBI/3598184?fr=aladdin

    https://www.ncbi.nlm.nih.gov/books/NBK143764/

    1.1 NCBI GEO

    基因表达数据库(GEO,Gene Expression Omnibus database,https://www.ncbi.nlm.nih.gov/geo/ )是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点下载:ftp://ftp-trace.ncbi.nih.gov/geo/.

    一、GEO数据库基础知识

    GEO Dataset (GDS) 数据集的ID号
    GEO Series (GSE) study的ID号
    GEO Platform (GPL) 芯片平台
    GEO Sample (GSM) 样本ID号
    这些数据都可以在ftp里面直接下载。

    二、数据上传

    上传的方式:

    网页
    Excel表格
    软件
    MINiML格式上传
    详细上传方法,参见:https://www.ncbi.nlm.nih.gov/geo/info/submission.html

    提交Affymetrix芯片数据到GEO数据库 http://www.biotrainee.com/thread-810-1-1.html

    三、数据挖掘

    Entrez GEO-DataSets
    官网: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gds

    收录整个实验数据,可以通过技术类型,作者,物种和实验变量等信息来进行搜索。一旦相关数据被查询到,可以通过提供上面的小工具做一些分析,比如:热电图分析,表达分析,亚群的影响等

    2.Entrez GEO-Profiles

    官网:https://www.ncbi.nlm.nih.gov/geoprofiles/

    收录单个基因的表达谱数据。可以通过基因名字,GenBank编号,SAGE标签,GEO编号等来进行搜索

    3.GEO BLAST

    GEO Blast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles 所有的BLAST结果中“E”的标签代表这个数据跟GEO-Profiles表达数据相关。

    数据下载
    我们一般是拿到了GSE的study ID号,然后直接把什么的url修改一下,就可以看到关于该study的所以描述信息,是用的什么测序平台(芯片数据,或者高通量测序),测了多少个样本,来自于哪篇文章! 所有需要的数据均可以下载,而且都是在上面的ftp里面可以根据规律去找到的,甚至可以自己拼接下载的url链接,来做批量化处理!

    例如:用GSE75528,则在https://www.ncbi.nlm.nih.gov/geo/ 官网上直接搜索GSE75528 或直接输入 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528 修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。

    如果是芯片数据,那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息,才能利用好别人的数据。 如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据,自己做处理!

    1.2 NCBI SRA

    跟GEO类似,NCBI的SRA(Sequence ReadArchive,https://www.ncbi.nlm.nih.gov/sra/ )数据库是专门用于存储二代测序的原始数据,包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。 除了原始序列数据外,SRA现在也存raw reads在参考基因的aligment information。

    该数据库也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含:NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后,数据都是共享的。

    一、数据库结构

    每个数据库都有自己最小的可发表单元。例如:PubMed最小可发表单元是一篇文献,SRA中最小可发表单元是一次实验(标签为:SRX#)。

    NCBI中SRA数据结构的层次关系:Studies,Experiments, Samples,Runs:

    Studies是就实验目标而言的,一个study可能包含多个experiment。
    Experiments包含了样本,DNA source,测序平台,数据处理等信息。
    一个experiment可能包含一个或多个runs。
    Runs 表示测序仪运行所产生的reads.
    SRA数据库用不同的前缀加以区分:ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。

    二、数据上传

    登陆NCBI账号

    注册你的项目和生物样本

    注册项目:https://www.ncbi.nlm.nih.gov/bioproject/

    注册样本:https://www.ncbi.nlm.nih.gov/biosample/

    上传SRA数据

    上传SRA metadata (关于该项目、实验的等信息)

    上传序列数据

    更详细的说明,参见 https://www.ncbi.nlm.nih.gov/sra/docs/submit/

    三、数据下载

    如果要下载每个study对应的runs的所有数据,我们需要下载安装SRA Toolkit!

    链接地址: http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

    SRA toolkit常用命令的说明文档见:

    http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。

    这里我们需要使用prefetch命令进行下载

    $prefetch SRR776503  SRR776505  SRR776506
    

    下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。

    sra子文件夹中的.sra文件就是对应的runs文件。 ‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前,我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :$fastq-dump SRR776503.sra

    通过命令行来下载

    for ((i=204;i<=209;i++)) ;
    do 
    wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;
    done
    ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;d
    

    参考资料

    http://www.biotrainee.com/thread-800-1-1.html

    https://www.ncbi.nlm.nih.gov/sra/docs/

    1.3 NCBI dbSNP

    单核苷酸多态性(single nucleotide polymorphism,SNP) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库,它是关于单碱基替换以及短插入、删除多态性的资源库。网址:https://www.ncbi.nlm.nih.gov/projects/SNP。

    1.4 NCBI RefSeq

    NCBI RefSeq (Reference Sequence,美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。

    • 全面的,整合的,无冗余的序列
    • 基因组DNA,RNA,蛋白产物
    • 是医学、功能、多样性研究的一个基准
    • 为基因组注释,基因鉴定和特性描述,突变和多态性分析,表达研究和比较分析提供稳定可靠的参考
    • 由NCBI和其合作者维护

    RefSeq和genbank的数据有什么区别?
    genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。 而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。

    为什么RefSeq记录中的基因符号(symbol)有时和相关的GenBank中的不一样?
    RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。GenBank与Pubmed相同,通过display可以选择显示格式,常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析,FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征,并以ATGC4种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息

    1.5 NCBI Entrez

    Entrez (http://www.ncbi.nlm.nih.gov/Entrez) 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez是由NCBI主持的一个数据库检索系统。

    一、Entrez系统数据库

    有将近38个库,这里仅列举了部分( https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi )

    Literature

    • Books: 在线生物医学图书
    • PubMed 生物医学文献数据库

    Health

    • OMIM : 人类孟德尔遗传数据库

    Genomes

    • SRA:二代测序的原始数据
    • SNP: 单核苷酸多肽性数据库
    • Taxonomy: GenBank 中的物种分类学数据库

    Genes

    • GEO: 基因表达数据库

    Proteins

    • Structure: 大分子三维结构数据库

    Chemicals

    • BioSystems 跟基因,蛋白,化学分子关联的分子通路

    Ensembl

    Ensembl是由EBI和Sanger共同开发的真核生物基因组注释项目,它侧重于脊椎动物的基因组数据,但也包含了其他生物如线虫,酵母,拟南芥和水稻等,其中,BioMart是用户提取Ensembl基因组数据的强大工具。

    Ensembl项目得到的数据均可以通过其基因组浏览器查看,用于支持脊椎动物基因组的比较基因组,进化,序列突变和转录调控方面研究。Ensembl注释基因,多重序列比对,预测结构和收集疾病数据。Ensembl工具包括:BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。

    一、简介

    Ensembl是由英国Sanger研究所Wellcome基金会(WTSI)和欧洲分子生物学实验室所属分部欧洲生物信息学研究所(EMBI-EBI)共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园(Wellcome Trust Genome Campus)内。

    Ensembl计划开始于1999年,人类基因组草图计划完成前的几年。即使在早期阶段,也可明显看出,三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此Ensembl的目标是自动的基因组注释,并把这些注释与其他有用的生物数据整合起来,通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000,是一个真核生物基因组注释项目,其侧重于脊椎动物的基因组数据,但也包含了其他生物,如线虫,酵母,拟南芥和水稻等。近年来,随着时间推移,越来越多的基因组数据已经被添加到了Ensembl,同时Ensembl可用数据的范围也扩展到了比较基因组学、变异,以及调控数据。

    基因注释的数据来源

    • 最新的基因组数据(大部分是动物)
    • UniProt/Swiss-Prot和UniProt/TrEMBL蛋白序列
    • NCBI RefSeq蛋白和核酸序列
    • EMBL cDNA序列

    二、Ensembl可以做什么

    • 查看基因在染色体上的注释
    • 查看基因的选择性转录
    • 探索某个基因的超过50个物种的同源性和进化树
    • 比较物种的全基因组的比对和保守区域
    • 查看比对到Ensembl上的芯片序列
    • 查看染色体任何一区域的ESTs, clones, mRNA和proteins
    • 检查染色体或基因上的SNPs (single nucleotide polymorphisms)
    • 查看不同品种(rat,mouse),种群,品种(狗)的SNPs
    • 查看比对到Ensembl基因上的mRNA或蛋白的序列位置
    • 上传自己的数据
    • 通过BLAST或BLAT来搜索Ensembl基因组中相似的序列
    • 通过BioMart导出序列和基因信息
    • Variant Effect Predictor

    三、下载

    少量的数据
    大多数Ensembl 基因组数据的描述页有“export”功能,可以直接导出这一页的内容。

    大的数据集
    PERL API http://www.ensembl.org/info/docs/api/index.html

    如果不熟悉Perl语言,可以通过Ensembl REST API http://rest.ensembl.org/

    复杂的交叉数据库
    BioMart http://www.ensembl.org/info/data/biomart/index.html

    全部的数据集
    FTP site http://www.ensembl.org/info/data/ftp/index.html

    四、其他

    Ensembl genes命名
    人的基因

    ENSG  Gene
    ENST  Transcript
    ENSE  Exon
    ENSP  Protein
    例如: ENST00000252723
    

    其他物种的基因,例如老鼠(Mus musculus)

    ENSMUSG  Mouse Gene
    ENSMUST  Mouse Transcript
    ENSMUSE  Mouse Exon
    ENSMUSP  Mouse Protein
    

    UCSC

    下面介绍一下作为生信人必须掌握的三大数据库 NCBI-UCSC-ENSEMBL之一的UCSC。

    一、简介

    2000年6月22日,UCSC(University of California,Santa Cruz)和其他国际人类基因组计划的成员完成了人基因组组装的第一个草图,并承诺永久对外提供基因组信息。几个星期以后,在2000年7月22日,组装的基因组在网站 ttp://genome.ucsc.edu 呈现出来,并提供了一个在线的查询分析工具UCSC Genome Browser。接下来的几年里,该网站不断的发展,如今已包含大量的脊椎动物和模式生物的基因组组装和注释信息,并提供了一系列查看,分析,下载数据的工具

    站点地址:

    • http://genome.ucsc.edu/
    • Europe: http://genome-euro.ucsc.edu
    • Asia: http://genome-asia.ucsc.edu

    数据库特点:

    给浏览基因组数据提供了可靠和迅速的方式。
    整合了大量的基因组注释数据,约有一半的注释信息是UCSC通过来自公开的序列数据计算得出,另外一半来自世界各地的科学工作者。本身并不下任何结论,而只是收集各种相关信息供用 户参考。
    支持数据库检索和序列相似性搜索。

    二、UCSC可以干什么

    UCSC建立的初衷是为了更好的呈现基因组数据,方便人们查看与研究。因此在呈现基因组碱基序列的同时,也结合了注释信息,例如known genes, predicted genes, ESTs, mRNAs, CpG islands, assembly gaps and coverage, chromosomal bands, mouse homologies等等。所以用户既可以用他们提供的数据库里面的数据,也可以上传自己的数据来做研究。围绕着这样的初衷,他们设计

    • Genome Browser 整合基因组数据和各种注释数据的在线查看系统
    • Blat 序列比对工具
    • Table Browser 将文本文件转化为数据库可以识别的文件
    • Genome Graphs 上传和呈现基因组数据的工具,例如genome-wide SNP association studies,
      linkage studies 和homozygosity mapping
    • Gene Sorter 各种形式的呈现基因的表达,同源等信息以及相互关系
    • Gene Interactions 基因之间的交互关系
    • In-Silico PCR 查看一对引物在基因组中的位置
    • VisiGene 查看基因在显微镜下的原位图
    • LiftOver 基因组版本的转换

    Nucleic Acids Research(NAR) 每年会整理重要的生物信息数据库
    参考于:http://www.biotrainee.com/jmzeng/book/basic/database.html

    更多相关内容
  • 数据库同步有3大难题: 1是如何保障目标和源数据一致性; 2是异构数据库如何做数据类型转换,导致数据同步失败的原因常常是因为数据类型不一样; 3是在数据越实时越有价值的背景下,同步过程中能否做到实时同步。

    摘要

    数据库同步有3大难题:
    1是如何保障目标和源数据一致性;
    2是异构数据库如何做数据类型转换,导致数据同步失败的原因常常是因为数据类型不一样;
    3是在数据越实时越有价值的背景下,同步过程中能否做到实时同步。

    一、几种主流的数据库同步方式

    方式一:基于无侵入的日志模式(如Oracle redo、Mysql binlog)
    基于日志的采集方式无需在源库端部署任务代理程序(Agent)及建任何表,对源数据库无侵入和影响压力;

    方式二:基于时间戳
    同步过程通过特定属性(如时间戳、自增序列)来识别新插入的数据,该方式实现最简单,但无法记录删除和更新,也不具备实时的能力;

    方式三:基于触发器
    基于数据库的触发器机制,当执行DML相关语句时,执行动作来捕获数据,该方式会降低系统能,因此大多数场景下,生产系统不允许添加触发器。

    方式四:基于快照
    基于快照的方式,可以通过比较源表和快照表来获得数据变化,但需要消耗大量存储空间和计算资源。

    方式五:基于离线批处理
    通过jdbc查询来批量获取数据,会进行数据表的大范围扫描和数据提取,会对数据库产生大量开销。

    本文主要探讨无侵入的CDC模式,并以运用这种模式的数据库同步云工具 Tapdata Cloud 举例,你要问我为啥用它举例,原因只有一个:永久免费。

    二、架构及工作原理

    Tapdata Cloud包含两部分:

    1. Tapdata Cloud Manager,TCM是Tapdata Cloud的管理端,负责agent实例的安装,同步任务的配置、分发、任务状态监测。
    2. Tapdata agent,是Tapdata Cloud数据同步服务的执行实例,负责从TCM获取任务信息,通过流式技术从源系统获取数据、处理转换数据并发送到目标系统,并在任务执行过程中监测并上报任务状态至TCM。

    在这里插入图片描述

    (Tapdata Cloud 工作原理图)

    有朋友可能会担心这个云平台会不会把我要同步的数据泄露出去?

    从Tapdata Cloud 工作原理上可以看出:

    1. 同步实例节点单向连接管控端运行服务。 Tapdata agent实例节点对外不主动暴露网络信息,只会连接 TCM管理端服务,获取任务信息、上报状态信息。
    2. 用户部署的Tapdata agent实例节点和 TCM 通信链路采用 HTTPS 协议。
    3. 自建模式下,所有数据流转均发生在受用户管理的服务器和网络环境。
      可见,数据同步过程中数据泄露的问题大可不必担忧。

    三、全量同步和实时增量同步机制

    Tapdata Cloud 这款云同步工具支持全量同步和实时增量同步,实现的过程如下图所示:
    在这里插入图片描述


    四、源和目标

    据 Tapdata Cloud 最新版本,目前支持了:

    数据库版本作为源作为目标是否可用
    mysql5.x,8.x支持支持
    oracle9i, 10g, 11g, 12c支持支持
    sqlsever2005, 2008, 2012, 2014, 2016, 2017支持支持
    mongodb3.2, 3.4, 3.6, 4.0, 4.2支持支持
    PostgreSQL9.x, 10.x,11.x,12.x,13.x支持支持
    Elastic5.x, 6.x, 7.x暂不支持支持
    达梦数据库7,8支持支持
    Kafka2.3.x及以上暂不支持支持
    Redis2.x, 3.x, 4.x暂不支持支持即将上线
    DB29.7 LUW版本支持支持即将上线
    SybaseSybase ASE 15.7 及以上支持支持即将上线
    Gbase支持支持即将上线

    五、举例:Oracle 数据实时同步到 Elasticsearch

    一般需要做全文检索的时候,会将 Oracle 数据实时同步到 Elasticsearch。

    第一步:配置 Oracle 连接

    1. 点击 Tapdata Cloud 操作后台左侧菜单栏的【连接管理】,然后点击右侧区域【连接列表】右上角的【创建连接】按钮,打开连接类型选择页面,然后选择Oracle
      在这里插入图片描述

    1. 在打开的连接信息配置页面依次输入需要的配置信息
      在这里插入图片描述

    【连 接 名 称】:设置连接的名称,多个连接的名称不能重复
    【数据库地址】:数据库 IP / Host
    【端 口】:数据库端口
    【数据库名称】:tapdata 数据库连接是以一个 db 为一个数据源。这里的 db 是指一个数据库实例中的 database,而不是一个 schema。
    【账 号】:可以访问数据库的账号
    【密 码】:数据库账号对应的密码
    【时 间 时 区】:默认使用该数据库的时区;若指定时区,则使用指定后的时区设置

    第二步:配置 Elasticsearch 连接

    1. 同第一步操作,点击左侧菜单栏的【连接管理】,然后点击右侧区域【连接列表】右上角的【创建连接】按钮,打开连接类型选择页面,然后选择Elasticsearch
      在这里插入图片描述

    1. 在打开的连接信息配置页面依次输入需要的配置信息,配置完成后测试连接保存即可。
      在这里插入图片描述

    第三步:建立同步任务,以全量+增量同步举例
    进入Tapdata Cloud 操作后台任务管理页面,点击添加任务按钮进入任务设置流程
    在这里插入图片描述


    根据刚才建好的连接,选定源端与目标端。
    在这里插入图片描述


    根据数据需求,选择需要同步的库、表,如果你对表名有修改需要,可以通过页面中的表名批量修改功能对目标端的表名进行批量设置.
    在这里插入图片描述


    在以上选项设置完毕后,点击下方的全量+增量选项并点击确定按钮即可完成本次全量同步任务的配置,在点击确定后将自动返回任务管理页面,在任务管理页面中,点击右侧的启动按钮即可使Tapdata Agent 开始执行本次任务。在全量任务执行完毕后,Tapdata Agent 会自动进入增量同步状态。在该状态中,Tapdata Agent 会持续监听源端的数据变化(包括:写入、更新、删除),并实时的将这些数据变化写入目标端。

    在这里插入图片描述


    点击任务监控可以打开任务执行详情页面,可以查看任务执行的具体信息。
    在这里插入图片描述


    同理,其他数据库的同步操作也跟上面步骤一致,比如几个常用的场景是:
    • 从业务数据库到缓存数据库的实时同步
    • 不停机迁移数据库
    • 将主业务中心的数据实时同步至次业务中心
    • 构建只读实例
    • 构建异地灾备中心
    • 构建异地多活


    六、目标和源数据一致性

    很多人都担心同步的数据可能没法和源数据一致,Tapdata Cloud 提供了数据校验功能,包括快速count校验、表全字段值校验和关联字段值校验三种校验方式。
    • 快速count:仅对源表和目标表的行数进行count校验,速度极快,但是不会展示差异的具体字段内容。
    • 全表字段值校验:会对源表和目标表的全部字段进行逐行校验,能查出所有字段的差异,但是速度慢。
    • 关联字段值校验:只对源表和目标表的关联字段的值进行比对校验,速度快于全表字段值校验模式。
    校验操作步骤
    进入数据校验菜单,点击新建校验任务创建数据校验。
    【选择任务】:选择一个历史同步任务
    【校验类型】:可选 快速count校验、表全字段值校验和关联字段值校验
    【校验任务名】:默认与选择的同步任务名字一样
    【校验频次】:设置您的校验的执行频次
    【单次校验】:只执行一次校验
    【重复校验】:设置校验任务重复执行,支持设置校验执行的起止时间和校验间隔
    【错误数据保存条数】:当出现校验不一致的数据时,不一致数据保存的最大条数。该数值会影响到差异校验,当错误数据条数超出设置的保存条数时,将无法进行差异校验。
    【校验条件】:添加需要进行校验的表。点击自动添加会自动将任务下的所有表全部添加进来。

    快速count校验

    创建快速count校验时只需要选择到要校验的表,无需设置关联条件。
    在这里插入图片描述


    表全字段值校验

    除了要选择待校验表外,还需要针对每一个表设置索引字段。
    在这里插入图片描述


    在进行表全字段值校验时,还支持进行高级校验。通过高级校验可以添加JS校验逻辑,对源和目标的数据进行校验。

    在这里插入图片描述


    完整示例:以MongoDB查询示例

    JavaScript

    function validate(sourceRow){
        // 第1步
        var targetRow = target.executeQuery({database: "target",collection: "USER",filter: {USER_ID: sourceRow.USER_ID}});
        // 第2步
        if(sourceRow.USER_ID === targetRow[0].USER_ID){
            // 第3步
            return {result: 'passed',message: "",data: ""}
        }else{
            return {result: 'failed',message: "记录不一致",data: targetRow}
        }
    }
    

    在这里插入图片描述


    关联字段值校验

    创建关联字段值校验时,除了要选择待校验表外,还需要针对每一个表设置索引字段。
    在这里插入图片描述

    七、异构数据类型转换

    在异构数据库之间做同步,类型转换是一大难题,也是导致数据同步失败的重要原因,Tapdata Cloud 类型映射功能,在系统推演的基础上,提供了人工调整的能力,这一点比其他数据同步工具都更方便使用。
    在这里插入图片描述


    八、总结

    为了达到数据实时要求,并且不对源库造成干扰,首选 CDC 模式。
    现在市面上已经陆续出现了一些数据同步工具,完全没有必要自己撸代码了,免费的用起来不香吗?
    希望上文的实操图文,对你的数据库同步有帮助,有数据库相关的问题可以随时跟我交流!

    展开全文
  • 今天有小伙伴在idea中想要显示数据库表的数据信息时,连接失败或不知道如何操作导致手足无措,所以我今天就写一篇关于在idea中显示数据库表之间的信息。 首先我们在idea右侧点击DataSource 点击之后显示如图,点击...

    今天有小伙伴在idea中想要显示数据库表的数据信息时,连接失败或不知道如何操作导致手足无措,所以我今天就写一篇关于在idea中显示数据库表之间的信息。
    首先我们在idea右侧点击DataSource
    在这里插入图片描述
    点击之后显示如图,点击加号按钮
    在这里插入图片描述
    选择Data Source然后右移到右边列表的MYSQL上点击
    在这里插入图片描述
    这里就需要填写一些信息。User是数据库的用户名,Password是数据库的登陆密码,Database是你要查的数据库名称
    在这里插入图片描述
    以上信息填好后记得点击Test Connection按钮测试,如没问题就会显示下面的信息,这时候就可以点击下方的apply或ok
    在这里插入图片描述

    之后就会如下图显示数据库名和其下的所有数据表(因为数据表和库没法公开)
    在这里插入图片描述
    如要把显示到界面就可以如图操作
    在这里插入图片描述
    操作完成后中间的界面就会变成这样,所有数据表都会显示出来,根据需要就可以一一查看和研究
    在这里插入图片描述
    当然这个是可以放大了,本文中为了方便演示就没有放大了,它的功能还不止这些,在上面的标题栏还有更多的功能,本文就不一一讲解了,小伙伴们喜欢的话可以自己试着用一用,非常的方便与实用。

    展开全文
  • 数据库选择、投影、连接、除

    千次阅读 2021-01-09 15:43:59
    目录选择投影连接除 选择 选择满足给定条件的元组 是一个单目运算符 ddd 投影 连接 除

    选择

    • 选择满足给定条件的元组
    • 是一个单目运算符
    • 从行的角度进行的运算
      在这里插入图片描述
      在这里插入图片描述
      1.查询信息系(IS系)全体学生
      σ Sdept=‘IS’(Student)
      2.查询年龄小于20岁的学生
      σ Sage<20(Student)

    投影

    • 从指定关系选取若干属性
    • 单目运算符
    • 从列的角度进行的运算
    • 取消重复的行
      在这里插入图片描述
      查询关系Student上所在系属性上的投影
      π Sdept(Student)
    Sdept
    CS
    IS
    MA

    连接

    双目运算,从两个关系的笛卡尔积中选属性间满足一定条件的元组。

    等值连接

    在这里插入图片描述
    R

    ABC
    a1b15
    a1b26
    a2b38
    a2b412

    S

    BE
    b13
    b27
    b310
    b32
    b52

    R⋈S等于
    在这里插入图片描述

    自然连接

    特殊的等值连接,要求两个关系必须有公共域,结果把重复的属性列去掉
    R⋈S={t r⌒ts |tr∈R∧ts∈S∧tr[B]=ts[B]}

    R[R.B=S.B]S等于
    在这里插入图片描述
    两个关系做自然连接时,连接结果是满足条件的元组保留下来,不满足条件的元组被舍弃。

    连接

    内连接(INNER JOIN)

    两个关系做自然连接时,连接的结果满足条件的元组保留下来,不满足条件的元组被舍弃

    外连接(OUTER JOIN)

    把舍弃的元组保存在结果关系中,而其他属性上NULL

    1. 左外连接(LEFT OUTER JOIN)/(LEFT JOIN)
      把左边关系要舍弃的元组保留
    2. 右外连接(RIGHT OUTER JOIN)/(RIGHT JOIN)
      把右边要舍弃的元组保留

    是一个双目运算
    关系R

    ABC
    258
    436
    392
    136
    434
    192

    关系S

    BCD
    364
    925

    R和S共同属性为B和C的组合,R在A的取值域为{1,2,3,4}
    1对应的象集为 { (3,6),(9,2) }

    2对应的象集为 { (5,8)}

    3对应的象集为 { (9,2) }

    4对应的象集为 { (3,6),(3,4) }

    关系S在B、C上的投影为{(3,6),(9,2)}
    只有1 的值对应象集包含关系S的投影集,所以R÷S={1}

    A
    1
    展开全文
  • 文章目录数据库介绍数据库管理系统-简称(DBMS)数据库管理系统-主要功能数据库的类型1. 关系数据库2. 非关系型数据库(NoSQL)数据库模型数据库的架构数据库索引数据库操作:事务 数据库介绍 数据库,简而言之可视...
  • 《考勤信息管理系统》数据库课程设计

    万次阅读 多人点赞 2021-01-09 17:11:19
    考勤信息管理系统 目 录 一、课程设计目的和要求 2 二、课程设计过程 2 数据库设计的基本步骤如下: 3 1.需求分析阶段 3 1.1应用背景 3 1.2需求分析目标 4 1.3系统设计概要 4 1.4软件处理对象: 4 1.5系统可行性分析...
  • 查询所有数据库名 数据库、表、列、用户、权限等信息被存储在数据库和表中,不过内部的表一般不直接被访问。可用MySQL的 show 命令来显示这些信息...选择数据库 最初连接到数据库时,没有任何数据库打开供你使用。...
  • 数据库怎么创建学生信息

    万次阅读 2021-02-05 07:04:17
    数据库创建学生信息表的方法是:1、新建表:单击数据库“studentDb”前图标,然后右键“表”文件包,单击“新建表”选项,进入“新建表”窗口。2、设定表标识字段id:填写第一个列名“id”,设定数据类型为“int”,...
  • 数据库关系代数详解

    万次阅读 多人点赞 2021-02-26 16:35:55
    数据库关系代数 1. 关系代数的运算 1.1 传统的关系运算 传统的关系运算起源于数学的集合论,有下面几种: 笛卡尔积运算 差运算 交运算 并运算 1.2 专门的关系运算 选择 投影 连接 除运算 1.2.1 关系运算中的基础...
  • 数据库题目之数据库设计

    万次阅读 多人点赞 2019-01-10 15:21:25
    1、在数据库设计中,用E-R图来描述信息结构但不涉及信息在计算机中的表示,它是数据库设计的 阶段。 A.需求分析 B.概念设计 C.逻辑设计 D.物理设计 【答案:】B 2、在关系数据库设计中,设计关系模式是 的...
  • 数据库复习题之选择

    万次阅读 2021-05-05 15:16:09
    一些选择题: 数据库管理系统(DBMS)的主要功能是 。 A.修改数据库 B.定义数据库 C.应用数据库D.保护数据库 数据库系统的特点是 、数据独立、减少数据冗余、避免数据不一致和加强了数据保护。 A.数据共享...
  • MySQL选择数据库

    千次阅读 2013-07-21 00:52:25
    一、选择数据库 1、show databases;返回可用数据库的一个列表 2、use onlinemusic;打开onlinemusic数据库 二、选择表 1、show tables;返回当前选择的数据库内可用表的列表 三、show语句 1、show status;...
  • 数据库设计

    万次阅读 2021-09-14 09:58:39
    目标:为用户和各种应用系统提供一个信息基础设施和高效率的运行环境。 一、数据库设计的特点 数据库建设的基本规律 三分技术,七分管理,十二分基础数据 管理 数据库建设项目管理 企业(即应用部门)的业务管理 ...
  • 分布式数据库如何选择?几种分布式数据库优缺点一览 1.为什么选择分布式数据库? 优点如下: (1)具有灵活的体系结构 (2)适应分布式的管理和控制机构 (3)经济性能优越 (4)系统的可靠性高、可用性好 (5)局部...
  • mysql 查询版本(mysql查询数据库版本信息)2020-07-24 11:32:43共10个回答1、通过mysql的-V参数查询版本信息...4、通过mysql数据库函数查询版本信息selectversion();5、通过version环境变量查询版本信息执行selectver...
  • 数据库的选型原则

    万次阅读 2018-10-21 15:27:58
    企业的信息化可以促进生产力,但如果选择了不稳定产品,经常影响业务生产的正常运营,则实际效果很可能是拖了企业的后退。无论是计划中(数据库维护等正常工作)还是意外的宕机都将给企业带来巨大的损失,这意味着.....
  • 为什么要选择MySQL数据库?

    万次阅读 2019-06-17 15:06:58
    什么是MySQL? MySQL是一个多用户、多线程的SQL数据库,是一个客户机/服务器结构的应用,它由...SQL语言使得存取或更新信息变得十分容易,你可以直接使用SQL从网站上查询信息。MySQL的快速和灵活性足以满足一个网站...
  • 一、查看数据库的相关信息1、查看数据库版本命令:select @@version;例子:2、查看数据库状态信息命令:status;例子:3、查看数据库当前连接数命令:show status like 'threads_connected';例子:4、查看当前最大...
  • 实时数据库与时序数据库

    千次阅读 多人点赞 2020-11-18 10:40:39
    在工业大数据数据库存储领域,除了传统的关系型数据库和分布式数据库以外,还有一种类型的数据库是非常常用,而且是非常有必要的,就是实时数据库,以及时序数据库。 但是,大家可能会有疑问,都是专门处理时序数据...
  • NOSQL数据库习题

    千次阅读 多人点赞 2021-11-14 17:42:24
    3.NoSQL是一种_非关系型____、分布式、不遵循ACID、_不提供SQL___功能的数据库。 4.NoSQL理论的基础是由_CAP原则_、BASE理论以及_最终一致性__奠定的。 5.NoSQL数据库主要有四大类型,_键值对存储数据库__、...
  • MySQL数据库数据库引擎有哪些

    千次阅读 2017-03-26 23:26:18
    对于数据库引擎这个概念,不是特别的清楚有点混淆,就上网搜集了一些资料,学习了一下,分享一下: MySQL(和PHP搭配之最佳组合)的自带MySQL数据库引擎肯定是够用了,但是在有些情况下,其他的引擎可能要比手头所用...
  • 数据库数据库选择题练习及详解

    万次阅读 多人点赞 2020-11-04 22:43:23
    数据库习题详解
  • 数据库系统概论期末复习(选择题)

    万次阅读 多人点赞 2019-12-30 19:54:32
    1.数据独立性是指___________ 。 A....2.数据库系统与文件系统的主要区别是 。 A.数据库系统复杂,而文件系统简单 B.文件系统不能解决数据冗余和数据独立性问题,而数据库系统可以解决 ...
  • 数据库应用领域

    千次阅读 2019-05-15 10:23:17
    数据库应用领域 数据库的基本概念和应用领域 简单地说,可以把数据库定义为数据的集合,或者说数据库就是为了实现一定的目的而按某种规则组织起来的数据的集合。数据库管理系统就是管理数据库的系统,即对数据库执行...
  • H2 是一款基于 Java 实现的小巧而强大的关系型数据库,支持嵌入式、客户端/服务器以及混合部署模式。H2 数据库适合嵌入小型应用程序、元数据管理、快速应用开发和测试、内存数据库
  • 数据库实验

    千次阅读 2020-02-02 13:26:40
    实验一 创建数据库和表 一、目的和要求` 熟悉SQL Server 环境。 掌握企业管理器的基本使用方法 掌握查询分析器的基本使用方法。 了解表的结构特点,了解SQL Server的基本数据类型。 学会在企业管理器中...
  • 数据库数据库设计(需求,设计,运行,维护)

    万次阅读 多人点赞 2020-11-16 16:47:49
    数据库设计的目标:是为用户和各种应用系统提供一个信息基础设施和高效率的运行环境 。 数据库设计的基本任务:是根据用户的信息需求、处理需求和数据库的支持环境(包括硬件、操作系统和DBMS),设计出数据库模式...
  • 数据库课程设计——学生宿舍信息管理系统

    万次阅读 多人点赞 2018-09-17 23:33:00
    数据库课程设计——学生宿舍信息管理系统 目录  1.设计目的... 2 2、任务与要求... 2 3、学生宿舍管理系统课程设计... 2 3.1 引言... 2 3.2需求分析... 2 3.2.1....
  • 数据库基础---选择,投影,连接,除法运算

    万次阅读 多人点赞 2019-04-26 16:57:13
    关系数据库中的选择,投影,连接,除法都是很重要的运算 选择 定义:在关系中选择在指定属性上有确定值的关系的子集。表示为: 选择运算是选择关系中行的子集,即选择满足条件的元组 例: 1.查询信息系(IS系)全体...
  • 几种开源数据库

    万次阅读 2019-05-01 17:11:23
    NoSQL数据库一天天变得越来越流行。以下是最好的,免费,开源NoSQL数据库的一个列表。其中MongoDB是这些开源NoSQL数据库中最好的。这个列表包括:MongoDB, Cassandra, CouchDB, Hypertable, Redis, Riak, Neo4j, ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,149,309
精华内容 459,723
关键字:

选择数据库需要提供哪些信息