精华内容
下载资源
问答
  • java运用poi操作word,替换word中的占位符填充数据,并将多个word合并成一个word,附件是java代码和相关jar包,以及测试模板,需要注意是,只适用2007以上的word
  • 这个项目是用vs提供的Excel接口来完成多个Excel的合并。优点是合并速度快,尤其是对于几万条的大数据量来说!
  • 实现批量txt的读取并合并到一个txt中进行输出,主要用于tcga数据的预处理

    本程序功能

    将tcga数据的批量txt文件合并成一个txt。

    如下:

    • 原始的第一个txt(代表一个病人)的数据内容

     

    • 合并之后的txt数据,基因名不变,只是把病人的表达量收集到一起

     

     

    操作详细步骤

    本人测试通过的运行环境:Python 2.7  Windows 7 64bit  cmd命令运行器

    使用步骤:

            1.将要处理的数据txt文件放入到11这个文件夹下面(默认的root = 'C:\\tcga\\datapro\\11'),或者将单引号' '中的路径改成自己txt所在的文件夹的路径(结尾没有\\也行

     

            2.放入的txt文件建议不要超过100个,因为个数越多,读入时消耗电脑内存就越大,容易卡机,测试时100个可以正常运行

            3.默认生成的txt路径为F:/data1.txt,自己也可以修改这个路径和文件名

     

            4.点Windows键,在搜索栏输入 cmd 按回车键,cmd将被打开

            4.将tcga_txt.py文件复制到安装的Python所在的文件夹下,我的是C:\Python27(默认安装就是这个路径),能看到python.exe

     

            5.在cmd中输入cd C:\Python27(注意有空格)按回车会进入到该目录,然后输入python.exe tcga_txt.py  再按回车,就开始执行程序了,可以看到写入到输出文件的基因行数

     

            4.处理完第一批txt后,记得将生成的data1.txt改名或者的剪切到别的地方,防止第二批txt运行时生成的data1.txt将其覆盖掉

    源码

      tcga_txt.py

    # -*- coding:utf-8 -*-
    """
    Author:Logen
    Version=1.0
    Email:iin729@163.com
    测试的运行环境:Python 2.7  Windows 7 64bit 
    使用说明:
            1.将要处理的数据txt文件放入到11这个文件夹下面(默认的root = 'C:\\tcga\\datapro\\11'),或者将''中的路径改成自己txt所在的文件夹的路径也行
            2.放入的txt文件建议不要超过100个,因为个数越多,读入时消耗电脑内存就越大,容易卡机,测试时100个可以正常运行
            3.默认生成的txt路径为F:/data1.txt,自己也可以修改这个路径和文件名
            4.处理完第一批txt后,记得将生成的data1.txt改名或者的剪切到别的地方,防止第二批txt运行时生成的data1.txt将其覆盖掉
    """
    #当编写的Python文件即当前代码及注释中含有中文或者非英文字符时,需要声明编码格式为utf-8
    import os   #读取txt文件所需要的包
    import linecache #读取指定行函数linecache.getline(file_ob, line_num)所在的包
    
    root = 'C:\\tcga\\datapro\\11'#读取的批量txt所在的文件夹的路径
    file_names = os.listdir(root) #读取11文件夹下所有的(520个)txt的文件名
    file_ob_list = []   #定义一个列表,用来存放刚才读取的520个txt文件名
    for file_name in file_names:  #循环地给这520个文件名加上它前面的路径,以得到它的具体路径
        fileob = root + '\\' + file_name #文件夹路径加上\\ 再加上具体要读的的txt的文件名就定位到了这个txt
        file_ob_list.append(fileob) #将路径追加到列表中存储  ['C:\\tcga\\datapro\\11\\1.txt','C:\\tcga\\datapro\\11\\2.txt',。。。。]
    
    print file_ob_list  #打印这个列表的内容到显示屏,不想显示的话可以去掉这句
    
    ldata=[]
    data = []
        #file_ob_list是所有文件(比如10个txt)对象组成的列表,for用来循环读取每一个文件,读取一个文件的方式是一行行读入,
        # 每次循环一次for就读取所有文件的某一行,因为这一行的第一列都是基因名称,都是一样的
    line_num = 1  #从txt的第一行开始读入
    total_line = len(open(file_ob_list[0]).readlines()) #计算一个txt中有多少行
    while line_num <= total_line:        #只有读完的行数小于等于总行数时才再读下一行,否则结束读取
        for file_ob in file_ob_list:    #按顺序循环读取所有文件
                line = linecache.getline(file_ob, line_num)#读取这个文件的第line_num行
                line = line.strip() #去掉这一行最后一个字符/n 即换行符
                if line is None or len(line) ==0 :
                    break
                fields = line.split('\t')  #将这一行划分为两列,存放到列表中,fields是这样的: ['ENSG00000242268.2','0.0']
                prob = fields[1]           # fields[0]是'ENSG00000242268.2'   fields[1]是'0.0'
    
                #这个if部分只是将表达量的10位小数点压缩到4位,其实可以去掉这个处理
                if fields[1] != 'NA':      #基因表达量不是NA也就是为数字时,才对它进行小数点的减少处理
                    prob = float(fields[1]) #将字符形式的数字如'0.0'强制转化为浮点型(带小数点的数字)数字0.0
                    prob = '%.4f' % prob   #只保留小数点后面的4位小数
    
                if file_ob == file_ob_list[0] :  #如果读的是第一个txt文件,则将读进去的第一列基因名和第二列表达量
                    data = [fields[0], prob]     # 都加入到列表中  data=  ['ENSG00000242268.2','0.0']
                else :                          # 如果读进去的不是第一个文件,则跳到else执行,第一列不要,
                    data.append(prob)           #只将第二列表达量追加到之前的二维数组后面,假如这时读的是第二个文件的第一行
                                                # 此时fields为['ENSG00000242268.2','0.10'],则data=['ENSG00000242268.2','0.0','0.10']
    
        line_num = line_num + 1     #行数加1,好接着读取每一个文件的第二行
        ldata.append(data)        #将存放了所有txt的第一行数据的data,放到一个新的列表中保存,这时ldata就是一个二维列表,ldata=[['ENSG00000242268.2','0.0','0.10'],[...],...]
                                #用来存放所有的(60482行,就是所有的基因名)行数
        data=[]                #清空data用来存放所有txt的下一行
    
    f = open("F:/data1.txt", "w+")  #创建存放数据的文件
    for i,p in enumerate(ldata):    #将数据写入文件,i是enumerate()函数返回的ldata的某个元素p(就是一行数据,如['ENSG00000242268.2','0.0','0.10']从第一个开始)开始的序号(0,1,2等)
        for j,q in enumerate(p):   #读取p(如['ENSG00000242268.2','0.0','0.10'])中的每一个元素
            f.write(q + "\t" )    #将这个元素写到txt中,每写一个加入一个“\t”(它代表excel中的一根竖线)
        print i                 #显示一下打印到了第多少行
        f.write( "\n")         #每写完一行,就写入一个换行符"\n",好使的接下来的数据写入到第二行
    
    f.close()  #操作完一个文件后应该将它关闭
     

     

     

     

     
    展开全文
  • 多个txt文本文件合并成一个txt文件 方法一:批处理文件 有文档1.txt、2.txt 新建一个文档:合并文档.txt,在该合并文档中输入 copy/b 1.txt+2.txt 3.txt合并文档.txt更改为合并文档.bat,运行即可。 命令行...

    将多个txt文本文件合并成一个txt文件

    方法一:批处理文件

    有文档1.txt、2.txt

    新建一个文档:合并文档.txt,在该合并文档中输入

    copy/b 1.txt+2.txt 3.txt
    

    合并文档.txt更改为合并文档.bat,运行即可。

    命令行帮助 /B 表示一个二进位文件。
    copy/b 1.txt+2.txt 3.txt 就是把两个文件按照二进制 直接拼接到一起,拼接的结果写到3.txt中


    copy:

    将一个或多个文件从一个位置复制到另一个位置。

    语法

    copy [/d] [/v] [/n] [/y | /-y] [/z] [/a | /b] <source> [/a | /b] [+<source> [/a | /b] [+ ...]] [<destination> [/a | /b]]
    

    参数

    参数描述
    /d允许复制的加密文件作为解密文件保存在目标位置。
    /v验证是否已正确写入新文件。
    /n当复制名称长度超过8个字符或文件扩展名长度超过三个字符的文件时,使用短文件名(如果可用)。
    /y禁止提示您确认是否要覆盖现有目标文件。
    /-y提示您确认是否要覆盖现有的目标文件。
    /z在可重启模式下复制网络文件。
    /a指示 ASCII 文本文件。
    /b指示二进制文件。
    <source>必需。 指定要从中复制文件或文件集的位置。 可以包含驱动器号和冒号、目录名称、文件名或它们的组合。
    <destination>必需。 指定您要将一个或一组文件复制到的位置。 目标可以包含驱动器号和冒号、目录名称、文件名或它们的组合。
    /?在命令提示符下显示帮助。

    方法二:命令行处理

    有文档1.txt、2.txt、3.txt,在data文件目录下(目录必须是英文)

    • win+r 进入运行界面

    • 进入data文件夹内

      C:\Users\maidou>E:
      
      E:\>cd data
      
      E:\data>type *.txt > new.txt
      
      1.txt
      
      2.txt
      
      3.txt
      
      new.txt
      
      E:\data>
      

      可以根据需要将new的后缀更改为.txt.doc


    type语法:

    type [<Drive>:][]<FileName>
    

    参数:

    参数描述
    [:][ ] 指定要查看的一个或哪些文件的位置和名称。 用空格分隔多个文件名。
    /?在命令提示符下显示帮助。

    备注:

    • 如果FileName包含空格,则用引号将其引起来 (例如,包含 Spaces.txt) 的文件名。
    • 如果显示的是由程序创建的二进制文件或文件,则屏幕上可能会出现奇怪的字符,包括换页符字符和转义序列符号。 这些字符表示二进制文件中使用的控制代码。 通常,应避免使用type命令显示二进制文件。

    示例

    若要显示名为 “假日” 的文件的内容,请键入:

    type holiday.mar
    

    若要显示名为 “假日” 的长文件的内容,请一次一个屏幕,键入:

    type holiday.mar | more
    

    Windows命令大全

    展开全文
  • python 合并多个txt文件到一个csv文件

    千次阅读 2019-05-27 15:28:37
    import os import pandas as pd import numpy as np #传入参数:file_dir-文件...def file_list(file_dir,ext='.txt'): #将目标文件名保存为list L=list(filter(lambda filename: os.path.splitext(filename)[...

    import os
    import pandas as pd
    import numpy as np

    #传入参数:file_dir-文件所在路径,ext-目标文件后缀
    def file_list(file_dir,ext='.txt'):
        #将目标文件名保存为list
        L=list(filter(lambda filename: os.path.splitext(filename)[1] == ext,os.listdir(file_dir)))
        #初始化中间变量
        result=pd.DataFrame()
        tt=pd.DataFrame()
        #print(L)
        for i in L:
            #print(i)
            tdate=i[0:4] #取文件名前4位的日期值
            n=i.find('ym') #找到关键字’ym‘的index
            tag=i[n-1:n+1] #截取目标字符串
            f=pd.read_csv(i,header=None) #读入文件
            #定义拼接函数
            def con(x):
                return tdate+','+str(x)+','+tag
            a=f[0].apply(con) #应用拼接函数到数据框的列
            tt=pd.concat([result,a]) #结果整合
            result=tt #更新result
        tt.to_csv("rr.csv",index=False,header=False,encoding='GBK') #结果输出至csv文件
        return tt #屏幕输出,可注释

    file_dir="/Users/ym/Documents/test" #定义目录路径
    file_list(file_dir) #调用函数

    展开全文
  • 如何快速合并多个TXT文本内容

    千次阅读 2018-12-11 15:10:00
    工作中有时候需要合并文本内容,例如一些推送清单之类,一打开去复制粘贴的话,少量还行,如果txt文本数据量大(10+M以上)且文件数量(成百上千),这种方式就显得很低效了。具体要求如下:  ...

      工作中有时候需要合并很多文本内容,例如一些推送清单之类,一个一个打开去复制粘贴的话,少量还行,如果txt文本数据量大(10+M以上)且文件数量多(成百上千),这种方式就显得很低效了。具体要求如下:

              

     

     如上这样的一个文件夹里,需要我们打开子文件夹,然后对其中的txt文档进行合并,最后再合并为总文件。

      首先,考虑分成两个步骤,第一步是找出所有的txt文件,并存放在同一个文件夹里;第二步是合并所有的txt文件。

      第一步:找出所有的txt文件,这个可以有诸多方法,这里介绍常见的两种。

      方法一:利用文件搜索。在当前文件夹下的搜索框中,使用“.txt”关键字搜索出所有的txt文件,然后全选复制到一个新建的文件夹“CItyConcat”里。

      方法二:利用批处理

    :: 新建一个文件夹cityconcate
    md cityconcate
    :: 复制子文件夹内的txt文档到cityconcate文件夹里
    for /f "delims=" %%p in ('dir /b/ad') do copy %%p\*.txt* %~dp0\cityconcate\

      第二步:合并文件

    ::合并全部文件夹
    cd  %~dp0\cityconcate
    type *.txt >> Concat.txt

      整个过程直接使用批处理会方便很多,只需要新建一个txt文件,并将下面代码复制进去后改后缀为bat即可

    @ echo off
    :: 新建一个临时文件夹concate
    md concate
    :: 复制子文件夹内的txt文档到concate文件夹里
    for /f "delims=" %%p in ('dir /b/ad') do copy %%p\*.txt* %cd%\concate\
    ::合并全部文件夹
    cd  %cd%\concate
    type *.txt >> Concat.txt
    :: 复制出合并后的文件到批处理文件所在的地址
    copy %~dp0\concate\Concat.txt  %~dp0\All.txt
    :: 删除临时文件夹,如果要保存此文件夹,则注释掉下面的代码即可
    cd ..
    rd /s/q  %~dp0\concate

     

    转载于:https://www.cnblogs.com/HYLering/p/10102326.html

    展开全文
  • 先讲下需求,有若干文本文件(txt或者csv文件等),每行代表一条数据,现在希望能合并成 1 文本文件,且需要去除重复行。 分析: 一向奉行简单原则,如无必要,绝不复杂。 如果数据量不大,那么如下两条...
  • 任意多个数据框 返回值: DataFrame 注意:用中框号括起来 例如: data=pandas.concat([data1,data2,data3]) 有选择的合并列 data=pandas.concat([  data1[[0,1]],  data2[[1,2]],  data3...
  • 文章目录数据说明用xlrd和xlwt读写excel使用openpyxl库读写excel最简单的批量合并txt(适用海量数据)win10批量合并办法: 数据说明 这个数据是我们组找的19年全国大学生数学建模竞赛C题的数据集,是上海市出租车GPS...
  • 首先想要用一循环读取txt数据,假设txt数据保存的名字为'8-1.txt','8-2.txt',...,并将数据保存在一数组中,以读取4组数据为例,实现数组的纵向拼接,程序实现如下: data=[]; for i=1:4 fileName = ['8-' num2...
  • 多个Excel表合并成一个Excel表

    万次阅读 多人点赞 2019-06-30 17:38:04
    问题描述: 往往在进行数据统计分析前,会遇到数据分在不同的表里的情况,这时候就需要将多个表的数据先放到一个表的数据里面,然后再进行分析。比如班级需要汇总每个人的信息,几十人每个人都发了个人的信息表,一...
  • #第一步:调用pandas包 import pandas as pd import os ...# 第二步:读取数据合并 for name in os.listdir('./data/'): iris = pd.read_excel('./data/%s'%(name)) iris_concat = pd.concat([ir...
  • 在工作中,有时候因为部门间的数据权限问题,推送数据的时候往往是通过邮件完成,对于量大数据,往往会拆成很多个excel发送,到下一个部门导入数据库之前,总是需要先将所有excel合成一个excel,再导入数据库。...
  • 例如:多个TXT大数据文本文件合并以及文本行去重 130GB20亿行数据60分钟即可完成去重操作 测试数据大小:20亿行130GB的数据只需60分钟 平均去重速度:2000000000(行) ÷ 3600(秒) =‬ 555555(行/秒)≈55万行/秒 ...
  • pieces=[] columns=['name','sex','births'] for year in range(1880,2011): path=('C:\\Users\\ecaoyng\\Desktop\\work space\\Python\\py_for_analysis\\pydata-book-master\\ch02\\names\\yob%d.txt' % year)
  • python合并多个excel表格数据(一)

    万次阅读 2016-11-27 03:26:57
    公司每周有一日常统计任务的表格,每表格有十几sheet,分别是不同组员的。每月需要把四-五周表格汇总,统计该组员每月任务。 不知道excel怎么能弄好,也不会VBA。 希望能一劳永逸地解决这问题,把每
  • 由于员工基数,单独靠一合并起来就很费时费力,工作十分庞大,且是枯燥的重复苦力活,故开发此程序,减少工作,提升工作效率。 设计:本程序是一次输出为excel,所以当文件过,就会有内存溢出,
  • 简介 多数情况下使用组可以很容易地操纵和...通过THREE.Geometry.merge()函数,你可以将多个几何体合并起来创建一个联合体。 查看案例:http://www.wjceo.com/blog/threejs/2018-03-14/123.html 当我们使用普通...
  • 解决思路:就必须对每台服务器的IP访问进行统计,然后,利用R语言中的数据合并(merge(x,y)函数)进行处理 可以写一个数据合并的函数,然后用Reduce()函数。 Merge_func  df  rowna
  • Linux合并多个文件/与切割文件

    千次阅读 2014-06-20 11:41:42
    Linux合并多个文件
  • 然后,这需求就是,把几比较小的文件,批量的复制然后合并到一文件。实现分分钟去创建一超大文件的场景。 使用的命令: for i in {1..10}; do cat *.flows >> /Users/fang/Downloads/create/ls/lx3k...
  • 由于我程序分了运行表和历史表,但查询数据呢却需要两合并来搜,然后按时间排序,然后才做到网页分页,现在历史表数据量4亿,运行表数据量40W。主要是单一字段查询。应该怎么优化呢?
  • ArcGIS 矢量数据合并

    千次阅读 2020-12-08 17:33:52
    问题: 有n矢量图层,均有相同名称的字段,需将这n图层进行合并变为一图层
  • 当文件夹下包含大量数据时,如通过LIBS得到的大量数据样本。当我们进行分析时,需要进行合并。可以使用matlab 原始数据 每文件格式形如: 新数据 file=dir('E:\libs_project\RS\*.txt'); #文件夹路径...
  • python合并excel的多个sheet

    千次阅读 2020-08-09 22:01:49
    因为,每天都会有的大量excel报表汇总处理任务,所以写了一脚本来处理。 就是找出每一excel中特定的sheet,把这些sheet的特定列读取出来合并到一sheet中。 因为每一sheet的数据都不太一样,所以稍微麻烦一点...
  • HBase合并详解

    千次阅读 2020-09-05 21:02:38
    本文介绍了HBase的合并原因、合并原理、合并分类、何时触发合并,以及对大合并的性能优化等内容,这也是HBase不同于其他关系型数据库的一种新特性,也是HBase能存储大量数据的写入不会慢,而且随着数据量的增加,...
  • 了一个合并单元格的方法 addMergedRegionUnsafe ,比 addMergedRegion 少了一些检测异常的过程 源码如下: public int addMergedRegion(CellRangeAddress region) { return this.addMergedRegion(region, ...
  • 机器学习必须需要大量数据?小数据集也能有价值!   ...   ...【导读】数据不够,就不能...本文作者提出了一些比较实用的方法,从简单的经典机器学习建模方法开始着手解决这问题,以应对文本数据量不够的情况...
  • 数据量的排序问题 大量数据如何排序

    万次阅读 多人点赞 2016-04-14 15:33:16
    数据量的排序问题 大量数据如何排序  【尊重原创,转载请注明出处】http://blog.csdn.net/guyuealian/article/details/51119499  同学某天参加腾讯面试,技术面的时候,面试官问了排序问题:   问题一:若有...
  • 之前想把一个工作簿中结构相同的多个sheet进行合并,由于sheet太多,不可能手动完成,又不会VBA编程,所以就谢了一个实现此功能的python程序。希望对有相同需求的兄弟姐妹有帮助。 用到的Python模块如下: xlrd ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 417,592
精华内容 167,036
关键字:

多个txt合并大数据量