精华内容
下载资源
问答
  • 常见文本文档格式,0为结构化或代码类,1为文档类. 后缀 类型 C 0 CPP 0 H 0 asm 0 bat 0 c 0 cc 0 clj 0 cmake 0 coffee 0 cpp 0 cs 0 csproj 0 css 0 d 0 dd 0 ddoc 1 ...

    常见文本文档格式,0为结构化或代码类,1为文档类.

    后缀 类型
    C 0
    CPP 0
    H 0
    asm 0
    bat 0
    c 0
    cc 0
    clj 0
    cmake 0
    coffee 0
    cpp 0
    cs 0
    csproj 0
    css 0
    d 0
    dd 0
    ddoc 1
    dot 0
    erl 0
    filters 1
    fs 0
    fsi 0
    fsproj 0
    fsx 0
    go 0
    h 0
    hpp 0
    hrl 0
    htm 1
    html 1
    ini 0
    java 0
    js 0
    json 1
    kt 0
    less 0
    lua 0
    m 0
    mak 0
    md 1
    markdown 1
    php 0
    xhtml 1
    rtf 1
    txt 1
    ps1 0
    py 0
    rb 0
    rc 0
    rs 0
    rst 1
    sass 0
    scala 0
    scss 0
    sdl 1
    sh 0
    sln 0
    sql 0
    toml 0
    ts 0
    vcproj 0
    vcxproj 0
    visualdproj 0
    vue 1
    wxml 1
    wxss 1
    xaml 0
    xml 0
    yml 1
    展开全文
  • 基础篇如何正确的拆分常见文本格式, 什么样的字符能做拆分符号,理论上所有的字符都可以作为拆分符号用来拼接多列数据, 在拆分列数据的时候,数据里面不能再有这个拆分符号一样的字符串,否则数据就无法分开了...

    基础篇如何正确的拆分常见的文本格式,

    什么样的字符能做拆分符号,理论上所有的字符都可以作为拆分符号用来拼接多列数据,

    在拆分列数据的时候,数据里面不能再有这个拆分符号一样的字符串,否则数据就无法分开了,下面是日常工作中

    我们常用的列拆分符号(可以是连续的多个同样字符作为1个拆分符号,相当于一个不常用的字符来做拆分符号)

    博客中说的本软件是指大数据 - 文本文件数据提取工具

    随机生成的范例数据说明如下:
    其中的文本它只有1列数据共16万行
    但可以按照英文冒号把1列数据拆分成2列数据
    每行数据的分割符号为英文输入法下的冒号
    (我自己拼接每行数据时用的是英文冒号,
    当然你自己如果能生成类似的数据用中文输入法
    下的中文冒号也是可以的,但不要中英文冒号混用,
    软件是能实现解析中英文冒号的,如果实现了这样的
    功能,处理大数据会严重影响数据的处理速度,
    故我放弃了中英文冒号混用的情形,你的文本分割符,
    要么用统一的中文冒号,要么用英文冒号,混用的话,
    本软件是不支持的)

    同样要注意的 还有中文逗号和英文逗号
    ------就是你的原始文件里所有行的列分割符号不能混用
    软件不能处理这样的数据,但你硬是出现了这样的情况,
    请联系我,我会单独写一个小工具帮你处理这样的混乱情况!

    如何从本文件里提取任何一列或者多列数据,会在其它篇幅里讲到
    (提取数据常用的的条件 有大于  大于等于  小于   小于等于  不等于 等于  前缀包含  后缀包含  中间靠前的部分包含或者中间靠后的部分包含简写成包含) 本篇只介绍常见的文本分隔符号。

     

    随机生成的范例数据说明如下:
    其中的文本它只有1列数据共16万行
    但可以按照英文双冒号把1列数据拆分成2列数据
    每行数据的分割符号为英文输入法下的冒号
    (我自己拼接每行数据时用的是英文双冒号,
    当然你自己如果能生成类似的数据用中文输入法
    下的中文双冒号也是可以的,但不要中英文冒号混用,
    软件是能实现解析中英文冒号的,如果实现了这样的
    功能,处理大数据会严重影响数据的处理速度,
    故我放弃了中英文冒号混用的情形,你的文本分割符,
    要么用统一的中文双冒号,要么用英文双冒号,混用的话,
    本软件是不支持的)

    同样要注意的 还有中文逗号和英文逗号
    ------就是你的原始文件里所有行的列分割符号不能混用
    软件不能处理这样的数据,但你硬是出现了这样的情况,
    请联系我,我会单独写一个小工具帮你处理这样的混乱的情况!

    随机生成的范例数据说明如下:
    其中的文本它只有1列数据共16万行
    但可以按照英文双冒号把1列数据拆分成3列数据
    每行数据的分割符号为英文输入法下的冒号
    (我自己拼接每行数据时用的是英文双冒号,
    当然你自己如果能生成类似的数据用中文输入法
    下的中文双冒号也是可以的,但不要中英文冒号混用,
    软件是能实现解析中英文冒号的,如果实现了这样的
    功能,处理大数据会严重影响数据的处理速度,
    故我放弃了中英文冒号混用的情形,你的文本分割符,
    要么用统一的中文双冒号,要么用英文双冒号,混用的话,
    本软件是不支持的)

    同样要注意的 还有中文逗号和英文逗号
    ------就是你的原始文件里所有行的列分割符号不能混用
    软件不能处理这样的数据,但你硬是出现了这样的情况,
    请联系我,我会单独写一个小工具帮你处理这样的混乱的情况!

     

    随机生成的范例数据说明如下:
    其中的文本它只有1列数据共16万行
    但可以按照英文双冒号把1列数据拆分成11列数据
    每行数据的分割符号为英文输入法下的冒号
    (我自己拼接每行数据时用的是英文双冒号,
    当然你自己如果能生成类似的数据用中文输入法
    下的中文双冒号也是可以的,但不要中英文冒号混用,
    软件是能实现解析中英文冒号的,如果实现了这样的
    功能,处理大数据会严重影响数据的处理速度,
    故我放弃了中英文冒号混用的情形,你的文本分割符,
    要么用统一的中文双冒号,要么用英文双冒号,混用的话,
    本软件是不支持的)

    同样要注意的 还有中文逗号和英文逗号
    ------就是你的原始文件里所有行的列分割符号不能混用
    软件不能处理这样的数据,但你硬是出现了这样的情况,
    请联系我,我会单独写一个小工具帮你处理这样的混乱的情况!

    以下截图与上面类似,只是分割符号不一样而已

     

     

     

     

     

     

     

     

     

    展开全文
  • 文件格式共有308个26种类,在我们日常生活中所能用到还真是了了屈指可数的几个,小编整理发上来给大家分享分享!   AACE:Ace压缩档案格式 ACT:Microsoft office助手文件 AIF,AIFF:音频互交换文件,Silicon ...

    文件格式共有308个26种类,在我们日常生活中所能用到还真是了了屈指可数的几个,小编整理发上来给大家分享分享!

     

    A
    ACE:Ace压缩档案格式 
    ACT:Microsoft office助手文件 
    AIF,AIFF:音频互交换文件,Silicon Graphic and Macintosh应用程序的声音格式 
    ANI:Windows系统中的动画光标 
    ARC:LH ARC的压缩档案文件 
    ARJ:Robert Jung ARJ压缩包文件 
    ASD:Microsoft Word的自动保存文件;Microsoft高级流媒体格式(microsoft advanced streaming 
    format,ASF)的描述文件;可用NSREX打开 Velvet Studio例子文件 
    ASF:Microsoft高级流媒体格式文件 
    ASM:汇编语言源文件,Pro/E装配文件 
    ASP:动态网页文件;ProComm Plus安装与连接脚本文件;Astound介绍文件 
    AST:Astound多媒体文件;ClarisWorks“助手”文件 
    Axx:ARJ压缩文件的分包序号文件,用于将一个大文件压至几个小的压缩包中(xx取01-99的数字) 
    A3L:Authorware 3.x库文件 
    A4L:Authorware 4.x库文件 
    A5L:Authorware 5.x库文件 
    A3M,A4M:Authorware Macintosh未打包文件 
    A3W,A4W,A5W:未打包的Authorware Windows文件

    B
    BAK:备份文件 
    BAS:BASIC源文件 
    BAT:批处理文件 
    BIN:二进制文件 
    BINHex:苹果的一种编码格式 
    BMP:Windows或OS/2位图文件 
    BOOK:Adobe FrameMaker Book文件 
    BOX:Lotus Notes的邮箱文件 
    BPL:Borlard Delph 4打包库 
    BSP:Quake图形文件 
    BUN:CakeWalk 声音捆绑文件(一种MIDI程序)

    C
    C0l:台风波形文件 
    CAB:Microsoft压缩档案文件 
    CAD:Softdek的Drafix CAD文件 
    CAM:Casio照相机格式 
    CAP:压缩音乐文件格式 
    CAS:逗号分开的ASCⅡ文件 
    CCB:Visual Basic动态按钮配置文件 
    CCH:Corel图表文件 
    CCO:CyberChat数据文件 
    CCT:Macromedia Director Shockwave投影 
    CDA:CD音频轨道 
    CDF:Microsoft频道定义格式文件 
    CDI:Philip的高密盘交互格式 
    CDM:Visual dBASE自定义数据模块文件 
    CDR:CorelDRAW绘图文件;原始音频CD数据文件 
    CDT:CorelDRAW模板 
    CDX:CorelDRAW压缩绘图文件;Microsoft Visual FoxPro索引文件 
    CFG:配置文件 
    CGI:公共网关接口脚本文件 
    CGM:计算机图形元文件 
    CH:OS/2配置文件 
    CHK:由Windows磁盘碎片整理器或磁盘扫描保存的文件碎片 
    CHM:编译过的HTML文件 
    CHP:Ventura Publisher章节文件 
    CHR:字符集(字体文件) 
    CHT:ChartViem文件;Harvard Graphics矢量文件 
    CIF:Adaptec CD 创建器 CD映像文件 
    CIL:Clip Gallery下载包 
    CIM:SimCity 2000文件 
    CIN:OS/2改变控制文件用于跟踪INI文件中的变化 
    CLASS:Java类文件 
    CLP:Windows 剪贴板文件 
    CLL:Crick Software Clicker文件 
    CLS:Visual Basic类文件 
    CMD:Windows NT,OS/2的命令文件;DOS CD/M命令文件;dBASEⅡ程序文件 
    CPI:Microsoft MS-DOS代码页信息文件 
    CPL:控制面板扩展名,Corel颜色板 
    CPP:C++代码文件 
    CPR:Corel提供说明书文件 
    CPT:Corel 照片-绘画图像 
    CST:Macromedia Director Cast文件 
    CUR:Windows光标文件

    D
    DBF:dBASE文件,一种由Ashton-Tate创建的格式,可以被ACT!、Lipper、FoxPro、Arago、Wordtech、Xbase和类似数据库或与数据库有关产品识别;可用数据文件(能被Excel 
    97打开);Oracle 8.1.x表格空间文件 
    DBX:DataBearn图像;Microsoft Visual FoxPro表格文件 
    DCT:Microsoft Visual FoxPro数据库容器 
    DCU:Delphi编译单元文件 
    DCX:Microsoft Visual FoxPro数据库容器;基于PCX的传真图像;宏 
    DIR:MacromediaDirector文件 
    DLL:动态链接库 
    DOC:FrameMaker或FrameBuilder文档;Word Star文档、Word 
    Perfect文档、Microsoft:Word文档;DisplayWrite文档 
    DOT:Microsoft Word文档模板 
    DPL:Borland Delph 3压缩库 
    DRV:驱动程序 
    DRW:Micrografx Designer/Draw;Pro/E绘画文件 
    DSF:Micrografx Designer VFX文件 
    DSG:DOOM保存的文件 
    DSM:Dynamic Studio音乐模块(MOD)文件 
    DSP:Microsoft Developer Studio工程文件 
    DSQ:Corel QUERY(查询)文件 
    DST:刺绣机图形文件 
    DSW:Microsoft Developer Studio工作区文件 
    DTA:World Bank(世界银行)的STARS数据文件 
    DTD:SGML文档类型定义(DTD)文件 
    DTED:地面高度数字数据(图形的数据格式)文件 
    DTF:Symantec Q&A相关的数据库数据文件 
    DTM:DigiTrakker模块文件 
    DUN:Microsoft拔号网络导出文件 
    DV:数字视频文件(MIME) 
    DWG:AutoCAD工程图文件;AutoCAD或Generic CADD老版本的绘图格式 
    DXR:Macromedia Director受保护(不可编辑)电影文件

    E
    EDA:Ensoniq ASR磁盘映像 
    EDD:元素定义文档(FrameMaker+SGML文档) 
    EDE:Ensoniq EPS磁盘映像 
    EDK:Ensoniq KT磁盘映像 
    EDQ:Ensoniq SQ1/SQ2/Ks32磁盘映像 
    EDS:Ensoniq SQ80磁盘映像 
    EDV:Ensoniq VFX-SD磁盘映像 
    EFA:Ensoniq ASR文件 
    EFE:Ensoniq EPS文件 
    EFK:Ensoniq KT文件 
    EFQ:Ensoniq SQ1/SQ2/Ks32文件 
    EFS:Ensoniq SQ80文件 
    EFV:Ensoniq VFX-SD文件 
    EMD:ABT扩展模块 
    EMF:Windows增强元文件 
    EML:Microsoft Outlook Express邮件消息(MIME RTC822)文件 
    EXE:可执行文件(程序)

    F
    FAV:Microsoft Outlook导航条 
    FAX:传真类型图像 
    FCD:虚拟CD-ROM 
    FDF:Adobe Acrobat表单文档文件 
    FLA:Macromedia Flash电影 
    FND:Microsoft Explorer保存的搜索文件(Find applet) 
    FON:系统字体 
    FRT:Microsoft FoxPro报表文件 
    FRX:Visual Basic表单文本;Microsoft FoxPro报表文件 
    FXP:经Microsoft FoxPro编译的源文件

    G
    GDM:铃声、口哨声和声音板模块格式 
    GetRight:GetRight未完成的下载文件 
    GHO:Norton 克隆磁盘映像 
    GID:Windows 95全局索引文件(包括帮助状态) 
    GIF:CompuServe位图文件 
    GL:动画格式 
    GRP:程序管理组

    H
    HEX:Macintosh BinHex2.0文件 
    HLP:帮助文件;Date CAD Windows帮助文件 
    HPP:C++程序头文件 
    HQX:Macintosh BinHex 4.0文件 
    HT:HyperTerminal(超级终端) 
    HTM,HTML:超文本文档 
    HTT:Microsoft超文本模板 
    HTX:扩展HTML模板

    I
    ICO:Windows图标 
    IDX:Microsoft FoxPro相关数据库索引文件;Symantec Q&A相关数据库索引文件;Microsoft Outlook 
    Express文件 
    IMG:GEM映像 
    INF:信息文件 
    INI:初始化文件;Mwave DSP Synth的“nwsynth.ini” GMS安装;Cravis Ultrasound bank安装 
    INP:Oracle 3.0版或早期版本的表单源代码 
    INRS:INRS远程通信声频 
    INS:InstallShield安装脚本;X-Internet签字文件;Ensoniq EPS字簇设备;Cell/ⅡMAC/PC抽样设备 
    INT:中间代码,当一个源程序经过语法检查后编译产生一个可执行代码 
    IOF:Findit文档 
    IQY:Microsoft Internet查询文件 
    ISO:根据ISD 9660有关CD-ROM文件系统标准列出CD-ROM上的文件 
    ISP:X-Internet签字文件 
    IST:数字跟踪设备文件 
    ISU:InstallShield卸装脚本 
    IT:脉冲跟踪系统音乐模块(MOD)文件 
    ITI:脉冲跟踪系统设备 
    ITS:脉冲跟踪系统抽样,Internet文档位置 
    IV:Open Inventor中使用的文件格式 
    IVD:超过20/20微观数据维数或变量等级文件 
    IVP:超过20/20的用户子集配置文件 
    IVT:超过20/20表或集合数据文件 
    IVX:超过20/20微数据目录文件 
    IW:Idlewild屏幕保护程序 
    IWC:Install Watch文档

    J
    J62:Ricoh照相机格式 
    JAR:Java档案文件(一种用于applet和相关文件的压缩文件) 
    JAVA:Java源文件 
    JAR:Java档案文件(一种用于applet和相关文件的压缩文件) 
    JAVA:Java源文件 
    JFF,JFIF,JIF:JPEG文件 
    JPE,JPEG,JPG:JPEG图形文件 
    JS:javascript源文件 
    JSP:HTML网页,其中包含有对一个Java servlet的参考

    K
    KAR:卡拉OK MIDI文件(文本+MIDI)

    L
    LAB:Visual dBASE标签文件 
    LBT,LBX:Microsoft FoxPro标签文件 
    LDB:Microsoft Access加锁文件 
    LHA:LZH更换文件后缀 
    LOG:日志文件 
    LZH:LH ARC压缩档案

    M
    M1V:MPEG相关文件(MIME"mpeg"类型) 
    M3D:Corel Motion 3D动画文件 
    M3U:MPEG URL(MIME声音文件) 
    MAM:Microsoft Access宏 
    MAQ:Microsoft Access查询文件 
    MAR:Microsoft Access报表文件 
    MBX:Microsoft Outlook保存email格式;Eudora邮箱 
    MCW:Microsoft Word的Macintosh文档 
    MDB:Microsoft Access数据库 
    MDN:Microsoft Access空数据库模板 
    MDW:Microsoft Access工作组文件 
    MID:MIDI音乐 
    MMM:Microsoft多媒体电影 
    MOV:QuickTime for Windows电影 
    MP2:第二层MPEG音频文件 
    MP3:第三层MPEG音频文件 
    MPA:MPEG相关文件,MIME“mpeg类型” 
    MPE,MPEG,MPG:MPEG动画文件 
    MPP:Microsoft工程文件;CAD绘图文件格式 
    MPR:Microsoft FoxPro菜单(已编译) 
    MSI:Windows 安装器包 
    MSN:Microsoft 网络文档;Descent Mission文件

    O
    OBD:Microsoft Office活页夹 
    OBJ:对象文件 
    OBZ:Microsoft Office活页夹向导 
    OCX:Microsoft对象链接与嵌入定制控件 
    ODS:Microsoft Outlook Express邮箱文件 
    OFT:Microsoft Outlook模板 
    OPX:OPL扩展DLL(动态链接库) 
    OSS:Microsoft Office查找文件 
    OST:Microsoft Exchange / Outlook 离线文件

    P
    PAL:压缩文件 
    PART:Go!Zilla部分下载文件 
    PAS:Pascal源代码 
    PCS:PICS动画文件 
    PDF:Adobe Acrobat 
    可导出文档格式文件(可用Web浏览器显示);Microsoft系统管理服务器包定义文件;NetWare打印机定义文件 
    PHP,PHP3:包含有PHP脚本的HTML网页 
    PHTML:包含有PHP脚本的HTML网页;由Perl分析解释的HTML 
    PM5:Pagemaker 5.0文件 
    PM6:Pagemaker 6.0文件 
    PPS:Microsoft Powerpoint幻灯片放映 
    PPT:Microsoft Powerpoint演示文稿 
    PRF:Windows系统文件,Macromedia导演设置文件 
    PSD:Adobe photoshop位图文件 
    PSM:Protracker Studio模型格式;Epic游戏的源数据文件 
    PST:Microsoft Outlook个人文件夹文件 
    PWL:Windows 95口令列表文件

    Q
    QIF:QuickTime相关图像(MIME);Quicken导入文件 
    QT,QTM:QuickTime电影 
    QTI,QTIF:QuickTime相关图像 
    QTP:QuickTime优先文件 
    QTS:Mac PICT图像文件;QuickTime相关图像 
    QTX:QuickTime相关图像

    R
    RA:RealAudio声音文件 
    RAM:RealAudio元文件 
    RAR:RAR压缩档案(Eugene Roshall格式) 
    REC:录音机宏;RapidComm声音文件 
    REG:注册表文件 
    REP:Visual dBASE报表文件 
    RES:Microsoft Visual C++资源文件 
    RM:RealAudio视频文件 
    RMF:Rich Map格式(3D游戏编辑器使用它来保存图) 
    ROM:基于盒式磁带的家庭游戏仿真器文件(来自Atari 2600、Colecovision、Sega、Nintendo等盒式磁带里的ROM完全拷贝,在两个仿真器之间不可互修改) 
    Rxx:多卷档案上的RAR压缩文件(xx=1~99间的一个数字)

    S
    SAV:游戏保存文件 
    SB:原始带符号字节(8位)数据 
    SBK:Creative Labs的Soundfont 1.0 Bank文件;(Soundb laster)/EMU SonndFont v1.x Bank文件 
    SBL:Shockwave Flash对象文件 
    SCF:Windows Explorer命令文件 
    SCH:Microsoft Schedule+1 
    SCP:拨号网络脚本文件 
    SCR:Windows屏幕保护;传真图像;脚本文件 
    SFX:RAR自解压档案 
    SHTML:含有服务器端包括(SSI)的HTML文件 
    SPL:Shockwave Flash对象;DigiTrakker抽样 
    SQL:Informix SQL查询;通常被数据库产品用于SQL查询(脚本、文本、二进制)的文件扩展名 
    STM:.shtml的短后缀形式,含有一个服务端包括(SSI)的HTML文件;Scream Tracker V2音乐模块(MOD)文件 
    STR:屏幕保护文件 
    SWA:在Macromedia导演文件(MP3文件)中的Shockwave声音文件 
    SYS:系统文件

    T
    T64:Commodore 64仿真器磁带映像文件 
    THEME:Windows 95桌面主题文件 
    TIF,TIFF:标签图像文件格式(TIFF)位图 
    TMP:Windows临时文件 
    TRM:终端文件 
    TXT:ASCⅡ文本格式的声音数据 
    TZ:老的压缩格式文件

    V
    VBA:VBase文件 
    VBP:Microsoft Visual Basic工程文件 
    VBW:Microsoft Visual Basic工作区文件 
    VBX:Microsoft Visual Basic用户定制控件 
    VQE,VQL:Yamaha Sound-VQ定位器文件 
    VQF:Yamaha Sound-VQ文件(可能出现标准) 
    VRF:Oracle 7配置文件 
    VSL:下载列表文件(GetRight)

    W
    WAB:Microsoft Outlook文件 
    WAD:包含有视频、玩家水平和其他信息的DOOM游戏的大文件 
    WAL:Quake 2正文文件 
    WAV:Windows波形声形 
    WBK:Microsoft Word备份文件 
    WFM:Visual dBASE Windows表单 
    WFN:在CorelDRAW中使用的符号 
    WIZ:Microsoft Word向导 
    WRL:虚拟现实模型 
    WWL:Microsoft Word内插器文件

    X
    XLK:Microsoft Excel备份 
    XLL:Microsoft Excel内插器文件 
    XLM:Microsoft Excel宏 
    XLS:Microsoft Excel工作单 
    XLT:Microsoft Excel模板 
    XLV:Microsoft Excel VBA模块 
    XLW:Microsoft Excel工作簿/工作区

    Z
    ZAP:Windows软件安装配置文件 
    ZIP:Zip文件 
    000-999:用于为老版本(或备份)文件编号(比如:被安装程序改变的CONFIG.SYS文件);又可用于为小范围的PC应用程序的多个用户相关数据文件编号 
    12M:Lotus 1-2-3 97 SmartMaster文件 
    123:Lotus 1-2-3 97文件 
    2D:VersaCAD的2维绘画文件 
    2GR,3GR:在Windows之下的VGA图形驱动程序/配置文件 
    386:在386或更高级处理器上使用的文件 
    3D:VersaCAD的3维绘画文件 
    3DM:3D NURBS建模器,Rhino 
    3DS:3D Studio(DOS下)格式文件 
    4GE:Informix 4GL编译后代码 
    4GL:Informix 4GL源代码

    展开全文
  • 1、需要将下面的fasta文件进行一个整理,将序列单行输出 方法一 f1 = open('test1.fa','r').readlines()#需要整理的文件 f2 = open('2.fasta','w')#整理之后的文件 for i in f1: if i.startswith('>'): ...

    1、需要将下面的fasta文件进行一个整理,将序列单行输出
    在这里插入图片描述
    方法一

    f1 = open('test1.fa','r').readlines()#需要整理的文件
    f2 = open('2.fasta','w')#整理之后的文件
    for i in f1:
    	if i.startswith('>'):
    		f2.write('\n'+i)
    	else:
    		f2.write(i.strip("\n"))
    

    结果如下,这样会有一个问题,输入的文件起始有一个空行
    在这里插入图片描述
    这时候怎么办呢?
    我中间加了一次判断,如果第一次遇到>,则不进行换行

    f1 = open('test1.fa','r').readlines()#需要整理的文件
    f2 = open('2.fasta','w')#整理之后的文件
    n = 0
    for i in f1:
    	if i.startswith('>'):
    		n += 1
    		if n == 1:
    			f2.write(i)
    		else:
    			f2.write('\n'+i)
    	else:
    		f2.write(i.strip("\n"))
    f2.close()
    

    在这里插入图片描述
    此时第一行的换行符就没有了。
    方法二:该方法比较费内存,小文件的处理可以,太大了就不行了,主要思想就是建立一个字典,把id和序列存入字典中

    f1 = open('test1.fa','r').readlines()#需要整理的文件
    f2 = open('2.fasta','w')#整理之后的文件
    a={}
    for i in f1:
    	if i.startswith('>'):
    		id = i.strip("\n")
    		fa=''
    	else:
    		fa = fa + i.strip("\n")
    		a[id]=fa
    for i in a:
    	f2.write(i+'\n'+a[i]+'\n')
    f2.close()
    

    2、当文件处理下面的情况,如何处理呢?
    在这里插入图片描述
    第一列是我的ID,第二列是序列,处理成fasta文件

    f1 = open('1.txt','r').readlines()#需要整理的文件
    f2 = open('1.fasta','w')#整理之后的文件
    for i in f1[1:]:#有表头,如果无表头则将1:去掉
    	id = i.split('\t')[0]
    	fa = i.strip('\n').split('\t')[1]
    	f2.write('>'+id+'\n'+fa+'\n')
    f2.close()
    

    在这里插入图片描述
    3、有些人会说,如果我的ID有重复,但是重复的,想把序列加和到一起,最后输出,该怎么办呢?

    f1 = open('1.fa','r').readlines()#需要整理的文件
    f2 = open('2.fa','w')#整理之后的文件
    a={}
    for i in f1:
    	if i.startswith('>'):
    		id = i.strip("\n")[1:]#去掉大于号
    	else:
    		fa = i.strip("\n")
    		if id in a:
    			a[id]=a[id]+fa
    		else:
    			a[id]=fa
    for i in a:
    	f2.write('>'+i+'\n'+a[i]+'\n')
    f2.close()
    

    思想,先建一个字典,把id作为key,而序列作为value,每一次增加字典内容时,判断id是不是已经在a的key中存在,如果不存在,这时候直接将序列作为value,但是如果存在了,这是该id对应的就是已经存在的value加上现在的序列。f1读取结束后,再遍历字典,就可以了
    总结:
    1、open()打开文件,r代表读取,而w则是写入,a是追加
    2、使用readlines()读取的文件,不需要关闭,但其他的文件是必须要关闭了,close就是关闭文件的意思
    3、split是分割,而strip则是掉左右两端的某字符,这里用的是\n其实就是换行符
    4、for循环和if判断语句

    展开全文
  • doc Word创建的文档 exe 可执行文件 ...JPG PNG tif GIF 图片格式 mp3 CAD MPEG WMA ACC RealAudio 音频格式 AVI mov rmvb rm FLV mp4 ...txt 文本文件 zip rar 压缩格式 xml 可拓展性 ps1 脚本文件 bat 批处理文件 ...
  • Python语言学习之文件格式后缀那些事:python和常见各种文件格式后缀介绍、使用方法之详细攻略 目录 常见各种文件格式后缀介绍 .pyc文件介绍 .py文件介绍 .pxd 文件 .pyd 文件 常见各种...
  • HIVE中常见文件存储格式比较

    千次阅读 2019-05-31 16:42:21
    在HIVE中,常见文件存储格式有 TextFile Parquet ORC Sequence RC AVRO 建表语句 这里我们根据不同的文件格式,新建测试表。 --textfile文件格式 CREATE TABLE `test_textfile`(`id` STRING,…,`desc` STRING) ...
  • 常见文件格式

    2019-05-22 00:35:00
    常用的文件扩展名 ...文档文件:txt、doc、wps、docx、xls、xlsx、pdf 压缩文件:rar、zip、z(Linux) 可执行文件:exe、com 光盘镜像文件:iso 临时文件:tmp 编程方面的文件:htm/html(超文...
  • 前端常见配置文件格式及选择

    千次阅读 2020-03-10 16:22:52
    背景 自己撸一个脚手架的时候,需要为脚手架提供一个...前端最常见的配置文件格式有.json、.config.js、.xxxrc .yml等,其它的像java中使用比较多的.xml本文不做讨论。 常见配置文件格式 .json格式 JSON(JavaScri...
  • 文本文件的编码方式及内容类型是应用层测试中文本测试关注的重点,常见的文本编码方式为UTF -8、GBK2312、GBK、BIG5、GB18030等等,常见的文本内容类型为TXT、HTML、XML、Torrent、WML、XHTML等。 下面详细介绍下...
  • 由于转换库质量的不同,浮点数从二进制格式转换成文本格式在转换回二进制格式时可能会精度损失。如果列集/散集的结构中包含浮点数,应该从两个方向都测试一下转换。如果看上去任何一个方向的转换都可能存在取整...
  • 文本文档是以TXT后缀名的文件,在windows页面重点及鼠标右键-〉新建-〉在下拉子菜单中有文本文档一项。txt文件是微软在操作系统上附带的一种文本格式,是最常见的一种文件格式。 二.改扩展名无反应的解决办法 1.先说...
  • Linux系统中常见文件系统格式

    万次阅读 2018-06-24 18:15:00
    Linux系统中常见文件系统格式 Windows常用的分区格式有三种,分别是FAT16、FAT32、NTFS格式。 在Linux操作系统里Ext2、Ext3、Linux swap和VFAT四种格式。 FAT16: 作为一种文件名称,FAT(File Allocation Table...
  • 目前常见的配置文件格式有文本,XML,SQLite,自定义二进制格式,如何进行选择呢? 1 纯文本——永远不会失效的文件格式文本化是传统Unix哲学的教条之一,可见其巨大威力。大多数类Unix系统的软件配置文件都是采用...
  • IDL读取文本格式文件

    2012-01-06 14:51:00
    今天遇到一个很常见的将文本文件的数据读出的问题 文本文件a.txt 2011-12-16 09:58:49 数据收发方式:单独接收通讯数据 数据发送端口:Com 1 19200,N,8,1 数据接收端口:Com 1 19200,N,8,1 接收数据:020007,2.1,0,-...
  • 常用文本数据格式

    2019-09-25 05:19:12
    JavaScript Object Notation, JavaScript对象表示,它是一种轻量级的数据交换格式,用于存储和传输数据,也可以用于配置文件文本格式 JSON中属性的值可以表示六种不同类型的数据: 1.数值,比如12...
  • 日常工作中,我们可能会遇到处理不同格式编码的文本文件的需求,这个问题如果处理不好,就会中文乱码等棘手的问题。 以下这个文章写的很不错: 阮一峰:字符编码笔记:ASCII,Unicode和UTF-8 ...
  • 常见的图片文件格式

    千次阅读 2018-01-09 22:47:21
    为Windows位图,它是Windows操作系统中的标准图像文件格式,能够被多种Windows应用程序所支持。 TIFF格式 是Mac中广泛使用的图像格式,它由Aldus和微软联合开发,最初是出于跨平台存储扫描图像的需要而设计的
  • 电子书多少种格式,各什么优缺点? 常见电子书格式优缺点分析 格式 优点 缺点 ...文本文件容易打开 不支持复杂排版,纯文字 chm,exe 原为电脑端设计 目前已淡出视线 Djvu 高清扫描文件,适
  • .ACA:Microsoft的代理zhi使用的角dao色文档 .acf:系统管理配置 .acm:音频压缩管理驱动程序,为Windows系统提供各种声音格式的编码和解码功能 .aif:声音文件,支持压缩,可以使用Windows Media Player和QuickTime ...
  • 常见的编码格式/txt文件乱码

    千次阅读 2016-01-29 09:16:07
    常见的编码格式  比较常见的编码格式大体上可以分为ASCII编码和Unicode编码。 ASCII编码 ASCII编码:是出现最早的编码格式。属于单字节编码ASCII码使用7bit表示一个字符,共128个字符。是基于拉丁字母的一套电脑...
  • --下面是在SQL中,直接用SQL语句读取几种常见的文件格式中的数据--/*文本文件select*fromOPENROWSET('MICROSOFT.JET.OLEDB.4.0','Text;HDR=NO;DATABASE=C:'--c:是目录,aa#txt)--aa#txt是文本文件名aa.txt--*...
  • Android判断文本编码格式

    千次阅读 2018-12-13 18:19:05
    前几天项目中这样的需求:客户端需要在服务器下载一个文本文件显示出来。bug是mac上的中文显示乱码。通过查找看项目中的老代码,原因是代码中使用的是通过BOM头的判断方式来判断文本的编码格式,如果没有BOM头,...
  • 以字典形式记录常见文件格式对应的hex头: {'fileformat': '.zip', 'stahex': '504B0304', 'endhex': '504B'} {'fileformat': '.7z', 'stahex': '377ABCAF271C', 'endhex': ''} {'fileformat': '.rar', 'stahex'...
  • 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础...另外文本格式常常不一,诸如:pdf,word,excl,xml,ppt,txt等常见文件类型你或许经过一番周折还是办法处理的。倘若遇到database,html,邮件,RTF,图
  • http content-type常见文件格式类型

    万次阅读 2017-12-04 15:58:42
    Content-Type,一般是指网页中存在的Content-Type,用于定义网络文件的类型和网页的编码,决定浏览器将以什么形式、什么编码读取这个文件,比如用PHP输出图片文件、JSON数据、XML文件等非HTML内容时,就必须用header...
  • 常见三维文件格式之IGES

    万次阅读 2013-11-20 00:59:06
    IGES文件由五或六段组成: (1)标志(FLAG)段; (2)开始(START)段;...其中,标志段仅出现在二进制或压缩的ASCII文件格式中。 一个IGES文件可以包含任意类型、任意数量的元素,每个元素在元素
  • 常见视频编码格式解析

    万次阅读 多人点赞 2017-12-15 14:12:56
    常见视频编码格式解析 常见视频编码格式解析 1.MPEG2-TS编码技术 1.1.MPEG-TS简介 1.2.基本概念及TS流概述 1.3.基本流程 1.4.TS流传输包(简称TS包)结构分析 1.4.1.TS包包头 1.4.2.TS包净荷部分 1.5.PS节目流 ...
  • 常见的媒体格式

    2014-02-14 13:40:58
    text/html : HTML格式 text/plain :纯文本格式 text/xml :XML格式 image/gif :gif图片格式 image/jpeg :jpg图片格式 image/png:png图片格式   application/x-www-form-urlencoded...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 236,440
精华内容 94,576
关键字:

常见的文本文件格式有哪些