精华内容
下载资源
问答
  • 二进制文件有哪些格式
    千次阅读
    2020-03-06 16:53:10

    前言

    本文是由于需要设计一种二进制的文件格式用于保存前文中所提取出来的wav文件的采样数据故而写下本篇文章。

    1、为何需要一种二进制的文件格式

    程序时常需要保存自身的文档数据。比如一个矢量绘图程序,需要将用户绘制的每个图元都保存到文件中,以后再次打开。应该优先考虑文本格式,文本格式容易测试和编辑。更应该优先考虑通用的文本格式,比如 XML, JSON, Lua 等等。这些通用的文本格式已经存在大量的工具和库,可以省下很多功夫。

    文本格式读取慢,并且文件尺寸也比较大(就算经过 zip 压缩),大多数情况下这都不是什么问题。但一些场合,要求更快读取速度,更小文件尺寸,这时就需要自己来设计一种二进制文件格式。游戏中的模型数据,就要求读取速度快;而经常通过网络传输的文件,就要求减少文件尺寸,比如 swf 格式。

    2、文件格式的具体设计

    具体的二进制文件格式,要根据具体的程序需求来设计。但有些设计思路,是所有二进制格式都通用的。了解这些,对将来分析其它的二进制格式也会有帮助。

    (1)整体的文件结构

    常见二进制文件格式,时常采用 文件头 + 分区 的结构:
    file header
    section 0
    section 1
    section 2
    section 3

    section N

    1)文件头(file header ):描述了文件的整体信息,常见的字段有魔数、版本号、检验码、文件大小等等。文件头根据文件的具体用途会有额外的字段,比如一张图片,文件头当中就可以含有表示图片尺寸的字段。

    2)分区(section):其结构通常是标签+长度+分区数据
    tag + length
    section data
    tag 和 length 合起来是分区头部,后面紧跟着分区的具体数据。

    tag:可以是一个整数,也可以是一个字符串。tag 用来标识分区,不同的 tag 表示不同的分区种类,不同的分区种类有各自不同的读取方式。
    比如:
    #define kPicShapeTag 1
    #define kPreivewTag 2
    当 tag 为 1 时,就表示是这个分区存放的是图元数据,当为 2 是表示这个分区存放一张预览图。

    length:length 是个整数,表示分区数据的具体长度(不包括分区头部)或者表示整个分区的长度(包括分区头部)。
    PS:这种分区结构使得文件格式容易扩展,有新需求时就定义一个新的分区类型,原来的文件结构不需要修改。也容易「向上兼容」。

    向上兼容:新版本程序生成的新版本格式,可以使用旧版本程序打开。只是旧版本打开时,一些新功能无法应用,比如ps中新版本的滤镜功能旧版本没有会自动跳过此段二进制数据。

    向下兼容:旧版本程序产生的旧版本文件格式,可以使用新版本的程序打开。应用程序升级,向下兼容是必要的。

    (2)文件头魔数(magic number)

    文件头当中,会有一个数字作为文件格式的标识。这个数字可以随意选定任何值,也可以占据任何字节(通常是 4 字节或者 8 字节),但这个数字选定之后就会固定下来,基本上不会再有变化。在编程领域,一些说不清来历比较任意的数字会被称呼为魔数( magic number)。因此这个随意选定用于标识文件格式的数字,就叫文件格式魔数;这个数字通常放在文件头当中,有时也就称为文件头魔数。

    为了方便处理,避免数字在不同字节顺序的机器上有所区别,有时文件头魔数会定义成多字节格式,比如:

    struct Header
    {
        uint8_t md5[16]; // md5 作为检验码,uint8_t是代表一字节的数据类型
        char magic[8];   // 魔数
    };
    
    Header header;
    memcpy(header.magic, "vecpaint", 8); //拷贝vecpaint到header.magic作为魔数,共8个字节
    

    文件头魔数无论被当成整数还是多个字节处理,它的作用都是相同的,只是作为一个文件格式的标识。

    (3)检验码

    文件头通常还会有个检验码,用于检验文件是否完整并且没有经过修改的。这个检验码可以使用 crc, 可以使用 md5,也可以使用其它算法。只要达到这个目的就行。

    假如文件都是在本机写入和读取,这个检验码没有什么大作用。但假如文件格式经过网络传输,这个检验码就十分有用了。网络传输经常会发生数据不全,或者某些字节被改变了,导致文件数据不完整。通过这个检验码可以检测出这种问题,以便再做进一步处理(比如重新下载一次)。

    用文件的剩余数据计算出它的 md5, 存放在文件最开头。这个 md5 一方面可以作为这个文件的检验码,另一方面可以作为这个文件的 key。读取文件格式的时候,先判断魔数是否正确,再重新计算出 md5 进行比较。md5 出错,表示文件不完整或者经过改动。在需要更安全的场合,md5 可能被人伪造,但平常应用基本足够了。

    (4)版本号

    文件头通常还会包含版本号。版本号不同的文件格式,读取方式可能会有所不同。不支持「向上兼容」的软件,碰到比它可以支持的更高版本的文件格式,就直接读取失败,并返回一个错误信息。

    大部分软件的版本号采用三个数字,用小数点分隔,格式为:

    主版本号.次版本号.补丁版本号

    主版本号通常表示功能有很大改动,甚至界面都改掉了;次版本号用于表示添加了一些小功能;补丁版本号只是用了 fix bugs。iOS 系统的采用这种版本表示方式。

    (5)字节顺序

    字节顺序有大端字节序和小端字节序。不同的机器字节序有可能不同,设计文件格式时需要考虑文件用什么字节序保存数据的。不然有可能在这一台机器上生成的文件,传输到另一台机器上就打开失败了。

    PS:有些文件格式,可以同时支持大端和小端字节序。它有文件头中有个字段指明文件保存的时候是采用什么方式保存。

    (6)字节对齐

    假设机器是 32 位(也就是 4 字节),当数据的地址为 4 的倍数时,计算机的读取速度会更快。64位以此类推。

    C/C++ 编译器编译代码时,也会尽量使得数据字节对齐,比如下面结构:

    struct Test
    {
        int a;
        double b;
        int c;
        double d;
    };
    

    编译器为使得数据不跨越格子边界,整个结构在 64 位机上占据 32 个字节。但稍微调整一下:

    struct Test
    {
        int a;
        int c;
        double b;
        double d;
    };
    

    就这样交换一些数据定义顺序,整个结构在 64 位机上占据 24 个字节,比原来节省了 8 个字节。

    (7)回写和流写

    1)回写:是指数据写入之后,可以回头再修改。比如分区数据最通常以 tag + length 开头,但最开始是不知道最终的分区数据长度的。这样当写入分区头的 length 字段时,就只能先随意写些临时值。当写完最后的分区数据,知道数据长度了,再回头修改长度。

    2)流写:比如将数据写入网络当中,不可能回头修改网络上的数据。这种一直写,不能回头修改的就叫「流写」。

    有些约束条件下,二进制文件格式就需要支持「流写」,比如在网络一端生成数据,在网络另一边读取数据。这种情况下,可以将 文件头 + 分区数据 稍微调整一下变成分区数据 + 文件尾。当按顺序写完所有分区数据,也就知道文件的整体信息,就可以依次写入文件尾的各字段。

    本篇文章写到此处,具体的编程实现可以继续关注我的文章。

    参考文章:
    二进制文件格式设计

    更多相关内容
  • 本文较为详细的分析了C#读取二进制文件方法。分享给大家供大家参考。具体分析如下: 当想到所有文件都转换为 XML时,确实是一件好事。但是,这并非事实。仍旧还有大量的文件格式不是XML,甚至也不是ASCII。二进制...
  • 二进制文件不是以ASCII代码存放数据的,它将内存中数据存储形式不加转换地传送到磁盘文件,因此它又称为内存数据的映像文件。因为文件中的信息不是字符数据,而是字节中的二进制形式的信息,因此它又称为字节文件。 ...
  • 到此这篇关于Linux bash:./xxx:无法执行二进制文件报错的文章就介绍到这了,更多相关Linux 无法执行二进制文件 内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网!...
  • main2.cpp 生成1个二进制文件。 main3.c 读取二进制文件。 用fgets可以读取指定长度的字符串。 可用于读取格式化固定位址的二进制结构数据。
  • 总的感觉,python本身并没有对二进制进行支持,不过提供了一个模块来弥补,就是struct模块。 python没有二进制类型,但可以存储二进制类型的数据,就是用string字符串类型来存储二进制数据,这也没关系,因为string...
  • 然后再将二进制文件还原并存入a3.txt文件。 具体代码如下: #include #include #include #define NSIZE 8 void print_2(int val2); /***********文本文件转二进制**********/ void Text2Bin(const char* sIn,...
  • C++二进制文件读写

    2018-04-09 22:50:55
    C/C++实现简单的二进制文件读取和写入示例 1.包含如何读取和写入数字,以及用缓存按字节读取 2.采用标准输入和输出函数创建、打开、关闭文本文件或二进制文件
  • 将任意指定的文件,以二进制的方式,指定区间进行切割。 可以将HTTP的请求图片、视频导出 可以去除文本文件BOM头 可以提取文件中间的乱码字节
  • 用来读取二进制文件和写入二进制文件的函数
  • 了解二进制文件与文本文件的区别,理解文件存储,传输, 显示的过程,及本质。 2.学习/操作 1. 二进制文件 TBD 2.文本文件 TBD 3. 源码文件 TBD 后续补充 ...

    1.应用场景

    了解 二进制文件 / 文本文件 / 源码文件 的区别,理解文件存储,传输, 显示的过程,及本质

    2.学习/操作

    1.介绍

    文件 - 介绍 含PEM文件_william_n的博客-CSDN博客_pem是什么文件

    1. 二进制文件 [Binary file]

    计算机文件基本上分为二种:二进制文件 ASCII(也称纯文本文件),

    图形文件及文字处理程序等计算机程序都属于二进制文件。// 所以常常可以听到下载的二进制可执行文件

    这些文件[二进制文件]含有特殊的格式及计算机代码。

    ASCII 则是可以用任何文字处理程序阅读的简单文本文件。


    文本文件只是二进制文件中的一种特例。

    为了与文本文件相区别,人们又把除了文本文件以外的文件称为二进制文件,由于很难严格区分文本文件和二进制文件的概念,所以我们可以简单地认为,如果一个文件专门用于存储文本字符的数据,没有包含字符以外的其他数据,我们就称之为文本文件,除此之外的文件就是二进制文件。

    https://baike.baidu.com/item/二进制文件/996661?fr=aladdin

    2. 纯文本文件 [Text file]

    文本 由可打印字符组成,人可以直接阅读和理解其形式。

    例如:

    百科=百度百科、整数类型 甲变量。


    纯文本并非意味着文本是无结构的;

    标准通用标记语言[SGM或SGML]和HTMLXML都是有结构定义良好的的纯文本的好例子。

    通过纯文本,你可以做你通过某种二进制格式所能做的每件事情,其中包括版本管理。

    与直接的二进制编码相比,纯文本所处的层面往往更高;

    前者[二进制文件]通常直接源自实现。

    假定你想要存储叫做uses_menus的属性,其值既可为/true,也可为假/false。

    使用纯文本,你可以将其写为:myprop.uses_menus=FALSE 把它与0010010101110101对比一下。

    大多数二进制格式的问题在于,理解数据所必需的语境与数据本身是分离的。

    你人为地使数据与其含义脱离开来。数据也可能加了密;没有应用逻辑对其进行解析,这些数据绝对没有意义。但是,通过纯文本,你可以获得自描述(self-describing)的、不依赖于创建它的应用的数据流

    https://baike.baidu.com/item/二进制文件/996661?fr=aladdin

    补充:

    二进制文件, 跟存储方式[在硬盘上]没有关系。

    即不是因为存储格式为二进制的关系, 而是这些文件 含有特殊的格式及计算机代码.

    2. 存储

    从本质上来说他们之间没有什么区别,因为他们在硬盘上都有一种的存放方式.   --------   二进制 即 01010101....

    插入:

    命名规则和数据类型 - Amazon DynamoDB

    没有明白二进制数据的含义,本质,与二进制文件的区别? -- 20211118 周一

    追加

    baike.baidu.com/item/二进制数据/1715915?fr=aladdin

    3. 传输

    网络传输:

    涉及到FTP/TFTP协议.

    TBD 

    4. 读写

    将文件从硬盘读取到内存中, 然后操作文件内容等, 最后写回磁盘.

    TBD

    5. 显示

    TBD

    6. 本质

    就是搭载信息的储存介质, 跟物理世界有关.   // 个人理解

    后续补充

    ...

    3.问题/补充

    1.安装软件时,总会听到下载源代码编译安装,或者 下载二进制文件直接安装?

    到底有什么区别?

    源代码方式 和 二进制包是软件包的两种形式。

    二进制包里面包括了已经经过编译,可以马上运行的程序。

    你只需要下载和解包(安装)它们以后,就马上可以使用。

    源代码包里面包括了程序原始的程序代码,需要在你的计算机上进行编译以后才可以产生可以运行程序, 所以从源代码安装的时间会比较长。

    source code 是程序员跑的代码, binary code 是机器跑的代码。

    source code 得经过 compile 才能成為 binary code 。 

    RPM 有分两种:

    binary rpm 与 source rpm
    前者是编好的 binary ,安裝就可用.
    后者是还沒编好的 source ,需 rebuild 之后才能安裝。

    rpm格式很好区分,

    二进制格式的包名字很长,都带有版本号、适应平台、适应的硬件类型等,

    而源码格式仅仅就是一个版本号的tar包。

    如下:
    mysql-5.0.45.tar.gz 是源码包   

    mysql-5.0.45-linux-x86_64-glibc23.tar.gz 是二进制包

    如果你用过压缩工具就会明白,压缩包未必就是软件,它也可能是备份的许多图片,也可能是打包在一起的普通资料,要分辨它到底是什么最好的办法就是查看包里的文件清单,使用命令tar ztvf *. 或者tar ytvf *.bz2

    源代码包里的文件往往会含有种种源代码文件,头文件*.h、c代码源文件*.c、C++代码源文件*.cc/*.cpp等;

    而二进制包里的文件则会有可执行文件(与软件同名的往往是主执行文件),标志是其所在路径含有名为bin的目录(仅有少数例外)

    2. tar包和tar.gz包有什么区别?

    1、文件类型不同:

    tar包属于打包文件,Unix和类Unix系统上的压缩打包工具,可以将多个文件合并为一个文件,打包后的文件后缀亦为“tar”。tar.gz包是压缩文件,经过gzip压缩后的tar文件,形成tar.gz包,扩展名为“.tar.gz”。

    2、用途不同:

    tar.gz包一般情况下都是源代码的安装包,需要先解压再经过编译、安装才能执行。

    总而言之, 它是一个压缩文件。tar包最初的设计目的是将文件备份到磁带上(tape archive [磁带存档]),因而得名tar,一般用于文件备份。

    补充:

    tar里面的参数, 比如 z是针对 gzipj是针对 bzip2  //如下截图所示

    补充:

    tar里面没有针对xz格式的参数, 习惯了 tar czvf 或 tar xzvf 的人可能碰到 tar.xz也会想用单一命令搞定解压或压缩, 其实不行.

    具体处理办法见下方3

    3. tar.xz文件如何解压?

    习惯了 tar czvf 或 tar xzvf 的人可能碰到 tar.xz也会想用单一命令搞定解压或压缩。其实不行 tar里面没有征对xz格式的参数比如 z是针对 gzip,j是针对 bzip2。

    创建tar.xz文件 // 先打包, 再压缩.

    只要先 tar cvf xxx.tar xxx/ 这样创建xxx.tar文件先,然后使用 xz -z xxx.tar 来将 xxx.tar压缩成为 xxx.tar.xz

    解压tar.xz文件// 先解压, 再解包  联想生活就知道, 顺序为什么如此.

    先 xz -d xxx.tar.xz 将 xxx.tar.xz解压成 xxx.tar 然后,再用 tar xvf xxx.tar来解包。

    4. 二进制安全

    REDIS data-types-intro -- Redis中文资料站 -- Redis中国用户组(CRUG)

     Redis data types | Redis

     

    后续补充

    ...

    4.参考

    二进制文件、文本文件_yangyang的专栏-CSDN博客_二进制文件

    int类型数据范围 - 学习_william_n的博客-CSDN博客_int类型数据范围是

    源代码方式和二进制包的区别_逝者如风-CSDN博客_二进制包和源码包区别

    tar.xz文件如何解压 - 幕三少 - 博客园

    【xz】 tar.xz文件如何解压? - 简书

    文件 - 介绍 含PEM文件_william_n的博客-CSDN博客_pem是什么文件

    后续补充

    ...

    展开全文
  • minio 二进制可执行文件
  • 1. 二进制文件是什么? 二进制文件就是直接基于二进制形成的文件,文件中内容就是...010101...之类(也可表示成16进制),如下图所示。 2. 二进制文件和纯文本文件的区别是什么? 二进制文件是直接以二进制的值...

    1. 二进制文件是什么?

    二进制文件就是直接基于二进制形成的文件,文件中内容就是...010101...之类(也可表示成16进制),如下图所示。

    2. 二进制文件和纯文本文件的区别是什么?

    二进制文件是直接以二进制的值进行存储;而纯文本文件则在二进制的基础上,进行了字符编码,因此,我们看到的诸如 .txt 以及程序文件都是字符形式。

    3. 为什么图像、音频是二进制文件?

    因为二进制文件直接使用二进制进行表示,要比文本文件更加节省存储空间

    展开全文
  • 您可以读取任何文件并将其存储在字节数组中,如下所示:byte [] bytes = File.ReadAllBytes(“ filename.ext”);
  • 很好用的转换工具,简单方便。如果好用请推荐,已用过,也是转发。
  • AndroidManifest 二进制 文件格式 分析
  • 标准二进制文件操作模板
  • STL文件有文本(asc)和二进制(bin)两种格式。本程序提供了从二进制到文本格式的转换。 STL文件有文本(asc)和二进制(bin)两种格式。本程序提供了从二进制到文本格式的转换。
  • 代码案例
  • 二进制文件查看器

    2018-07-18 09:17:35
    PXBinaryViewerSetup,二进制文件查看器,能直接用它打开二进制文件
  • 文件二进制流的格式写入数据库:首先获得文件路径,然后将文件二进制读出保存在一个二进制数组中具体请祥看本文,希望对你有所帮助
  • minio 的二进制 可执行文件,适用于linux系统,加权限带参数执行即可
  • 十六进制与二进制代码文件相互转换工具,Windows标准窗口,不似其它类似工具只工作在命令行模式下。可相互转换的格式有Intel HEX格式, Motorola S19格式二进制BIN格式代码查看窗口,可直接查看代码。
  • 读取指定文件夹下的所有mp3文件,转换成语谱图,并保存为二进制文件,便于后续进行语言识别等处理。
  • 010 编辑器:专业文本编辑器 ... 无限制的撤消和强大的编辑和脚本工具。 巨大的文件支持 (50 GB+)。...功能强大,足以解析几乎任何二进制文件格式。 可以设置为在打开文件时自动运行。 模板可以共享,模板列表可
  • NI 采集系统采集到的原始数据tdms格式转mat格式,用以MATLAB对信号进行处理
  • (英文)Excel97到2007二进制文件格式结构.pdf (英文)Word97到2007二进制文件格式结构.pdf (中文)Word复合文档文件格式研究.pdf 是学习数据恢复,office文档解析,office文档加解密的必备资料。
  • 本代码主要利用MATLAB工具实现MATLAB——写二进制文件,简单明了,易于理解
  • 1:本程序读取二进制文件,并把读到的二进制文件保存为文本数据 2:二进制文件内容一系列的三维点云数据,由扫描仪器扫描获得 3:本程序采用了多线程技术,读取二进制文件时,界面不会卡顿 4:实例二进制文件为data....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,234,462
精华内容 493,784
热门标签
关键字:

二进制文件有哪些格式