精华内容
下载资源
问答
  • 获取txt文本文档编码类型(c++,c#) http://blog.csdn.net/xt_chaoji/article/details/7345052 C/C++文本文件件编码格式 http://blog.csdn.net/afjafjafj2008/article/details/6620617
    展开全文
  • 在对普通文本进行操作的时候,需要知道文本的编码方式,不然读取出来的信息都是乱码。以下方法是转载别人,原理等过后再研究。 public static String codeString(String fileName) throws IOException{ File ...

            在对普通文本进行操作的时候,需要知道文本的编码方式,不然读取出来的信息都是乱码。以下方法是转载别人,原理等过后再研究。

    public static String codeString(String fileName) throws IOException{  
    		File file = new File(fileName);
    		String charset = "GBK";
            byte[] first3Bytes = new byte[3];
            try {
                boolean checked = false;
                BufferedInputStream bis = new BufferedInputStream( new FileInputStream( file ) );
                bis.mark( 0 );
                int read = bis.read( first3Bytes, 0, 3 );
                if ( read == -1 ) return charset;
                if ( first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE ) {
                    charset = "UTF-16LE";
                    checked = true;
                }
                else if ( first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF ) {
                    charset = "UTF-16BE";
                    checked = true;
                }
                else if ( first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB && first3Bytes[2] == (byte) 0xBF ) {
                    charset = "UTF-8";
                    checked = true;
                }
                bis.reset();
                if ( !checked ) {
                    int loc = 0;
     
                    while ( (read = bis.read()) != -1 ) {
                        loc++;
                        if ( read >= 0xF0 ) break;
                        if ( 0x80 <= read && read <= 0xBF ) // 单独出现BF以下的,也算是GBK
                        break;
                        if ( 0xC0 <= read && read <= 0xDF ) {
                            read = bis.read();
                            if ( 0x80 <= read && read <= 0xBF ) // 双字节 (0xC0 - 0xDF) (0x80
                                                                            // - 0xBF),也可能在GB编码内
                            continue;
                            else break;
                        }
                        else if ( 0xE0 <= read && read <= 0xEF ) {// 也有可能出错,但是几率较小
                            read = bis.read();
                            if ( 0x80 <= read && read <= 0xBF ) {
                                read = bis.read();
                                if ( 0x80 <= read && read <= 0xBF ) {
                                    charset = "UTF-8";
                                    break;
                                }
                                else break;
                            }
                            else break;
                        }
                    }
                }
                bis.close();
            } catch ( Exception e ) {
                e.printStackTrace();
            }
            return charset;
    	}  



    展开全文
  • 一、常用的HTML 文档类型声明 二、字符编码声明 三、css文件编码声明 四、HTML文件模板 一、常用的HTML 文档类型声明 1)HTML5 <!DOCTYPE html> 2)HTML 4.01 <!DOCTYPE ...

    一、常用的HTML 文档类型声明

    二、字符编码声明

    三、css文件编码声明

    四、HTML文件模板


    一、常用的HTML 文档类型声明

    1)HTML5  

    <!DOCTYPE html>

    2)HTML 4.01

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
    "http://www.w3.org/TR/html4/loose.dtd">

    3)XHTML 1.0

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

    注意:①、不同的文档类型声明决定了可以使用哪些标签和属性

               ②、<!DOCTYPE> 声明对大小写不敏感


    二、字符编码声明

    1)HTML5

    <meta charset="utf-8">

    2)HTML4

    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" />

    三、css文件编码声明

    @charset "utf-8"

    注意:css文件编码声明是处理css文件中出现中文字符的问题,该声明必须在css文件的第一行


    四、HTML文件模板

    1)HTML4

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"                     
        "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml">
        <head>
            <!--定义编码 -->
            <meta http-equiv="Content-Type" content="text/html;charset=UTF-8"/>
            <!--定义标题-->
            <title></title>
            <!--标题图标-->
            <link rel="shortcut icon" href="images/favicon.ico" type="image/x-icon"/>
            
            <!--引入外部的css 样式 -->
            <link rel="stylesheet" href="css/basic.css" type="text/css"/>
            
            <style type="text/css">
        
            </style>
        
        </head>
        <body>
      
      
        </body>
        <!--引入外部 js文件-->
        <script type="text/javascript" src="js/**.js"></script>
    </html>
    

    2)HTML5

    <!DOCTYPE html>
    <html>
        <head>
            <!--定义编码 -->
            <meta charset="utf-8">
            <!--定义标题-->
            <title></title>
            <!--标题图标-->
            <link rel="shortcut icon" href="images/favicon.ico" type="image/x-icon"/>
            
            <!--引入外部的css 样式 -->
            <link rel="stylesheet" href="css/basic.css" type="text/css"/>
            
            <style type="text/css">
        
            </style>
        
        </head>
        <body>
      
      
        </body>
        <!--引入外部 js文件-->
        <script type="text/javascript" src="js/**.js"></script>
    </html>
    

     

    展开全文
  • 对于Unicode,Windows支持了它的三种编码方式,一种是小尾编码(Unicode),一种是大尾编码(BigEndianUnicode),一种是UTF-8编码。 我们可以从文件的头部来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF ...

    文件的字符集在Windows下有两种,一种是ANSI,一种Unicode。

    对于Unicode,Windows支持了它的三种编码方式,一种是小尾编码(Unicode),一种是大尾编码(BigEndianUnicode),一种是UTF-8编码。

    我们可以从文件的头部来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时,是Unicode的小尾编码;当头部的两个字节为FE FF时,是Unicode的大尾编码;当头部两个字节为EF BB时,是Unicode的UTF-8编码;当它不为这些时,则是ANSI编码。


    在项目中正好用到判断编码的函数,写了一个辅助函数如下:

    /***********************************************
    书写人  : zhichao.wang
    函数类型: 辅助函数
    函数名称: lcl_GetTextEncode
    函数功能: 获取指定路径的txt文档的编码格式
    返回值  : LONG  
                1 - UTF-8
                2 - Unicode
                3 - Unicode big endian
                4 - ASCII
               -1 - error
    ***********************************************/
    LONG CNsoControl::lcl_GetTextEncode(CString strTxtPath)
    {
        LONG nType = -1;//error
        //打开要判断的文件
        FILE *pFile = NULL;  
        errno_t dError = _wfopen_s(&pFile,strTxtPath,L"r");  
        if ( 0 != dError )  
        {  
            fclose(pFile);
            return nType;  
        }  
        //这里要注意是用unsigned   char,不然的话读取到的数据会因为溢出而无法正确判断
        unsigned   char*   chFileFlag   =   new   unsigned   char[3];
        fread(chFileFlag,   1,   3,   pFile);

        if(chFileFlag[0]   ==   0xEF   &&   chFileFlag[1]   ==   0xBB   &&   chFileFlag[2]   ==   0xBF)
            nType = 1;//UTF-8
        else if (chFileFlag[0]   ==   0xFF   &&   chFileFlag[1]   ==   0xFE)
            nType = 2;//Unicode
        else if (chFileFlag[0]   ==   0xFE   &&   chFileFlag[1]   ==   0xFF)
            nType = 3;//Unicode big endian text
        else  
            nType = 4;//ASCII
        fclose(pFile);
        delete chFileFlag;
        return nType;   
    }

    c#代码如下:

    public System.Text.Encoding  GetFileEncodeType(string filename)
    {
        System.IO.FileStream fs = new System.IO.FileStream(filename, System.IO.FileMode.Open, System.IO.FileAccess.Read);
        System.IO.BinaryReader br = new System.IO.BinaryReader(fs);
        Byte[] buffer = br.ReadBytes(2);
        if(buffer[0]>=0xEF)
        {
            if(buffer[0]==0xEF && buffer[1]==0xBB)
            {
                 return System.Text.Encoding.UTF8;
            }
            else if(buffer[0]==0xFE && buffer[1]==0xFF)
            {
                 return System.Text.Encoding.BigEndianUnicode;
            }
            else if(buffer[0]==0xFF && buffer[1]==0xFE)
            {
                 return System.Text.Encoding.Unicode;
            }
            else
            {
                 return System.Text.Encoding.Default;
            }
        }
        else
        {
                 return System.Text.Encoding.Default;
        }
    }

    程序中System.Text.Encoding.Default是指操作系统的当前 ANSI 代码页的编码。


    展开全文
  • 文章目录文档类型字符编码特殊字符(实体)meta标签标签属性参考 文档类型 由于html在更新迭代,例如HTML4,HTML5等,因此我们在写网页的时候需要指定文档类型用来告诉浏览器你是用的哪个版本的语法,便于浏览器正确...
  • URL 编码URL 只能使用 ASCII 字符集来通过因特网进行发送。 由于 URL 常常会包含 ASCII 集合之外的字符,URL 必须转换为有效的 ASCII 格式。 URL 编码使用 “%” 其后跟随两位的十六进制数来替换非 ASCII 字符。 ...
  • 文档类型 网页语言 lang属性标记网页语言 英语 中文 法语 标记了非文语言后,打开页面浏览器会询问要不要翻译 最常见的两个语言 面向中国用户的网页 我们可以这个样子 字符集 注意 ...
  • 文档编码开发思路

    2019-01-14 16:15:58
    public void apply() throws Exception { // 获取类型 // 获取前缀 // 获取流水 // 拼接编码 // 编码校验 // 生成对象 }
  • 在客户电脑上,我们拿到数据文档需要在项目中打开,但是有时候打开文档,会出先乱码,可能是因为文档编码格式和代码打开时设定的编码格式不一致,导致有些字符编码没能正确显示,这个时候就需要先判断文档类型,然后...
  • 在学习Kotlin官方文档的同时,我将会用纯Kotlin语言编写Kotlin文档类似的界面在app当中展示出来,今年天我们要看的是编码规范和基本类型。我们编写的界面目录在这个位置: 我们先打开Kotlin官方文档网页 因为...
  • 程序可以打开不同编码类型的txt文档。解决显示乱码情况 gb2312 big5 shift-jis kr thai utf8 utf16 使用方法 命令行cmd chartype /? 查看帮助
  • 代码如下 复制粘贴,保存为bat运行 ANSI转UTF-8 直接用 UTF-8转ANSI 将下方标红的数字调换位置即可 ...::code1=ANSI(GB2312) ...::设置文件转换前编码类型,请参考上面编码序号,序号5即指code5也就是UT.
  • 在做中文文本情感分类预处理时,编码问题着实浪费我不少时间,总结如下:1. 文件是中文,内容是酒店评论,首先是打开文件和写入新文件。因为pickle存储默认为是二进制形式,在Python中为bytes类型,打开和写入方式...
  • 文档类型详解

    2020-08-31 09:40:11
    文档类型 再介绍文档类型之前,我们先来看下 HTML 文件的基本结构: <!-- 文档类型 --> <!DOCTYPE html> <html> <!-- 头部信息 --> <head> <!-- 编码 --> <meta ...
  • html文档字符编码&语言设置: 编码的重要性:编码可以导致游览器通过ie时候网页乱码,也可以导致css的兼容性Hack。 ... 编码的样式:通过...程序和数据 库也会用到这两种编码类型处理网页和储存数据类型。 ...
  • 这份文档参考了 Google Java 编程风格规范和 Google 官方 Android 编码风格规范。该文档仅供参考,只要形成一个统一的风格,见量知其意就可。 1.1 术语说明 在本文档中,除非另有说明: 术语 class 可表示一个普通类...
  • 一、ANSI编码  ANSI码(American National Standards Institute),中文:美国国家标准学会的标准码。为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在中文操作...
  • 关于runtime的文章中多次提到了类型编码,下边说说类型编码到底是什么鬼。 相关链接: 官方文档一 官方文档二 YYModel 源码历险记<二> 关于变量类型编码 类型编码(Type Encodings) 类型编码(Type ...
  • 操作步骤如下: 文档——设置文件类型——Unicode——UTF-8
  • 文档申明 作用:为了使浏览器更好的显示HTML文件... 语法:<!... ...声明必须放在HTML文档第一行 ... 若不正确的设置编码类型,当需要显示非浏览器设置的编码类型的字符时,会显示乱码 解决方法: ...
  • delphi编码规范文档

    2010-04-12 14:45:00
    delphi编码规范文档 目录1、前言 32、源程序书写规范 32.1通用源代码格式规范 32.1.1缩进 32.1.2边距 32.1.3 Begin…End语句 32.1.4注释 42.2 OBJECT PASCAL语句格式书写规范与用法 42.2.1括号 42.2.2保留字和关键字...
  • 关于C++读取UTF-8的文档,判断不同编码类型的文件并用不同方法读取
  • 这个文档教你如何,判读不同的文件编码类型,gbk,utf-8等等
  • 01_XML 文档类型结构

    2008-09-23 18:07:00
    XML 的声明 XML文档总是以版本号 encoding=编码信息 standalone=文档是否独立 ?> 这样的声明开始的 例如: 表明xml版本信息为1.0 版本 文档所用字符为 GB2312 并且文档不依赖于外部文档。 文档类型的声明 1.元素...
  • 作者 雷哥 | 编辑 小西瓜各位读者朋友,大家好。平时工作中,经常会遇到PDF转为Word,或者PPT转为Word,或者.....遇到这种情况,大家有什么好的方法实现...01-免费在线文档格式转换支持word,ppt,excel,pdf文档格...
  • 文件编码类型的转换

    2012-05-14 10:40:39
    用户启动Vi命令进入编辑器时,就是处于该模式下,在该模式下,用户可以输入各种合法的Vi命令用于管理自己的文档,注意此时,输入的命令并不在屏幕上显示; 文本输入模式:在命令模式下输入插入命令i,附加命令a,打开...
  • 宽字节编码类型的XSS

    千次阅读 2015-06-25 00:40:52
    今晚又看了一遍PKAV-心上的瘦子写的xss腾讯系列的例子,收获挺大的,其中对宽... 参考文档: http://book.2cto.com/201301/14515.html http://itindex.net/detail/47408-xss-%E5%AD%A6%E4%B9%A0-xss http://ww
  • 目前支持的文本类型为:html、xml、html5。而解析器可以指定lxml、html5lib、html.parser,不同的解析器解析的结果可能会不同。 二、编码 1.任何HTML或XML都有自己的编码,例如ASCII或UTF-8,但是经过Beautif....
  • 对于开发人员来说,一些文本文件并不是简单的文本,看似都差不多,但编码格式会有很大不同,如果在代码中处理这些文档,必须需要知道它们的编码格式,是否有种简单的方法来快速识别是哪种格式,下面讲述一种: ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,363
精华内容 1,345
关键字:

文档编码类型