精华内容
下载资源
问答
  • 关于印刷文字识别依然是图像领域的难点问题,还有很多的单位或个人希望拥有自己语言识别模型。近来,在各大论坛、学习交流群、后台私信等还会看到仍然有同种志群的人才再不断的加入这个领域。小编初做文字识别方面...
        

    关于印刷文字识别依然是图像领域的难点问题,还有很多的单位或个人希望拥有自己的语言识别模型。近来,在各大论坛、学习交流群、后台私信等还会看到仍然有同种志群的人才再不断的加入这个领域。


    小编初做文字识别方面的调研工作时,也耗费了不少精力,算个入门吧!

    把当初记录在CSDN,关于如何使用tesseract-ocr训练属于自己的模型/语言库,分享至此。

    希望对在这条路上摸索的小伙伴,有所帮助。

    训练过程中涉及到的工具,文中都有下载链接。


    640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


    以下,以训练数字0~9为例,同样可以训练汉字(前提是准备相应的符合规格的图像集。)


    Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。


    一、使用默认的语言库识别


    1.安装Tesseract

    http://code.google.com/p/tesseract-ocr/downloads/list下载Tesseract,目前版本为Tesseract3.02。因为只是测试使用,这里直接下载winodws下的安装文件tesseract-ocr-setup-3.02.02.exe。安装成功后会在相应磁盘上生成一个Tesseract-OCR目录。通过目录下的tesseract.exe程序就可以对图像字符进行识别了。


    2.准备一副待识别的图像,这里用画图工具随便写了一串数字,保存为0.jpg,如下图所示:

          0?wx_fmt=jpeg


    3.训练。打开命令行(cmd),定位到Tesseract-OCR目录,输入命令:

       tesseract.exe 0.jpg result -l eng

       其中result表示输出结果文件txt名称,eng表示用以识别的语言文件为英文。


    4.查看结果。打开Tesseract-OCR目录下的result.txt文件,看到识别的结果为7542315857,有3个字符识别错误,识别率还不是很高,那有没有什么方法来提供识别率呢?Tesseract提供了一套训练样本的方法,用以生成自己所需的识别语言库。下面介绍一下具体训练样本的方法。

      0?wx_fmt=jpeg


    二、训练样本【用自己的语言库】

    关于如何训练样本,Tesseract-OCR官网有详细的介绍

    http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3。这里通过一个简单的例子来介绍一下如何进行样本训练。

     

    1.下载工具jTessBoxEditor

     http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/,这个工具是用来训练样本用的,由于该工具是用JAVA开发的,需要安装JAVA虚拟机才能运行。


    2. 获取样本图像。

    用画图工具绘制了5张0-9的文样本图像(当然样本越多越好),如下图所示:

    0?wx_fmt=jpeg

    0?wx_fmt=jpeg

      0?wx_fmt=jpeg

      0?wx_fmt=jpeg

    0?wx_fmt=jpeg


    3.合并样本图像。运行jTessBoxEditor工具,在点击菜单栏中Tools--->Merge  TIFF。在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件。4.生成Box File文件。打开命令行,执行命令:

    0?wx_fmt=jpeg

    tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox

     

    生成的BOX文件为num.font.exp0.box,BOX文件为Tessercat识别出的文字和其坐标。

    注:Make Box File的命令格式为:

    tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

    其中lang为语言名称,fontname为字体名称,num为序号,可以随便定义。

     

    5.文字校正。运行jTessBoxEditor工具,打开num.font.exp0.tif文件(必须将上一步生成的.box和.tif样本文件放在同一目录),如下图所示。可以看出有些字符识别的不正确,可以通过该工具手动对每张图片中识别错误的字符进行校正。校正完成后保存即可。

    0?wx_fmt=jpeg

     

    6.定义字体特征文件。Tesseract-OCR3.01以上的版本在训练之前需要创建一个名称为font_properties的字体特征文件。

    font_properties不含有BOM头,文件内容格式如下: view plain copy

    <fontname> <italic> <bold> <fixed> <serif> <fraktur>  

    其中fontname为字体名称,必须与[lang].[fontname].exp[num].box中的名称保持一致。<italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值为1或0,表示字体是否具有这些属性。


    这里在样本图片所在目录下创建一个名称为font_properties的文件,用记事本打开,输入以下下内容: p

    font 0 0 0 0 0  

    这里全取值为0,表示字体不是粗体、斜体等等。

     

    7.生成语言文件。在样本图片所在目录下创建一个批处理文件font.bat,输入如下内容:【rem 执行改批处理前先要目录下创建font_properties文件】

    rem 执行改批处理前先要目录下创建font_properties文件   

    echo Run Tesseract for Training..  

    tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train   

    echo Compute the Character Set..  

    nicharset_extractor.exe num.font.exp0.box  mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr   

    echo Clustering..  

    cntraining.exe num.font.exp0.tr   

    echo Rename Files..  

    rename normproto num.normproto  

    rename inttemp num.inttemp  

    rename pffmtable num.pffmtable  

    rename shapetable num.shapetable   

    echo Create Tessdata..  

    combine_tessdata.exe num.  

     

    将批处理通过命令行执行。执行后的结果如下:

    0?wx_fmt=jpeg

    需确认打印结果中的Offset 1、3、4、5、13这些项不是-1。这样,一个新的语言文件就生成了。

    num.traineddata便是最终生成的语言文件,将生成的num.traineddata拷贝到Tesseract-OCR-->tessdata目录下。可以用它来进行字符识别了。


    三、使用训练后的语言库识别


    用训练后的语言库识别number.jpg文件, 打开命令行,定位到Tesseract-OCR目录,输入命令:

     tesseract.exe number.jpg result -l num

     

    识别结果如如图所示,可以看到识别率提高了不少。通过自定义训练样本,可以进行图形验证码、车牌号码识别等。感兴趣的朋友可以研究研究。

    0?wx_fmt=jpeg

     

    注:如果报错找不到该语言库,是因为没有配置环境变量

    0?wx_fmt=jpeg

     

    配置的路径是 tessdata目录的上一级。

    再运行即可。


    以上,使用tesseract-ocr训练模型和使用模型的简单过程就叙述完了。


     近期热文

    常见文本相似度量方法总结

    文本分类特征提取之Word2Vec

    干货|免费文本语料训练数据集

    既生Mahout,何生Spark MLlib ?

    官宣:谷歌 AI 中国中心在北京成立

    干货|免费文本语料训练数据集

    ... ...

    安心的幸福莫过于三件事:有人信你,有人陪你,有人等你。


    0?wx_fmt=jpeg

    更多干货内容请关注微信公众号“AI 深入浅出”

    长按二维码关注


    展开全文
  • 语言文字是智慧的基础。 语言文字是沟通的

    语言和文字是智慧存在、延续和发展的基础。


    语言和文字是智慧存在的基础。因为语言和文字是理解现实世界的基础。人类喜欢给东西起名字,为新发现的事物创造新的词汇,从而认识并理解这些事物。随着词汇量的增加,人的思维变得更加广阔。语言和文字不仅仅是人们习惯上的“汉字”或“英文单词”等,更应包括数学,化学等学科中所使用的各种符号,甚至是阿拉伯数字。所有具有象征意义的符号,都是人类对大自然、对现实世界的理解、态度、看法和认知。人类的思考过程是基于语言文字和各种象征符号的,脱离了语言文字,人类的思考是受限的。

    语言和文字是智慧延续的基础。因为语言和文字沟通的媒介,能够有效的传递信息,将信息、智慧传播开来,记录、保存并传递给后人。因此,当一个人能够正确的认识客观世界后,可以通过语言文字或各种符号将这种正确的认识传播给其他人。孔孟儒家圣人通过口头语言将智慧传递给弟子,通过印在书籍上的文字将其思想传播开来。现代教育也是通过语言、文字和符号的形式传递给孩子。

    语言和文字是智慧发展的基础。通过继承前人的思想、智慧和知识,后人能够站在前人的肩膀上,通过考察客观世界,以语言和符号的形式在头脑中思考,以文字和符号的形式进行推演,从而产生新的知识智慧。

    因此,计算机理解语言文字以及各种象征意义的符号,是人工智能理解人类思想,与人类进行沟通,并使得计算机智慧得以存在、保留以及延续的基础。而计算机所需理解的语言文字,其含义应该更为广泛。这种语言文字不但是目前人类所使用的语言、文字和符号,更应该包括各计算机间用于通讯的方式方法,以及其他所有能够与计算机进行交流通讯的方式方法,比如互联网和USB通讯协议,甚至应该包括C和C++这类计算机编程语言。

    因此,真正的让计算机理解“Hello World!”应该是人工智能的一大步。

    展开全文
  • 中国少数民族语言文字
                   

     中国少数民族语言和文字-----泱泱中华文明

    中国是一个统一的多民族国家,民族多、语言多、文字多。除汉族外,已确定民族成分的有五十五个少数民族,约占全国人口总数的8%,分布在占全国总面积50%~60%的土地上。

      一、中国少数民族的语言

     

      中国境内的语言非常丰富,这在世界上是罕见的。五十五个少数民族中,除回族、满族已全部转用汉语外,其他五十三个民族都有自己的语言。据统计,在中国,少数民族正在使用的语言有72种左右,已经消亡的古代语言更是不计其数。说它“左右”是因为有的是语言还是方言不好界定,还有的语言可能还未发现。

     

      五十五个少数民族中,除回族、满族已全部转用汉语外,其他五十三个民族都有自己的民族语言。有些民族内部不同支系还使用着不同的语言(不包括转用或者兼用汉语的情况):瑶族的不同支系分别使用勉语、布努语和拉珈语;高山族的不同支系分别使用泰耶尔语、赛德语、邹语、沙阿鲁阿语、卡那卡那布语、排湾语、阿眉斯语、布农语、鲁凯语、卑南语、邵语、萨斯特语、耶眉语共13种语言;景颇族的不同支系分别使用景颇语、载瓦语;怒族的不同支系分别使用怒苏语、阿侬语、柔若语;裕固族使用东部裕固语、西部裕固语;门巴族使用门巴语、仓拉语。

     

      语言学家按世界各民族语言的亲流程度将语言分为语系、语族、语支。在历史发展过程中,一种语言可以分化成几种不同语言,它们之间有亲属关系,称为“亲属语言”,这是历史上社会分化的产物。当一个社会在地域上分化成若干半独立社会时,语言也分化成若干方言;当社会再分化为几个不同的独立社会时,语言进一步分化成亲属语言。因此语言的亲疏关系表明了民族间在历史上、族源上的亲疏程度。

     

      许多民族用本族文字记载本族的历史、文字、医学、宗教及其他文化宝藏,无文字的民族则以口头文学(诗歌、神话传说、民间故事、民歌等)记载并传承着本民族的文化精粹。

     

    --------------------------------------------------------------------------------

     

    --  作者:妙语

    --  发布时间:2008-6-2 10:42:24

    -- 

    数千年华夏历史长河中,各民族历经变迁,中外民族和古代诸民族间的迁徙、交融,形成今日中国民族语言的五大语系:

      ⑴汉藏语系的民族共31个,分为:

      ①壮侗语族(含壮傣语支、侗水语支、黎语支)-壮语、侗语、傣语、布依语、水语、仫佬语、毛南语、拉珈语、仡佬语、黎语等;

      ②藏缅语族(含藏语支、彝语支、景颇语支、羌语支)-藏语、嘉戎语、门巴语、珞巴语、土家语、羌语、普米语、独龙语、怒语、彝语、僳僳语、纳西语、哈尼语、拉祜语、白语、基诺语、景颇语、载瓦语、阿昌语等;

      ③苗语语族(含苗语支、瑶语支)-苗语、布努语、勉语、畲语等;

      ④汉语。

     

      ⑵阿尔泰语系共19个民族,分为:

      ①突厥语族-维吾尔语、哈萨克语、柯尔克孜语、乌孜别克语、塔塔尔语、撒拉语、图瓦语、西部裕固语;

      ②蒙古语族-蒙古语、达斡尔语、东乡语、东部裕固语、土族语、保安语;

      ③满-通古斯语族(含满语支、通古斯语支)-满语、锡伯语、赫哲语、鄂温克语、鄂伦春语。

     

      ⑶南亚语系有三个民族,包括云南的佤族、德昂族和布朗族,都属于孟高棉语族-佤语、德昂语、布朗语。⑷南岛语系仅高山族一个民族,属于印度尼西亚语族-排湾语、布嫩语、阿眉斯语等。

     

      ⑸印欧语系有两个民族,分为:伊朗语族-塔吉克语(塔吉克族)和斯拉夫语族(东斯拉夫语支)-俄罗斯语(俄罗斯族)。

     

      此外还有朝鲜语和京语,它们究竟属于哪个语系,现在还不清楚。

     

      现有的少数民族语言,都是经历了历史上语言功能竞争的考验而在长期的使用过程中发展起来的,这些语言发展至今成为本族母语,是客观实际需要决定的,都有其客观必然性。各民族都热爱自己民族的语言文字,把语言文字看成民族特征的重要方面,当作民族的宝贵财富,并对民族语言文字有着统一的愿望和意识;同时对本族文字又不同程度地存在着一种稳固或守旧的心理。

     

      现在除少数几个民族程度不同地转用了汉语外,多数民族以本族语言作为日常生活的主要交际工具;一些民族有传统的文字,一些民族使用新创文字。少数民族语言文字在少数民族社会生活中起着十分重要的、其他民族的语言文字无法完全替代的作用。

     

      目前少数民族语言的使用情况大致有以下三种类型:

     

      第一种类型,如蒙古、藏、维吾尔、哈萨克、朝鲜等族,有大片聚居区,人口均在百万以上,文字历史也比较悠久,他们的语言除了在家庭内部、邻里亲友间使用外,还在本民族的政治、经济、文化、教育各个领域中使用,甚至在一些邻近的或者杂居在一起的其他民族中使用。

     

      第二种类型,如彝族和傣族,他们虽然也有成片的聚居区,有传统的文字,但是文字没有统一的规范,方言差异也较大,本民族的语言在社会上的应用不如蒙古、藏、维吾尔、哈萨克、朝鲜等民族那么广泛。壮语和傈僳语、拉祜语、景颇语、载瓦语由于语言内部差别较大,全民族通用的共同语还没有形成,文字的使用范围也很小,语言使用情况与彝语、傣语接近。

     

      第三种类型,民族的语言只在本民族内部日常生活中使用

     

    --------------------------------------------------------------------------------

     

    --  作者:妙语

    --  发布时间:2008-6-2 10:42:38

    -- 

    用其他民族的语言(主要是汉语,有些地方也使用其他少数民族语言);没有与本民族语言相一致的文字,一般使用汉字。属于这个类型的少数民族语言相当多,大约占语言总数的四分之三以上,使用人口占少数民族总人口的一半以上。

      五十五个少数民族使用语言的情况列表如下(不包括兼用汉语或其他少数民族语言的情况):民族名称 使用语言的名称

     

      蒙古族   蒙古语

      回族    汉语

      藏族    藏语

      维吾尔族  维吾尔语

      苗族    苗语

      彝族    彝语

      壮族    壮语

      布依族   布依语

      朝鲜族   朝鲜语

      满族    汉语

      侗族    侗语

      瑶族    勉语、布努语、拉珈语

      白族    白语

      土家族   土家语

      哈尼族   哈尼语

      哈萨克族  哈萨克语

      傣族    傣语

      黎族    黎语

      傈僳族   傈僳语

      佤族    佤语

      畲族    畲语 高山族  泰耶尔语、赛德语、邹语、沙阿鲁阿语、卡那卡那布语、排湾语、阿眉斯语、布农语、鲁凯语、卑南语、邵语、萨斯特语、耶眉语

      拉祜族   拉祜语

      水族    水语

      东乡族   东乡语

      纳西族   纳西语

      景颇族   景颇语、载瓦语

      柯尔克孜族 柯尔克孜语

      土族    土族语

      达斡尔族  达斡尔语

      仫佬族   仫佬语

      羌族    羌语

      布朗族   布朗语

      撒拉族   撒拉语

      毛难族   毛难语

      仡佬族   仡佬语

      锡伯族   锡伯语

      阿昌族   阿昌语

      普米族   普米语

      塔吉克族  塔吉克语 怒族    怒苏语、阿侬语、柔若语

      乌孜别克族 乌孜别克语

      俄罗斯族  俄罗斯语

      鄂温克族  鄂温克语

      德昂族   德昂语

      保安族   保安语

      裕固族   东部裕固语、西部裕固语

      京族    京语

      塔塔尔族  塔塔尔语

      独龙族   独龙语

      鄂伦春族  鄂伦春语

      赫哲族   赫哲语

      门巴族   门巴语、仓拉语

      珞巴族   珞巴语

      基诺族   基诺语

     

    --------------------------------------------------------------------------------

     

    --  作者:妙语

    --  发布时间:2008-6-2 10:43:02

    -- 

    二、中国少数民族的文字

      文字是书写语言的符号,它产生以后,克服了语言的时空限制,扩大了信息传播,增加了文化积累,对社会的发展产生了巨大的推动作用。

     

      在中国,汉字不但是汉族的文字,也是全国各个少数民族通用的文字,是在国际活动中代表中国的法定文字。全民族都通用汉语的几个少数民族,很自然地以汉字作为自己的文字,没有与自己语言相一致的文字的少数民族,大多也选择了汉字作为自己的文字。汉、回、满三个民族通用汉文,蒙古、藏、维吾尔、哈萨克、柯尔克孜、朝鲜、彝、傣、拉祜、景颇、锡伯、俄罗斯12个民族各有自己的传统文字。这些文字多数都有较长的历史,有的文字如藏文、彝文已经有一千多年的历史,其他文字也都有几百年的历史。它们大部分已经有比较规范的习惯用法,使用范围较广,影响也较大。苗文和壮文虽然创制时间不长,但使用人数也较多。其中蒙古族使用一种竖写的拼音文字,通用于蒙古族地区。居住在新疆的蒙古族还使用一种以通用的蒙古文为基础而适合卫拉特方言特点的拼音文字。云南傣族在不同地区使用4种傣文。上述15个民族共使用17种文字。

     

    此外,傈僳族中大部分信仰基督教的群众,使用一种用大写拉丁字母及其颠倒形式的字母拼写傈僳语的文字,还有少数人使用当地农民创制的傈僳音节文字“竹书” 。云南省东北部一部分信仰基督教的群众使用一种把表示声、韵、调的符号拼成方块的苗文。云南佤族中信仰基督教的少数群众使用拉丁字母形式的佤文。壮族、白族和瑶族中还有一部分人使用在汉字影响下创制的方块壮字、方块白文和方块瑶字。

     

     还有一些在历史上使用过,后来停止使用的文字,即突厥文、回鹘文、察合台文、于阗文、焉耆-龟兹文、窣利文、八思巴字、契丹大字、契丹小字、西夏文、女真文、东巴图画文字、沙巴图画文字、东巴象形文字、哥巴文、水书、满文等17种文字。

     

      现在中国五十五个少数民族中,除回族、满族已不使用自己民族的文字而直接使用汉字外,有29个民族有与自己的语言相一致的文字,由于有的民族使用一种以上的文字,如傣语使用4种文字,景颇族使用2种文字,所以29个民族共使用54种文字。列表如下:

     

      民族名称  使用文字的名称

     

      蒙古族   传统蒙文、托忒文

      藏族     藏文

      维吾尔族   维吾尔老文字、维吾尔新文字

      苗族    老苗文、黔东苗文、湘西苗文、川黔滇苗文、滇东北苗文(后4种为新创)

      彝族     爨文、规范彝文

      壮族     方块壮字、壮文(新创)

      布依族    布依文(新创)

      朝鲜族    朝鲜文

      侗族     侗文(新创)

      瑶族     门方言文字、勉方言文字

      白族     老白文、白文(新创)

      土家族    土家文(新创)

      哈尼族    哈雅文、碧卡文(均为新创) 哈萨克族   哈萨克老文字、哈萨克新文字

      傣族    老傣仂文、新傣仂文、老傣那文、新傣那文、傣绷文、金平、傣文

      黎族     黎文(新创)

      傈僳族   老傈僳文(大写拉丁字母的拼音文字、格框式拼音文字、表音的音节文字)、新傈僳文

      佤族     撒拉语、佤文(新创)

      拉祜族    拉祜文

      水族     水书

      纳西族    东巴文、哥巴文、玛丽萨文、纳西文(新创)

      景颇族    景颇文、载瓦文(新创)

      柯尔克孜族  柯尔克孜文

      土族     土文(新创)

      羌族     羌文(新创)

      锡伯族    锡伯文

      俄罗斯族   俄文

      独龙族    独龙文(新创)

      基诺族    基诺文(新创一些只有语言没有文字的民族,为了保存并发展民族文化,扩大信息来源,提高科学水平,千方百计地创造文字。中华人民共和国成立后,主要是二十世纪五十年代,政府组织语言学专家、少数民族知识分子经过调查研究,先后为壮、布依、彝、苗、哈尼、傈僳、纳西、侗、佤、黎等10个民族制订了14种拉丁字母形式的文字方案,其中,分别为苗语的不同方言制订了4种文字方案,为哈尼语的不同方言制订了2种文字方案。后来又为景颇族的载瓦支系制订了拉丁字母形式的载瓦文方案,为土族制订了拉丁字母形式的土文方案。二十世纪八十年代年代根据本民族的要求,又为白、独龙、土家、羌、基诺等民族设计了拼音文字方案。

     

        藏、彝、蒙古、维吾尔、哈萨克、柯尔克孜、朝鲜、傣等民族都有自己的传统文字,有的文字如藏文、彝文已经有一千多年的历史,其他文字也都有几百年的历史。它们大部分已经有比较规范的习惯用法,使用范围较广,影响也较大。苗文和壮文虽然创制时间不长,但使用人数也较多。

     

    --------------------------------------------------------------------------------

     

    --  作者:妙语

    --  发布时间:2008-6-2 10:43:36

    -- 

     

    少数民族文字

     

    文字是记录和传达语言的书写符号。有的民族在古代就创造了自己的文字,并且从古至今一直使用这种文字。有的民族使用过古文字,其间又换用其他文字。有的民族使用几种文字,但由于历史的的各种原因,有的民族还没有创造和使用文字。新中国建立以前曾拥有和使用本民族文字的,有藏、蒙古、维吾尔、哈萨克、柯尔克孜、朝鲜、傣、彝、俄罗斯、苗、纳西、水、拉祜、景颇、锡伯等民族。

     

    少数民族文字大都是拼音文字,但在书写形式上各有不同,比如维吾尔文、哈萨克文,是从右往左书写;蒙古文、锡伯文是从上往下书写,行序从左往右;有的标点符号也不同,如藏文标点,短词和句尾用一条垂直线表示,章节段落结尾用双垂直线,全文结束用四条垂直线;蒙古文用一个点表示逗号,两点表示句号,段落末尾用四个点表示。

     

    新中国少数民族语言文字的发展新中国成立以来,国家为促进少数民族文化教育事业的发展,帮助一些少数民族改进和创制了文字,先后对傣、彝、景颇、拉祜文字行了改革,同时采用拉丁字母帮助壮、布依、苗、黎、纳西、僳僳、哈尼、佤、侗等十几个民族设计了十四种文字方案,以便于书写、学习和印刷出版。目前,我国已正式使用和经国家批准推行的少数民族文字有19种,它们是蒙古文、藏文、维吾尔文、朝鲜文、壮文、哈萨克文、锡伯文、傣文、乌孜别克文、柯尔克孜文、塔塔尔文、俄罗斯文、彝文、纳西文、苗文、景颇文、僳僳文、拉祜文和佤文。

     

     

     

    鄂温克族、布朗族、得昂族、普米族、保安族、裕固族、怒族、门巴族、珞巴族、畲族等民族都没有文字

     

               

    再分享一下我老师大神的人工智能教程吧。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://blog.csdn.net/jiangjunshow

    展开全文
  • 创建自己的Flex中文语言

    千次阅读 2009-02-09 16:10:00
    Flex中默认只支持英文和日文,未支持中文,因此一些控件上的文字或提示信息只会显示英文,如:Alert.show(....) 显示出来的提示框的按钮为OK,而不是中文的“确定”。 当然,对于一些控件,如:验证控件、日期选择...

    Flex中默认只支持英文和日文,未支持中文,因此一些控件上的文字或提示信息只会显示英文,如:Alert.show(....) 显示出来的提示框的按钮为OK,而不是中文的“确定”。

     

    当然,对于一些控件,如:验证控件、日期选择控件可在代码中直接指定提示文字,例如:

    <mx:NumberValidator id="shippingState_numberValidator" source="{shippingState}" lowerThanMinError="该值必须输入." property="selectedIndex" minValue="0"/>

     

    但如此逐一设置未免过于麻烦。其实可以制作自己的中文语言包,这样在整个项目中都可以在相应的位置显示中文,而不是默认的英文提示。下面将简述中文包的制作和使用方法:

     

    1. 确定Flex Builder的引用语言包的路径(设为{flex})

    在Flex Builder中,任一项目上点右键--属性--Flex Builder 下查看Flex Builder路径,如图

     

     

    2. 汉化资源文件 

    {flex}下找到{flex}/sdks/3.2.0/frameworks/projects/framework/bundles,此目录下默认有2个文件夹en_US和ja_JP,分别对应英文和日文语言包。

    复制en_US文件夹,命名为zh_CN,进入zh_CN/src目录,里面有几个.properties的文件,这些文件里即存贮着一些提示信息的对应的文字。分别打开每个.properties,将每一项“=”后面的内容翻译成中文。其中最主要的是翻译validators.properties,因为其中包含了大量提示给用户看的信息。

    另外,注意翻译完成后将文件保存为UTF-8格式!

     

    3. 制作中文语言包

     进入DOS模式,进入{flex}/sdks/3.2.0,运行下面的命令:

    bin/compc -locale=zh_CN -source-path=frameworks/projects/framework/bundles/zh_CN/src -include-resource-bundles=collections,containers,controls,core,effects,formatters,logging,SharedResources,skins,states,styles,utils,validators -output=frameworks/locale/zh_CN/framework_rb.swc

     

    这样就把刚才翻译的内容打包成了SWC文件

     

    4. 引入中文语言包

    在Flex Builder中,右键点击项目名称--Properties--Flex Compiler,编辑Additional Compiler arguments的输入框中的内容,在最后面加上-locale zh_CN -locale+=en_US  (初始时应为-locale=en_US  )。

    这样就将刚才打包好的语言包引入到项目中了

     

    5. 运行你写的程序,查看效果,应该已经是中文提示信息了

    展开全文
  • 应用中的文字语言化 1.Step 1:为应用添加多语言版本 2.Step 2:编程中的变化 要实现多语言,在编程中就不能直接用NSString 了,而是使用 NSLocalizedString(key, comment) key是对应显示的NSString,...
  • 本文是《打破国外垄断,开发中国人自己的编程语言》系列文章的第1篇。本系列文章的主要目的是教大家学会如何从零开始设计一种编程语言(marvel语言),并使用marvel语言开发一些真实的项目,如移动App、Web应用等。
  • 欣赏Daniel Holden如何教授读者学习创建语言 ,因该很有趣(复杂东西简单化能力)。作者定位是一些想学习C语言与创建自己语言的读者,但是这不是一本语言入门书。读者需要一点编程经验,而且能够发现新事物与有趣的...
  • 我为什么放弃Go语言

    万次阅读 多人点赞 2014-04-14 19:24:19
    有好几次,当我想起来的时候,总是会问自己:这个决定是正确的吗?是明智和理性的吗?其实我一直在认真思考这个问题。开门见山地说,我当初放弃Go语言,就是因为两个“不爽”:第一,对Go语言本身不爽;第二,对Go...
  • 创建应用:把AppID API Key Secret Key三个参数的值记住 安装模块: 如果已安装pip,执行pip install baidu-aip即可。 如果已安装setuptools,执行python setup.py install即可。 代码如下: ...
  • ... 点击上方蓝字关注“汪宇杰博客”识别一段文字语言有多种途径,在这个以AI为热点的时代,我们也可以给自己的应用强行加上AI,然后就能加上“智慧”的名字“自主研发成功”后去吹...
  • 以26个英文字母开头的编程语言

    千次阅读 2009-01-16 13:07:00
    以26个英文字母开头的编程语言a:ABAP,SAP 开发 ASM ASM也是汇编语言源程序的扩展名,汇编程序员也称汇编为ASM actionscript ActionScript 动作脚本是遵循 ECMAscript第四版 的 Adobe Flash Player 运行时环境的...
  • 一、简介 i18n是Internationalization这个英文的...1.项目可以自动根据浏览器的默认语言,显示相对于语言文字。 2.项目可以手动设置文字语言。 3.后台的提示、校验信息也是根据所设置的语言信息。 三、代码实现 ...
  • FullName := filepath.Join(dir, FileName)//创建一个存放文件的文件名 f, err := os.Create(FullName) if err != nil { log.Panic("文件创建失败") } io.Copy(f, resp.Body) } return nil } func ...
  • 使用纯资源DLL文件实现多语言菜单、界面文字、Tooltips等   在使用vc写简繁体通用程序时,对实现菜单、界面、Tooltips等的文字时无法实现通用。如果写简体和繁体各一套程序,那肯定不现实。查找所有...
  • 开发自己的编程语言

    千次阅读 2013-02-03 22:11:40
    计算机系的很多学生都对编程语言涉及到的编译原理表示畏惧,其实编译原理本身并不复杂,不过由于目前市面上有关编译原理的书籍大部分都是由国外的原著翻译过来的,翻译过来的文字很多时候没办法完美的表达出原文的...
  • 翻译、文字识别、语音转文字统统搞定 今天给大家介绍一款 Python 制作的实用工具包,包含多种功能:音频转文字文字转语音截图 OCR文字识别复制翻译举个例子,比如截图 OCR 文字识别就有很多实用场景。常会遇到有些 ...
  • 语言就是建立自己和世界的联系

    千次阅读 2009-12-17 22:40:00
    我想扩展一下这样的观点:语言就是建立自己和世界的联系,这里的语言,既包括书面语言,也包括口头语言。接着我就开始思考这样一个问题:如果语言就是建立自己和世界的联系,那该通过怎样的语言才能和世界建立良好的...
  • 使用Drupal创建语言站点

    千次阅读 2014-05-19 16:53:07
    界面多语言化(本文)内置变量多语言化术语表多语言化内容多语言化CCK多语言化菜单多语言化区块多语言化   界面多语言化(本文) 1.启用 Locale 模块并导入中文语言包 2.访问configuration-->Regional and ...
  • 使用纯资源DLL文件实现多语言菜单、界面文字、Tooltips等 http://www.xnovo.com/doc/html/aebbbg/bgbbehaattoswnltyq.html  在使用vc写简繁体通用程序时,对实现菜单、界面、Tooltips等的文字时无法实现通用。...
  • //设置所采集的语言 SpeechToText.sharedInstance().setDelegate(this); //设置监听 return true; } 11.检测服务是否连接 if (jsonModels == null) { jsonModels = new STTCommands().doInBackground...
  • 告诉你如何使用OLAMI自然语言... 自然语言对话即你的APP或者你制作的工具、机器人等能够对用户输入的语音或者文字做出准确的回应。 比如,在微信公众号中,经常要求用户通过输入1、2或者其他关键字来获取相应的服
  • 高级语言,汇编语言,机器语言

    千次阅读 2017-06-08 00:26:57
    低级语言分机器语言(二进制语言)和汇编语言(符号语言),这两种语言都是面向机器的语言,和具体机器的指令系统密切相关。机器语言用指令代码编写程序,而符号语言用指令助记符来编写程序。高级语言、汇编语言和...
  • 首先说一下,什么是编程语言,标记语言跟脚本语言: 编程语言(programming language):是用来定义计算机...标记语言:是一种将文本以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的电脑文字
  • Go 语言实战

    千次阅读 2018-04-12 10:41:40
    尽管这门语言借鉴了很多其他语言的思想,但是凭借自身统一和自然的表达,Go 程序在本质上完全不同于用其他语言编写的程序。Go 平衡了底层系统语言的能力,以及在现代语言中所见到的高级特性。你可以依靠 Go 语言来...
  • 做个简单的测试,看看你适合哪一门编程语言,微信扫描上面图片。写在开头用一句比较俗的话作为开头“世上无难事只怕有心人”,这句话大部分正确,毕竟有心去做一件事情,虽然不一定成功,但是必定有所回报。但是,最...
  • 文章目录论述自然语言处理的技术范畴(基本全貌) 一、前言...问答系统10、机器翻译11、文本情感分析12、自动摘要13、文字蕴涵三、自然语言处理的难点 论述自然语言处理的技术范畴(基本全貌) 一、前言 &amp;amp;...
  • Tesseract-OCR 3.0.1训练自己语言

    千次阅读 2015-02-09 09:25:36
    Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 218,095
精华内容 87,238
关键字:

创造自己的语言文字