精华内容
下载资源
问答
  • paip.语义分析--单字词表

    千次阅读 2013-12-16 18:40:56
    语义分析--单字名词表   INSERT INTO t (word) SELECT DISTINCT word FROM `word_main` where tsisin is not null and tsisin like 'n%' and LENGTH(word)=3 order by CONVERT(word USING gbk) ASC  ...
    paip.语义分析--单字名词表 




     INSERT INTO t (word)  SELECT DISTINCT word FROM `word_main` where tsisin is not null and tsisin like 'n%' and LENGTH(word)=3 order by    CONVERT(word USING gbk) ASC
     limit 10000
     
     mysq按照拼音排序


    作者Attilax  艾龙,  EMAIL:1466519819@qq.com 
    来源:attilax的专栏
    地址:http://blog.csdn.net/attilax


    排除重复
     select * from t_n where word in (SELECT word from t)  or   word in (SELECT word from t_a)


     total  258 
     
     
     癌,岸,爸,蚌,宝,碑,笔,表,鳖,冰,兵,饼,病,波,步,菜,蚕,舱,槽,草,叉,茶,豺,蝉,厂,巢,车,秤,虫,仇,船,疮,床,词,葱,村,蛋,党,刀,岛,灯,堤,电,店,貂,雕,爹,冬,洞,堆,舵,鹅,恩,法,帆,饭,范,房,菲,肺,坟,粉,粪,风,蜂,佛,钙,杆,肝,缸,钢,港,膏,糕,哥,弓,汞,沟,钩,狗,瓜,官,馆,光,硅,鬼,锅,国,海,汗,河,鹤,虹,猴,湖,花,画,话,火,货,鸡,家,剑,箭,江,姜,奖,酱,胶,角,脚,她,姐,金,京,鲸,酒,剧,军,君,菌,糠,炕,壳,客,课,坑,口,裤,筐,矿,困,蜡,狼,脸,粮,龙,鹿,路,驴,铝,妈,马,蟒,猫,锚,帽,煤,妹,门,们,梦,迷,米,面,膜,墓,脑,你,年,娘,鸟,尿,镍,孽,您,妞,牛,农,奴,女,啪,牌,炮,盆,皮,癖,屁,坡,漆,棋,铅,钱,枪,墙,桥,琴,球,圈,权,拳,犬,券,群,人,乳,蕊,腮,伞,山,绳,事,书,树,霜,水,锁,他,塔,痰,炭,碳,塘,糖,桃,题,体,天,铁,帖,铜,桶,头,图,土,腿,网,胃,我,鞋,锌,信,行,杏,胸,熊,癣,雪,血,牙,烟,盐,眼,爷,油,枣,灶,债,毡,掌,账,浙,针,痣,轴,庄,字,嘴,
     
    展开全文
  • [b]引言[/b]: 发现有一同事名字里有“垚”,于是QQ签名改成:“垚淼——(要)山高(不要)水长”。因为,“垚”读yáo意山高,“淼”读miǎo意渺茫(水面很宽的样子)。理完日志有点累,换换脑子,查抄了一些...
    [b]引言[/b]:

    发现有一同事名字里有“垚”,于是QQ签名改成:“垚淼——(要)山高(不要)水长”。因为,“垚”读yáo意山高,“淼”读miǎo意渺茫(水面很宽的样子)。理完日志有点累,换换脑子,查抄了一些过来。

    [b]正文[/b]:

    直接列出一批类似的字吧,方便将来吹牛、骗小孩,想不起来的时候查查~~


    鑫 森 淼 焱 垚 犇 骉 羴 猋 麤 赑 鱻 贔 掱 劦 晶 磊 毳 畾 飝 刕 叒 壵 尛 孨 歮 惢 皛 嚞 舙 譶 雥 灥 飍 馫 飝 厵 靐 龘 三 众 叒 品 晿 瞐 舙 雥 雦 鑫 矗 灥 飍 馫 晿



    { 鑫 森 淼 垚 晶 磊 壵 三 众 品 瞐 矗 } #认识12个
    展开全文
  • 含词尾的三单字新词识别设想

    http://blog.sina.com.cn/s/blog_47e1f1790100026k.html

    引    言
    0.1中文信息处理中的新词问题
    语言学意义上的新词又称新造词,指的是随着社会的发展,词汇的不断丰富而出现的表示新的事物和概念的词汇,其形式也是新的。新造词主要是利用原有的语言材料,按照原有的构词方法构成的。
    中文信息处理领域一般把新词看作未登录词①的一部分。微软亚洲研究所的黄昌宁先生将词定义为词表词(LW)加上未登录词(OOV),新词就是未登录词中除去日期、时间、百分数等,人名、地名、机构名等专名和词法派生词的那部分。也有人认为新词是未登录词中除专名以外的其他所有词语。② 在这里,我们采用黄先生的定义。
    众所周知,未登录词的辨识是自动分词所面临的一个较大困难,也是影响分词精度的主要因素之一。许多分词算法都是在完备词表的假设下设计的,其实这一假设并不成立。汉语和其他自然语言一样,它的实词部分永远是一个开放集,不但因为社会上的新词将不断涌现,而且专有名词虽然不新,但也不可能尽收,如人名、地名、机构名、译名等等。由于未登录词造成的分词错误远远超过歧义切分字段引发的错误,因此近年来这个问题已成为自动分词研究的焦点。据黄先生的统计,新词约占未登录词的31%,仅次于日期、时间、百分数等;而在实际操作中,超过60%的分词错误来源于新词。由此可见,解决新词的识别问题对提高分词精度具有十分重要的意义。
           
    0.2三字新词的分析
    北京工业大学的吴赣等人对17万字的科普性文章进行专名以外的未登录词构词模式的分析,结果表明:按“二字词+单字”模式构成的约占37%,按“单字+二字词”模式构成的约占13%,按“单字+单字+单字”模式构成的约占9%。综合即得,三字词共约占59%,数量可观。黄昌宁先生在北大约94.8万词次的测试语料中统计,结果表明:占11%的新词中有不少“1+1+1”模式,如十六大、农牧业等。由此可见,三单字新词的识别是新词辨识的一个重点。
    1词尾和含词尾的三字新词
    1.1 词尾的定义及与后缀等相关概念的区别
    1.1.1 关于词尾的概念
    我们经观察发现,“单字+单字+单字”和“二字词+单字”模式中的最后一个单字多为组合性很强的非词语素,具有使词义类化的作用,类似语言学上后缀的概念。考虑到中文信息处理的实际需要,我们给予这类语素以“词尾”的定义,界定规则如下:
    (1)位置固定,一般出现在三字词的最后一个汉字的位置上;
    (2)有一定的语法意义,可表明词的性质或使词性发生变化,并有使词义类化的作用;
    (3)一般为非词语素,不能单独做主语;
    (4)组合性和能产性强,可构成大量三字新词。
    需要说明的是,以词尾为直接成分构成的三字组合一般可以认为是一个词,(或者说是一个切词单位,)是一定要归并的。词尾前面也可能出现结构较复杂的多字结构的情况,这时候处于末尾字位的那个非词语素,不在我们考察的词尾范围内。词尾不等同于实词素,实词素无语法意义,而词尾有。另外,也有一些特殊词尾,如“人”、“手”、“风”虽然也可以单独做主语,但做主语时的含义与做词尾时有区别,因而也在我们的考察范围内。
    词尾的定义使得三字新词中的较大部分都归入了一个有着相同特点的集合中,可以想见,
    1.1.2词尾与相关概念的区别
    词尾与语言学上的后缀和计算语言学界学者提出的后缀成份、后加成分及后位构词模板概念都有区别。
    词尾不同于语言学上的后缀概念。朱德熙先生在《语法讲义》中指出:“真正的词缀只能粘附在词根成分上头,它跟词根成分只有位置上的关系,没有意义上的关系。”①由此他总结出现代汉语中的后缀只有“子”、“儿”、“头”、“们”、“了”、“着”、“过”、“的”和“得”,这些语素基本已完全虚化,只表示抽象的语法意义,词根的可替换性弱且前多为单字。按照这种要求,则在新词中出现频繁并且能产性很强的“性”、“化”、“制”等都不能进入后缀集合。其后,吕叔湘先生又提出“类后缀”的概念,即一些“在语义上还没有完全虚化,有时候还以词根的面貌出现”②的语素。相比之下,“类后缀”的含义更接近词尾。
    词尾不同于吴赣、宋柔等人提出的后缀成份。吴赣等认为:“由多字结构后面跟单字非词语素所构成的能独立使用的字词串为带后缀的词语,”称“这种结构后部的单字非词语素为后缀成份。”后缀词语介于词和词组之间,不同于词尾直接参与构成的三字词。词尾与后缀成份有重合也有偏差,如“们”不是词尾,但属于后缀成份;“儿”、“子”是词尾,但不属于后缀成份。
    词尾不同于信息处理用现代汉语分词规范GB/T13715—92中的后加成份。分词规范中没有明确界定后缀的内涵,只罗列了一些后加成份,又称接尾词,分为完全虚化的、虚化的和不虚化或基本虚化的三种类型,它所涵盖的范围小,后加成份数量少,只有十几个。我们提出的词尾包括了后加成份的大部分,但也有少许后加成份不是词尾。
    词尾也不同于清华大学研究者在做新词识别过程中提出的后位构词模板。后位构词模板主要针对二字新词而言,范围较大,包括了可以作为词独立使用的语素,像“上岗”“下岗”的“岗”、“上班”“下班”的“班”、“快车”“慢车”的“车”等。后位构词模板有的能产性可能不强,但总体覆盖面广,利于全面处理新词。目前,我们暂未展开做这一大范围的研究。
    1.2含词尾的三字新词       
    在三字新词的三种模式中,“二字词+单字”和“单字+单字+单字”两种模式的大部分词例都是末位单字为词尾的,对此,我们统称为——含词尾的三字新词。结构如下:
    二字词+词尾
       ①含词尾的三字新词                                         
    单字+单字+词尾
                                       
    含词尾的三字新词数量上约为三字新词总数的80%,分布比较均匀,词例也较为常见,像“择校生”、“削果器”、“创造性”等。根据我们的观察,发现这些三字新词的结构有一定规则可循,掌握这些规则就给计算机识别从未“见过”的新词提供了可能。例如,根据分析词尾为“器”的三字新词,像“传感器”、“变压器”、“互感器”等,我们发现其前二单字的词性大多为V/Vg+N/Ng,则可以总结出规则:词尾“器”前若有两个单字,而这两个单字的词性又依次为V/Vg和N/Ng,则判定这三个单字组成了一个三字新词,予以归并。小范围实验证明:引入该规则后,原本被切成三个单字的“削果器”得到了正确的归并。 
    这种含有具附加意味语素的新词识别问题的解决有赖于传统语言学界和计算语言学界的双重知识,而关于词尾或者说是后缀问题的研究,至今尚无统一结论。在分词实践方面,计算语言学界取得了该类型新词识别的一些成果。刘开瑛在1.58M字节的语料中,把单字碎片组成二元组、三元组和四元组,并在三元组中增加前后缀审核,得到占原三元组2.09%的有效三字新词。②吴赣等人在4M的语料中对含有 “者”、“员”等23个高频后缀成份的后缀词语的词串进行人工标注和归纳,总结出一批规则,然后在200万字的语料中进行开放测试,结果将现有分词精度(98%~99%)提高了2.7‰。黄昌宁先生等人通过后位构词模板的归纳和类比度计算,结合词频、反词表等其他特征,测试结果2+1模式的新词平均精确率达到54.7%,将总的分词平均精确率提高了6.5%,未登录词召回率改进了24.5%。

    2含词尾的三字新词的识别分析
    2.1基础统计数据分析
    2.1.1训练语料 
    我们选择《人民日报》1998年1月份前20天的人工标注语料作为训练语料,共3.67MB。从中人工查找在我们词尾集合中的语素,并向前看两个汉字,然后结合语境,统计出所有的含词尾的三字新词个数、词型和词例,然后在此基础上分析三单字模式的结构特点及其他性质,试图总结出一些规则。
    2.1.2 数据结果和分析
    我们主要以邵敬敏主编的《现代汉语通论》里列举的类后缀和国家分词规范里的后加成分为基础,结合内省以及在《人民日报》语料中考察的情况,归纳出词尾语素71个,分为人、现象、行业、特有名词和动词词尾、副词词尾六大类,即成为我们的词尾集合。如下所示:
    [指人的]   ~人,~师,~者,~手,~夫,~家,~员,~生,~子,~工,~长,~匠,~女,~贩,~鬼,~汉,~迷,~户,~族,~方;
    [指现象的] ~热,~风,~感,~流,~性;        
    [指行业的] ~坛,~学,~派,~式,~论,~法,~度;
    [特定名词] ~战,~症,~品,~机,~计,~仪,~线,~剂,~器, 
                  ~面,~期,~号,~件,~口,~级,~点,~道,~杯;
                  ~术,~功,~假,~制,~型,~质,~率,~量,~值,~度,~力,~形,~体;
                  ~金,~款,~费,~马,~物;
    [动词词尾] ~行,~化; 
    [副词词尾] ~然
    据统计,在训练语料里,共有三字词46158个,其中含词尾的三字词8071个,占17.5%。其中,“单字+单字+词尾”模式的三字新词词例557条,占训练语料总词次的0.95‰。前两个单字的结构方面有如下特点:
    (1) 首字为动词性语素的频率最高,且其与名词性语素结合的次数最多,共计53次;
    (2) 动词性语素几乎可以与所有语素结合,其次是量词;    
    (3) 组合频率从1到38不等,高频(10次以上)组合依次是:v+n  v+ng  v+v&m+q;
    (4) 组合情况庞杂,且每种组合分布不均,难以总结规则。
    训 练 语 料 三 单 字 组 合 结 构 表
     n ng v vg a ag f p u q j b nx
    V
     V 38 15 13 5 2 1 1 1  1 1  
     Vg 4 2 1          
     Vd   3          
    N N 4 3 9 2     1    
     Ng 1 2 3        1  
     Nr      1       
     Nx             1
    a A 3 2   2        
     Ag 1 2 4          
    d D   6 3      1   
     Dg   2  2        
    M 6 2 5 3     3 13  1 
    P 2 1 3          
    Q   1       1   
    U        1     
    F   1 2         
    H 1    1        
    T  1           
    G 1        
    展开全文
  • 如果您想给自己、家人、公司、产品等起个好,本程序也适合您。 本程序提供的起名字库有7000多个汉字(包括国标汉字编码GB2312-80里 的6763个汉字)。字库与程序分开,以便于单独修改、添加。字库里的笔画数 按...
  • 陕北方言 广东方言的不同单字 1千高频字  SELECT * FROM `canx` c where c.cn in ( select zi from hezi1k h) and st like 'b%' ORDER BY ati 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:...


    paip.陕北方言 广东方言的不同单字 1千高频字 


    SELECT * FROM `canx` c where c.cn in (  select zi from hezi1k h)  and st like 'b%' ORDER BY ati




    作者Attilax  艾龙,  EMAIL:1466519819@qq.com
    来源:attilax的专栏
    地址:http://blog.csdn.net/attilax




    ar 2163 ji bt 898
    ar 2150 ji bt 2450
    ar 2164 ji bt 2457
    ar 2147 ngai bt 226
    ba 632 bok b 407
    bae 594 bo b 1756
    bao 272 pou bt 1239
    be 203 bo b 2560
    be 221 bun b 136
    be 220 bun b 398
    ben 326 bun b 1509
    bi 360 bei b 1692
    bin 586 beng b 2084
    by 293 bak b 386
    by 374 bat b 1693
    by 370 bat b 2286
    byao 500 biu b 1572
    byao 520 biu b 2748
    bye 183 baak b 2102
    bye 184 baak b 2103
    bye 531 bit b 326
    bye 459 pin bt 2411
    bye 611 baa b 134
    便 bye 487 便 bin b 177
    bye 455 bin b 2998
    bye 489 bin b 453
    bye 491 bin b 3048
    ch 1053 jaak bt 478
    chao 933 ciu b 2927
    chao 936 ciu b 1505
    chen 980 can b 3192
    chen 1023 seng bt 1187
    chen 1033 seng bt 684
    chen 1000 cing b 2236
    chen 976 cam b 1726
    chen 1042 cing b 2241
    chen 1029 sing bt 1221
    cheo 899 soeng bt 987
    chu 1188 ceoi b 3201
    chu 1217 cyu b 718
    chw 1182 ceot b 303
    chwe 1261 syun bt 2566
    chwe 1257 cyun b 130
    穿 chwe 1256 穿 cyun b 2255
    chweo 1282 cong b 320
    chweo 1278 coeng b 2263
    chweo 1280 cong b 1006
    cin 7329 ceng b 2838
    cin 7312 ceng b 1832
    cin 7270 can b 81
    cin 7307 heng bt 2975
    cin 7304 ceng b 3244
    cin 7283 kam bt 2030
    cy 6957 cat b 3
    cyar 7122 cin b 3114
    cye 7257 ce b 13
    cye 7252 cai b 311
    cye 7118 cin b 338
    cye 7091 cin b 395
    cyeo 7167 coeng b 1550
    cyeo 7179 goeng bt 1047
    cyeu 7368 kau bt 1711
    cyeu 7356 cau b 2224
    cyeu 7379 kau bt 2023
    cyi 6960 cai b 773
    cyi 7018 kei bt 1616
    cyi 7079 hei bt 620
    cyi 7048 hei bt 2925
    cyi 7053 hei bt 1702
    cyi 7060 hei bt 1724
    cyi 6973 gei bt 1506
    cyi 6995 gei bt 739
    cyi 6993 gei bt 252
    cyon 7524 kwan bt 2437
    cyv 7457 ceoi b 2931
    cyv 7395 keoi bt 392
    cyv 7452 heoi bt 440
    cyv 7447 ceoi b 451
    cyv 7397 guk bt 1491
    cywe 7500 kyut bt 2421
    cywe 7507 kok bt 2181
    cywe 7503 koek bt 419
    cywe 7464 kyun bt 1518
    cywe 7463 cyun b 243
    d 1680 dak b 1078
    da 1530 daai b 726
    dae 2049 do b 723
    dai 1545 doi b 1067
    dai 1538 doi b 106
    dai 1555 doi b 2756
    dao 1667 dou b 328
    dao 1658 dou b 194
    di 1743 dai b 1039
    di 1741 dei b 647
    di 1701 dai b 145
    di 1748 dai b 983
    di 1734 dai b 1011
    di 1753 dai b 2292
    din 1895 deng b 851
    din 1888 deng b 3262
    don 2044 deon b 3269
    du 1987 dok b 1017
    dwe 1996 dyun b 2159
    dwe 1998 dyun b 1426
    dwe 1994 dyun b 2279
    dwer 1997 dyun b 1685
    dyao 1834 deu b 2845
    dyao 1837 zaau bt 1325
    dye 1793 din b 2057
    dye 1789 dim b 1911
    dye 1801 dim b 1012
    dye 1788 din b 254
    fae 2394 bat bt 153
    fen 2348 ban bt 115
    feu 2402 pei bt 498
    ga 2719 gok b 479
    gae 2677 go b 561
    gae 2685 go b 1669
    gai 2559 goi b 2827
    gai 2572 gap b 2120
    gai 2569 goi b 1396
    gao 2664 gou b 518
    gao 2648 gou b 3342
    ge 2603 gon b 2924
    ge 2579 kin bt 993
    gei 2724 kap bt 2384
    geu 2799 gau b 1983
    gw 2853 gwat b 3339
    gwa 3036 gwok b 639
    gwe 2925 gun b 2312
    gwe 2915 gun b 849
    gwe 2913 gun b 2779
    gwe 2922 gun b 3306
    gwe 2912 gwaan b 249
    gwei 2957 gwai b 1049
    gwei 3003 gwai b 2892
    gwei 2963 kwai bt 2780
    h 3242 haak b 3376
    ha 3186 hot b 601
    ha 3188 gap bt 481
    hai 3066 hoi b 1796
    hai 3063 hoi b 834
    hai 3073 hoi b 864
    hao 3154 hou b 1697
    hao 3164 hou b 472
    hao 3160 hou b 756
    he 3194 wo bt 534
    he 3191 ho b 150
    he 3104 hon b 1713
    he 3460 waan bt 3011
    he 3196 ho b 1738
    heu 3334 hau b 197
    heu 3329 hau b 486
    ho 3661 waai bt 2635
    ho 3655 fo bt 1888
    ho 3656 fo bt 126
    ho 3659 waak bt 1190
    ho 3654 wut bt 1776
    hon 3630 fan bt 805
    hu 3342 fu bt 529
    hu 3338 fu bt 42
    hu 3360 wu bt 2501
    hu 3391 wu bt 1235
    hw 3343 fat bt 1092
    hwa 3431 waa bt 2823
    hwa 3428 waa bt 2060
    hwa 3409 faa bt 2586
    hwa 3425 waa bt 315
    hwa 3424 faa bt 385
    hwa 3411 faa bt 399
    怀 hwai 3441 怀 waai bt 1094
    hwai 3450 waai bt 655
    hwe 3495 wun bt 1314
    hwe 3454 fun bt 1661
    hwe 3462 waan bt 2015
    hwei 3551 fai bt 1294
    hwei 3568 wui bt 627
    hwei 3582 kui bt 127
    hweo 3517 wong bt 3373
    hweo 3513 wong bt 2106
    jao 11532 ziu bt 1939
    jao 11514 ziu bt 1260
    je 11457 zin bt 924
    je 11470 zin bt 1191
    jen 11637 zi bt 1065
    jen 11634 caang bt 62
    jen 11577 zan bt 2135
    jen 11619 zan bt 3186
    jen 11658 zing bt 1414
    jen 11575 zan bt 2020
    jeo 893 coeng bt 3160
    jeu 11858 zau bt 524
    jeu 11854 zau bt 956
    jeu 11861 zau bt 1775
    ji 11748 zai bt 329
    ji 11752 ci bt 1741
    jin 4226 gam bt 3098
    jin 4308 zeng bt 2336
    jin 4242 gan bt 2346
    jin 4292 ging bt 2378
    jin 4290 ging bt 78
    jin 4239 gan bt 90
    jin 4224 gam bt 93
    jin 4305 zing bt 2143
    jin 4297 geng bt 1142
    jin 4256 zeon bt 910
    jin 4275 gam bt 2213
    jin 4354 zing bt 3246
    jin 4352 ging bt 703
    jin 4261 gan bt 3009
    jin 4322 ging bt 1477
    jin 4263 zeon bt 3013
    jin 4346 ging bt 2274
    jin 4330 ging bt 2792
    jon 4604 gwan bt 267
    jon 12039 zeon bt 285
    ju 11929 zyu bt 34
    ju 11943 zo bt 359
    ju 11942 zyu bt 146
    ju 11949 zyu bt 1759
    jwa 12049 coek bt 1591
    jwe 11976 zyun bt 12
    jwe 11983 zyun bt 2970
    jwe 4554 gaau bt 2784
    jwei 12009 zeoi bt 3022
    jweo 12002 zong bt 1978
    jweo 11998 zong bt 2765
    jy 3753 kap bt 1539
    jy 3751 kap bt 2356
    jy 3760 gap bt 1104
    jy 3732 gik bt 1886
    jy 3770 zaap bt 3225
    jy 3752 zik bt 418
    jy 3743 gap bt 445
    jy 3746 gat bt 482
    jya 3919 gaa bt 1553
    jya 3864 gaa bt 355
    jya 3877 gaa bt 867
    jya 3916 gaa bt 113
    jya 3920 gaa bt 204
    jyao 4066 gaau bt 72
    jyao 4135 gaau bt 1405
    jyao 4134 gaau bt 2978
    jyao 4129 giu bt 463
    jyao 4095 gok bt 2785
    jye 4171 git bt 1536
    jye 3986 gaan bt 2308
    jye 4000 gin bt 1029
    jye 4200 ze bt 778
    jye 4211 gaai bt 2062
    jye 4166 zit bt 2574
    jye 4012 zim bt 1834
    jye 4154 zip bt 1334
    jye 4177 git bt 2381
    jye 4206 gaai bt 94
    jye 3931 gaan bt 3168
    jye 4163 gaai bt 2744
    jye 4008 gin bt 210
    jye 4108 goek bt 2516
    jye 3997 gin bt 2778
    jye 4201 gaai bt 2786
    jyeo 4057 gong bt 3195
    jyeo 4037 zoeng bt 893
    jyeo 4035 gong bt 1717
    jyeo 4050 zoeng bt 746
    jyeo 4049 gong bt 2802
    jyeu 4390 zau bt 3077
    jyeu 4386 gau bt 38
    jyeu 4385 gau bt 51
    jyeu 4398 gau bt 1404
    jyeu 4391 gau bt 1440
    jyeu 4374 gau bt 2252
    jyi 3789 gei bt 292
    jyi 3685 gik bt 304
    jyi 3806 gei bt 2357
    jyi 3824 gai bt 2391
    jyi 3813 zai bt 3190
    jyi 3818 gei bt 1437
    jyi 3712 gei bt 688
    jyi 3791 gei bt 966
    jyi 3810 gei bt 1222
    jyi 3702 zek bt 3021
    jyi 3802 gai bt 2793
    jyi 3692 gei bt 1514
    jyi 3804 gei bt 2801
    jyi 3821 zai bt 1786
    jyv 4450 geoi bt 36
    jyv 4479 geoi bt 1317
    jyv 4474 kek bt 343
    jyv 4434 guk bt 913
    jyv 4404 geoi bt 916
    jyv 948 ce bt 2966
    jyv 4461 geoi bt 962
    jyv 4459 geoi bt 459
    jyv 4466 geoi bt 253
    jywe 4544 kyut bt 277
    jywe 4552 zyut bt 2386
    ka 4762 haak bt 333
    ka 4764 haak bt 857
    ka 4760 haak bt 235
    kai 4644 hoi bt 1030
    kao 4712 haau bt 2448
    ke 4767 fo bt 2843
    ke 4682 hon bt 2134
    ke 4728 fo bt 2226
    ke 4755 ho bt 467
    ken 4776 hang bt 2485
    keo 4693 hong bt 1022
    keu 4804 hau bt 457
    kon 4798 hung bt 1113
    kon 4953 kwan b 634
    kon 4790 hung bt 2254
    ku 4821 fu bt 2599
    kw 4816 huk bt 565
    kwai 4841 faai bt 1089
    kwai 4840 faai bt 658
    kweo 4873 fong bt 278
    lae 5780 laai b 2656
    lae 5749 lo b 2425
    lae 5772 lok b 1771
    lai 4991 lai b 1532
    le 5105 ngaau bt 44
    le 5400 liu b 60
    lei 5247 lai b 165
    leu 5593 lau b 1637
    lin 5438 lam b 1544
    lin 5439 lam b 30
    lin 5475 leng b 1892
    lin 5512 leng b 3274
    lw 5645 luk b 1051
    lwe 5731 lyun b 58
    ly 5234 laap b 2270
    lyao 5403 liu b 1419
    lye 5410 laat b 316
    lye 5329 lin b 2371
    lye 5332 lyun b 1111
    lye 5419 lit b 1915
    lye 5307 lyun b 2465
    lye 5301 lin b 3016
    lye 5324 lim b 2519
    lyeo 5342 loeng b 2569
    lyeo 5357 loeng b 80
    lyeu 5523 lau b 2065
    lyeu 5520 lau b 317
    lyeu 5522 lau b 1780
    lyeu 5545 luk b 246
    lyo 5362 loeng b 3097
    ma 5926 mut b 1731
    me 5842 mun b 1866
    mi 6042 mai b 2322
    mi 6027 mai b 3020
    min 6179 meng b 530
    min 6129 man b 1700
    min 6155 meng b 485
    mo 6222 mak b 3377
    my 6061 mat b 874
    my 6060 bei bt 2228
    mye 6099 min b 3249
    mye 6082 man b 236
    na 8485 taa bt 840
    nei 6272 naap b 258
    ngae 2111 ngok b 1126
    ngai 35 oi bt 1954
    ngao 138 ou bt 750
    nge 80 on bt 1284
    nge 81 on bt 1590
    nge 53 on bt 844
    nge 86 am bt 1487
    ngen 2143 jan bt 1120
    ngeu 6557 au bt 1663
    ni 6376 nei b 909
    ni 6392 nei b 155
    nin 6474 nei b 1136
    non 6514 lung bt 1033
    nv 6529 neoi b 751
    nye 6434 nim b 1091
    nye 6417 nin b 995
    nyeu 6496 ngau b 1965
    pai 6589 paak b 1251
    pe 6615 pun b 323
    pi 6755 pei b 2107
    pi 6734 pai b 1218
    pin 6852 ban bt 551
    pin 6862 peng b 994
    pyao 6829 biu bt 2209
    pye 6798 pin b 1960
    ra 7565 jit bt 1925
    re 7529 jin bt 1934
    ren 7571 jan bt 1083
    ren 7566 jan bt 84
    ren 7601 jing bt 95
    ren 7582 jam bt 114
    ren 7578 jan bt 2795
    reo 7553 joeng bt 2798
    reu 7642 juk bt 2471
    ri 7604 jat bt 1438
    ro 7707 je bt 2598
    ron 7614 jung bt 868
    ru 7643 jyu bt 757
    rw 7666 jap bt 242
    sa 7770 sik b 2571
    sai 7737 coi bt 2914
    sai 7731 sak b 701
    se 7739 saam b 6
    sh 8089 sik b 1035
    sh 8048 sam b 86
    sh 8055 sat b 854
    sh 8099 sat b 859
    sh 8094 sai b 366
    sh 8050 daam bt 2161
    sh 8047 sap b 394
    sh 8104 si b 1462
    sh 8061 ji bt 3291
    sh 8029 sat b 733
    sh 8053 zi bt 2815
    shae 7933 cit bt 2810
    shao 7909 siu b 897
    shao 7893 siu b 1922
    she 7859 sin b 595
    shi 8085 sai b 14
    sho 8262 seoi b 2836
    shu 8207 syu b 1576
    shu 8151 syu b 56
    shu 8204 cuk bt 1529
    si 8078 ci bt 777
    si 8307 sei b 626
    si 8312 ci bt 140
    si 8304 sei b 1678
    使 si 8075 使 sai b 162
    si 8108 dik bt 3025
    sin 9868 jing bt 1054
    sin 9820 sam b 1080
    sin 9871 jing bt 673
    sin 9883 hang bt 997
    sin 9847 hing bt 250
    so 8475 saak b 2345
    son 8335 cung bt 1537
    sw 8384 cuk bt 3039
    swei 8427 ceoi bt 3212
    sy 9453 zaap bt 54
    syao 9741 gaau bt 1580
    syao 9729 siu b 896
    syao 9743 siu b 2285
    sye 9778 se b 266
    sye 9572 sin b 3350
    sye 9795 ze bt 2857
    sye 10056 hok bt 833
    线 sye 9626 线 sin b 2370
    sye 9745 se b 70
    sye 9608 him bt 3203
    sye 9607 hin bt 1465
    sye 9625 jin bt 2016
    syeo 9667 hoeng bt 556
    syeo 9678 zoeng bt 2867
    syeo 9644 hoeng bt 55
    syeo 9677 hong bt 3264
    syeo 9680 zoeng bt 221
    syeo 9674 hoeng bt 489
    syeo 9649 hoeng bt 3312
    syi 9492 hai bt 2342
    syi 9495 sai b 2374
    syi 9475 hei bt 600
    syi 9488 hei bt 1186
    syi 9551 haa bt 720
    syi 9381 hei bt 977
    西 syi 9379 西 sai b 2775
    syi 9455 zek bt 985
    syi 9556 sin b 233
    syi 9471 sai b 1770
    syi 9380 kap bt 510
    syin 9863 haang bt 2741
    syon 10082 cam bt 888
    syon 9902 hung bt 3223
    syv 9980 zuk bt 2394
    syv 9908 jau bt 123
    syv 9959 heoi bt 2805
    sywe 10003 syun b 858
    sywe 10064 syut b 3231
    sywe 10066 hyut bt 2739
    sywe 10029 syun b 3028
    tai 8517 ji bt 468
    te 8656 dak bt 1972
    ti 8682 tai b 1346
    ti 8696 tai b 149
    ti 8688 tai b 3282
    tin 8799 jan bt 503
    tsai 705 coi bt 3092
    tsai 700 coi bt 1201
    tsao 754 cou bt 2618
    tsao 11326 cou bt 3040
    tse 865 caan bt 74
    tse 715 caam bt 442
    tse 720 caan bt 3292
    tsen 780 cang bt 915
    tson 1470 cyun bt 826
    tswar 1466 cyun bt 1525
    tu 8893 tou b 640
    tu 8909 tou b 644
    tu 8889 dat bt 2256
    twa 8965 tok b 1206
    twa 8974 tyut b 2518
    tyao 8783 tiu b 2946
    tyao 8757 tiu b 1531
    tye 8788 tit b 3118
    tye 8718 tin b 727
    va 9351 mou bt 356
    va 9360 mat bt 1969
    vai 9030 ngoi bt 722
    ve 9079 maan bt 4
    ve 9046 jyun bt 846
    ve 9062 maan bt 1472
    ve 9052 waan bt 2013
    vei 9158 wai bt 781
    vei 9194 mei bt 526
    vei 9126 wai bt 33
    vei 9117 mei bt 1077
    vei 9145 wai bt 2397
    vei 9133 wai bt 636
    vei 9193 wai bt 144
    vei 9191 wai bt 415
    vei 9192 mei bt 1507
    ven 9223 wan bt 1841
    ven 9246 man bt 3164
    ven 9231 man bt 3173
    ven 9227 man bt 1415
    veo 9089 mong bt 71
    veo 9108 mong bt 1504
    vo 9279 ngo bt 1188
    vu 9336 mou bt 1674
    vu 9312 mou bt 1436
    vu 9345 mou bt 2557
    y 10467 jat bt 1
    ya 10125 aa bt 514
    ya 10155 aa bt 69
    ya 10132 ngaa bt 1964
    ya 10124 aat bt 429
    yao 10380 jiu bt 1370
    yao 10408 jiu bt 2776
    ye 10280 jim bt 3332
    ye 10433 jip bt 17
    ye 10198 jim bt 24
    ye 10428 jaa bt 53
    ye 10406 joek bt 2629
    ye 10249 jan bt 1876
    ye 10240 ngaan bt 2141
    ye 10207 ngaan bt 2168
    ye 10177 jin bt 1919
    ye 10434 jip bt 471
    ye 10201 jin bt 2788
    yen 10737 jan bt 1037
    yen 10725 ngan bt 3129
    yen 10689 jan b 629
    yen 10749 jan b 416
    yen 10696 jam bt 3259
    yeu 10877 jau bt 2054
    yeu 10898 jau bt 1844
    yeu 10859 jau bt 125
    yeu 10917 jau bt 443
    yeu 10904 jau bt 446
    yeu 10883 jau bt 1740
    yeu 10918 jau bt 470
    yeu 10905 jau bt 1500
    yin 10840 wing bt 1710
    yin 10814 jung bt 1265
    yleo 5352 loeng bt 23
    yon 11208 wan bt 66
    yon 11234 wan bt 3008
    ywe 11121 wan bt 520
    ywe 11176 joek bt 2355
    ywe 11195 jyut bt 2928
    ywe 11123 jyun bt 633
    ywe 11164 jyun bt 3200
    ywe 11172 jyun bt 1168
    ywe 11131 jyun bt 434
    ywe 11157 jyun bt 3014
    ywe 11178 jyut bt 1499
    ywe 11119 jyun bt 229
    za 12243 zok b 154
    zae 12240 zo b 960
    zao 11315 zou b 1442
    zi 11718 zek b 462
    zo 12244 co bt 656
    zu 12198 zou b 2372
    zu 12200 zou b 2203
    zw 12185 zeoi b 2932
    zw 12257 zou b 208
    zwa 11361 zam b 1096
    展开全文
  • 提供了1715个常用中文单字语音,可以用于文本合成语音, 文件使用汉字文件名字 还就是女音 声音来自百度
  • 这种匹配要求比较低,对于中文,它把词分成一个字一个字,只要有一个字一样就匹配 例如: 输入:海明威, 文档是:大海 结果:匹配 符号介绍 在后面的代码里,有一些我自己的变量,我都用"[]"标识出来,...
  • 方言普通话语音识别语料库(单字部分)-600人 尽管普通话语音识别系统的开发取得了很大进步,但在面对方言地区普通话时,遇到了挑战。广大方言地区、特别是南方方言区的普通话和标准普通话存在许多差别。...
  • C# 随机中文名

    千次阅读 2020-03-21 13:37:26
    using System.Collections.Generic; using Random = System.Random; public class ChineseName { /// <summary> /// 得到姓 /// </summary> /// <returns></returns>... pu...
  • jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语; jieba是优秀的中文分词第三方库,需要额外安装; jieba库提供三种分词模式,最简单只需掌握一个函数。 (cmd命令行) pip install jieba jieba...
  • 今天老赵学习了easygui这个图形界面,因此想用easygui的界面写出一个随机... x = g.buttonbox(msg="请选择要起的名字类型",title="起名器",choices=("单字名","双字名","结束")) first_name = g.enterbox("请输入你
  • 比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。  世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本...
  • java中方法名,对象,变量,标识符,关键字的规则总绪...2、驼峰命名法(Camel-Case): 当变量或函式是由一个或多个单字连结在一起,而构成的唯一识别字时,首字母以小写开头,每个单词首字母大写(第一个单词
  • 比方,中文简体常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多能够表示256x256=65536个符号。 世界上存在着多种编码方式,同一个二进制数字能够被解释成不同的符号。因此,要想打开一个文本文件...
  • 儿起名不再接受单字名)依据汉字的“金木水火土”五行取得缺失五行对应的双字词语,作为最终的名字,通过1518测名网(1518.com)评分,选取分数超过95分的5组结果输出,同时输出该名字的出处。 并从国人姓名常用字中...
  • 向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx百度拥有全球最大的中文知识图谱,拥有数亿实体、千亿事实,具备丰富的知识标注与关联能力,不...
  • 比方,中文简体常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多能够表示256x256=65536个符号。 世界上存在着多种编码方式,同一个二进制数字能够被解释成不同的符号。因此,要想打开一个文本...
  • 问题导读:1、相比于简单minist识别,汉字识别具有哪些难点?...虽然以前有一些文章教大家如何操作,但是大多比较古老,这篇文章将用全新的TensorFlow 2.0 来教大家如何搭建一个中文OCR系统!让我...
  • 一年前的今天万格改名正式上线,这一年来万格改名小程序得到了很多玩家的支持和喜欢,随着时间越长改重复的玩家越多,有些名字改起来不好使了,我们今天围绕游戏改名再分享一些好用的方法,有助大家更好的修改游戏...
  • 本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“ CRF++: Yet Another CRF toolkit ”进行分词。本文使用的中文语料资源是SIGHAN提供的 backoff 2005...
  • C# 名字五格测试

    千次阅读 2019-03-20 17:27:32
    // 3 单字名(即两字名):后一字笔画数加上“1”。 // 总格(后运):姓与名之字画数之和称为总格。主壮年至晚年之命运。但壮年前亦颇有灵动。 // 总格计算法: 姓氏连名全体笔画总数。 // 外格(副运)...
  • 虽说英文26个字母单字母是占用是一个字节,而中文汉字是占用2个字节,一个中文汉字相当于2个英文字母。但是中文汉字一个字就可以很准确的表达出意思,而2个字母几乎不能表达出让人能理解的意思,还要加额外的死记硬...
  • 香港科技大学工学院计算机科学及工程学系三位应届毕业生开发了一个手机应用程序,可以将中文句子翻译成为手语句子。这手机程式的突破,在于它可以翻译句子,而一般手语翻译程式只能翻译单字或单词。这程序将失聪或弱...
  • 一、C语言变量的命名规则:(可以字母,数字,下划线混合使用) 1. 只能以字母或下划线开始;2. 不能以数字开始;3. 一般小写;4. 关键字不允许用(eg:int float=2//error float 为保留字不允许用); 二、函数...
  • 中文分词技术(中文分词原理) ...一、 为什么要进行中文分词?...词是最小的能够独立活动的有意义的...Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,844
精华内容 1,937
关键字:

中文单字名