精华内容
下载资源
问答
  • 1,将需要转换的中文名字拷贝到文本文件(.txt),每个一行,例如从excel文件中拷贝一列,作为源文件; 2,姓名之间不能有空格,但是姓名前后可以有; 3,目标文件可以指定,如不指定,会自动生成一个 " 源文件名_en...
  • 支持多种英文格式(如:名字+姓氏、姓氏+名字等),内置3500中文字库,可应用于人力资源、办公文秘、旅游公司涉外旅游登记等中英文名字批量处理,支持成千上万个名字批量转换,鼠标一点,瞬间完成。     方法...
  • XlsToPG是一个简写,它其实是一个excel数据转换xls转sql工具,可以把数据库用户把Excel数据导入到PostgreSQL数据库,很方便的小工具。 PostgreSQLPostgreSQL 是一个自由的对象-关系数据库服务器(数据库管理系统),...
  • 【数字转英文】 将选中区域(默认)或已使用区域存储格的金额数字转换英文格式显示的表达字符串,为三资企业制作客户外汇付款通知书的理想工具。 【文本转EXCEL】 将文本文件按指定的分隔符号分隔一次性导入到...
  • 涉及内容包括但不限于:中英文敏感词,语言检测,中外手机/电话归属​​地/运营商查询,名字,名称,性别,手机号撤回,身份证删除,邮箱删除,中日文人名库,中文缩写库,拆字字典,词汇情感值,替换词,反动词表,...
  • 英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换英文模拟...

    NLP资源汇总和工具汇总

    涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报告、自然语言生成、NLU太难了系列、自动对联数据及机器人、用户名黑名单列表、罪名法务名词及分类模型、微信公众号语料、cs224n深度学习自然语言处理课程、中文手写汉字识别、中文自然语言处理 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括常用歇后语、成语、词语和汉字)、文档图谱自动生成、SpaCy 中文模型、Common Voice语音识别数据集新版、神经网络关系抽取、基于bert的命名实体识别、关键词(Keyphrase)抽取包pke、基于医疗领域知识图谱的问答系统、基于依存句法与语义角色标注的事件三元组抽取、依存句法分析4万句高质量标注数据、cnocr:用来做中文OCR的Python3包、中文人物关系知识图谱项目、中文nlp竞赛项目及代码汇总、中文字符数据、speech-aligner: 从“人声语音”及其“语言文本”产生音素级别时间对齐标注的工具、AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)、word2word:(Python)方便易用的多语言词-词对集:62种语言/3,564个多语言对、语音识别语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库、构建医疗实体识别的模型(包含词典和语料标注)、单文档非监督的关键词抽取、Kashgari中使用gpt-2语言模型、开源的金融投资数据提取工具、文本自动摘要库TextTeaser: 仅支持英文、人民日报语料处理工具集、一些关于自然语言的基本模型、基于14W歌曲知识库的问答尝试–功能包括歌词接龙and已知歌词找歌曲以及歌曲歌手歌词三角关系的问答、基于Siamese bilstm模型的相似句子判定模型并提供训练数据集和测试数据集、用Transformer编解码模型实现的根据Hacker News文章标题自动生成评论、用BERT进行序列标记和文本分类的模板代码、LitBank:NLP数据集——支持自然语言处理和计算人文学科任务的100部带标记英文小说语料、百度开源的基准信息抽取系统、虚假新闻数据集、Facebook: LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口、CommonsenseQA:面向常识的英文QA挑战、中文知识图谱资料、数据及工具、各大公司内部里大牛分享的技术文档 PDF 或者 PPT、自然语言生成SQL语句(英文)、中文NLP数据增强(EDA)工具、英文NLP数据增强工具 、基于医药知识图谱的智能问答系统、京东商品知识图谱、基于mongodb存储的军事领域知识图谱问答项目、基于远监督的中文关系抽取、语音情感分析、中文ULMFiT-情感分析-文本分类-语料及模型、一个拍照做题程序、世界各国大规模人名库、一个利用有趣中文语料库 qingyun 训练出来的中文聊天机器人、中文聊天机器人seqGAN、省市区镇行政区划数据带拼音标注、教育行业新闻语料库包含自动文摘功能、开放了对话机器人-知识图谱-语义理解-自然语言处理工具及数据、中文知识图谱:基于百度百科中文页面-抽取三元组信息-构建中文知识图谱、masr: 中文语音识别-提供预训练模型-高识别率、Python音频数据增广库、中文全词覆盖BERT及两份阅读理解数据、ConvLab:开源多域端到端对话系统平台、中文自然语言处理数据集、基于最新版本rasa搭建的对话系统、基于TensorFlow和BERT的管道式实体及关系抽取、一个小型的证券知识图谱/知识库、复盘所有NLP比赛的TOP方案、OpenCLaP:多领域开源中文预训练语言模型仓库、UER:基于不同语料+编码器+目标任务的中文预训练模型仓库、中文自然语言处理向量合集、基于金融-司法领域(兼有闲聊性质)的聊天机器人、g2pC:基于上下文的汉语读音自动标记模块、Zincbase 知识图谱构建工具包、诗歌质量评价/细粒度情感诗歌语料库、快速转化「中文数字」和「阿拉伯数字」、百度知道问答语料库、基于知识图谱的问答系统、jieba_fast 加速版的jieba、正则表达式教程、中文阅读理解数据集、基于BERT等最新语言模型的抽取式摘要提取、Python利用深度学习进行文本摘要的综合指南、知识图谱深度学习相关资料整理、维基大规模平行文本语料、StanfordNLP 0.2.0:纯Python版自然语言处理包、NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具、端到端的封闭域对话系统

    1. textfilter: 中英文敏感词过滤 observerss/textfilter

     >>> f = DFAFilter()
     >>> f.add("sexy")
     >>> f.filter("hello sexy baby")
     hello **** baby
    

    敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。

    2. langid:97种语言检测 https://github.com/saffsd/langid.py

    pip install langid

    >>> import langid
    >>> langid.classify("This is a test")
    ('en', -54.41310358047485)
    

    3. langdetect:另一个语言检测https://code.google.com/archive/p/language-detection/

    pip install langdetect

    from langdetect import detect
    from langdetect import detect_langs
    
    s1 = "本篇博客主要介绍两款语言探测工具,用于区分文本到底是什么语言,"
    s2 = 'We are pleased to introduce today a new technology'
    print(detect(s1))
    print(detect(s2))
    print(detect_langs(s3))    # detect_langs()输出探测出的所有语言类型及其所占的比例
    

    输出结果如下: 注:语言类型主要参考的是ISO 639-1语言编码标准,详见ISO 639-1百度百科

    跟上一个语言检测比较,准确率低,效率高。

    4. phone 中国手机归属地查询: ls0f/phone

    已集成到 python package cocoNLP中,欢迎试用

    from phone import Phone
    p  = Phone()
    p.find(18100065143)
    #return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}
    

    支持号段: 13*,15*,18*,14[5,7],17[0,6,7,8]

    记录条数: 360569 (updated:2017年4月)

    作者提供了数据phone.dat 方便非python用户Load数据。

    5. phone国际手机、电话归属地查询:AfterShip/phone

    npm install phone

    import phone from 'phone';
    phone('+852 6569-8900'); // return ['+85265698900', 'HKG']
    phone('(817) 569-8900'); // return ['+18175698900, 'USA']
    

    6. ngender 根据名字判断性别:observerss/ngender 基于朴素贝叶斯计算的概率

    pip install ngender

    >>> import ngender
    >>> ngender.guess('赵本山')
    ('male', 0.9836229687547046)
    >>> ngender.guess('宋丹丹')
    ('female', 0.9759486128949907)
    

    7. 抽取email的正则表达式

    已集成到 python package cocoNLP中,欢迎试用

    email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
    emails = re.findall(email_pattern, text, flags=0)
    

    8. 抽取phone_number的正则表达式

    已集成到 python package cocoNLP中,欢迎试用

    cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
    phoneNumbers = re.findall(cellphone_pattern, text, flags=0)
    

    9. 抽取身份证号的正则表达式

    IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
    IDs = re.findall(IDCards_pattern, text, flags=0)
    

    10. 人名语料库: wainshine/Chinese-Names-Corpus

    人名抽取功能 python package cocoNLP,欢迎试用

    中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典
    

    (可用于中文分词、姓名识别)

    11. 中文缩写库:github

    全国人大: 全国/n 人民/n 代表大会/n
    中国: 中华人民共和国/ns
    女网赛: 女子/n 网球/n 比赛/vn
    

    12. 汉语拆字词典:kfcd/chaizi

    漢字	拆法 (一)	拆法 (二)	拆法 (三)
    拆	手 斥	扌 斥	才 斥
    

    13. 词汇情感值:rainarch/SentiBridge

    山泉水	充沛	0.400704566541	0.370067395878
    视野	        宽广	0.305762728932	0.325320747491
    大峡谷	惊险	0.312137906517	0.378594957281
    

    14. 中文词库、停用词、敏感词 dongxiexidian/Chinese

    此package的敏感词库分类更细:

    反动词库敏感词库表统计暴恐词库民生词库色情词库

    15. 汉字转拼音:mozillazg/python-pinyin

    文本纠错会用到

    16. 中文繁简体互转:skydark/nstools

    17. 英文模拟中文发音引擎 funny chinese text to speech enginee:tinyfool/ChineseWithEnglish

    say wo i ni
    #说:我爱你
    

    相当于用英文音标,模拟中文发音。

    18. 汪峰歌词生成器:phunterlau/wangfeng-rnn

    我在这里中的夜里
    就像一场是一种生命的意旪
    就像我的生活变得在我一样
    可我们这是一个知道
    我只是一天你会怎吗
    

    19. 同义词库、反义词库、否定词库:guotong1988/chinese_dictionary

    20. 无空格英文串分割、抽取单词:wordinja

    >>> import wordninja
    >>> wordninja.split('derekanderson')
    ['derek', 'anderson']
    >>> wordninja.split('imateapot')
    ['im', 'a', 'teapot']
    

    21. IP地址正则表达式:

    (25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)
    

    22. 腾讯QQ号正则表达式:

    [1-9]([0-9]{5,11})
    

    23. 国内固话号码正则表达式:

    [0-9-()()]{7,18}
    

    24. 用户名正则表达式:

    [A-Za-z0-9_\-\u4e00-\u9fa5]+
    

    25. 汽车品牌、汽车零件相关词汇:

    见本repo的data文件 [data](https://github.com/fighting41love/funNLP/tree/master/data)
    

    26. 时间抽取:

    已集成到 python package cocoNLP中,欢迎试用

    在2016年6月7日9:44执行測試,结果如下
    
    Hi,all。下周一下午三点开会
    
    >> 2016-06-13 15:00:00-false
    
    周一开会
    
    >> 2016-06-13 00:00:00-true
    
    下下周一开会
    
    >> 2016-06-20 00:00:00-true
    

    java version

    python version

    27. 各种中文词向量: github repo

    中文词向量大全

    28. 公司名字大全: github repo

    29. 古诗词库: github repo 更全的古诗词库

    30. THU整理的词库: link

    已整理到本repo的data文件夹中.

    IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库
    

    31. 中文聊天语料 link

    该库搜集了包含:豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料
    

    32. 中文谣言数据: github

    该数据文件中,每一行为一条json格式的谣言数据,字段释义如下:
    
    rumorCode: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。
    title: 该条谣言被举报的标题内容
    informerName: 举报者微博名称
    informerUrl: 举报者微博链接
    rumormongerName: 发布谣言者的微博名称
    rumormongerUr: 发布谣言者的微博链接
    rumorText: 谣言内容
    visitTimes: 该谣言被访问次数
    result: 该谣言审查结果
    publishTime: 该谣言被举报时间
    

    33. 情感波动分析:github

    词库已整理到本repo的data文件夹中.

    本repo项目是一个通过与人对话获得其情感值波动图谱, 内用词库在data文件夹中.
    

    34. 百度中文问答数据集链接 提取码: 2dva

    35. 句子、QA相似度匹配:MatchZoo github

    文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。

    36. bert资源:

    • bert论文中文翻译: link
    • bert原作者的slides: link
      提取码: iarj

    • 文本分类实践: github

    • bert tutorial文本分类教程: github

    • bert pytorch实现: github

    • bert用于中文命名实体识别 tensorflow版本: github

    • BERT生成句向量,BERT做文本分类、文本相似度计算github

    • bert 基于 keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型: github

    • bert、ELMO的图解: github

    • BERT: Pre-trained models and downstream applications: github

    37. Texar - Toolkit for Text Generation and Beyond: github

    基于Tensorflow的开源工具包,旨在支持广泛的机器学习,特别是文本生成任务,如机器翻译、对话、摘要、内容处置、语言建模等

    38. 中文事件抽取: github

    中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。

    39. cocoNLP: github

    人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法。

    pip install cocoNLP

    >>> from cocoNLP.extractor import extractor
    
    >>> ex = extractor()
    
    >>> text = '急寻特朗普,男孩,于2018年11月27号11时在陕西省安康市汉滨区走失。丢失发型短发,...如有线索,请迅速与警方联系:18100065143,132-6156-2938,baizhantang@sina.com.cn 和yangyangfuture at gmail dot com'
    
    # 抽取邮箱
    >>> emails = ex.extract_email(text)
    >>> print(emails)
    
    ['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn']
    # 抽取手机号
    >>> cellphones = ex.extract_cellphone(text,nation='CHN')
    >>> print(cellphones)
    
    ['18100065143', '13261562938']
    # 抽取手机归属地、运营商
    >>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones]
    >>> print(cell_locs)
    
    cellphone_location [{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '电信'}]
    # 抽取地址信息
    >>> locations = ex.extract_locations(text)
    >>> print(locations)
    ['陕西省安康市汉滨区', '安康市汉滨区', '汉滨区']
    # 抽取时间点
    >>> times = ex.extract_time(text)
    >>> print(times)
    time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"}
    # 抽取人名
    >>> name = ex.extract_name(text)
    >>> print(name)
    特朗普
    
    

    40. 国内电话号码正则匹配(三大运营商+虚拟等): github

    41. 清华大学XLORE:中英文跨语言百科知识图谱: link
    上述链接中包含了所有实体及关系的TTL文件,更多数据将在近期发布。
    概念,实例,属性和上下位关系数目

    百度 中文维基 英文维基 总数
    概念数量 32,009 150,241 326,518 508,768
    实例数量 1,629,591 640,622 1,235,178 3,505,391
    属性数量 157,370 45,190 26,723 229.283
    InstanceOf 7,584,931 1,449,925 3,032,515 12,067,371
    SubClassOf 2,784 191,577 555,538 749,899

    跨语言连接(概念/实例)

    百度 中文维基 英文维基
    百度 - 10,216/336,890 4,846/303,108
    中文维基 10,216/336,890 - 28,921/454,579
    英文维基 4,846/303,108 28,921/454,579 -

    42. 清华大学人工智能技术系列报告: link
    每年会出AI领域相关的报告,内容包含

    43.自然语言生成方面:
    Ehud Reiter教授的博客 北大万小军教授强力推荐,该博客对NLG技术、评价与应用进行了深入的探讨与反思。
    文本生成相关资源大列表
    自然语言生成:让机器掌握自动创作的本领 - 开放域对话生成及在微软小冰中的实践
    文本生成控制

    44.:
    jiebahanlp就不必介绍了吧。

    45.NLP太难了系列: github

    • 来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。” ​​​
    • 来到儿子等校车的地方,邓超对孙俪说:“我也想等等等等等过的那辆车。”
    • 赵敏说:我也想控忌忌己不想无忌。
    • 你也想犯范范范玮琪犯过的错吗
    • 对叙打击是一次性行为?

    46.自动对联数据及机器人:
    70万对联数据 link
    代码 link

    上联 下联
    殷勤怕负三春意 潇洒难书一字愁
    如此清秋何吝酒 这般明月不须钱

    47.用户名黑名单列表: github
    包含了用户名禁用列表,比如: link

    administrator
    administration
    autoconfig
    autodiscover
    broadcasthost
    domain
    editor
    guest
    host
    hostmaster
    info
    keybase.txt
    localdomain
    localhost
    master
    mail
    mail0
    mail1
    

    48.罪名法务名词及分类模型: github

    包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能
    

    49.微信公众号语料: github

    3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文

    50.cs224n深度学习自然语言处理课程:link

    • 课程中模型的pytorch实现 link
    • 面向深度学习研究人员的自然语言处理实例教程 link

    51.中文手写汉字识别:github

    52.中文自然语言处理 语料/数据集:github
    竞品:THUOCL(THU Open Chinese Lexicon)中文词库

    53.变量命名神器:github link

    54.分词语料库+代码:百度网盘链接

    55. NLP新书推荐《Natural Language Processing》by Jacob Eisenstein: link

    56. 任务型对话英文数据集: github
    【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。

    57. ASR 语音数据集 + 基于深度学习的中文语音识别系统: github

    58. 笑声检测器: github

    59. Microsoft多语言数字/单位/如日期时间识别包: [github](https://github.com/Microsoft/Recognizers-Text

    60. chinese-xinhua 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 github

    61. 文档图谱自动生成 github

    • TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示

    62. SpaCy 中文模型 github

    • 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。

    63. Common Voice语音识别数据集新版 link

    • 包括来自42,000名贡献者超过1,400小时的语音样本,涵github

    64. 神经网络关系抽取 pytorch github

    • 暂不支持中文

    65. 基于bert的命名实体识别 pytorch github

    • 暂不支持中文

    66. 关键词(Keyphrase)抽取包 pke github
    pke: an open source python-based keyphrase extraction toolkit

    • 暂不支持中文,我于近期对其进行修改,使其适配中文。
      请关注我的github动态,谢谢!

    67. 基于医疗领域知识图谱的问答系统 github

    68. 基于依存句法与语义角色标注的事件三元组抽取 github

    69. 依存句法分析4万句高质量标注数据 by 苏州大学汉语依存树库(SUCDT)
    Homepage
    数据下载详见homepage底部,需要签署协议,需要邮件接收解压密码。

    70. cnocr:用来做中文OCR的Python3包,自带了训练好的识别模型 github

    71. 中文人物关系知识图谱项目 github

    • 中文人物关系图谱构建
    • 基于知识库的数据回标
    • 基于远程监督与bootstrapping方法的人物关系抽取
    • 基于知识图谱的知识问答等应用

    72. 中文nlp竞赛项目及代码汇总 github

    • 文本生成、文本摘要:Byte Cup 2018 国际机器学习竞赛
    • 知识图谱:瑞金医院MMC人工智能辅助构建知识图谱大赛
    • 视频识别 问答:2018之江杯全球人工智能大赛
      :视频识别&问答

    73. 中文字符数据 github

    • 简/繁体汉字笔顺
    • 矢量笔画

    74. speech-aligner: 从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具 github

    75. AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测 github

    • 埃森哲出品,目前尚不支持中文

    76. Scattertext 文本可视化(python) github

    • 很好用的工具包,简单修改后可支持中文
    • 能否分析出某个类别的文本与其他文本的用词差异

    77. 语言/知识表示工具:BERT & ERNIE github

    • 百度出品,ERNIE也号称在多项nlp任务中击败了bert

    78. 中文对比英文自然语言处理NLP的区别综述 link

    79. Synonyms中文近义词工具包 github

    • Synonyms 中文近义词工具包,可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等

    80. HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) github

    81. word2word:(Python)方便易用的多语言词-词对集:62种语言/3,564个多语言对 github

    82. 语音识别语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 github

    83. ASR语音大辞典/词典: github

    84. 构建医疗实体识别的模型,包含词典和语料标注,基于python: github

    85. 单文档非监督的关键词抽取: github

    86. Kashgari中使用gpt-2语言模型 github

    87. 开源的金融投资数据提取工具 github

    88. 文本自动摘要库TextTeaser: 仅支持英文 github

    89. 人民日报语料处理工具集 github

    90. 一些关于自然语言的基本模型 github

    91. 基于14W歌曲知识库的问答尝试,功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 github

    92. 基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集 github

    • 提供了10万个训练样本

    93. 用Transformer编解码模型实现的根据Hacker News文章标题自动生成评论 github

    94. 用BERT进行序列标记和文本分类的模板代码 github

    95. LitBank:NLP数据集——支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 github

    96. 百度开源的基准信息抽取系统 github

    97. 虚假新闻数据集 fake news corpus github

    98. Facebook: LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口 github

    99. CommonsenseQA:面向常识的英文QA挑战 link

    100. 中文知识图谱资料、数据及工具 github

    101. 各大公司内部里大牛分享的技术文档 PDF 或者 PPT github

    102. 自然语言生成SQL语句(英文) github

    103. 中文NLP数据增强(EDA)工具 github

    • 英文NLP数据增强工具 github

    104. 基于医药知识图谱的智能问答系统 github

    105. 京东商品知识图谱 github

    • 基于京东网站的1300种商品上下级概念,约10万商品品牌,约65万品牌销售关系,商品描述维度等知识库,基于该知识库可以支持商品属性库构建,商品销售问答,品牌物品生产等知识查询服务,也可用于情感分析等下游应用.

    106. 基于mongodb存储的军事领域知识图谱问答项目 github

    • 基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想demo。

    107. 基于远监督的中文关系抽取 github

    108. 语音情感分析 github

    109. 中文ULMFiT 情感分析 文本分类 语料及模型 github

    110. 一个拍照做题程序。输入一张包含数学计算题的图片,输出识别出的数学计算式以及计算结果 github

    111. 世界各国大规模人名库 github

    112. 一个利用有趣中文语料库 qingyun 训练出来的中文聊天机器人 github

    • 使用了青云语料10万语料,本repo中也有该语料的链接

    113. 中文聊天机器人, 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景 github

    • 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景。加入seqGAN版本。
    • repo中提供了一份质量不太高的语料

    114. 省市区镇行政区划数据带拼音标注 github

    • 国家统计局中的省市区镇行政区划数据带拼音标注,高德地图的坐标和行政区域边界范围,在浏览器里面运行js代码采集的2019年发布的最新数据,含采集源码,提供csv格式数据,支持csv转成省市区多级联动js代码
    • 坐标、边界范围、名称、拼音、行政区等多级地址

    115. 教育行业新闻 自动文摘 语料库 github

    116. 开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据 github

    117. 中文知识图谱:基于百度百科中文页面,抽取三元组信息,构建中文知识图谱 github

    118. masr: 中文语音识别,提供预训练模型,高识别率 github

    119. Python音频数据增广库 github

    120. 中文全词覆盖BERT及两份阅读理解数据 github

    • DRCD数据集由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
    • CMRC 2018数据集是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。

    121. ConvLab:开源多域端到端对话系统平台 github

    122. 中文自然语言处理数据集 github

    123. 基于最新版本rasa搭建的对话系统 github

    124. 基于TensorFlow和BERT的管道式实体及关系抽取 github

    • Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019

    125. 一个小型的证券知识图谱/知识库 github

    126. 复盘所有NLP比赛的TOP方案 github

    127. OpenCLaP:多领域开源中文预训练语言模型仓库 github
    包含如下语言模型及百度百科数据

    • 民事文书BERT bert-base 全部民事文书 2654万篇文书 22554词 370MB
    • 刑事文书BERT bert-base 全部刑事文书 663万篇文书 22554词 370MB
    • 百度百科BERT bert-base 百度百科 903万篇词条 22166词 367MB

    128. UER:基于不同语料、编码器、目标任务的中文预训练模型仓库(包括BERT、GPT、ELMO等) github

    • 基于PyTorch的预训练模型框架,支持对编码器,目标任务等进行任意的组合,从而复现已有的预训练模型,或在已有的预训练模型上进一步改进。基于UER训练了不同性质的预训练模型(不同语料、编码器、目标任务),构成了中文预训练模型仓库,适用于不同的场景。

    129. 中文自然语言处理向量合集 github

    • 包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量

    130. 基于金融-司法领域(兼有闲聊性质)的聊天机器人 github

    • 其中的主要模块有信息抽取、NLU、NLG、知识图谱等,并且利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口

    131. g2pC:基于上下文的汉语读音自动标记模块 github

    132. Zincbase 知识图谱构建工具包 github

    133. 诗歌质量评价/细粒度情感诗歌语料库 github

    134. 快速转化「中文数字」和「阿拉伯数字」 github

    • 中文、阿拉伯数字互转
    • 中文与阿拉伯数字混合的情况,在开发中

    135. 百度知道问答语料库 github

    • 超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘

    136. 基于知识图谱的问答系统 github

    • BERT做命名实体识别和句子相似度,分为online和outline模式

    137. jieba_fast 加速版的jieba github

    • 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升

    138. 正则表达式教程 github

    139. 中文阅读理解数据集 github

    140. 基于BERT等最新语言模型的抽取式摘要提取 github

    141. Python利用深度学习进行文本摘要的综合指南 link

    142. 知识图谱深度学习相关资料整理 github

    • 深度学习与自然语言处理、知识图谱、对话系统。包括知识获取、知识库构建、知识库应用三大技术研究与应用

    143. 维基大规模平行文本语料 github

    • 85种语言、1620种语言对、135M对照句

    144. StanfordNLP 0.2.0:纯Python版自然语言处理包 link

    145. NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具 github

    146. 端到端的封闭域对话系统 github

    展开全文
  • 比如类的名字,变量名字,方法的名字等等,都是标识符。 JAVA标识符命名规则:硬性要求(违反就报错) 1、标识符可以包含英文字母26个(区分大小写)、0-9数字、$(美元符号)和_(下划线)。 2、标识符不能以...

    一、关键字概述 (查字典 甲骨文官网有)

    关键字是指被java语言赋予了特殊含义的、被保留的、用做专门用途的字符串(单词)。

    • JAVA关键字的特点

    1、全是小写字母 (只要有大写,必然不是关键字)

    2、在增强版记事本(notepad++),或者IDEA等集成工具中。关键字有特殊颜色

     扩展:JAVA保留字

    现有JAVA版本尚未使用,但以后版本可能会作为关键字使用。自己命名标识符时要避免使用这些保留字。

    goto(其他语言中用于跳转到哪里)、const(C++中,声明常量)

    二、标识符

    指Java对各种变量、方法和类等要素命名时使用的字符序列称为标识符。

    解释:凡是我们自己可以起名字的地方都是标识符。比如类的名字,变量名字,方法的名字、包的名字,接口名字等等,都是标识符。

    JAVA标识符命名规则:硬性要求(违反就报错)

    1、标识符可以包含英文字母26个(区分大小写)、0-9数字、$(美元符号)和_(下划线)。

    2、标识符不能以数字开头。

    3、标识符不能是关键字。

    命名规范:软性建议

    1、类名规范:首字母大写,后面每个单词首字母大写:XxxYyyZzz(大驼峰命名法)

    2、变量名(函数方法)规范:首字母小写,后面每个单词首字母大写xxYyyZzz(小驼峰式)

    3、包名规范:多单词组成时,所有字母都小写:xxxxyyyyzzzz

    4、常量名:所有字母都大写。多单词时,每个单词用下划线连接:XXX_YYY_ZZZ

    5、起名字时,为了提高阅读性,名字要尽量有意义即“见名知意”。

    三、数据类型  基本数据类型和引用数据类型

    对于每一种数据都定义了明确的具体数据类型(强类型语言),在内存中分配了不同大小的内存空间。

    1、基本数据类型

    (1)整数型 byte(1字节) short(2字节) int(4字节 默认) long(8字节  数字后面加L)

    说明:整数型默认为int型,如果一定要用long类型,需要加上后缀L(不区分大小写,推荐大写)。

    (2)浮点型 float(4字节) double(8字节 默认)

    说明:由于计算机是二进制,没法表示无理数,无限循环小数,所以浮点数都是不精确的,只能想对你精确。字节数越多(小数位数越多),越精确,显然double比float精度高一倍,因此double是默认。

    浮点型采用科学计数法,因此4字节float比8字节long范围更广。

    浮点数默认类型是double,如果非要使用float类型,需要在小数后面加上后缀F

    (3)字符型 char( character 2个字节) 2个字节可以表示65535种字符,所有中英文加起来都没这么多,所以两个字节足矣

    说明:字符型在计算机底层表示的是数字。按照各种编码(ASCII码表<Unicode码表<UTF-8码表)表排序

    语法: char 变量 = '变量值' ;

    说明:定义char型变量时,通常使用一对' ',内部只能有一个字符,但这个字符允许是转义字符 \n 或\t.....

    注意:注意字符串不是基本类型,而是引用类型。

    (4)布尔型 boolean (1个字节)

    只有两个值,true、false。常在条件判断,循环结构中使用。

    2、引用数据类型(To Be Continued)   //Js里面字符串是基本数据类型

    数组([ ])、类(class)(字符串是String类,所以字符串是引用数据类型)、接口(interface)、Lambda

    2.1 String类型变量的使用

    1、String属于引用数据类型,翻译为:字符串

    2、声明String类型变量时,使用一对" " 

    说明:字符串里面每一个字符都会被拆成一个字符解析。特别注意,字符串里的转义字符也会被识别到,输出转义结果。

    3、String重载了+运算符,可以和8种(包含boolean)基本数据类型变量做拼接运算。结果返回String

    四、常量

    指在程序运行期间,固定不变的量。

    常量分类:

    1、整数常量:直接写上数字,没有小数点。例如:100、0、-250

    扩展:不同进制的整数写法

    二进制:0,1,满2进1。以0b或0B开头

    十进制:0-9,满10进1。

    八进制:0-7,满8进1,以数字0开头(特别小心)

    十六进制:0-9及A-F,满16进1。以0x或0X开头表示。此处的A-F不区分大小写。

    2、浮点数常量:直接写上的数字,有小数点。例如:2.5,-3.2,0.0

    3、字符常量:凡是用单引号引起来的单个字符,就叫做字符常量。例如:'A','9','大'   //字符是单引号而且有且只有一个字符

    4、字符串常量:凡是用双引号引起来的部分,叫做字符串常量。例如"abc","123","true" //字符串,双引号中可以有任意多字符

    5、布尔常量:true、false

    6、空常量:null   代表没有数据。直接打印会报错(没有你打印什么),即不能system.println(null);

    五、变量 

          变量时内存中的一个存储区域,该区域的数据可以在同一类型范围内不断变化。变量是程序中最基本的存储单元,包含变量的类型,变量名和存储的值。变量可以看成是一个容器,用于在内存中保存数据,一次只能放一个数据。

    注意:

    打印变量的时候,是打印变量的内容,而不是变量名称。

    变量的创建

    声明格式:

    数据类型 变量名称【,变量名称...】;  //创建了一个变量,注意如果创建多个变量,多个变量名称不可以重复。

    变量名称 = 数据值; //赋值,将右边数据值,赋值给左边的变量

    可合并为: 数据类型 变量名称 = 数据值【,变量名称=数据值...】; //在创建一个变量的同时,立刻放入指定的数据值

    exp: float a;// 创建了一个float类型的名为a的变量,此时变量内容为空。java中使用未定义变量直接报错(Js赋值undefined)

    a=5.3F; //此时 变量a的值为5.3,注意float类型变量,后面要加F,整型long同理。(不加也没事,会发生数据类型自动转换)

    使用变量的注意事项:

    1、右侧值不要超过左侧数据类型范围,特别是用byte的时候,要特别小心。超过了直接报错

    2、没有赋值的变量,不能直接使用,否则报错。(Js会给未赋值的变量赋值undefined)

    3、变量的使用不能超过其作用域范围。(作用域指从定义变量一行开始,一直到直接所属大括号结束为止)

    4、可以通过一个语句(带;就是一个语句),声明多个变量,用,隔开,并分别赋值。

    六、数据类型转换   只针对7种数据类型,不包含boolean类型

    当赋值运算符“=” 左右数据类型不一致时,将会发生数据类型转换。 

    特别注意:Java中,boolean类型不能发生数据类型转换(Js中可以转换成0或1)

    1、自动类型提升(隐式转换) 

    指代码不需要进行特殊处理,自动完成。

    转换规则:数据范围从小到大(各种类型数据范围查表  自动提升顺序(即类型范围排序):byte、short、char<int<long<float<double   (涉及运算时,byte、short、char会自动升级为int型  这么设计主要原因可能是这三个范围确实太小了,容易出现溢出问题,所以官方做运算时给他们升级,并规定运算的最小类型为int

    当容量小的数据类型的变量与容量大的数据类型变量做运算时(包括且不限于加法,赋值运算),就会自动发生隐式转换。

    注意:字符类型(char)会被自动转换成ASKII码对应的数字。赋值时可能会导致错误(小容器装不下大数据类型)。

    说明:因为数据范围从大到小,会导致数据损失,大到小就直接报错,不触发隐式转换。

    exp: float num3 = 30L ;

    说明:左侧为float类型,右侧为long型。将long型30赋值给float型num1(long-->float),符合从小到大规则,从而自动触发隐式转换。num3=30.0

    exp:double num2 = 2.5F;

    说明:左侧为doule类型,右侧为float类型。将float型2.5赋值给double型num2(float-->double),符合从小到大规则,从而自动触发隐式转换

    exp:char zifu = 'c';  //ASCII 码 99

          int num = zifu;  //左侧int类型,右侧char。(char-->int),符合从小到大规则,从而自动触发隐式转换。此时num=99

    exp:

    byte num4=40;  

    byte num5=50;

    byte result= num4+num5; //报错

    说明:num4+num5会被自动提升为int,int赋值给byte,没做强制转换则报错

    2、强制类型转换(显示转换) 自动类型提升的逆运算

    代码需要进行特殊格式处理,不能自动完成,用于数据范围从大到小转换(小到大转换会自动隐式完成)。

    应用场景:数据库为了防止数据溢出,默认都是long类型,实际不需要那么大,就需要强制转换成小数据类型。

    注意:数据范围从大到小,如果大数据的数据范围已经超过小数据的最大范围。大数据类型多出的部分会导致小数据类型数据溢出(整数类型强制转换),精度损失(浮点数类型强制转换)等问题。

    转换语法:

    数据类型 变量名 = (强制转换类型)被强制转换的数据;

    exp: int num = (int) 600000000L;

    说明:将long类型600000000 强制转换成int数据类型。由于int最高范围才21亿,装不下60亿,发生数据溢出。会输出很奇怪的数字比如1705032704

    exp:int num3=(int) 3.99; //num3=3

    说明:将double类型3.99 强制转换成int数据类型。会导致直接丢掉小数部分,这就是精度损失。

     

    展开全文
  • EXCEL集成工具箱V6.0

    2010-09-11 01:44:37
    【数字转英文】 将选中区域(默认)或已使用区域存储格的金额数字转换英文格式显示的表达字符串,为三资企业制作客户外汇付款通知书的理想工具。 【文本转EXCEL】 将文本文件按指定的分隔符号分隔一次性导入到...
  • 开源ETL工具:Kettle

    千次阅读 2018-05-31 17:59:43
    Kettle也叫PDI,在2006年Kettle加入了开源的BI组织Pentaho,正式命名为PDI,英文全称为Pentaho Data Integeration。Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的...

    Kettle也叫PDI,在2006年Kettle加入了开源的BI组织Pentaho,正式命名为PDI,英文全称为Pentaho Data Integeration。Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水 壶,名字的起源正如该项目的主程序员MATT在一个论坛里说的那样:希望把各种数据放到一个壶里然后以一种指定的格式流出。

    • Kettle允许管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,转 换(transformation)和工作(job),transformation完成针对数据的基础转换,job则完成整个工作流的控制。
      Kettle整体结构图:
      Kettle整体结构

    开源ETL工具:Kettle

    Kettle的术语:

    • Transformation:转换步奏,可以理解为将一个或者多个不同的数据源组装成一条流水线。然后最终输出到某一个地方,文件或者数据库等。
    • Job:作业,可以调度设计好的转换,也可以执行一些文件处理(比较,删除),还可以上传下载文件、发送邮件、执行Shell命令等。 Job与Transformation的差别是:Transformation专注于数据的ETL,而Job的范围比较广,可以是 - Transformation,也可以是Mail、SQL、Shell、FTP等等,甚至可以是另外一个Job。
    • Hop:连接Transformation步骤或者连接Job(实际上就是执行顺序)的连线。
      Transformation hop:主要表示数据的流向。从输入,过滤等转换操作,到输出。
    • Job hop:可设置执行条件:无条件执行、当上一个Job执行结果为true时执行、当上一个Job执行结果为false时执行
      Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。

      SPOON 允许你通过图形界面来设计ETTL转换过程(Transformation)。
      PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。
      CHEF 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。
      KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。
      简单的可理解为:

    • Spoon:Transformation设计工具(GUI方式)

    • Pan:Transformation执行器(命令行方式)
    • Chef:Job设计工具(GUI方式)
    • Kitchen:Job执行器(命令行方式)

      Kettle是由纯JAVA编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。要运行kettle工具必须 安装Sun公司的JAVA运行环境,安装好java环境后,在操作系统环境变量path中配置jre路径,把kettle工具压缩包解压后可直接使用。 Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它 可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间 间隔内用批处理的模式自动运行。下面是在不同的平台上运行 Spoon所支持的脚本:

    • Spoon.bat:在windows 平台运行Spoon。

    • Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。
    • 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。资源库有两种形式:

    Kettle database repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest。
    Kettle file repository,保存在服务器硬盘文件夹内的资源库类型,此类型的资源库无需用户进行登录,直接进行操作。
    资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在xml文件中。为了方便管理,建议用户建立并使用数据库类型资源库Kettle database repository。

    Kettle的应用场景:

    表视图模式:在同一网络环境下,对各种数据源的表数据进行抽取、过滤、清洗等,例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属 于这个模式;传统的实现方式一般都要进行研发(一小部分例如两个相同表结构的表之间的数据同步,如果SQL Server数据库可以通过发布/订阅实现)。
    前置机模式:这是一种典型的数据交换应用场景,数据交换的双方A和B网络不通,但是A和B都可以和前置机C连接,一般的情况是双方约定好前置机的 数据结构,这个结构跟A和B的数据结构基本上是不一致的,这样我们就需要把应用上的数据按照数据标准推送到前置机上,此时可通过Kettle实现;
    文件模式: 数据交互的双方A和B是完全的物理隔离,这样就只能通过以文件的方式来进行数据交互了,例如XML格式,在应用A中我们开发一个接口用来生成标准格式的 XML,然后用介质在某一时间把XML数据拷贝之后,然后接入到应用B上,应用B上在按照标准接口解析相应的文件把数据接收过来;

    Kettle转化功能介绍

    Kettle 中有两种脚本文件,transformation (.ktr)和 job(.kjb),transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

    所有功能支持控件化,使用简单
    支持多样化数据源类型:
    基本的文本文件
    Access、Excel、XML、Property文件格式
    MDX查询语言、 Cube文件、Streaming XML数据流
    自动产生空记录或者行
    从XBase类型文件(DBF)读取数据
    - 关系型数据库
    获取系统信息如文件名称、系统时间等
    特殊目标数据源支持
    把数据写入到Cube
    把数据写入XML
    支持多种查询
    调用数据库存储过程
    基本的数据库查询
    判断表以及列、操作系统文件是否存在
    从URL接收查询
    使用Web服务查询信息
    使用数据流中的值作为参数来执行一个数据库查询
    流查询:从转换中其他流里查询值
    转换功能
    值映射、分组、去重、拆分字段、行列转换
    复制行
    支持的脚本
    JS脚本
    SQL脚本
    正则表达式
    支持渐变维度更新
    批量加载:
    Greenplum Bulk Loader
    Oracle Bulk Loader
    MSSQL Bulk Loader
    MYSQL Bulk Loader
    PostgreSQL Bulk Loader
    支持分区表和集群
    支持大数据对接
    Avro Input
    Cassandra Input &
    Kettle作业功能介绍

    可以执行操作系统命令和操作:
    Ping 主机
    写日志
    发送邮件
    从POP Server获取邮件并保存在本地
    比较文件夹、文件
    创建、复制、移动、删除、压缩文件
    从HTTP获取或者上传文件
    操作延迟等待
    判断文件是否存在
    执行JavaScript、SQL、Shell脚本
    支持安全FTP获取、上传文件
    删除远程文件
    支持SSH2上传下载
    Kettle的功能非常强大,数据抽取效率也比较高,开源产品,可以进行第三方修改,工具中的控件能够实现数据抽取的大部分需求。所有功能支持控件化,使用简单。

    展开全文
  • 工具可以在不损失硬盘中已有数据的前提下对硬盘进行重新分区、格式化分区、复制分区、移动分区、隐藏/重现分区、从任意分区引导系统、转换分区(如FAT;FAT32 )结构属性等。功能强大,可以说是目前在这方面表现最为...
  • 很多人喜欢在自己写的命令行工具开头加上软件名字的Ascii插画LOGO,这在Python下利用多行字符串还是很容易实现的,但是在C语言下会有很多的复杂转义的问题,而且格式不容易控制,所以笔者写了一个简单的Python脚本来...

    简介

    很多人喜欢在自己写的命令行工具开头加上软件名字的Ascii插画LOGO,这在Python下利用多行字符串还是很容易实现的,但是在C语言下会有很多的复杂转义的问题,而且格式不容易控制,所以笔者写了一个简单的Python脚本来将Python下的多行字符串转换成C语言可用的字符数组,亲测有效~

    代码

    
    # Words To Ascii Picture WebSite ==> http://ascii.mastervb.net/text_to_ascii.php
    
    if __name__ == "__main__":
        str = \
    """
     _____     ______     __    __     ______    
    /\  __-.  /\  ___\   /\ "-./  \   /\  __ \   
    \ \ \/\ \ \ \  __\   \ \ \-./\ \  \ \ \/\ \  
     \ \____-  \ \_____\  \ \_\ \ \_\  \ \_____\ 
      \/____/   \/_____/   \/_/  \/_/   \/_____/ 
                                                 
    """
    
        print("\n[*] String Len => " + repr(len(str)))
    
        count = 0
        print("\nunsigned char szTitle[%d] = {" % (len(str) + 1))
    
        for i in str:
            print(hex(ord(i)), end='')
            print(", ", end='')
            count += 1
            if count % 10 == 0 and count != len(str) - 1:
                print()
        print("0x00")
        print("}")
        print()
    

    转载于:https://www.cnblogs.com/PeterZ1997/p/11288464.html

    展开全文
  • 工具包含Visual Basic 6.0 官方中文精简版,以及2个缺少的系统插件。 PSP上的GBA模拟器GPSP是能够使用金手指的,这点毫无疑问,可惜只支持GS码,需要用到的软件是gpSP cheat creator。  简单来说方法就是...
  • 【数字转英文】 将选中区域(默认)或已使用区域存储格的金额数字转换英文格式显示的表达字符串,为三资企业制作客户外汇付款通知书的理想工具。 【文本转EXCEL】 将文本文件按指定的分隔符号分隔一次性导入到...
  • MD5算法是广泛使用的杂凑函数,也就是哈希函数,英文全拼是:Message Digest Algorithm,对应的中文名字是消息摘要算法。 MD5加密:将字符串转换成 32位的字符串(随机生成16进制的字符0-F、不可逆) MD5加密的特点...
  • 【数字转英文】 将选中区域(默认)或已使用区域存储格的金额数字转换英文格式显示的表达字符串,为三资企业制作客户外汇付款通知书的理想工具。 【文本转EXCEL】 将文本文件按指定的分隔符号分隔一次性导入到...
  • 【数字转英文】 将选中区域(默认)或已使用区域存储格的金额数字转换英文格式显示的表达字符串,为三资企业制作客户外汇付款通知书的理想工具。 【文本转EXCEL】 将文本文件按指定的分隔符号分隔一次性导入到...
  • 包含中文版和英文原版 前言 第1章 对象的演化 1 1.1 基本概念 1 1.1.1 对象:特性+行为 1 1.1.2 继承:类型关系 1 1.1.3 多态性 2 1.1.4 操作概念:OOP程序像什么 3 1.2 为什么C++会成功 3 1.2.1 较好的C 3 1.2.2 ...
  • 11.2.4 限定名字 334 11.2.5 未命名的命名空间 337 11.2.6 嵌套命名空间 342 第12章 流和文件I/O操作 349 12.1 I/O流 349 12.1.1 文件I/O 350 12.1.2 向文件中添加内容 353 12.1.3 字符I/O 357 12.1.4 文件...
  • Visual Studio语言设置

    2019-10-03 06:20:49
    按照的是中文的visual studio,用起来很不方便,因为程序员的都是英文版,平时交流时也是英文名字 转换语言时发现只有中文和跟随windows系统的设置 官方给的文档看的不是很清楚   查阅资料后总结下步骤: ...
  • 工具可以在不损失硬盘中已有数据的前提下对硬盘进行重新分区、格式化分区、复制分区、移动分区、隐藏/重现分区、从任意分区引导系统、转换分区(如FAT;FAT32 )结构属性等。功能强大,可以说是目前在这方面表现最为...
  • 2、选择比例尺,自定义工程名字,选择保存路径(最好是英文名字与路径) 二、加载本地倾斜影像、点云、超大影像(正射影像): 其中加载点云数据:a.首先需要将las点云转换为pcd格式。b然后才能加载点云。 三...
  • 问题描述 从键盘输入一个不超过8位的正的十六进制数字符串,将它转换为正的十进制数后输出。  注:十六进制数中的10~15分别用大写的...好吧名字很土但确实好用,人家自己也有进制转换的功能,话不多说,上代码。 代
  • funNLP_fighting41love.tar.gz

    2019-10-20 15:05:11
    英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换英文模拟...
  • 英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换英文模拟...
  • 如何将CAD转SHP格式

    热门讨论 2011-05-08 21:01:54
    工具FME2008版,设置源的坐标系为Unknown,然后设置目标的坐标系,转换后坐标还是原来的坐标. 4.首先将CAD数据的dwg格式保存为dxf格式,(mapgis-文件转换-输入DXF-输出SHP)用MapInfo Professional把dxf转成tab...
  • 062《彩云小译》一键实现网页中英文对照的翻译工具 061《ImageAssistant》图片助手批量图片下载器 060《Tabagotchi》为减缓全球变暖做出贡献 059《PageSpeed Insight and CheckList》为网页优化提供建议和量化...
  • C++ 程序设计语言(特别版)(英文影印版) C++语言的设计和演化[按需印刷] C++程序设计语言(特别版) 译者: 裘宗燕 知名译者,翻译严谨,喜与读者交流。 裘宗燕教授是北京大学数学学院信息科学系的,关心...
  • 书的英文书名,然后单击Search,再单击该书名,切换到能够下载源代码的网页。在该网站,也可找到有 些编程练习的解决方案。 本书分为17章和10个附录。 第1章:预备知识 本章介绍了Bjarne Stroustrup如何在...
  • rfc3550中文版

    2009-09-28 17:49:25
    6 5 6 TOOL:应用程序或工具名字的SDES数据项(TOOL: Application or Tool Name SDES Item) 6 5 7 NOTE:通知/状态的SDES数据项(NOTE: Notice/Status SDES Item) 6 5 8 PRIV:私有扩展的SDES数据项(PRIV: ...

空空如也

空空如也

1 2 3 4
收藏数 69
精华内容 27
热门标签
关键字:

名字转换英文工具