精华内容
下载资源
问答
  • 推荐一下AINLP技术交流群里 zYx.tom 同学贡献给大家的两份NLP读书笔记和份中文注释代码,包括:《自然语言处理综论》中文版第学习笔记《计算机自然语言处理》学习笔记《Python自然语言处理》学习代码的中文注释...

    推荐一下AINLP技术交流群里 zYx.tom 同学贡献给大家的两份NLP读书笔记和一份中文注释代码,包括:

    《自然语言处理综论》中文版第二版学习笔记

    《计算机自然语言处理》学习笔记

    《Python自然语言处理》学习代码的中文注释版本:NLTK-Python-CN

    作者博客:https://zhuyuanxiang.github.io/

    由作者授权,我把2份pdf文件放到github上了,感兴趣的同学可以直接在github上下载,点击文末阅读原文可以直达github链接:

    https://github.com/panyang/AINLP-Resource/tree/master/zYx.Tom

    0e3d6b449999b2fa8e0efa76f28b950b.png

    《自然语言处理综论》是NLP领域的经典著作,第一版、第二版国内都有中文翻译版,目前英文版第三版《Speech and Language Processing (3rd ed. draft)》正在撰写中,已完结的章节草稿可以直接从slp3官网下载:

    https://web.stanford.edu/~jurafsky/slp3/ 

    加了很多深度学习自然语言处理的相关章节,这里引用李纪为博士《初入NLP领域的一些小建议》中的一段描述,供计划学习这本书的同学参考:

    了解NLP的最基本知识:Jurafsky和Martin的Speech and Language Processing是领域内的经典教材,里面包含了NLP的基础知识、语言学扫盲知识、基本任务以及解决思路。阅读此书会接触到很多NLP的最基本任务和知识,比如tagging, 各种parsing,coreference, semantic role labeling等等等等。这对于全局地了解NLP领域有着极其重要的意义。书里面的知识并不需要烂熟于心,但是刷上一两遍,起码对于NLP任务有基本认识,下次遇到了知道去哪里找还是非常有意义的。

    《计算机自然语言处理》是哈工大王晓龙、关毅两位老师的中文NLP著作,我在刚入门NLP的时候读过,但是已经很久了,这本书在我早期的博文里记述过:《几本自然语言处理入门书》,唯一的印象就是第一次了解到本科母校HIT在中文NLP领域是非常厉害的。这本书貌似已经无法在电商网站买到,感兴趣的同学可以看看zYx.Tom同学的学习笔记。

    NLTK 是经典的Python NLP工具包,配套的书籍《Natural Language Processing with Python》目前也有了中文翻译版本,感兴趣的同学可以参考zYx.Tom同学的这份《Python自然语言处理》学习代码的中文注释版本:NLTK-Python-CN。

    相关文章:

    认真推荐一份深度学习笔记:简约而不简单

    欢迎大家关注AINLP公众号,加入AINLP技术交流群(添加微信id:AINLP2,备注加群目的(技术交流、求职、直招),一起维护一个NLP技术交流环境。

    0334960dc2cae6217181f565366bf9c7.png

    展开全文
  • 陈熹 来源:早起Python大家好,今天分享个实用的办公脚本:将多个PDF合并为PDF,例如我手上现在有如下3个PDF分册,需要整合成一个完整的PDF如果换成你操作的话,是不是打开百度搜索:PDF合并,然后去第三方...

    ed543d2839b64316e135fc3fc16822b2.png

    作者:陈熹

    来源:早起Python

    大家好,今天分享一个实用的办公脚本:将多个PDF合并为一个PDF,例如我手上现在有如下3个PDF分册,需要整合成一个完整的PDF

    ed885ce2673a5453083e8fd17e957e97.png

    如果换成你操作的话,是不是打开百度搜索:PDF合并,然后去第三方网站操作,可能会收费不说还担心文件泄漏,现在有请Python出场,简单快速,光速合并,拿走就用

    首先导入需要的库和路径设置

    import os
    from PyPDF2 import PdfFileReader, PdfFileWriter
    if __name__ == '__main__':
        # 设置存放多个pdf文件的文件夹
        dir_path = r'C:Scientific ResearchKnowladgeOphthalmologyChinese Ophthalmology' 
        # 目标文件的名字
        file_name = "中华眼科学(第3版)合并版.pdf" 

    接着获取所有pdf文件的绝对路径,这里需要利用os库中的os.walk遍历文件和os.path.join拼接路径

    for dirpath, dirs, files in os.walk(dir_path):
        print(dirpath)
        print(files)
    # 结果返回当前路径、当前路径下文件夹,并以列表返回所有文件

    5580fb6ff42165b36d88876af62f8654.png

    建议直接将需要合并的pdf放在一个文件夹,这样就无需再对文件后缀进行判断,包装成函数后如下:

    def GetFileName(dir_path):
        file_list = [os.path.join(dirpath, filesname) 
                     for dirpath, dirs, files in os.walk(dir_path) 
                     for filesname in files]
        return file_list

    调用该函数的结果

    f65176fb812dc38dcd8baaacb1866267.png

    现在建立合并PDF的函数

    def MergePDF(dir_path, file_name):
        # 实例化写入对象
        output = PdfFileWriter()
        outputPages = 0
        # 调用上一个函数获取全部文件的绝对路径
        file_list = GetFileName(dir_path)
    
        for pdf_file in file_list:
            print("文件:%s" % pdf_file.split('')[-1], end=' ')
    
            # 读取PDF文件
            input = PdfFileReader(open(pdf_file, "rb"))
            # 获得源PDF文件中页面总数
            pageCount = input.getNumPages()
            outputPages += pageCount
            print("页数:%d" % pageCount)
            # 分别将page添加到输出output中
            for iPage in range(pageCount):
                output.addPage(input.getPage(iPage))
        print("n合并后的总页数:%d" % outputPages)
        # 写入到目标PDF文件
        print("PDF文件正在合并,请稍等......")
        with open(os.path.join(dir_path, file_name), "wb") as outputfile:
            # 注意这里的写法和正常的上下文文件写入是相反的
            output.write(outputfile)
        print("PDF文件合并完成")

    15624d550264c9d99b5a08f34c0a918f.png

    可以看到虽然待合并的PDF文件比较大,但是依旧快速的合并成功!最后附上完整代码,只需将代码中PDF的路径和文件名修改即可使用!

    import os
    from PyPDF2 import PdfFileReader, PdfFileWriter
    
    def GetFileName(dir_path):
        file_list = [os.path.join(dirpath, filesname) 
                     for dirpath, dirs, files in os.walk(dir_path) 
                     for filesname in files]
        return file_list
    
    def MergePDF(dir_path, file_name):
        output = PdfFileWriter()
        outputPages = 0
        file_list = GetFileName(dir_path)
        for pdf_file in file_list:
            print("文件:%s" % pdf_file.split('')[-1], end=' ')
            # 读取PDF文件
            input = PdfFileReader(open(pdf_file, "rb"))
            # 获得源PDF文件中页面总数
            pageCount = input.getNumPages()
            outputPages += pageCount
            print("页数:%d" % pageCount)
            # 分别将page添加到输出output中
            for iPage in range(pageCount):
                output.addPage(input.getPage(iPage))
        print("n合并后的总页数:%d" % outputPages)
        # 写入到目标PDF文件
        print("PDF文件正在合并,请稍等......")
        with open(os.path.join(dir_path, file_name), "wb") as outputfile:
            # 注意这里的写法和正常的上下文文件写入是相反的
            output.write(outputfile)
        print("PDF文件合并完成")
    
    if __name__ == '__main__':
        # 设置存放多个pdf文件的文件夹
        dir_path = r'C:Scientific ResearchKnowladgeOphthalmologyChinese Ophthalmology'
        # 目标文件的名字
        file_name = "中华眼科学(第3版)合并版.pdf"
        MergePDF(dir_path, file_name)
    展开全文
  • 计算机图形学OpenGL版(第三版带完整书签版).pdf

    千次下载 热门讨论 2013-06-11 11:37:40
    近年来,随着计算机及互联网技术的迅速发展,计算机图形学正越来越深入我们的生活,它在工业建模、视频处理、游戏制作、影视特技、生物信息和医药医疗等各各业都有着及其重要的作用。可以说,计算机图形学的应用...
  • 2.4 不需要写一行代码的开发工具:AppInventor 31 2.4.1 AppInventor简介 31 2.4.2 AppIntentor的下载和安装 31 2.4.3 用拖曳控件的方式设计界面 33 2.4.4 像拼图一样拼装代码 34 2.5 小结 37 二部分...
  • 第三版除介绍UNIX上的编程工具之外,还介绍了流行的Windows系统上集成开发环境 (Integrated Development Environments)。 第一部分 基础 11 第一章 什么是C 13 编程原理 14 C语言简史 17 C如何工作 17 如何学习...
  •  3.6 第一个python程序   3.7 相关模块和开发工具   3.8 练习   第4章 python对象   4.1 python 对象   4.2 标准类型   4.3 其他内建类型   4.3.1 类型对象和type类型对象   4.3.2 none--...
  • 由于电子书超过80M故只能...第一卷地址: http://download.csdn.net/source/3488105 第二卷地址: http://download.csdn.net/source/3488226 第三卷地址: http://download.csdn.net/source/3488231 第四卷地址: ...
  • 由于电子书超过80M故只能...第一卷地址: http://download.csdn.net/source/3488105 第二卷地址: http://download.csdn.net/source/3488226 第三卷地址: http://download.csdn.net/source/3488231 第四卷地址: ...
  • CSS网站布局实录 (PDF版

    热门讨论 2012-12-10 18:46:01
    《CSS网站布局实录:基于Web标准的网站设计指南(2)》内容提要: 本书是本讲述基于Web标准的应用CSS进行网站布局设计与重构的典范之作。 本书以实例为主,步步地告诉大家如何进行符合Web 2.0标准的CSS布局设计...
  • ATL开发指南 (第二PDF高清带书签附源码 网上基本没有带目录的,此文档目录为本人花了半天时间制作的,方便大家的阅读,并附近上随书源码。 本书是介绍使用ATL进行软件开发的参考用书。全书分为十章:第一章...
  • 由于电子书超过80M故只能...第一卷地址: http://download.csdn.net/source/3488105 第二卷地址: http://download.csdn.net/source/3488226 第三卷地址: http://download.csdn.net/source/3488231 第四卷地址: ...
  • 书中的每一条建议都可能在你的下一行代码、下一个应用或下一个项目中崭露头角,建议你将此书搁置在手边,随时查阅,一定能使你的学习和开发工作事半功倍。 《编写高质量代码:改善java程序的151个建议》 前 言 1...
  •  3.6 第一个python程序   3.7 相关模块和开发工具   3.8 练习   第4章 python对象   4.1 python 对象   4.2 标准类型   4.3 其他内建类型   4.3.1 类型对象和type类型对象   4.3.2 none--...
  • 第一篇 良弓之子,必學為箕(框架) ~禮記.學記~ 第 1 章 認識應用框架, 14 1.1 何謂應用框架 1.2 框架的起源 1.3 框架的分層 1.4 框架的「無用之用」效果 1.5 框架與OS之關係:常見的迷思 第 2 章 應用框架魅力的...
  • 二十种设计模式【PDF版

    热门讨论 2011-05-30 14:13:49
    《Thingking in Java》(第一版中文)是这样描述设计模式的:他在由 Gamma, Helm 和 Johnson Vlissides 简称 Gang of Four(四人 帮),缩写 GoF 编著的《Design Patterns》一书中被定义成一个“里程碑”。事实上,那本书...
  • 真正的C程序设计课后习题的源代码,无需从PDF文件中一行一行的copy。
  • 由于电子书超过80M故只能...第一卷地址: http://download.csdn.net/source/3488105 第二卷地址: http://download.csdn.net/source/3488226 第三卷地址: http://download.csdn.net/source/3488231 第四卷地址: ...
  • 《C语言实例解析精粹》作者:曹衍龙、林瑞仲、徐慧,出版社:人民邮电出版社,ISBN:9787115163073,高清影印,本资源带有 PDF 书签,方便读者朋友阅读。 本资源附带全书源代码。 内容简介:  本书主要讲解...
  • Git权威指南PDF完整

    千次下载 热门讨论 2012-12-25 17:53:55
    4.1 创建版本库及第一次提交/ 58 4.2 思考:为什么工作区根目录下有一个 .git 目录/ 60 4.3 思考:git config 命令的各参数有何区别/ 63 4.4 思考:是谁完成的提交/ 65 4.5 思考:随意设置提交者姓名,是否太不安全/...
  • PDF格式扫描,共压缩为5部分,这是1部分。 内容简介 本系列图书包括I卷、II卷共计1200个例子,本文档是I卷,共计603个例子。本书以开发人员在项目开发中经常遇到的问题和必须掌握的技术为中心,介绍了...
  • PDF格式扫描,共压缩为5部分,这是4部分。 内容简介 本系列图书包括I卷、II卷共计1200个例子,本文档是I卷,共计603个例子。本书以开发人员在项目开发中经常遇到的问题和必须掌握的技术为中心,介绍了...
  • PDF格式扫描,共压缩为5部分,这是2部分。 内容简介 本系列图书包括I卷、II卷共计1200个例子,本文档是I卷,共计603个例子。本书以开发人员在项目开发中经常遇到的问题和必须掌握的技术为中心,介绍了...
  • PDF格式扫描,共压缩为5部分,这是3部分。 内容简介 本系列图书包括I卷、II卷共计1200个例子,本文档是I卷,共计603个例子。本书以开发人员在项目开发中经常遇到的问题和必须掌握的技术为中心,介绍了...
  • PDF格式扫描,共压缩为5部分,这是5部分。 内容简介 本系列图书包括I卷、II卷共计1200个例子,本文档是I卷,共计603个例子。本书以开发人员在项目开发中经常遇到的问题和必须掌握的技术为中心,介绍了...
  • 新修订的第2包括100多页的全新内容,同时对原有...第三部分 附录 267 附录A C函数目录 268 附录B C++函数目录 275 附录C 宏 286 附录D 计算时间 290 附录E 符号 292 附录F 运算和数论软件包 293 参考文献 295
  • 最新Java面试宝典pdf版

    热门讨论 2011-08-31 11:29:22
    21、写clone()方法时,通常都有一行代码,是什么? 15 22、面向对象的特征有哪些方面 15 23、java中实现多态的机制是什么? 17 24、abstract class和interface有什么区别? 17 25、abstract的method是否可同时是...
  • PDF格式扫描,全书分为6篇23章,共909页。2011年1月出版。 注:原书无书签。为了方便阅读,本人在上传前添加了完整的书签。 全书压缩打包成3部分,这是2部分。 注:本系列图书的I、II卷再版时均相应改名为...
  • 2.7.3 每次读取一行数据:fgets()、fgetss()和fgetcsv() 2.7.4 读取整个文件:readfile()、fpassthru()和file() 2.7.5 读取一个字符:fgetc() 2.7.6 读取任意长度:fread() 2.8 使用其他有用的文件函数 2.8.1 ...
  • 第一部分 Python语言 第1章 Python简介 1.1 运行Python 1.2 变量和算术表达式 1.3 条件语句 1.4 文件输入和输出 1.5 字符串 1.6 列表 1.7 元组 1.8 集合 1.9 字典 1.10 迭代与循环 1.11 函数 1.12 生成...
  • 中文名: Visual C# 2008大学教程(第三版) 原名: Visual C# 2008 How to Program, 3rd Edition 作者: (美)戴特尔(Deitel,P.J) (美)戴特尔(Deitel,H.M) 译者: 刘文红 资源格式: PDF 版本: 扫描版 出版社: 电子工业...

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 238
精华内容 95
关键字:

第一行代码第三版pdf