精华内容
下载资源
问答
  • 从本子文件名中提取本子的名字

    千次阅读 2016-09-11 23:08:03
    于是我就决定把本子的名字提取出来,阅读器里只显示本子的名字,这样每个本子是哪 本就一目了然了首先先观察本子文件名的规律 发现本子的各种信息 作者 汉化组 展会 出处 都在中括号或者小括号里面,只有本子名不 ...

    因为要做一个本子阅读器,然后发现本子的文件名字都太长了,阅读器里根本显示不下于是我就决定把本子的名字提取出来,阅读器里只显示本子的名字,这样每个本子是哪本就一目了然了

    首先先观察本子文件名的规律
    本子

    发现本子的各种信息 作者 汉化组 展会 出处 都在中括号或者小括号里面,只有本子名不在括号里,所以把括号里,所以只要把括号里的东西都删掉,剩下的就是本子的名字了

    这个很容易想到数据结构里的栈那里算法(好像就有括号匹配?我其实没学过。。)不过那样太复杂了,我们这里不用管括号里的内容是什么,不过思想是一样的用count来标记是否处于括号内,count>=1的时候说明在括号里面,这时候把里面的字符标记成‘{’(不会有叫{的本子吧。。)然后最后直接全部替换成空字符,最后再把两端的空格去一下。

    代码是c#里的

            public string getname(string filename)
            {
                StringBuilder name = new StringBuilder(filename);
                int count = 0;
                for (int i=0;i<filename.Length;i++)
                {
                    if (filename[i] == '(' || filename[i] == '[') count++;             
                    if (count > 0) name[i] = '{';
                    if (filename[i] == ')' || filename[i] == ']') count--;
                }
                name.Replace("{", "");
                return name.ToString().Trim();
            }

    这东西改个字符串里的内容还要StringBuilder。。。真是麻烦

    测试下效果,很不错,在阅读器里的效果就不发出来了,不然这篇文章就发布出来了

    展开全文
  • Python初学者,这是最近看的《Python编程实践》dict和set那一章的课后题,实在是解决不了,也没搜索到其他的...编写一个函数,以一个**文件名列表**为输入参数,这些文件找出所有的作者姓名,并以集合的形式返回
  • import os #os:操作系统相关的信息模块 import random #导入随机函数 #存放原始图片地址 data_base_dir = "E:\CODE\wuqianqibaiyi\wuqianqibaiyi" file_list = [] #建立列表,用于保存图片信息 #读取图片文件,...
    import sys
    sys.path.append('E:\\Anaconda\\libs')
    import os #os:操作系统相关的信息模块
    import random #导入随机函数
    #存放原始图片地址
    data_base_dir = "E:\CODE\wuqianqibaiyi\wuqianqibaiyi"
    file_list = [] #建立列表,用于保存图片信息
    #读取图片文件,并将图片地址、图片名和标签写到txt文件中
    write_file_name = 'E:\CODE\TX\dir.txt'
    write_file = open(write_file_name, "w") #以只写方式打开write_file_name文件
    for file in os.listdir(data_base_dir): #file为current_dir当前目录下图片名
        if file.endswith(".jpg"): #如果file以jpg结尾
            write_name = file #图片路径 + 图片名 + 标签
            file_list.append(write_name) #将write_name添加到file_list列表最后
            sorted(file_list) #将列表中所有元素随机排列
            number_of_lines = len(file_list) #列表中元素个数
            #将图片信息写入txt文件中,逐行写入
    for current_line in range(number_of_lines):
      write_file.write(file_list[current_line] + '\n')
    #关闭文件
    write_file.close()
    

     

    展开全文
  • 用python提取文件名的数据信息

    千次阅读 2020-04-29 11:05:42
    提取文件名信息,以此为例,提取文件名的数据信息 如果想要画图那么就应该将列表的字符串转化为int型 直方图 完整代码奉上

    提取文件名中的信息,以此为例,提取文件名中的数据信息

    如果想要画图那么就应该将列表中的字符串转化为int型

    直方图

    完整代码奉上

    展开全文
  • 利用Python提取PDF文件的文本信息

    千次阅读 2020-09-20 20:58:13
    如何利用Python提取PDF文件的文本信息 ...答案是通过python实现pdf文本信息的批量自动化提取,这里介绍通过以下五个库来实现信息提取:PyPDF2, Textract, tika, pdfPlumber, pdfMiner,原文参考这

    如何利用Python提取PDF文件中的文本信息

    日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直接将文本信息复制出来,但如果是要提取成本上千个pdf文件中的文本信息,有没有什么比较快捷的方式可以实现自动化提取呢?作为一个python爱好者,答案当然是想办法通过python代码实现pdf文本信息的批量自动化提取,这里介绍以下五个pdf操作库:PyPDF2, Textract, tika, pdfPlumber, pdfMiner,本文主要参考这个博客撰写而成:How to Extract Text from PDF

    一、PyPDF2

    推荐程度:★★★
    pypi官网地址PyPDF2
    安装方法:pip install PyPDF2
    工具包简介

    • 可以提取pdf内文档信息(标题、作者、…)
    • 可以分割、合并pdf
    • 可以对pdf文件进行加密或解密

    这个库的优点是安装简便,但是虽然可以准确提取出文件内的文本信息,但会把一行文本内的每个单词打断成多行,甚至把完整的单词也切割开来,识别精度不是很高。
    实例演示
    代码示例

    import PyPDF2
    fhandle = open(r'D:\examplepdf.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(fhandle)
    pagehandle = pdfReader.getPage(0)
    print(pagehandle.extractText())
    

    二、textract

    推荐程度:不推荐
    pypi官网地址textract
    安装方法:pip install textract
    工具包简介

    • 可以轻松提取提取任何文档中的文字

    虽然官方号称可以轻松提取任何文件的文本信息,但经过实测,目前这个库存在严重的bug,在python3.7环境下提取任何pdf文件都会报错。

    代码示例

    # some python file
    import textract
    text = textract.process("path/to/file.extension")
    

    三、Apache Tika

    推荐程度:★★
    pypi官网地址tika
    安装方法:pip install tika
    工具包简介

    • Apache Tika库的Python端口
    • 由于tika-python会在后台启动tika rest服务器,系统需安装Java 7+ 版本才能正常使用这个库

    这个库最大的问题是需要依赖Java环境使用,配置比较麻烦,并且即使配置好环境,还是有可能没法获得文本解析结果。
    实例演示
    代码示例

        from tika import parser
        file = "D:\\440000201900BD8P6M.pdf"
        file_data = parser.from_file(file)
        text = file_data['content']
        print(text)
    

    四、pdfPlumber

    推荐程度:★★★★★
    pypi官网地址pdfPlumber
    安装方法:pip install pdfplumber
    工具包简介

    • 可以为pdf文件插入文本字符、矩形和行的详细信息
    • 对于非扫描格式pdf解析效果最佳
    • 基于pdfminer.six构建

    这个库安装简单,不容易出幺蛾子,使用方式也简单明了,pdf文本提取精度非常高,强烈推荐!!!
    实例演示

    代码示例

    import pdfplumber
    with pdfplumber.open(r'D:\examplepdf.pdf') as pdf:
        first_page = pdf.pages[0]
        print(first_page.extract_text())
    

    五、pdfminer

    推荐程度:★★★★
    pypi官网地址pdfminer
    安装方法:pip install pdfplumber
    工具包简介

    • 支持 PDF-1.7
    • 可以获取文本的提取位置以及其他布局信息
    • 可将pdf转换为其他格式(HTML/XML)
    • 支持基本的加密方式(RC4 and AES)
    • 支持多种字体类型(Type1, TrueType, Type3, and CID)

    官方说明很详细,但是使用起来略微有些复杂,需要仔细看示例代码才好上手,不过文本提取精度也相当不错!
    实例演示

    代码示例

    from pdfminer3.layout import LAParams, LTTextBox
    from pdfminer3.pdfpage import PDFPage
    from pdfminer3.pdfinterp import PDFResourceManager
    from pdfminer3.pdfinterp import PDFPageInterpreter
    from pdfminer3.converter import PDFPageAggregator
    from pdfminer3.converter import TextConverter
    import io
    
    resource_manager = PDFResourceManager()
    fake_file_handle = io.StringIO()
    converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
    page_interpreter = PDFPageInterpreter(resource_manager, converter)
    
    with open('/path/to/file.pdf', 'rb') as fh:
    
        for page in PDFPage.get_pages(fh,
                                      caching=True,
                                      check_extractable=True):
            page_interpreter.process_page(page)
    
        text = fake_file_handle.getvalue()
    
    # close open handles
    converter.close()
    fake_file_handle.close()
    
    print(text)
    

    总结

    当前用于解析操作pdf的python包已经有相当之多,本文只是列出了其中比较有代表性的五种,在实际使用中首推pdfPlumber,安装简便,上手也比较容易,其次是pdfminer,虽然学习成本高一点,但pdf操作功能相当齐全。总之,只要能较为熟练的掌握其中一种工具包,在某些需要操作大量pdf的情况下,应该可以极大提升工作效率。

    展开全文
  • python 实现从txt文件中提取信息,并写入txt文件 从txt文本文件中提取出电话号码 对TXT文本文件信息进行提取提取出电话号码,并将其存储写入一个TXT文件。 代码如下 #!/usr/bin/env python # -*- coding...
  • 如何用GLASS数据TIMESAT中提取物候参数

    千次阅读 多人点赞 2020-01-19 17:39:16
    如何用GLASS数据TIMESAT中提取物候参数TIMESAT准备数据TIMESAT处理统计结果 TIMESAT TIMESAT为我们提取生长季物候参数提供了极大的方便,但是其界面过于简单,对数据有一定的要求,经过本人一年多的探索与熟悉,...
  • 如何从pdf文件中提取有用信息

    千次阅读 2016-04-22 19:48:02
    首先,需要学习PDFBox,PDFBox项目有两个子项目:FontBox和JempBox。FontBox是一个处理PDF字体的Java类库,JempBox是一个处理XMP元数据的Java类库。 PDF文档内容流的数据可以被看成是操作符和操作数组组成的...
  • Python编程:提取身份证号信息

    千次阅读 2020-06-04 19:30:59
    Python编程:提取身份证号信息 题目: 中华人民共和国居民身份证号由17位数字和一位校验码组成。前1—2位数字表示省或直辖市代码、3—-6数字表示市、区的代码;第7—14位数字表示出生年月日;第15—16位数字...
  • 从时间序列数据中提取统计信息 为了从时间序列中提取有意义的数据,我们必须从时间序列数据中提取统计信息。这些统计信息可以是数据平均值、方差、相关性、最大值、最小值等等。这些统计数据必须通过窗口进行循环...
  • 如何用python提取txt文件的特定信息并写入Excel

    万次阅读 多人点赞 2019-10-07 10:54:25
    我的问题: 我有一个这样的数据集,大概几百上千行,两行数据之间隔一个空行。...现在我希望能提取每一行X:和Y:后面的数字,然后保存下来做进一步的数据处理和分析 就拿第一行来说,我只需要-2.668 和...
  • NLTK学习笔记(七):文本信息提取

    千次阅读 2017-06-19 22:13:48
    命名实体识别和信息提取 如何构建一个系统,用于从非结构化的文本提取结构化的信息和数据?哪些方法使用这类行为?哪些语料库适合这项工作?是否可以训练和评估模型? 信息提取,特别是结构化信息提取,可以类比...
  • 渗透测试进入内网之后,首要目标就是得到域控权限,将域所有用户的hash值全部跑出来,下载到本地。很多工具比如meterpreter的smart_hashdump和Impacket的secretsdump.py都可以做到。 但是有些情况下我只能...
  • ArcGIS:提取某一行政区边界及信息

    万次阅读 2019-04-26 22:43:56
    提取某一行政区域边界; 删除某一区域; 显示行政区域的名字
  • 提取一个目录下的文件夹的名字

    千次阅读 2018-12-11 11:36:35
    xxx.txt 复制到记事本,另存成.bat文件,放到提取文件夹名称的目录去,双击运行。结果保存到xxx.txt了。 详细信息,可以去掉/b参数,直接写成 dir /a:d &gt;xxx.txt 更多dir用法,win+r打开...
  • python网络爬虫与信息提取

    千次阅读 多人点赞 2018-11-28 11:33:28
    课程《Python网络爬虫与信息提取-北京理工大学-嵩天》的内容,作为笔记 Table of Contents 一、网络爬虫之规则:Requests库 1. request()方法 2. 其他方法  3. 爬取网页的通用代码框架 4. 实例 5. 网络...
  • MIME邮件格式分析及信息提取

    千次阅读 2016-07-14 20:44:43
    MIME邮件格式分析及信息提取    摘 要 MIME是目前互联网邮件普遍采用的格式标准,本文通过对MIME邮件格式规范的分析和说明,给出了从邮件提取其所含各种信息的基本方法。  关键词 MIME、...
  • 目录 第1步:基础知识 第2步:确定宏观与微观理解 第3步:确定您想要的是什么(合理的成本内) 第4步:理解整个文档...许多用例,具有最重要信息的内容以自然语言(例如英语,德语,西班牙语,中文等...
  • Python提取PDF的图片

    万次阅读 多人点赞 2019-01-03 10:54:26
    # 2018/08/16更新: ...Python提取word的图片(需要的自取): Python提取Word的图片 最近项目需要把word、PDF的图片专门提取出来保存到另外的文件夹,最终成功实现; 最近项目需要把word、PDF...
  • python+正则表达式提取“参考文献”的作者名,发表日期等信息
  • matlab从图表中提取数据

    千次阅读 2020-04-09 20:47:06
    有如下的波形图,如何从中精确提取出全部的数据: 1,将波形图片(截图)保存为test.png或test.jpg,并将图片放于matlab工作目录,如...% 提取图片的曲线数据 clear,clc,close all %% 图片与曲线间的定标 im=i...
  • Python提取CSV文件信息

    千次阅读 2016-09-22 15:52:04
    前几天下载了一个视频数据集...Collecting Multilingual Parallel Video Descriptions Using Mechanical Turk 其中有个csv文件表示了数据集的一些信息,如图所示: video名字为:VideoID_St
  • python提取图像的名字*.jpg到txt文本

    万次阅读 2017-12-20 21:44:43
    # -*- coding:utf-8 -*- import sys ...import os #os:操作系统相关的信息模块 import random #导入随机函数 #存放原始图片地址 data_base_dir = "C:\\Users\\Administrator.MICROSO-1HCAN56\\Desktop\\qi
  • MNIST数据集提取图片和标注信息

    千次阅读 2018-08-11 12:41:42
    MNIST数据集 简介 MNIST数据集( ...)是著名的手写数字分类数据集,主要由一下四部分组成: ...执行上述Python程序后,便能够D:/Project/an_python/Minst目录下得到提取出来的图片和标注信息
  • 从rosbag中提取图片和数据

    千次阅读 2020-09-05 09:40:32
    目录从rosbag中提取图片和数据1 提取图片1.1 用launch文件提取图片1.1.1 安装工具(一般不需要)1.1.2 直接创建roslaunch文件1.1.3...信息2.1.2 转换为csv格式2.2 使用Python一次性从rosbag中提取多个csv文件3 关于同步...
  • Windows Shell提取媒体信息

    千次阅读 2010-04-15 22:50:00
    这个Project有三个有趣而可以参考的地方:使用COM接口操作Windows Shell,并提取多媒体文件的标签信息编写Dll,并提供对DLL的类显示调用的支持最小化编译时的依赖,即正确地使用#include、理清C/CPP文件和H文件的...
  • 此系列笔记来源于 中国大学MOOC-北京理工大学-嵩天老师的Python系列课程 ...Beautiful Soup库可对HTML/XML格式进行解析并提取相关信息 安装:管理员方式打开CMD-输入pip install beautifulsoup4

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 143,467
精华内容 57,386
关键字:

在信息中如何提取名字