精华内容
下载资源
问答
  • Python提取指定字符串,从一个字符串中提取<>里面的内容,整理了两种实现方式,后续有更多的实现方式继续更新  代码如下: #coding:utf8 import re import sys reload(sys) sys....

    Python中提取指定字符串,从一个字符串中提取<>里面的内容,整理了两种实现方式,后续有更多的实现方式继续更新 
    代码如下:

    #coding:utf8
    import re
    import sys
    reload(sys)
    sys.setdefaultencoding('utf8')
    #!/usr/bin/python
    template = "我要<歌手名>的<歌曲名>"
    
    def subString1(template):
        copy = False
        finished = False
        slotList = []
        str = ""
        for s in template:
            if s=='<':
                copy = True
            elif s=='>':
                copy = False
                finished = True
            elif copy:
                str = str+s
            if finished:
                slotList.append(str)
                str = ""
                finished = False
        return slotList
    
    def subString2(template):
        rule = r'<(.*?)>'
        slotList = re.findall(rule, template)
        return slotList
    
    
    slotList = subString1(template)
    for slot in slotList:
        print slot
    
    slotList = subString2(template)
    for slot in slotList:
        print slot
    展开全文
  • 提取TXT文本指定内容——python

    万次阅读 多人点赞 2019-03-02 19:30:20
    PYTHON的计算机二级考试中有这么一个题,要求我们从一个文本中按照特定的格式提取指定内容。 文件名称为“论语-网络版.txt”,其内容采用如下格式组织: 【原文】 1.11子曰:“父在,观其(1)志;父没,观其行...

    项目介绍:

    在PYTHON的计算机二级考试中有这么一个题,要求我们从一个文本中按照特定的格式提取指定内容。
    文件名称为“论语-网络版.txt”,其内容采用如下格式组织:

    【原文】
    
    1.11子曰:“父在,观其(1)志;父没,观其行(2);三年(3)无改于父之道(4),可谓孝矣。”
    
    【注释】
    
    (略)
    
    【译文】
    
    (略)
    
    【评析】
    
    (略)
    

    该版本通过【原文】标记《论语》原文内容,采用【注释】、【译文】和【评析】标记对原文的注释、译文和评析。
    问题1:请编写程序,提取《论语》文档中所有原文内容,输出保存到“论语-提取版.txt”文件。输出文件格式要求:去掉文章中原文部分每行行首空格及如“1.11”等的数字标志,行尾无空格、无空行。参考格式如下(原文中括号及内部数字是对应源文件中注释项的标记):

    子曰(1):“学(2)而时习(3)之,不亦说(4)乎?有朋(5)自远方来,不亦乐(6)乎?人不知(7),而不愠(8),不亦君子(9)乎?”
    
    有子(1)曰:“其为人也孝弟(2),而好犯上者(3),鲜(4)矣;不好犯上,而好作乱者,未之有也(5)。君子务本(6),本立而道生(7)。孝弟也者,其为人之本与(8)?”
    
    子曰:“巧言令色(1),鲜(2)仁矣。”
    
    (略)
    

    问题2:请编写程序,在“论语-提取版.txt”基础上,进一步去掉每行文字中所有括号及其内部数字,保存为“论文-原文.txt”文件。参考格式如下:

    子曰:“学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?”
    
    有子曰:“其为人也孝弟,而好犯上者,鲜矣;不好犯上,而好作乱者,未之有也。君子务本,本立而道生。孝弟也者,其为人之本与?”
    
    子曰:巧言令色,鲜仁矣。”
    
    (略)
    

    实现程序如下(python):

    fi = open("论语-网络版","r",encoding="utf-8")
    fo = open("论语-提取版.txt","w",encoding="utf-8")
    
    wflag =False                #写标记
    newline = []                #创建一个新的列表
    
    
    for line in fi :            #按行读入文件,此时line的type是str
        if "【" in line:        #重置写标记
            wflag =False
        if "【原文】" in line:     #检验是否到了要写入的内容
            wflag = True
            continue
        if wflag == True:
            K = list(line)
            if len(K)>1:           #去除文本中的空行
                for i in K :       #写入需要内容
                    newline.append(i)
    
    strlist = "".join(newline)      #合并列表元素
    newlines = str(strlist)         #list转化成str
    
    for D in range(1,100):                       #删掉句中()
        newlines = newlines.replace("({})".format(D),"")
    
    for P in range(0,9):                               #删掉前面数值标题
        for O in  range(0,9):
            for U in range(0, 9):
               newlines = newlines.replace("{}.{}{}".format(P,O,U), "")
    
    fo.write(newlines)
    
    fo.close()
    fi.close()
    

    运行结果如下:
    在这里插入图片描述

    其给的参考答案如下(分为两个程序):

    fi = open("论语-网络版","r",encoding="utf-8")
    fo = open("论语-提取版.txt","w",encoding="utf-8")
    wflag = False      #写标记
    for line in fi:
        if "【" in line :                  #遇到【时,说明已经到了新的区域,写标记置否
            wflag = False
        if "【原文】" in line:            #遇到【原文】时,设置写标记为Ture
            wflag = True
            continue
        if wflag == True:                 #根据写标记将当前行内容写入新的文件
            for i in range(0,25):
                for j in range(0,25):
                    line = line.replace("{}·{}".format(i,j),"**")
            for i in range(0,10):
                line = line.replace("*{}".format(i),"")
            for i in range(0,10):
                line = line.replace("{}*".format(i),"")
            line = line.replace("*","")
            fo.write(line)
    fi.close()
    fo.close()
    
    fi = open("论语-提取版.txt","r")
    fo = open("论语-原文","w")
    for line in fi:
        for i in range(1,23):
            line = line.replace("({})".format(i),"")
        fo.write(line)
    fi.close()
    fo.close()
    

    其运行结果如下:
    在这里插入图片描述

    展开全文
  • 今天,在爬取数据后,提取时,遇到了无法直接通过标签获取数据。 <ul class="key clearfix"> <li>开 本:16开</li> <li>纸 张:胶版纸</li> <li>包 装:平装-胶订</li>...

    今天,在爬取数据后,提取时,遇到了无法直接通过标签获取数据。

    <ul class="key clearfix">
            <li>开 本:16开</li>
            <li>纸 张:胶版纸</li>
            <li>包 装:平装-胶订</li>
            <li>是否套装:否</li>
            <li>国际标准书号ISBN:9787115422699</li>
    </ul>
    

    比如说,我想要提取开本的规格“16开”。

    解决方案:
    后面,查询资料的时候发现通过正则表达式子,可以锁定提取的前后部分。具体操作如下:

    import re
    
    # 要提取的原材料
    a = """<ul class="key clearfix">
            <li>开 本:16开</li>
            <li>纸 张:胶版纸</li>
            <li>包 装:平装-胶订</li>
            <li>是否套装:否</li>
            <li>国际标准书号ISBN:9787115422699</li>
        </ul>"""
    
    # 想提取的内容假设为"16开",分析它前为本:,后为</li>;.在正则中表示可代表一切字符,+代表匹配前面字符 >=0 次,即规定前后里面的内容
    formats = re.findall(r"本:(.+)</li>", a)
    print(formats)  # 输出为['16开']
    # 由于输出是数组,所以再次提出
    format = formats[0]
    print(format)   # 输出为16开
    
    展开全文
  • # 使用正则表达式匹配相应的内容, 使用findall匹配,返回列表类型,但是属于字符数组 file = re.findall('G/g_loss: (\d\S\d+)', file, re.S) # print(file) # 将字符数组转为数字型数组 new_file
    import re
    import numpy as np
    
    # 读入文件
    with open('filename.txt') as f:
        file = f.read()
        print(file)
        # 使用正则表达式匹配相应的内容, 使用findall匹配,返回列表类型,但是属于字符数组
        file = re.findall('G/g_loss: (\d\S\d+)', file, re.S)
    
        # print(file)
    
    
    # 将字符数组转为数字型数组
    new_file = []
    for n in file:
        new_file.append(float(n))
    
    print(new_file)
    
    # 将已有数组转换为数组,并保存
    a = np.asarray(new_file)
    np.save('filename.npy', a)
    
    p = np.load('filename.npy')
    print(p)
    
    展开全文
  • 单个文本如下: Receive:display memory Memory utilization statistics at 2018-12-27 22:10:47 230 ms System Total Memory: 8021212 Kbytes Total Memory Used: 988720 Kbytes Memory Using Percentage: 12% ...
  • 由于业务需要,要提取指定字符串的关键信息。具体要求是从一个字符串中提取<>里面的内容。 于是想到利用Python 中的正则实现。 输入: 我要听<梁博>的<男孩> 输出: 梁博 男孩 Python ...
  • python3.4.3实现txt文本指定字符提取

    万次阅读 2017-09-01 14:56:38
    TXT文档中提取指定文本 在每天上班的路上,都会在地铁上看看高晓松的《鱼羊野史》。很有意思的一本书,口头语言记录成册,来自《晓松奇谈》。每天都会按着日期看,今天是哪一天就翻到哪一天,看看历史上的今天发生了...
  • TXT文档中提取指定文本 在每天上班的路上,都会在地铁上看看高晓松的《鱼羊野史》。很有意思的一本书,口头语言记录成册,来自《晓松奇谈》。每天都会按着日期看,今天是哪一天就翻到哪一天,看看历史上的今天发生...
  • 获取PDF中的每个文本字符、矩形和行的详细信息,以及可以进行表格提取和可视化调试。 主要应用于机器生成的PDF上,而非扫描的pdf文档。 import fitz import glob import pdfplumber # 使用python提取PDF中文字代码...
  • 无论是哪种格式,摘要 一般都是文章 开头部分 的内容,可以按照指定的 字数 来提取。 二、纯文本摘要 纯文本文档 就是一个长字符串,很容易实现对它的摘要提取: #!/usr/bin/env python # -*- coding: utf-8 -*- "...
  • 接着上一篇文章,当时老师是要求的是将exif文件提取出来,再用idl将txt内的指定内容提取出来又保存为txt。对于第二步,老师用的方法是使用idl进行编程,将txt文本进行切片再提取,我觉得其实没必要那么麻烦,因为...
  • 由于需求,需要将一些txt文本中的指定字符提取出来,并以表格形式保存。 突然想到我学过一点python,由于数据量较多,写个脚本处理明显会效率更高。 于是花了一个晚上的时间更改文件后缀名为txt,并将文件的部分...
  • /text()获取指定标签下的文本内容,//text()获取指定标签下的文本内容,包括子标签下的文本内容,比较简单的是利用字符串相加: room_infos = li.xpath('.//a[@class="resblock-room"]/span//text()').extract() ...
  • 文本内容 例如: lib-hello.so lib.world.so lib_python-so 方法一:利用python list 截取 line[3:-2] 方法二:python 正则匹配 import re m1 = re.search(r'lib(.*)so',line) print((m1.group(1))) ...
  • Python:提取网页中的电子邮箱

    万次阅读 2017-02-02 18:42:39
    我们使用其它编程语言处理在文本中查找“类似”的内容时,往往使用正则表达式,Python在网页上找出所有“类似”的内容,也是要用正则表达式。 在Python中,使用正则表达式的模块是“re",正则表达式模块"re"指定一...
  • 一、概述 二、纯文本摘要 ... ...在博客系统的文章列表中,为了更有效地呈现文章内容,从而让...无论是哪种格式,摘要 一般都是文章 开头部分 的内容,可以按照指定的 字数 来提取。 二、纯文本摘要 纯文本文档 就...
  • 假设上述csv文件保存为”A.csv”,如何用Python像操作Excel一样提取其中的一行,也就是一条记录,利用Python自带的csv模块,有2种方法可以实现: 方法一:reader 第一种方法使用reader函数,接收一个可迭代的对象...
  • csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据,比如如下的表格就可以存储为csv文件,文件内容是:No.,Name,Age,Score1,Apple,12,982,Ben,13,973,Celia,14,964,Dave,15,95假设上述csv文件保存...
  • csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据,比如如下的表格就可以存储为csv文件,文件内容是:No.,Name,Age,Score1,Apple,12,982,Ben,13,973,Celia,14,964,Dave,15,95假设上述csv文件保存...

空空如也

空空如也

1 2 3 4 5 6
收藏数 106
精华内容 42
关键字:

python文本提取指定内容

python 订阅