精华内容
下载资源
问答
  • Python字符串匹配

    2021-02-10 07:10:40
    假设有两个字符串:t(目标串,长度n)和p(模式串,长度m),通常m<朴素串匹配算法优点简单易懂缺点效率低时间复杂度分析:最坏的情况是每一趟都在模式串的最后遇到不匹配,那么每一趟比较的次数是n-m+1, 总的比较...

    假设有两个字符串:t(目标串,长度n)和p(模式串,长度m),通常m<

    朴素串匹配算法

    优点

    简单易懂

    缺点

    效率低

    时间复杂度分析:最坏的情况是每一趟都在模式串的最后遇到不匹配,那么每一趟比较的次数是n-m+1, 总的比较次数是 mx(n-m+1), 因为m<

    代码实现:

    def naive_match(t,p):

    m, n = len(p), len(t)

    i, j = 0, 0

    while i < m and j < n:

    if p[i] == t[j]:

    i, j = i+1, j+1

    else: #字符不匹配,考虑t串的下一个位置

    i, j = 0, j-i+1 # j-i+1为相对位置加1

    if i == m: # p串完全匹配后(i++)i的值变为m

    return j-i #此时j的值减去p串的长度(i或者m)就是所在下标

    return 'No Match!' #无匹配则返回'No Match'

    #实例化

    t = ' abc de'

    p = 'de'

    print naive_match(t, p)

    #输出 6

    #换一种想法去实现

    def naive_match1(p,t):

    m, n, i = len(p), len(t), 0

    for i in range(n-m+1):

    if t[i:i+n-1] == p:

    return i

    return 'No match!'

    p = 'abc'

    t = 'abdabc'

    print naive_match1(p,t)

    KMP算法(无回溯串匹配算法)

    分析:算法的关键在于构建一个跳转表(pnext表),当第i个字符匹配失败时不是重新从头开始匹配(例如朴素串匹配算法),而是通过构建好的跳转表跳转到第j个字符。例如:

    0 1 2 3 4 5 6 7 # 字符串的位置

    a b c a b c d a # p串

    0 0 0 0 1 2 3 0 # pnext表,如果匹配不成功 跳转的位置

    解释:当第6位的字符d匹配失败后可以直接跳转到第3位的a, 因为它们之前的abc是相同的,不需要再匹配一遍了。

    更近一步分析:如果p串i位置与t串的j位置匹配失败了,先去查找p串i位置之前的从0开始的串(假设[0,k], k

    移动的位数 = 已匹配的字符数 - 对应的部分匹配值(查表)

    如何得到p串每个字符的部分匹配值(如何生成next表)?

    对于每个p串的字符,前缀与后缀共有字符的个数就是该字符的部分匹配值。 详细解释

    那么如何构造部分匹配表(next表)呢,python代码如下:

    Next表 (部分匹配表,跳转表)

    def partial_table(p):

    prefix = set() #集合

    postfix = set()

    ret = [0] #存放p串匹配值,因为第一个字符的匹配值肯定为0,先把0存进去

    for i in range(1,len(p)): #从第二个字符开始

    #获取前i+1个字符串的前缀(例如对于abc,前缀有a,ab)

    #Note:切片[0:3]-->索引0,1,2(第一个索引是0可以省略-->[:3]-->取前三个数)

    #Note:range函数也一样取不到后面的数-->rang(1,3)-->>1,2

    prefix.add(p[:i]) #因为对于不同的字符前缀都有相同的部分,这里只需要添加就行了

    #获取前i+1个字符串的后缀(例如对于abc,后缀有bc,c)

    postfix = {p[j:i+1] for j in range(1,i+1)} #对于不同的字符后缀总是不一样

    ret.append(len(prefix&postfix))

    return ret

    KMP算法实现

    #-*-coding=utf-8-*-

    #KMP

    def kmp_match(t, p):

    m,n = len(t),len(p)

    cur = 0 #起始指针cur

    table = partial_table(p)

    while cur <= m-n: #最多做m-n趟匹配

    for i in range(n): #在每一趟比较中

    if s[i+cur]!=p[i]: #匹配不成功时

    cur += max(i - table[i-1], 1) #移动的位数 = 以匹配的字符数 - 匹配值

    break

    else:

    return True

    return False

    # 测试

    p = 'ABCDABD'

    s = 'BBC ABCDAB ABCDABCDABDE'

    print partial_table(p)

    print kmp_match(s, p)

    展开全文
  • 当输入是某个控制字符时,仅计算整个字符串中的大括号会更快,但由于在键入之前进行文本选择和其他原因,这很棘手。这也不是非常pythonic,但它似乎工作,它相对较快:#!/usr/bin/env pythonimport redef ...

    这是一个基于堆栈的解决方案。当输入是某个控制字符时,仅计算整个字符串中的大括号会更快,但由于在键入之前进行文本选择和其他原因,这很棘手。这也不是非常pythonic,但它似乎工作,它相对较快:

    #!/usr/bin/env python

    import re

    def bracecounter(s):

    count = 0; open = 0; braces = []

    for c in s:

    if c in '()':

    braces.append(c)

    if c == '(':

    open += 1

    else:

    if ''.join(braces[-2:]) == '()':

    braces = braces[:-2]

    if open == 1:

    count += 1

    open -= 1

    else:

    pass # closing brace without matching opening brace

    return count

    fix = [

    (1, 'I have the string "(.*)"'),

    (2, 'when user enters (\d+) times text "(.*)" truncate spaces'),

    (0, 'I am in the middle of writing this ('),

    (1, ') Nested ((braces) will (not) count))))))).'),

    ]

    def test():

    for exp, s in fix:

    res = bracecounter(s)

    assert exp == res, "Brace count %s != %s for '%s'" % (res, exp, s)

    if __name__ == '__main__':

    test()

    展开全文
  • 在另一方面,我有一个字符串列表,其中包含一些我需要在项目描述中找到的关键字。在我需要做的是找到关键字匹配最多的项示例:RSS源Lion...The lion (Panthera leo) is one of the four big ca...

    我将详细解释我需要什么:

    我正在使用feedparser解析Python中的RSS提要。当然,这个提要有一个条目列表,有标题、链接和描述,就像普通的RSS提要一样。在

    另一方面,我有一个字符串列表,其中包含一些我需要在项目描述中找到的关键字。在

    我需要做的是找到关键字匹配最多的项

    示例:

    RSS源

    Lion

    ...

    The lion (Panthera leo) is one of the four big cats in the genus

    Panthera, and a member of the family Felidae.

    Panthera

    ...

    Panthera is a genus of the Felidae (cats), which contains

    four well-known living species: the tiger, the lion, the jaguar, and the leopard.

    Cat

    ...

    The domestic cat is a small, usually furry, domesticated,

    carnivorous mammal. It is often called the housecat, or simply the

    cat when there is no need to distinguish it from other felids and felines.

    关键字列表

    ^{pr2}$

    所以在本例中,匹配最多(唯一)的项是第一个,因为它包含所有4个关键字(不管它说的是“cats”而不是“cat”,我只需要在字符串中找到literal关键字)

    让我澄清一下,即使某些描述包含了“cat”关键字100次(而不是其他关键字),这也不会是赢家,因为我要查找包含的关键字最多的,而不是关键字出现次数最多的。在

    现在,我在rss项目上循环,并“手动”地进行,计算关键字出现的次数(但我遇到了上面段落中提到的问题)。在

    我对Python很陌生,而且我来自一种不同的语言(C#),所以如果这很微不足道,我很抱歉。在

    你将如何处理这个问题?

    展开全文
  • 我们得到两个字符串。我们需要找到第一个字符串中也存在于第二个字符串中的字符的计数。带套set函数为我们提供字符串中所有元素的唯一值。我们还使用&运算符来查找两个给定字符串之间的公共元素。示例strA='nhooo....

    我们得到两个字符串。我们需要找到第一个字符串中也存在于第二个字符串中的字符的计数。

    带套

    set函数为我们提供字符串中所有元素的唯一值。我们还使用&运算符来查找两个给定字符串之间的公共元素。

    示例strA = 'nhooo.com'

    uniq_strA = set(strA)

    # Given String

    print("Given String\n",strA)

    strB = 'aeio'

    uniq_strB = set(strB)

    # Given String

    print("Search character strings\n",strB)

    common_chars = uniq_strA & uniq_strB

    print("Count of matching characters are : ",len(common_chars))

    输出结果

    运行上面的代码给我们以下结果-Given String

    nhooo.com

    Search character strings

    aeio

    Count of matching characters are : 3

    与研究

    我们使用re模块中的搜索功能。我们使用一个count变量,并在搜索结果为true时保持递增。

    示例import re

    strA = 'nhooo.com'

    # Given String

    print("Given String\n",strA)

    strB = 'aeio'

    # Given String

    print("Search character strings\n",strB)

    cnt = 0

    for i in strA:

    if re.search(i, strB):

    cnt = cnt + 1

    print("Count of matching characters are : ",cnt)

    输出结果

    运行上面的代码给我们以下结果-Given String

    nhooo.com

    Search character strings

    aeio

    Count of matching characters are : 5

    展开全文
  • 写了一个代码, 是解决求最大不含重复字符子字符串的问题的 有兴趣的同仁可以看一看,指出有什么不足的地方 public int Fun(string st) { int count = st.Length; int countSum=1; int sInfo; int eInfo;#!/usr/bin/...
  • · x:被匹配字符串。 · words:去匹配字符串列表。 · n,前topn个最佳匹配返回,默认为3。 · cutoff:匹配度大小,为[0, 1]浮点数,默认数值0.6。 import difflib list1 = ['ape', 'apple', 'peach', ...
  • 通配符的字符串匹配算法

    千次阅读 2020-12-22 11:59:36
    给出这样两个字符串,判断Str2是否是Str1的子串,如果是输出第一个匹配到的子串,如果不是,输出"不是子串"。2. 分析对于'?'的处理,只要在匹配的时候将代码由:if(str1[i]==str2[j]) 改为 i...
  • # -*- coding: utf-8 -*-#----------------------------------------------------------------------# FileName:gettxtdata.py#功能:读取字符串和文件中的数值数据(浮点数)#主要提供类似matlab中的dlmread和dlmwrite...
  • 我想在多行字符串匹配整行(这段代码是检查正确输出格式的单元测试的一部分)。在Python 3.5.2 (default, Nov 12 2018, 13:43:14)[GCC 5.4.0 20160609] on linuxType "help", "copyright", "credits" or "license" ...
  • 原文:https://www.cnblogs.com/wilber2013/p/4641616.htmlhttp://blog.konghy.cn/2016/11/25/python-str-format/Python 在 2.6 版本中新加了一个字符串格式化方法:str.format()。它的基本语法是通过{}和:来代替...
  • 以大括号{}来标明被替换的字符串,一定程度上与%目的一致。但在某些方面更加的方便1、基本用法1、按照{}的顺序依次匹配括号中的值s="{}isa{}".format('Tom','Boy')print(s)#TomisaBoys1="{}isa{}".format('Tom')#抛...
  • Python字符串格式化之format方法详解一文秒懂!Python字符串格式化之format方法详解format是字符串内嵌的一个方法,用于格式化字符串。以大括号{}来标明被替换的字符串,一定程度上与%目的一致。但在某些方面更加的...
  • 假设我们有一个小写字母的字符串s,我们必须找到包含一个唯一字符的子字符串的总数。因此,如果输入类似于“ xxyy”,则输出将为6,因为子字符串为[x,x,xx,y,y,yy]为了解决这个问题,我们将遵循以下步骤-总计:...
  • 编写函数,计算字符串匹配的准确率 #编写函数,计算字符串匹配的准确率 def Rate(origin,userInput): if not (isinstance(origin,str) and isinstance(userInput,str)): print('The two parameters must be ...
  • 在日常的数据分析过程中,我们可能会遇到一些关于字符串类型的地址信息,由于录入的地址信息良莠不齐,我们在进行地址处理时就会变得麻烦。为了能够方便的进行地址的处理,这里提供一个地址的处理方法。 2.根据字符...
  • 对于文本编辑器这种软件来说,查找及替换是其核心功能,我们希望使用的字符串匹配算法尽可能地高效。之前讨论过RK算法,时间复杂度为O(n),其实已经很高效了,现在来介绍一个新的字符串匹配算法,BM(Boyer-Moore)算法...
  • replace 方法返回某字符串所有匹配项均匀被替换之后得到字符串 print("This is a test".replace('is','is_test')) #the result : This_test is_test a test 1.3 字符串常用方法 # 1. clear方法清除字典中所有的项...
  • Python的索引从0开始,所以 字符串第一个字符的索引为0,第二个字符的索引为1,第三个字符的索引为2,,以此类推,可以对值为字符串的变量使用索引,也可以对字符串本身使用索引。例子如下: 2、负数索引 负数索引...
  • 我对Python是个新手,但我觉得制作一个程序来对所有下载的内容进行排序会很有趣,但我在使用它时遇到了一些麻烦。如果我的目的地只有一个单词在里面,那么它可以完美地工作,但是如果目的地有两个或更多个单词,这...
  • 1.字符串1.1find方法可以在一个较长的字符串中查找子串,他返回字串所在位置的最左端索引,如果没有就返回-11.2join方法是非常重要的字符串方法,它是split方法的逆方法,用于连接序列中的元素,且需要连接的元素...
  • Levenshtein Distance 算法,又叫Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑...
  • 字符串ASCII码采用1个字节来对字符进行编码,最多只能表示256个符号。UTF-8以3个字节表示中文GB2312是我国制定的中文编码,使用1个字节表示英语,2个字节表示中文;GBK是GB2312的扩充,而CP936是微软在GBK基础上开发...
  • 以大括号{}来标明被替换的字符串,一定程度上与%目的一致。但在某些方面更加的方便 1、基本用法 1、按照{}的顺序依次匹配括号中的值 s="{}isa{}".format('Tom','Boy') print(s)#TomisaBoy s1="{}isa{}".format...
  • 然后替换为空字符,我们要用到的是str的replace API代码如下:Document// 去除字符串开头和结尾的空格function delate(str){// 匹配到开头的空格,然后将其替换为空,返回新字符串str1let str1 = str.replace(/\s+$/...
  • 基于python3和正则表达式实现日期标准化的方法 o(* ̄▽ ̄*)ブ
  • Python字符串

    2021-12-16 21:45:52
    4.1 字符串介绍 字符串是一种用来表示文本的数据类型,它是由符号或者数值组成的一个连续序列。 Python支持使用单引号、双引号和三引号定义字符串,其中单引号和双引号通常用于...Python字符串可通过%格式符格式化输.
  • 生成器re 正则表达式字符串格式化装饰器装饰器是一个很著名的设计模式,经常被用于有切面需求的场景,较为经典的有插入日志、性能测试、事务处理等。装饰器是解决这类问题的绝佳设计,有了装饰器,我们就可以抽离出...
  • 你可以在这里使用像fuzzywuzzy这样的Python库,它支持这种类型的任务:from fuzzywuzzy import processdf.assign(Output=[process.extract(i, df['Col-1'], limit=3) for i in df['Col-2']])使用process方法,我们可以...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 33,363
精华内容 13,345
关键字:

python字符串匹配程度

python 订阅