精华内容
下载资源
问答
  • 0.1: print(' 发现相同内容 '.center(80, '*')) print('文件1第{0:0>4d}段内容:{1}'.format(i + 1, p1)) print('文件2第{0:0>4d}段内容:{1}'.format(j + 1, p2)) print('相同内容:', list) print('相同字符比:{1...

    参考链接:https://blog.csdn.net/weixin_43145361/article/details/103798581

    参考链接:https://zhidao.baidu.com/question/326711580304676805.html

    参考链接:https://blog.csdn.net/weixin_43245453/article/details/108335331

    参考链接:https://python-docx.readthedocs.io/en/latest/index.html

    参考链接:https://blog.csdn.net/weixin_42378365/article/details/85017115

    一、使用python-docx库

    https://python-docx.readthedocs.io/en/latest/index.html

    二、对比规则

    对比的基本思想是按小句进行比较,所以拆分以是标点,即,。?!等进行拆分。拆分完成以后,可以有很多的小段。本文中为了便于定位,先根据原始段落进行拆分,然后再将每段根据标点拆分成若干小句,即一个word文档 = [[段落1], [段落2], [段落3], ...,[段落n]],而每个段落= [[小句1],[小句2],[小句3],...,[小句m],]

    循环对比输出,根据段落,两两进行对比,遇到匹配输出结果。

    三、源码

    # coding=utf-8
    
    from docx import Document
    import re, sys, datetime
    
    
    def getText(wordname):
        d = Document(wordname)
        texts = []
        for para in d.paragraphs:
            texts.append(para.text)
        return texts
    
    def is_Chinese(word):
        for ch in word:
            if '\u4e00' <= ch <= '\u9fff':
                return True
        return False
    
    def msplit(s, seperators = ',|\.|\?|,|。|?|!'):
        return re.split(seperators, s)
    
    def readDocx(docfile):
        print('*' * 80)
        print('文件', docfile, '加载中……')
        t1 = datetime.datetime.now()
        paras = getText(docfile)
        segs = []
        for p in paras:
            temp = []
            for s in msplit(p):
                if len(s) > 2:
                    temp.append(s.replace(' ', ""))
            if len(temp) > 0:
                segs.append(temp)
        t2 = datetime.datetime.now()
        print('加载完成,用时: ', t2 - t1)
        showInfo(segs, docfile)
        return segs
        
    def showInfo(doc, filename = 'filename'):
        chars = 0
        segs = 0
        for p in doc:
            for s in p:
                segs = segs + 1
                chars = chars + len(s)
        print('段落数: {0:>8d} 个。'.format(len(doc)))
        print('短句数: {0:>8d} 句。'.format(segs))
        print('字符数: {0:>8d} 个。'.format(chars))
              
    def compareParagraph(doc1, i, doc2, j, min_segment = 5): 
        """
        功能为比较两个段落的相似度,返回结果为两个段落中相同字符的长度与较短段落长度的比值。
        :param p1: 行
        :param p2: 列
        :param min_segment = 5: 最小段的长度
        """
        p1 = doc1[i]
        p2 = doc2[j]
        len1 = sum([len(s) for s in p1])
        len2 = sum([len(s) for s in p2])
        #print(len1)
        #print(len2)
        if len1 < 10 or len2 < 10:
            return []
        
        list = []
        for s1 in p1:
            if len(s1) < min_segment:
                continue;
            for s2 in p2:
                if len(s2) < min_segment:
                    continue;
                if s2 in s1:
                    list.append(s2)
                elif s1 in s2:
                    list.append(s1)
                    
        # 取两个字符串的最短的一个进行比值计算
        count = sum([len(s) for s in list])
        ratio = float(count) /  min(len1, len2)
        if count > 10 and ratio > 0.1:
            print(' 发现相同内容 '.center(80, '*'))
            print('文件1第{0:0>4d}段内容:{1}'.format(i + 1, p1))
            print('文件2第{0:0>4d}段内容:{1}'.format(j + 1, p2))
            print('相同内容:', list)
            print('相同字符比:{1:.2f}%\n相同字符数: {0}\n'.format(count, ratio * 100))
        return list
     
    #if len(sys.argv) < 3:
    #    print("参数小于2.")
    
    
    #doc1 = readDocx(sys.argv[1])
    #print(doc1)
    #doc2 = readDocx(sys.argv[2])
    #print(doc2)
    
    doc1 = readDocx('./document/doc1.docx')
    doc2 = readDocx('./document/doc2.docx')
    
    print('开始比对...'.center(80, '*'))
    t1 = datetime.datetime.now()
    for i in range(len(doc1)):
        if i % 100 == 0:
            print('处理进行中,已处理段落 {0:>4d} (总数 {1:0>4d} ) '.format(i, len(doc1)))
        for j in range(len(doc2)):
            compareParagraph(doc1, i, doc2, j)
     
    t2 = datetime.datetime.now() 
    print('\n比对完成,总用时: ', t2 - t1)   

    其中,doc1.docx中内容为

    新交规扣12分的违章行为
      1、驾驶营运客车超载20%以上,其中除了出租车、长途客运车辆等常规营运车辆外(不含公交车),在新规则中还首次加入了校车。
      2、严重超速:驾驶中型以上载客载货汽车、校车、危险物品运输车辆在高速公路、城市快速路上行驶超过规定时速20%以上或者在高速公路、城市快速路以外的道路上行驶超过规定时速50%以上,以及驾驶其他机动车行驶超过规定时速50%以上。
      3、故意遮挡号牌:从1月1日起,上道路行驶的机动车未悬挂机动车号牌的,或者故意遮挡、污损、不按规定安装机动车号牌一律会被一次性扣除12分。另外,对于牌照架也更新了规定,对于使用不符合规定的牌照架会受到200元并扣6分的处罚。
      4、驾驶营运客车在高速公路车道内停车:如果营运客车在高速公路上擅自停车(没有事故、车辆故障等原因)将受到一次性扣除12分的处罚。
      5、连续驾驶中型以上载客汽车、危险物品运输车辆超过4小时未停车休息或者停车休息时间少于20分钟。
      6、未取得校车驾驶资格驾驶校车(新增)
      校车准驾驾驶资格:驾龄3年以上,年龄不超过60周岁;最近连续3个分周期内没有满分记录;无致人死亡或者重伤的交通责任事故;无饮酒或者醉酒后驾驶记录,最近1年内无驾驶客运车辆超员、超速等严重交通违法行为;无犯罪记录,无因违反治安管理行为受到拘留处罚的记录;身体健康,无酗酒、吸毒行为记录,无传染性疾病,无癫痫、精神病等可能危及行车安全的病史。
      7、饮酒后驾驶机动车:酒后驾车除了扣除12分之外,还将扣押驾照6个月,并给予不超过2000元的现金处罚。对于醉酒驾车则是吊销驾驶证的处罚,除此之外还有刑事责任的处罚,且5年内不得重新考取驾照。
      8、驾驶与准驾车型不符:该行为实际上讲越级驾驶可以视为无照驾驶。另外除了扣除12分之外,交警还有权利给予200-2000元和扣车等处罚。
      9、造成交通事故后逃逸:交通事故肇事逃逸,尚不构成犯罪者将会受到12分的处罚。致人重伤、死亡或者使公私财产遭受重大损失的,处三年以下有期徒刑或者拘役;交通运输肇事后逃逸或者有其他特别恶劣情节的,处三年以上七年以下有期徒刑;因逃逸致人死亡的,处七年以上有期徒刑。
      10、伪造、更改号牌和证件:对于使用伪造、擅自更改的机动车号牌、行驶证、驾驶证、校车标牌,或者使用其他机动车号牌、行驶证等行为将会一次性扣除12分。
      11、驾驶机动车在高速公路上倒车、逆行、穿越中央分隔带掉头等严重影响交通安全的,都会受到12分的处罚。
      新交规扣6分的违章行为
      1、驾驶机动车违反道路交通信号灯通行:由于侥幸心理导致的闯红灯行为,过去是扣除3分,从2017年开始升级为扣除6分。
      2、货车超载:超过额定载重量30%以上的车辆,或违反规定载客的车辆将受到扣除6分的处罚。
      3、营运车辆超载未超过20%:驾驶营运客车(不包括公共汽车)、校车载人超过核定人数未达20%的,或者驾驶其他载客汽车载人超过核定人数20%以上将受到扣除6分的处罚。
      4、高速公路超速未达到20%(新增):驾驶中型以上载客载货汽车、校车、危险物品运输车辆在高速公路、城市快速路上行驶超过规定时速未达20%的车辆将受到扣除6分的处罚。
      5、普通公路超速20%以上(新增):驾驶中型以上载客载货汽车、校车、危险物品运输车辆在高速公路、城市快速路以外的道路上行驶或者驾驶其他机动车行驶超过规定时速20%以上未达到50%将受到此处罚。
      6、驾驶机动车不按照规定避让校车(新增),扣6分;
      7、低能见度气象条件下驾驶机动车在高速公路上不按规定行驶(新增),在恶劣天气中,应该做到:
      能见度小于200米时,开启雾灯、近光灯、示廓灯和前后雾灯,车速不得超过每小时60公里,与同车道前车保持100米以上的距离;
      能见度小于100米时,开启雾灯、近光灯、示廓灯、前后雾灯和危险报警闪光灯,车速不得超过每小时40公里,与同车道前车保持50米以上的距离;
      能见度小于50米时,开启雾灯、近光灯、示廓灯、前后雾灯和危险报警闪光灯,车速不得超过每小时20公里,并从最近的出口尽快驶离高速公路。
      8、机动车驾驶证被暂扣期间驾驶机动车,在被暂扣期间属于无照驾驶。
      9、驾驶营运客车以外的机动车在高速公路车道内停车;
    

     doc2.docx中内容为

    核心提示:最新交通法规扣分细则规定,扣三分的行为有十二种,表现在驾驶货车载物超过核定载质量未达30%的;驾驶禁止驶入高速公路的机动车驶入高速公路的;驾驶机动车违反禁令标志、禁止 标线指示等方面。法律快车编辑在下文为您详细整理相关内容,仅供参考。
      最新交通法规扣分细则规定,机动车驾驶人有下列违法行为之一,一次记3分:
      (一)驾驶营运客车(不包括公共汽车)、校车以外的载客汽车载人超过核定人数未达20%的;
      (二)驾驶中型以上载客载货汽车、危险物品运输车辆在高速公路、城市快速路以外的道路上行驶或者驾驶其他机动车行驶超过规定时速未达20%的;
      (三)驾驶货车载物超过核定载质量未达30%的;
      (四)驾驶机动车在高速公路上行驶低于规定最低时速的;
      (五)驾驶禁止驶入高速公路的机动车驶入高速公路的;
      (六)驾驶机动车在高速公路或者城市快速路上不按规定车道行驶的;
      (七)驾驶机动车行经人行横道,不按规定减速、停车、避让行人的;
      (八)驾驶机动车违反禁令标志、禁止 标线指示的;
      (九)驾驶机动车不按规定超车、让行的,或者逆向行驶的;
      (十)驾驶机动车违反规定牵引挂车的;
      (十一)在道路上车辆发生故障、事故停车后,不按规定使用灯光和设置警告标志的;
      (十二)上道路行驶的机动车未按规定定期进行安全技术检验的。
      以上是现场处罚,下面法律快车为您介绍非现场处罚扣掉3分的行为:
      从2012年7月起,7种摄录违法(非现场处罚)罚款+记分:(是摄录罚款)1、闯红灯,罚款200元。2、不按导向车道行驶,罚款200元。3、违反禁止标线行驶,罚款100元。4、超速行车,罚款200元。5、机动车走非机动车车道,罚款100元。6、逆行,罚款200元。7、违停车,罚款200元。
      下述非现场处罚交通违法记3分
    2、严重超速:驾驶中型以上载客载货汽车、校车、危险物品运输车辆在高速公路、城市快速路上行驶超过规定时速20%以上或者在高速公路、城市快速路以外的道路上行驶超过规定时速50%以上,以及驾驶其他机动车行驶超过规定时速50%以上。
    

    最终的结果为

    ********************************************************************************
    文件 ./document/doc1.docx 加载中……
    加载完成,用时:  0:00:00.004986
    段落数:       26 个。
    短句数:       70 句。
    字符数:     1684 个。
    ********************************************************************************
    文件 ./document/doc2.docx 加载中……
    加载完成,用时:  0:00:00.003001
    段落数:       18 个。
    短句数:       43 句。
    字符数:      835 个。
    ************************************开始比对...*************************************
    处理进行中,已处理段落    0 (总数 0026 ) 
    ************************************ 发现相同内容 ************************************
    文件1第0003段内容:['\u3000\u30002、严重超速:驾驶中型以上载客载货汽车、校车、危险物品运输车辆在高速公路、城市快速路上行驶超过规定时速20%以上或者在高速公路、城市快速路以外的道路上行驶超过规定时速50%以上', '以及驾驶其他机动车行驶超过规定时速50%以上']
    文件2第0018段内容:['2、严重超速:驾驶中型以上载客载货汽车、校车、危险物品运输车辆在高速公路、城市快速路上行驶超过规定时速20%以上或者在高速公路、城市快速路以外的道路上行驶超过规定时速50%以上', '以及驾驶其他机动车行驶超过规定时速50%以上']
    相同内容: ['2、严重超速:驾驶中型以上载客载货汽车、校车、危险物品运输车辆在高速公路、城市快速路上行驶超过规定时速20%以上或者在高速公路、城市快速路以外的道路上行驶超过规定时速50%以上', '以及驾驶其他机动车行驶超过规定时速50%以上']
    相同字符比:100.00%
    相同字符数: 110
    
    
    比对完成,总用时:  0:00:00.001989
    [Finished in 0.2s]

     

    四、出现问题

    解决方法

    pip install python-docx

    出现问题2 

    解决方法 

    展开全文
  • 1选择高亮的颜色 2 选择替换,更多 3 选择格式,突出显示 注意替换为后面有突出显示才能正确突出显示,全部替换就行

     

     

    1选择高亮的颜色

    2  选择替换,更多

    3

    选择格式,突出显示

    注意替换为后面有突出显示才能正确突出显示,全部替换就行

     

     

    展开全文
  • python读取word文档并作简单的文档筛选 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们...

    python读取word文档并做简单的批量文档筛选

    最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了python-docx这个库,抱着学习与实践结合的态度,准备记录一下。

    (一)python-docx库

    • 查阅官方的英文文档:python-docx文档
      python-docx is a Python library for creating and updating Microsoft Word (.docx) files.
      很直观地可以看出,这个包可以创建和更新以.docx为后缀的 MS word文件,并可以进行相关一系列的操作。
      安装:pip install python-docx (一般来说直接可以安上)
      或:pip install -i http://pypi.douban.com/simple python-docx
      或:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx
      (下面两种为使用镜像安装,最近发现用豆瓣镜像源安装第三方库基本都能安装上,感觉很方便而且速度也快,使用镜像安装需要加上-i,第二个是清华大学的镜像,应用起来也很方便,而且据说比豆瓣的镜像源还要全一些)

    • docx库中的一些基本操作

    1. 打开一个已有的文档
    from docx import Document
    document = Document(“test.docx”) 
    #打开已有的test.docx文档(路径可以自己制定 XX:/LL/MM.docx)并创建对象
    document.save('test.docx') #名字不同另存为 名字相同覆盖
    
    1. 创建一个新的文档
    #创建一个新的文档对象,保存为test.docx
    from docx import Document
    document = Document() 
    document.save('test.docx')
    
    1. 读取word文档内容(非表格表格
    from docx import *
    file = Document('test.docx')
    for para in file.paragraphs:        # 遍历文档中的每个段落
        print( para.text )              # 输出每个段落的内容
    
    for tb in file.tables:              # 遍历文档中的每个表格
        for row in tb.rows:             # 遍历每个表格中的行
            for cell in row.cells:      # 遍历一行的所有单元格
                print( cell.text )      # 输出单元格的内容
    print(doc.tables[0].cell(5,5).text) # 表格的具体定位
    #tables[0]:文档中的第一个表格
    #cell(5,5):表格中第六行第六列的单元格
    
    1. 向文档中写入内容
    from docx import *
    from docx.shared import Inches
    import os
    path="E:/temp2/"
    file = Document() # 创建一个已存在的 word 文档的对象
    # 添加标题,设置标题等级
    file.add_heading('This is a document wirten by Python-docx',level=0) 
    file.add_heading('This is a document wirten by Python-docx',level=1)
    file.add_heading('This is a document wirten by Python-docx',level=2)
    paragraph = file.add_paragraph('This is a new paragraph') # 添加段落
    # 在一段文字后面追加
    paragraph.add_run('Wow').bold = True
    paragraph.add_run('Good').italic = True
    file.add_page_break()  # 新起一页
    # 添加表格,第三个属性为带边框
    table = file.add_table(rows=2, cols=2, style='Table Grid') 
    for i in range(2):
        for j in range(2):
            cell = table.cell(i, j)
            cell.text = "第" + str(i + 1) + "行第" + str(j + 1) + "列"
    file.add_page_break()  # 新起一页
    Names = os.listdir(path)
    for Name in Names:
        if ".jpg" in Name:
            a=Name
            file.add_picture(path + a, width=Inches(4.0))  # 添加图片
            paragraph = file.add_paragraph('')  # 添加段落
    file.save(path + 'test.docx') # 保存新创建的 word 文档
    

    (二)win32com模块

    官方的介绍是:
    Python extensions for Microsoft Windows Provides access to much of the Win32 API, the ability to create and use COM objects, and the Pythonwin environment.

    大意就是win32com提供Python扩展的大部分Win32 API的访问,并且能够创建设使用COM对象和 Pythonwin环境.
    由于该模块没有官方的文档介绍(可能是我没有搜到),所以我只是大概地记录一下

    from win32com import client as wc
    word = wc.Dispatch("Word.Application") #创建word对象实例
    doc = word.Documents.Open( FileName = filename ) #打开新的word文档
    newdoc = word.Documents.Add() # 创建新的文档
    
    myRange = doc.Range() # Range()方法指定文档范围 
    myRange.InsertBefore('Hello from Python!') # 插入文字
    
    doc.Save() # 文档保存
    doc.SaveAs("xx.后缀",16) #文档另存为,可以对word进行转格式,以docx为例
    #下面的列表为常用格式的参数代码
    

    不同格式的参数列表

    (三)批量筛选word文档

    需求是筛选掉内容中没有“报告编号”字符的文档,因为待筛选的文档中存在着.doc和.docx文档,故需要先进行格式转换,然后再筛选.

    在写程序的过程中记录的问题:

    • 在操作文档时,文件名中有空格的文档会导致程序报错,故在进行文档操作前对所有文件名进行去空格的重命名操作,其中涉及到字符串函数和文件名重命名函数,去空格直接用了replace(),方法很多只要实现就可以了,但是要注意到replace()返回一个新的字符串并不改变原字符串的内容;文件重命名用到了os模块下的rename(),两个参数都是路径+文件名。
    import os
    import docx
    import shutil
    from win32com import client as wc
    path = "E:/pjtest/" #需要操作的文件夹目录
    path1 = "E:/temp/"  #存储转docx文件夹目录
    path2 = "E:/sxtest/" #存储筛选后文件夹目录
    def ChangeAndSave(file):
        word = wc.Dispatch("Word.Application")
        doc = word.Documents.Open(path+file+".doc")
        doc.SaveAs(path1 + file+ ".docx",16)
        doc.Close()
        word.Quit()
    def Judge(doc):
        counter=0
        for para in doc.paragraphs:
            counter=counter+1
            if "报告编号" in para.text:
                print("该报告是可用的")
                if ".docx" in rsfile:
                    shutil.move(path1 + rsfile, path2)
                else:
                    shutil.move(path1 + i[0]+".docx",path2)
                print("该报告已存入sxtest文件夹下")
                break
            else:
                if counter<len(doc.paragraphs):
                    continue
                else:
                    print("该报告是不可用的")
                    break
    files= os.listdir(path) #得到文件夹下的所有文件名称
    for file in files:#遍历文件夹
        oldname=path+file
        rsfile=file.replace(" ","")
        #rsfile="".join(file.split()) 也可以用这种方法去空格
        newname=path+rsfile
        if oldname != newname:
            os.rename(oldname,newname)
        else:
            pass
        if ".docx" in rsfile:
            shutil.move(path+rsfile,path1)
            print("该报告为.docx格式并已存入temp文件夹下")
            doc = docx.Document(path1 + rsfile)
            Judge(doc)
        else:
            i=rsfile.split(".doc")
            ChangeAndSave(i[0])
            print("该报告已转化为.docx格式并已存入temp文件夹下")
            doc = docx.Document(path1 + i[0]+".docx")
            Judge(doc)
    
    展开全文
  • 网上没有写的都不清晰 我以自己的实例进行解释吧 概念:通配符(这里借鉴了Linux)的思想 假如一个文档里面有1000行 其中有160行开头是: 好好学习的 这5个字开头 你需要提取160行 “好好学习的” 这行内容 该...

    网上没有写的都不清晰

    我以自己的实例进行解释吧

    概念:通配符(这里借鉴了Linux)的思想

    假如一个文档里面有1000行

    其中有160行开头是:  好好学习的      这5个字开头

    你需要提取160行     “好好学习的”   这行内容   该怎么办?

    操作

    0 首先将手动换行符变为换行符(这一步保证你提取的都是一行的内容)

    ctrl + f 

    将  ^l      全部替换为    ^p

    1 使用通配符进行匹配

    ctrl  +  a  一定要全选啊

    ctrl   +  f  

    然后复制粘贴即可

    (务必注意,全选啊亲)

    展开全文
  • 文章目录分段函数解析问题一:导入Word中的表格内容问题二:筛选指定范围内数字问题三:加粗以及改变指定数字的字体以及颜色问题四:忽略除数字外的内容(如文字、空格等)完整函数(可直接复制使用)TIPS &...
  • 公告: 为响应国家净网行动,部分...参考回答:选中,在格式-字体中选择“上标”话题:怎样在WORD中查重复出现的词,回答:在WORD中查找词,-查找,输入相应词语即可,查找开始。一般用于改错的。这样能比较准确。。...
  • 回答:Excel2003删除重复数据和重复行方法:第1种情况:重复行的内容完全一致如下图所示,第2行和第4行的内容完全相同相同内容操作方法:选中表中的所有记录(注意,此时应将每列的标题行也选择上,否则筛选完的...
  • 展开全部问:WORD里边怎样设置每页不同32313133353236313431303231363533e59b9ee7ad9431333264643764的页眉?如何使不同的章节显示的页眉不同?答:分节,每节可以设置不同的页眉。文件——页面设置——版式——页眉...
  • 如何去掉word中重复的字?一篇文章我想去掉里面重复的字,比如“百度经验百度经验不错啊百度文库百度百科百度百科相当好”,去重后为“百度经验不错啊 文库百科相当好”。当然这是比喻,实际更复杂,我不可能每个词...
  • 主要应用了通配符这个高级工具 https://jingyan.baidu.com/article/ca2d939d6adbf2eb6c31ce24.html 在“查找内容”的框中输入: ([!^11^13]@)\1 在框的左下角点下“更多” ......
  • 计算机考试 word

    千次阅读 2021-07-10 03:56:22
    2006年教师职称计算机考试试题(第5章)第五章Word 2000文字处理软件1、打开WORD文档一般是指(B)A把文档的内容从内存中读入并在屏幕上显示出来B把文档的内容从磁盘上调入内存并在屏幕上显示出来C为指定的文档开设一个...
  • 那么我们可以遍历每一张表,然后遍历第一列(名称列,也可以看作A列)每一个有数据的单元格,如果单元格中的文字为我们需要的档案名,就把这一行提取出来放到新的表格中,进一步梳理步骤为 建立一个新的EXCEL工作簿 新...
  • word2vec和word embedding有什么区别?

    千次阅读 2017-12-18 11:26:29
    作者:Scofield链接:...很好,正好可借此机会介绍词向量、word2vec以及DeepNLP整套相关的东西:文章很长,是从CSDN上写好复制过来的,亦可直接跳到博客观看:深度学习(Deep Learning)
  • 推荐 Word、EXCEL必备工具箱

    千次阅读 2019-09-20 09:41:36
    8、处理工具→处理→新增功能“Word转Excel”,用于最大程度保留word原有格式,直接将Word文档转excel文档。 9、“查找功能”改进:能够不区分字符大小写进行EXCEL必备工具箱的功能查找,更加方便。 10、汇总工具...
  • 实战药物分子筛选之一_初探

    千次阅读 2019-06-07 11:26:28
    基于人工智能的药物分子筛选,是最近在DC大数据平台上看到的一个新比赛.这个题目对于我这种半科盲来说好难.花了一些时间才弄明白它是干嘛的.这是一家药品公词举办的比赛.我理解题目是这样的:给出三种数据:致...
  • 还可以对各种信息(如视频、语言、文字、图形、图像、音乐等)通过编码技术进行算术运算和逻辑运算,甚至进行推理和证明。 计算机内部操作是根据人们事先编好的程序自动控制进行的。用户根据解题需要,事先设计好...
  • 经典Office 2003专升本复习题(Word、Excel、PowerPoint) 一、Word 2003 1. 启动 Word 是指: 将 Word 从硬盘中调入主存执行 2. 菜单栏: 文件( F )、编辑( E )、视图( V )、插入( I )、格式( O )、...
  • word(2010)宏使用-批量提取word数据

    千次阅读 2020-06-22 14:59:38
    word 2010 宏的使用Word中对宏的定义Word宏的优缺点Word宏运用实例---批量提取word数据结语 Word中对宏的定义 Microsoft Word中对宏定义为:“宏就是能...说到Word宏,就不得不提出VBA,宏和VBA本质相同,都是使用VB
  • 下面就为大家盘点一下,Word中如有神助的9个技巧:【1】一堆文字如何批量转成表格?【2】打印内容多一页,如何省纸?【3】如何只打印文档中的某些段落文字?【4】Word中的分屏功能,一份文档轻松上下对照!【5】生僻...
  • 词嵌入来龙去脉 word embedding、word2vec

    万次阅读 多人点赞 2017-08-14 21:57:45
    0词嵌入来龙去脉 NLP的核心关键语言表示Representation NLP词的表示方法类型 1词的独热表示one-hot representation 2词的分布式表示distributed representation NLP语言模型 ...词嵌入 word embedding
  • 【计算机基础】03-Word习题

    千次阅读 2020-05-09 22:00:12
    2. Word 2010不能实现高级筛选功能,仅能对表格进行简单的排序,不能进行筛选操作 3. 文件选项卡中的关闭命令只能关闭当前文档,不能退出word 2010程序,文件选项卡中的退出命令可以退出word 2010程序 4. 文本默认...
  • 4、这时有Excel中会出现一个Word文档编辑框,在里面直接输入内容,方法与在Word中编辑文档完全相同。 5、根据需要拖动Word文档对象四周的控点,可以调整Word文档对象的大小,也可以将鼠标移动到边缘,通过拖动改变...
  • word2vec tf实战

    2020-03-22 18:35:07
    文章目录下载语料库制作词表生成词对建立模型 下载语料库 # 第一步: 在下面这个地址下载语料库 def maybe_download(filename, expected_bytes): ... 最终会检查文字的字节数是否和expected_bytes相同。 """ ...
  • 发送表格与问题至Formmr@qq.com(请尽可能详细,私密内容可以用其他文字代替) 怎么把excel中的数据批量导入到word中的表格中 下面一下使用“邮件合并法”批量导excel数据到word表格中的方法, 1. 打要进行邮件合并...
  • Word2Vec+ Word Embedding

    2019-03-11 15:47:35
    word2vec和word embedding有什么区别? 2018年06月18日 22:53:30阿华Go阅读数:1625 作者:Scofield 链接:https://www.zhihu.com/question/53354714/answer/155313446 来源:知乎 著作权归作者所有。商业转载请...
  • 二、读写Word文档 三、修改Word文档样式 四、使用Word模板 五、自动生成数据分析报告 前言 一、python-docx库介绍 在程序中导入python-docx库实现创建、修改Word(.docx)文件。注意:python-docx只支持操作...
  • Word Embedding 浅析

    2020-09-15 10:40:11
    文字对于计算机来说就是一个个 鬼画符,计算机看不懂,也无法直接处理 因此NLP第一步就是 : 将 文字 转换为计算机能看懂的数字 传统计算机系统会将一个个汉字转换为特殊的字符串编码,如:utf-8、gb2312 等等 ...
  • NLP(词向量、word2vec和word embedding)

    千次阅读 2019-05-13 18:21:15
    最近在做一些文本处理相关的任务,虽然对于相关知识有所了解,而且根据相关开源代码也可以...,除了“爱”那个位置的元素肯定要算在loss里面,word2vec就用基于huffman编码的Hierarchical softmax筛选掉了一部分不可能...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,207
精华内容 1,682
关键字:

word筛选相同文字