精华内容
下载资源
问答
  • 导入Word文档

    2019-05-28 08:48:14
    开发工具与关键技术:Visual Studio 2015 导入Word文档 作者:袁何恩 撰写时间:2019年5月27日 今天,我要和大家分享的技术是导入word文档。 导入word文档是把word文档保存到临时的文件夹里,也就是Session里,是以...

    导入Word文档
    开发工具与关键技术:Visual Studio 2015 导入Word文档
    作者:袁何恩
    撰写时间:2019年5月27日
    今天,我要和大家分享的技术是导入word文档。
    导入word文档是把word文档保存到临时的文件夹里,也就是Session里,是以一个word格式保存,再把word文档转化为HTML文件的格式,转换为HTML文件,再通过正则表达式,把想要的筛选出来,删除不必要的标签。
    一、 保存word文档。
    1、在视图上写上提交表单的方法,代码图如下:
    在这里插入图片描述
    2、在控制器中写上word文档保存的代码。先写上HttpPostedFileBase file来接收页面传来的文件,再判断页面传来的文件是否为空,判断后缀名是否是docx、doc,再自定义文件名,避免文件名重复,再把word文档保存到临时的文件夹里,也就是Session里,是以一个word格式保存,这需要有文件保存的路径 判断路径是否存在,如果存在就直接拼接路径,不存在就创建路径,再拼接。代码图如下:
    在这里插入图片描述
    图中HttpPostedFileBase file接收页面传来的文件的意思,file 是页面传来的文件的意思, file != nul是判断页面传来的文件是否为空的意思,GetExtension是获取文件的后缀名的意思,HttpPostedFileBase是充当类的基类,这些类提供对客户端已上载的单独文件的访问,DateTime是当前的时间,FileName是在派生类中重写时,获取客户端上文件的完全限定名,Combine是将两个字符串组合成一个路径,Server是获取提供Wed请求处理期间使用的方法的HttpPostedFileBase 对象,MapPath是在派生类重写时,返回与Web服务器上的指定虚拟路径相对应的物理文件路径。SaveAs是在派生类中重写时,保存上载文件的内容。
    二、 把word文档转化为HTML文件的格式。
    1、 先转换为HTML文件,再保存到相应的路径,把原来的fileName里面的获取到的fileExtension(文件的扩展名),加上".html",更替扩展名,然后,引用“Spire.Doc.for .NET”, “Spire.Doc.for .NET”是一款专业的Word .NET类库,用于快速创建,读取,写入,转换,打印Word文档。从相应路径将文件读取到document中,路径是之前存放word文档的路径。将文件转化为html格式并保存到另一个指定的路径下,在把file保存在我们拼接好的路径下面代码图如下:
    在这里插入图片描述
    图中Replace是返回一个新字符串,其中当前实例中出现的所有指定字符串都替换为另一个指定的字符串。Document是先引用“Spire.Doc.for .NET”,才有的。Path是对包含文件或目录路径信息的string实例执行操作。这些操作是以跨平台的方法式执行的。
    2、另存为html。另存为html,读取html里所有的内容,再用正则表达式,将HTML中的

    替换为带有自定义属性的p标签,提取所有的P标签,代码图如下:
    在这里插入图片描述
    图中Replace是在指定的输入字符串内,使用指定的替换字符串替换与指定正则表达式匹配的所有的字符串,Rege是表达不可变的正则表达式。ReadAllText是打开一个文本文件,读取文件的所有行,然后关闭该文件,Matches是在指定的输入字符串中搜索指定的正则表达式的所有匹配项。

    展开全文
  • 用python批量读取word文档并整理关键信息到excel表格

    万次阅读 多人点赞 2018-06-02 08:20:57
    目标最近实验室里成立了一个计算机兴趣小组倡议大家多把自己解决问题的经验记录并分享就像在CSDN写博客一样虽然刚刚起步但考虑到后面此类经验...建立电子数据库从而使得其他人可以迅速地搜索到相关记录据说“人生苦短...
    目标

    最近实验室里成立了一个计算机兴趣小组

    倡议大家多把自己解决问题的经验记录并分享

    就像在CSDN写博客一样

    虽然刚刚起步

    但考虑到后面此类经验记录的资料会越来越多

    所以一开始就要做好模板设计(如下所示)


    方便后面建立电子数据库

    从而使得其他人可以迅速地搜索到相关记录

    据说“人生苦短,我用python”

    所以决定用python从docx文档中提取文件头的信息

    然后把信息更新到一个xls电子表格中,像下面这样(直接po结果好了)

    而且点击文件路径可以直接打开对应的文件(含超链接)


    代码实现

    1. 采集docx里面文件头信息

    # -*- coding:utf-8 -*-
    
    # 此程序可扫描Log中的docx文件并返回基本信息
    
    import docx
    from docx import Document
    
    test_d = '../log/sublime搭建python的集成开发环境.docx'
    
    def docxInfo(addr):
    	document = Document(addr)
    
    	info = {'title':[],
    	'keywords':[],
    	'author':[],
    	'date':[],
    	'question':[]}
    
    	lines = [0 for i in range(len(document.paragraphs))]
    	k = 0
    	for paragraph in document.paragraphs:
    		lines[k] = paragraph.text
    		k = k+1
    
    	index = [0 for i in range(5)]
    	k = 0
    	for line in lines:
    		if line.startswith('标题'):
    			index[0] = k
    		if line.startswith('关键词'):
    			index[1] = k
    		if line.startswith('作者'):
    			index[2] = k
    		if line.startswith('日期'):
    			index[3] = k
    		if line.startswith('问题描述'):
    			index[4] = k
    		k = k+1
    
    	info['title'] = lines[index[0]+1]
    
    	keywords = []
    	for line in lines[index[1]+1:index[2]]:
    		keywords.append(line)
    	info['keywords'] = keywords
    
    	info['author'] = lines[index[2]+1]
    
    	info['date'] = lines[index[3]+1]
    
    	info['question'] = lines[index[4]+1]
    
    	return info
    
    if __name__ == '__main__':
    	print(docxInfo(test_d))
    2. 遍历log文件夹,进行信息更新
    # -*- coding:utf-8 -*-
    
    # 此程序可以批量扫描log中的文件,如果碰到docx文档,
    # 则调用readfile()提取文档信息,并将信息保存到digger
    # 日志列表.xls之中,方便后期快速检索
    
    import os,datetime
    import time
    import xlrd
    from xlrd import xldate_as_tuple
    import xlwt
    from readfile import docxInfo
    from xlutils.copy import copy
    
    # 打开日志列表读取最近一条记录的更新日期
    memo_d = '../log/digger日志列表.xls'
    memo = xlrd.open_workbook(memo_d) #读取excel
    sheet0 = memo.sheet_by_index(0) #读取第1张表
    memo_date = sheet0.col_values(5) #读取第5列
    memo_n = len(memo_date) #去掉标题
    if memo_n>0:
    	xlsx_date = memo_date[memo_n-1] #读取最后一条记录的日期,
    	latest_date = sheet0.cell_value(memo_n-1,5)
    	# 返回时间戳
    
    # 新建一个xlsx
    memo_new = copy(memo)
    sheet1 = memo_new.get_sheet(0)
    
    # 重建超链接
    hyperlinks = sheet0.col_values(6) # xlrd读取的也是text,造成超链接丢失
    k = 1
    n_hyperlink = len(hyperlinks)
    for k in range(n_hyperlink):
    	link = 'HYPERLINK("%s";"%s")' %(hyperlinks[k],hyperlinks[k])
    	sheet1.write(k,6,xlwt.Formula(link))
    	k = k+1
    
    
    # 判断文件后缀
    def endWith(s,*endstring):
        array = map(s.endswith,endstring)
        if True in array:
        	return True
        else:
        	return False
    
    # 遍历log文件夹并进行查询
    log_d = '../log'
    logFiles = os.listdir(log_d)
    for file in logFiles:
    	if endWith(file,'.docx'):
    		timestamp = os.path.getmtime(log_d+'/'+file)
    		if timestamp>latest_date:
    			info = docxInfo(log_d+'/'+file)
    			sheet1.write(memo_n,0,info['title'])
    			keywords_text = ','.join(info['keywords'])
    			sheet1.write(memo_n,1,keywords_text)
    			sheet1.write(memo_n,2,info['author'])
    			sheet1.write(memo_n,3,info['date'])
    			sheet1.write(memo_n,4,info['question'])
    			#获取当前时间
    			time_now = time.time() #浮点值,精确到毫秒
    			sheet1.write(memo_n,5, time_now)
    			link = 'HYPERLINK("%s";"%s")' %(file,file)
    			sheet1.write(memo_n,6,xlwt.Formula(link))
    			memo_n = memo_n+1
    os.remove(memo_d)
    memo_new.save(memo_d)
    print('memo was updated!')

    其实还有一些操作电子表格更好的模块,比如panda、xlsxwriter、openpyxl等。不过上述代码已经基本能实现功能,而且科研狗毕竟没那么多时间写代码做调试,所以后面有空再update吧!

    致谢
    在此过程中大量借鉴了CSDN论坛中各位大神的各种经验!!!


    展开全文
  • 百度文库在我们需要查找复制一些文档的时候经常用到,下载要收费,开会员,一个字都不给复制,这个时候初学python的小伙伴肯定有个写个百度文库爬虫的想法,这里我给各位分享一下一个简易但实用的爬虫脚本,提供url...

    @Author:Runsen

    百度文库在我们需要查找复制一些文档的时候经常用到,下载要收费,开会员,一个字都不给复制,这个时候初学python的小伙伴肯定有个写个百度文库爬虫的想法,这里我给各位分享一下一个简易但实用的爬虫脚本,提供url,生成txt文件。

    首先获得url(以这个为例子:https://wenku.baidu.com/view/4e29e5a730126edb6f1aff00bed5b9f3f90f72e7.html )

    首先先get一下,我们确认需要爬取的数据是不是异步加载的;如果是异步加载的直接爬取网页是爬不到的。很明显就是前后端分离,

    这应该是Ajax交互,所以我们直接找接口就好了。

    这个就是纯肉眼找了,我自己找了挺久的发现数据都存在0.json的文件下

    一旦我们构造好了url就能获取到json格式的数据了,之后的操作就是清洗文本了。

    下面是一个json的网址

    https://wkbjcloudbos.bdimg.com/v1/docconvert8356/wk/4ee8c668ab8d88edfad5b05e42ed3771/0.json?responseContentType=application%2Fjavascript&responseCacheControl=max-age%3D3888000&responseExpires=Sun%2C%2013%20Sep%202020%2017%3A25%3A26%20%2B0800&authorization=bce-auth-v1%2Ffa1126e91489401fa7cc85045ce7179e%2F2020-07-30T09%3A25%3A26Z%2F3600%2Fhost%2F8b5137056c0904497a95a3ce7519aeda82a3c1dccbf011b49328360ae7daf3e2&x-bce-range=0-19273&token=eyJ0eXAiOiJKSVQiLCJ2ZXIiOiIxLjAiLCJhbGciOiJIUzI1NiIsImV4cCI6MTU5NjEwNDcyNiwidXJpIjp0cnVlLCJwYXJhbXMiOlsicmVzcG9uc2VDb250ZW50VHlwZSIsInJlc3BvbnNlQ2FjaGVDb250cm9sIiwicmVzcG9uc2VFeHBpcmVzIiwieC1iY2UtcmFuZ2UiXX0%3D.k1vSAuB04pBFsJwuVOIYHosO5CQMyAqfPGK2QJ8D73g%3D.1596104726
    

    我们对比几个请求的url发现,x-bce-range 的规律是显而易见的,范围来的嘛。但是一看到token就有点不妙了,token变化的区域都是无规则的,一想应该就能想到JS加密。

    这里的token是根据docId进行加密的

    一般像这样的JS加密,想要破解的话就要求JS的水平很高。

    但是我在网页源代码发现了0.json,后面跟着token。

    json数据的url全在网页的HTML里面!所以接下来我们只需要用正则把它全部取出来,并做适当的处理,然后在发起请求。但是发现还是不行,之前上面的内容全部作废

    后来通过百度,告诉了我百度文库的接口是https://wkretype.bdimg.com//browse/getbcsurl?doc_id=,后面接docId

    下面就是爬取百度文库的代码。

    import requests
    import re
    import json
    import os
    import  time
    
    #根据文件决定函数
    y = 0
    def doc(url):
        doc_id = re.findall('view/(.*).html', url)[0]
        html = requests.get(url).text
        lists=re.findall('(https.*?0.json.*?)\\\\x22}',html)
        lenth = (len(lists)//2)
        NewLists = lists[:lenth]
        for i in range(len(NewLists)) :
            NewLists[i] = NewLists[i].replace('\\','')
            txts=requests.get(NewLists[i]).text
            txtlists = re.findall('"c":"(.*?)".*?"y":(.*?),',txts)
            for i in range(0,len(txtlists)):
                global y
                print(txtlists[i][0].encode('utf-8').decode('unicode_escape','ignore'))
                if y != txtlists[i][1]:
                    y = txtlists[i][1]
                    n = '\n'
                else:
                    n = ''
                filename = doc_id + '.txt'
                with open(filename,'a',encoding='utf-8') as f:
                    f.write(n+txtlists[i][0].encode('utf-8').decode('unicode_escape','ignore').replace('\\',''))
            print("DOC文档保存在"+filename)
    
    def ppt(url):
        doc_id = re.findall('view/(.*).html',url)[0]
        url = "https://wenku.baidu.com/browse/getbcsurl?doc_id="+doc_id+"&pn=1&rn=99999&type=ppt"
        html = requests.get(url).text
        lists=re.findall('{"zoom":"(.*?)","page"',html)
        for i in range(0,len(lists)):
            lists[i] = lists[i].replace("\\",'')
        try:
            os.mkdir(doc_id)
        except:
            pass
        for i in range(0,len(lists)):
            img=requests.get(lists[i]).content
            with open(doc_id+'\img'+str(i)+'.jpg','wb') as m:
                m.write(img)
        print("PPT图片保存在" + doc_id +"文件夹")
    
    def txt(url):
        doc_id = re.findall('view/(.*).html', url)[0]
        url = "https://wenku.baidu.com/api/doc/getdocinfo?callback=cb&doc_id="+doc_id
        html = requests.get(url).text
        md5 = re.findall('"md5sum":"(.*?)"',html)[0]
        pn = re.findall('"totalPageNum":"(.*?)"',html)[0]
        rsign = re.findall('"rsign":"(.*?)"',html)[0]
        NewUrl = 'https://wkretype.bdimg.com/retype/text/'+doc_id+'?rn='+pn+'&type=txt'+md5+'&rsign='+rsign
        txt = requests.get(NewUrl).text
        jsons = json.loads(txt)
        texts=re.findall("'c': '(.*?)',",str(jsons))
        print(texts)
        filename=doc_id+'.txt'
        with open(filename,'a',encoding='utf-8') as f:
            for i in range(0,len(texts)):
                texts[i] = texts[i].replace('\\r','\r')
                texts[i] = texts[i].replace('\\n','\n')
    
                f.write(texts[i])
        print("TXT文档保存在" + filename)
    
    def pdf(url):
        doc_id = re.findall('view/(.*).html',url)[0]
        url = "https://wenku.baidu.com/browse/getbcsurl?doc_id="+doc_id+"&pn=1&rn=99999&type=ppt"
        html = requests.get(url).text
        lists=re.findall('{"zoom":"(.*?)","page"',html)
        for i in range(0,len(lists)):
            lists[i] = lists[i].replace("\\",'')
        try:
            os.mkdir(doc_id)
        except:
            pass
        for i in range(0,len(lists)):
            img=requests.get(lists[i]).content
            with open(doc_id+'\img'+str(i)+'.jpg','wb') as m:
                m.write(img)
        print("PDF图片保存在" + doc_id + "文件夹")
    
    def get_type(url):
        data = requests.get(url)
        typee = re.findall("'docType': '(.*?)',",data.text)
        typee_str = typee[0]
        return typee_str
    
    if __name__ == '__main__':
        url = input("请输入网址:")
        print("文档类型:"+get_type(url))
        eval(get_type(url))(url)
        print("3秒后退出")
        time.sleep(3)
    
    

    爬取的代码没有问题,可以运行成功。

    展开全文
  • Word文档去除烦人的防复制宏保防功能(word文档宏保护破解技巧)

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

    也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

                   

    Word文档去除烦人的防复制宏保防功能(word文档宏保护破解技巧)

    时下,有些单位传送的Word文档经常喜欢加宏保护,但有时要引用文中内容,却没办法复制,怎办?下面就是破解方法:

     

    word文档宏保护(word文档防复制)破解技巧

    最简单的方法一是:用“微软的矛攻微软的盾”----新建一个word文档,插入待破解的word文档,OK。

    方法二:1.用word把文档另存为网页。

                2.用记事本打开网页文件“编辑——查找”输入“UnprotectPassword”

                  这是关键,“<w:UnprotectPassword> ....... </w:UnprotectPassword>”

                   之间的下划线位置部分就是16进制加密信息了。把他改成“<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /><?xml:namespace prefix = st1 /><?xml:namespace prefix = st1 />8个0覆盖原文件。

                   3. 用word打开网页文件,“工具——取消文档保护”即可。

     

    方法三:word为了部分用户的需要,提供了保护功能,即允许察看,但不允许修改。可如果我们忘记了保护密码,该如何办呢?昨天,我在网络上搜索了一下,发现几乎都采用另存为web页的方法,这种方法也可行,但往往破坏文件的原有格式。下面介绍一种不损坏原有格式又可以去除保护的方法: 1. 观察是否受到保护 打开原文件,如果发现很多工具按钮和菜单都是灰色的,那就是受到保护了。 2. 打开受到保护的原文件(如果您怕,最好备份) 打开文件的方法就不用提了。。要不您说:罗嗦! 3. 将文件调入到宏编辑器中 选择“工具”-> “宏”-> “microsoft 脚本编辑器”。等会儿,这个过程稍微慢些... 提醒,如果没安装,那就需要自己安装了哦。。。 4. 去除保护部分的代码 等脚本编辑器出现后,按“ctrl+f”,查询“unprotectpassword”,即取消保护的密码部分。查询到后,将该行删除。 5. 保存修改 点击脚本编辑器中的“保存”按钮(不用我指出吧 ^-^),保存修改。然后关闭脚本编辑器窗口。保存的过程也比较慢,不要急嘛。。。等保存好了,关闭窗口即可。 5. word中取消保护 关闭脚本编辑器后,在word中,选择“工具”-> “取消文档保护”。ok!!!

               

    给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow

    这里写图片描述
    展开全文
  • .Net NPOI Word模板关键内容替换

    千次阅读 2019-04-26 17:34:32
    一、问题需求 在开发的一个项目中,需要根据给定的文档模板,将...第二页的数据会显示在封面中,而且使用SetLeading也无法把控间距,后来想到了,使用Word模板,将需要替换的内容设置成固定的标签,然后将新的word...
  • 设计了一个Word文档批量生成小工具软件

    万次阅读 多人点赞 2018-08-25 10:44:45
    最近,因工作需要开发了一个文档自动生成的小工具软件,即批量替换Word文档模板中设定标签为指定的内容Word文档模板为事先已经排版好的报表、公文等文件,但留下部分内容需要更改,将该内容设定为一个标签(如...
  • java 根据模板文件生成word文档

    万次阅读 多人点赞 2018-09-19 16:18:05
    最近需要做一个导出word的功能, 在网上搜了下, 有用POI,JXL,iText等jar生成一个word文件然后将数据写到该文件中,API非常繁琐而且拼出来的样式也不美观,于是选择了另一种方式----feemarker基于word模板的导出方式, ...
  • 控制生成word文档

    千次阅读 2007-03-31 23:28:00
    前段时间才做了一个,将测试数据生成word文档。 其中有表格、画图形 用模版文件来替换最方便,修改模版就修改了格式。 将要填的数据定义成一个符号如 在程序中执行word的搜索替换就行 如: xxxx.replace("","测试人")...
  • POI--生成word文档

    千次阅读 2017-03-22 14:00:57
    这是poi利用模板生成word文档的例子 public XWPFDocument doc = null; public XWPFDocument outputDoc = null; public String outputFilePath = null; public String tempFilePath = null; public boolean isFi
  • 一个比较简单的文库爬虫,所以带来的后遗症也很多明显,比较low比,只能爬取word,txt,ppt别想了,同时不能有折叠的内容,当然vip的内容也不要妄想了,百度吃相还是真难看,有钱真的...
  • java 生成word文档

    万次阅读 2016-10-26 18:51:37
    最近需要做一个导出word的功能, 在网上搜了下, 有用POI,JXL,iText等jar生成一个word文件然后将数据写到该文件中,API非常繁琐而且拼出来的样式也不美观,于是选择了另一种方式----feemarker基于word模板的导出方式, ...
  • 之前项目里遇到一个需求,需要前端上传一个word文档,然后后端提取出该文档的指定位置的内容并保存。这里后端用的是nodejs,开始接到这个需求,发现无从下手,主要是没有处理过word这种类型的文档,怎么解析? Excel...
  • C#、NPOI生成Word文档(模板)

    万次阅读 2018-08-03 16:23:05
    敲代码要养成好习惯,项目需要集成word导出,学习接触了npoi,因为做的时候网上文档资源不是很多,也比较杂乱,所以查了查,整理了整理,做个记录,也顺便把NPOI操作Word文档的一些基本套路分享给有需要的朋友。...
  • <br /> 本文通过一个实用例子完整演示如何在线打开word文档并高亮显示指定的关键文字。 1. 项目目的  目前,Office文件的在线处理越来越深入人心,越来越多的办公系统中的Word文档都采用了...
  • 使用Jacob来处理Word文档 Word或Excel程序是以一种COM组件形式存在的。如果能够在Java中调用Word的COM组件,就 能使用它的方法来获取Word文档中的文本信息。目前网上有许多提供这样的工具。 1 Jacob的下载 ...
  • 当我们从网上下载一个文档是总会发现下载的文档好像被什么框架固定住一样,不能像编辑其他word文档一样可以随意操作,原因就是部分网页文档故意设计了这种格式避免用户免费复制,所有直接从文库中复制的文字总是存在...
  • 多个word文档如何快速转换为pdf格式

    千次阅读 2015-08-21 10:44:25
    但是有的时候需要将大批的已经编辑完成的Word文档转换成PDF文本格式或者其他格式文档,怎么办?如果通过WPS文字的”另存为“那将是一件十分费时费力的事情。  可能有人会说了我们借助网上的在线PDF转换软件来实现吧...
  • Word文档如何自动生成文献摘要?

    千次阅读 2011-03-24 14:54:00
    Word 97/2000/XP/2003均支持此项功能,用Word打开需要编辑的论文后,在“工具”菜单选择“自动编写摘要”即可弹出对话框。
  • 关键代码 注意修改libreoffice安装路径,linux默认在/opt/libreoffice6.3;windows根据自定义安装地址确定 package com . chenlei . worddemo . util ; import java . io . * ; import java . util ...
  • * 但是如果是web请求导出时导出后word文档就会打不开,并且报XML文件错误,主要是编码格式不正确,无法解析 */ FileOutputStream fos = new FileOutputStream(outFile); OutputStreamWriter osWriter ...
  • 现代向量化表示挑战创建有效的文档嵌入,捕捉所有类型的文档,使其通过使用嵌入在文档级别进行搜索。 例如“蝙蝠是冠状病毒的来源”、“穿山甲中的冠状病毒”,由介词、形容词等连接一个或多个名词短语的短序列。这些...
  • 想起自己还在学生时代时,因为要写各种论文什么的,在参考资料时,总会遇到许多PDF格式的文档,但只可远观而不可亵玩,当时的解决方法就是全部手打字到word中,因为PDF无法复制黏贴,真的挺悲催的。知道上班工作之后...
  • Word 2003 长篇文档排版技巧

    千次阅读 2012-09-03 08:38:11
    简介 市场部经常要出各种分析报告,一写就是洋洋洒洒几...制作目录也是出力不讨好的事,尽管小王知道Word中有插入目录的功能,可是尝试了几次就弃之不用了,原因是系统总是提示有错误。现在只能手工输入目录,加班加点
  • 本文以替换为例,讲解一下如何使用Python在word中使用“通配符模式”(类似于正则表达式)替换文本内容。 #!/usr/bin/env python # -*- coding:utf-8 -*- import os import win32com from win32com.client...
  • MySQL服务器支持关键任务、重负载生产系统的使用,也可以将它嵌入到一个大配置(mass-deployed)的软件中去。 MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),MySQL数据库系统使用最常用的数据库管理语言–...
  • 索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下边分别介绍一下: 写在所有之前:下边所有介绍中的is参数都是inputStream,就是...
  • 搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。索引方法:就是先把各种文档先转化成纯文本再索引,所以...word文档:把wo

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,224
精华内容 8,489
关键字:

word文档搜索关键内容