精华内容
下载资源
问答
  • Word重复文字检测软件免安装文件

    千次阅读 2019-04-24 15:43:24
    本软件主要用于检测WORD文档内是否有重复字符,如有重复则红色标记显示! 文档检测前请确认文档内所有文字颜色为黑色!且当前文档为未打开状态! 第一步:点击浏览需要检测的文档,导入成功后弹出成功对话框,系统也...

    本软件主要用于检测WORD文档内是否有重复字符,如有重复则红色标记显示!

    文档检测前请确认文档内所有文字颜色为黑色!且当前文档为未打开状态!

    第一步:点击浏览需要检测的文档,导入成功后弹出成功对话框,系统也会自动将文档打开,一键分析按钮有效。
    第二步:点击一键分析按钮,等待进度条完成(如只检测汉字只勾选即可)

    注:1. 完成后即可查看结果,如需保存请手动保存!2. 在分析过程中请勿操作文档!

    说明:因不同系统配置原因,可能会有缺失必要文件报错情况(按同目录“控件注册方法.PDF”解决),如未能解决请联系我们!

    下载地址
    https://pan.baidu.com/disk/home?#/all?vmode=list&path=%2F软件

    本公司主要定制PC,安卓,MCU,ARM软件定制开发,工业控制器,无线通讯设备方案提供!

    联系人:张经理 137 5829 9565 QQ:2210999179

    欢迎前来交流!!!

    展开全文
  • 重复检测 要求: 1.使用外置库python-docx 2.将检测算法封装为函数并调用此函数实现功能 3.连续重复字删除到只剩一个 4.自定义指定某个字或词,输出出现次数 5.word文档来源不限,建议使用正则表达式实现算法 ...

    重复字检测

    要求:

    1.使用外置库python-docx
    2.将检测算法封装为函数并调用此函数实现功能
    3.连续重复字删除到只剩一个
    4.自定义指定某个字或词,输出出现次数
    5.word文档来源不限,建议使用正则表达式实现算法

    代码展示

    import docx
    import re
    
    class Solution:
        def my_remove(self):
            while 1:
                end_symbol = len(self)
                i = 0
                while i < len(self) - 1:
                    if i >= 0 and self[i] == self[i + 1]:
                        self = self[:i + 1] + self[i + 2:]
                        i -= 2
                    i += 1
                if end_symbol == len(self):
                    return self
        # 连续重复字删除到只剩一个
    
        def my_find(my_str, your_find):
            count = 0
            for index, value in enumerate(my_str):
                if your_find == value:
                    count += 1
                    print(your_find, '出现的位置:', index)  # 出现的位置
            print(your_find, '出现的次数:', count)  # 出现的次数
        # 获取字符串出现位置和次数
    
    doc = docx.Document(r'F:\python.docx')
    # 这里的F:\python.docx为文件路径
    content = ''.join(i.text for i in doc.paragraphs)
    print('原内容:{}'.format(content))
    # 所有段落合并为一个字符串
    
    Solution.my_find(content, '2')
    content = Solution.my_remove(content)
    print('删改重复值后:{}'.format(content))
    
    展开全文
  • 因此,只需将上述步骤通过代码执行,便可完成自动生成Word报告这一功能。 除了基本的实现步骤,系统自动生成Word报告模板时,还需解决以下技术难点: 1. 多页设置 Word类报表最显著的特点就是多页。因此,要实现...

    点击获取ActiveReports v14.0最新版下载

    在报表系统中,生成Word报告的常见步骤分为以下四步:采集原始数据、值后台传递、生成最终报告模板、实现打印和预览。可见,系统在生成报告之前,需要先拿到当前的原始数据,并在既定的占位空间内输入内容后,才能进入报表展示和打印等环节。因此,只需将上述步骤通过代码执行,便可完成自动生成Word报告这一功能。

    除了基本的实现步骤,系统自动生成Word报告模板时,还需解决以下技术难点:

    1. 多页设置

    Word类报表最显著的特点就是多页。因此,要实现Word报告模板,最先需要解决多页问题,借助专业报表工具ActiveReports即可实现如下多页效果:

    SpreadJS使用教程

    2. 页眉页脚位置控制及内容控制

    Word报表中页眉页脚会占据每页上部及下部区域,并重复显示相同的信息,如页码、企业信息、当前页标注等。不同的报告,对于页眉页脚的要求也不尽相同,如奇偶页页眉信息不同、页眉页脚信息需要单独设置样式等。

    SpreadJS使用教程

    3. 需要根据实时数据动态拼接

    检测报告会根据检测的主体,测试不同维度的数据。如下图,当检测体为农产品时,包含表1-10 的内容,而当检测体为其他化学用品时,只需要包含表1、表3-5的内容,其他内容如封皮、尾页、附表信息等都保持不变。

    SpreadJS使用教程

    4. 打印精度及效率问题

    Word报告,对打印的精准度要求非常高,尤其在批量生成Word报告的时候。因此,在报表系统中设计Word报表,最困难的不是设计模板布局,而是如何将多页结构,精准的打印到纸张上,以避免纸张浪费和打印不便的情况发生。

    5. 导出Word的兼容性

    在系统中生成的Word报告,一般还会用于导出或存档,因此在解决数据展示和打印的问题后,还需要考虑导出的模板能否在Word软件中打开并编辑。

    SpreadJS使用教程

    以上就是系统自动生成Word报告模板时,常见的5个技术难点。葡萄城,作为始终专注软件开发技术,并在报表和 BI 领域有着深厚技术积累的软件开发技术提供商,面对这些技术难点,又提出了哪些独创的开发思路呢?

    葡萄城:系统自动生成Word报表的开发思路

    SpreadJS使用教程

    1. 数据传递

    系统生成Word报告的前提是原始数据采集,因此数据必须要考虑存储的媒介,其可能来源于数据库,也可能是系统运行时数据。所以,用于生成Word报告的报表工具必须支持尽可能多的数据源。

    SpreadJS使用教程

    2. Word报表设计

    由于Word报告模板的样式复杂、多变,所以报表设计器需要具备“灵活、易用、可视化、高度类似Word操作”的特点。

    SpreadJS使用教程

    3. 数据展示

    葡萄城的报表工具ActiveReports能够将设计好的报表完全展示在系统中,并提供Word软件编辑器的界面布局。

    ActiveReports报表设计器提供了良好的渲染和加载机制,可兼容不同的技术平台,满足 WinForm、ASP.NET、ASP.NET MVC、WPF中各种报表的开发需要。

    4. 打印

    打印的重要性已经在前文介绍,这里需要考虑:借助何种机制传递给后台并调动打印接口,ActiveReports提供了独有的报表分层设计功能,可将复杂的报表分层,精确控制各数据控件及可见性,实现精准套打、批量打印、续打和导出。

    5. 导出

    ActiveReports的报表设计器在实现导出功能时严格遵循了OpenXmlStandard标准,以确保报表模板可以在Word中打开和编辑。

    以上就是报表系统中实现Word报告的技术难点和开发思路,Word报告与Excel类报表同属报表中最为复杂的样式类型,如果业务涉及此类功能的实现,我们需要详细的规划,并结合实际业务需求,才能找到问题的核心。

    ActiveReports 报表控件| 下载试用

    ActiveReports 是一款专注于 .NET 平台的报表控件,全面满足 HTML5 / WinForm / ASP.NET / ASP.NET MVC / WPF 等平台下报表设计和开发工作需求,作为专业的报表工具为全球超过 300,000 开发人员提供了全面的报表开发服务。

    本文转载自葡萄城

    展开全文
  • 恶意网页链接的检测方案有很多 例如http://fsecurify.com/using-machine-learning-detect-malicious-urls/ 该文使用了机器学习的方法,仅使用逻辑回归就达到了98.5% 的准确率 但是该算法存在一些问题,一个是用TFIDF...

    一、综述

    恶意网页链接的检测方案有很多

    例如http://fsecurify.com/using-machine-learning-detect-malicious-urls/

    该文使用了机器学习逻辑回归算法


    但是该算法存在一些问题,一个是用TFIDF方法来获取词频,该方法的缺陷就是只能获取单词在整段文字的词频信息,

    没办法获取上下文语境的信息


    本文从自然语言的角度解析URL链接,恶意链接与文本恰有一些相似之处,所以尝试了自然语言处理的

    方法来检测网页


    本文将会简单介绍一些算法


    二、算法介绍

    1)典型的利用CNN进行文本分类的思路

    卷积神经网络用于NLP的检测已经有很多实践以及论文支持,

    比如http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/

    利用CNN横向连接实现文本情感分析,本博文也是基于该原理,实现恶意网页检测。


    第一层进行一层低维词嵌入,把单词句子表示成向量形式,比较常用的词嵌入手段是word2vec,

    第二层在词向量上进行卷积操作,可以多次使用不同尺寸的filter, 这样每次划过的单词数量就不同,

    可以利用该特性自动抽取到上下文之间的关系特征。

    第三层进行max-pooling。


    2)重新思考URL检测问题

    从文本分类上获得启发,能否借鉴它的这种想法,利用到URL上来?

    博主把借鉴了这套网络,把它迁到url上来,对URL结构进行了分析。

    这里以一条链接举例说明url的低维嵌入方法,请看

    https://q.taobao.com/?spm=a21bo.50862.201859.7.spjPF3

    一般url分成三部分 : 协议//主机名+域名/参数

    三段之间是用" / "分割的,主机名和域名之间又是用"." 分割,参数之间的传递

    常用的分割符有"?", "=" ,"&" ,"-" ,"."等

    一般钓鱼的链接会在域名和主机名之间作文章,进行一些域名混淆的恶意行为

    而恶意用户请求会从请求参数作文章,比如进行恶意SQL注入

    博主用了这六个分隔符,实现了url的切割,可以获取到整条url重要字段的信息。


    需要注意的是,为了获取各个字段之间的位置关系,

    提取的时候不可随意将顺序调换或者随意删除重复字段,

    这是本文与综述中提到的文章所用的取词方法极大的不同之处,

    本文更强调的是字段与字段之间的关系,同时也兼顾了字段的出现频率。



    3)word2vec

    有了分割好的字段,就可以进行词向量训练了。

    简单描述下word2vec算法的思想



    Word2Vec实际上是两种不同的方法:ContinuousBag of Words (CBOW) 和Skip-gram。

     CBOW的目标是根据上下文来预测当前词语的概率。

     Skip-gram刚好相反:根据当前词语来预测上下文的概率(如图 )

    这实际上也是一种联系上下文的特征提取

    可以通过调节window来设置上下文的范围,其他还有很多调参细节,这里不再细说

    博主主要用它来实现切割好的单词的低维嵌入。


    接下来接入前文所描述的卷积结构。


    最后实现的结构如图所示








    对于字段之间的位置关系的记忆,LSTM也可以做到,但又是基于不同的原理,与本文讨论的思路不同

    博主后面有时间可能会尝试对比一下。


    三、核心代码

    import tensorflow as tf
    import numpy as np
    
    
    class URLCNN(object):
        def __init__(
                self, sequence_length, num_classes,
                embedding_size, filter_sizes, num_filters, l2_reg_lambda=0.0):
            # Placeholders for input, output, dropout
            self.input_x = tf.placeholder(tf.float32, [None, sequence_length, embedding_size], name="input_x")
            self.input_y = tf.placeholder(tf.float32, [None, num_classes], name="input_y")
            self.dropout_keep_prob = tf.placeholder(tf.float32, name="dropout_keep_prob")
    
            # Keeping track of l2 regularization loss (optional)
            l2_loss = tf.constant(0.0)
    
            # Embedding layer
            self.embedded_chars = self.input_x
            self.embedded_chars_expended = tf.expand_dims(self.embedded_chars, -1)
    
            # Create a convolution + maxpool layer for each filter size
            pooled_outputs = []
            for i, filter_size in enumerate(filter_sizes):
                with tf.name_scope("conv-maxpool-%s" % filter_size):
                    # Convolution layer
                    filter_shape = [filter_size, embedding_size, 1, num_filters]
                    W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W")
                    b = tf.Variable(tf.constant(0.1, shape=[num_filters]), name="b")
                    conv = tf.nn.conv2d(
                            self.embedded_chars_expended,
                            W,
                            strides=[1, 1, 1, 1],
                            padding="VALID",
                            name="conv")
                    # Apply nonlinearity
                    h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
                    # Maxpooling over the outputs
                    pooled = tf.nn.max_pool(
                            h,
                            ksize=[1, sequence_length - filter_size + 1, 1, 1],
                            strides=[1, 1, 1, 1],
                            padding="VALID",
                            name="pool")
                    pooled_outputs.append(pooled)
    
            # Combine all the pooled features
            num_filters_total = num_filters * len(filter_sizes)
            self.h_pool = tf.concat(pooled_outputs, 3)
            self.h_pool_flat = tf.reshape(self.h_pool, [-1, num_filters_total])
    
            # Add Batch Normalization
            epsilon = 1e-3
            with tf.name_scope("BATCH-NORM"):
                batch_mean,batch_var = tf.nn.moments(self.h_pool_flat,[0])
                scale = tf.Variable(tf.ones([384]))
                beta = tf.Variable(tf.zeros([384]))
                self.BN = tf.nn.batch_normalization(self.h_pool_flat,batch_mean,batch_var,beta,scale,epsilon)
    
            # Add 2-layer-MLP
            h1_units=128
            h2_units=64
            with tf.name_scope("FC-Layer-1"):
                W = tf.Variable(tf.truncated_normal(shape=[384,h1_units], stddev=0.1), name="W")
                b = tf.Variable(tf.constant(0.1, shape=[h1_units]), name="b")
                self.hidden_1 = tf.nn.relu(tf.nn.xw_plus_b(self.BN,W,b,name="fc1"))
            with tf.name_scope("FC-Layer-2"):
                W = tf.Variable(tf.truncated_normal(shape=[h1_units,h2_units], stddev=0.1), name="W")
                b = tf.Variable(tf.constant(0.1, shape=[h2_units]), name="b")
                self.hidden_2 = tf.nn.relu(tf.nn.xw_plus_b(self.hidden_1,W,b,name="hidden"))
    
            # Final scores and predictions
            with tf.name_scope("output"):
                W = tf.get_variable(
                        "W",
                        # shape=[num_filters_total, num_classes],
                        shape=[h2_units,num_classes],
                        initializer=tf.contrib.layers.xavier_initializer())
                b = tf.Variable(tf.constant(0.1, shape=[num_classes], name="b"))
                l2_loss += tf.nn.l2_loss(W)
                l2_loss += tf.nn.l2_loss(b)
                self.scores = tf.nn.xw_plus_b(self.hidden_2, W, b, name="scores")
                self.predictions = tf.argmax(self.scores, 1, name="predictions")
    
            # Calculate Mean cross-entropy loss
            with tf.name_scope("loss"):
                losses = tf.nn.softmax_cross_entropy_with_logits(logits=self.scores, labels=self.input_y)
                self.loss = tf.reduce_mean(losses) + l2_reg_lambda * l2_loss
    
            # Accuracy
            with tf.name_scope("accuracy"):
                correct_predictions = tf.equal(self.predictions, tf.argmax(self.input_y, 1))
                self.accuracy = tf.reduce_mean(tf.cast(correct_predictions, "float"), name="accuracy")
    


    GitHub : https://github.com/paradise6/DetectMaliciousURL


    展开全文
  • 楼主比较懒,代码只提供了提取关键词短句的部分,并未加入重复检测功能 待提取的word文档格式如下:(关键词为XX) aaaxxaa bbbxxbb sssss ccccxxcc sddssfsdf sdfsdfxxdddd 以下代码能够实现批量提取出word文档内的带...
  • 日常的办公和娱乐当中,我们会电脑会接收各种各样的文件,有很多重复的文件,有时候我们不注意时间越久磁盘空间会被大量占用,这个时候你可能需要清理电脑磁盘空间,如果你一个个去找,他就会浪费你很多...
  • 前文从总结基于机器学习的恶意代码检测技术,主要参考郑师兄的视频总结,包括机器学习概述与算法举例、基于机器学习方法的恶意代码检测、机器学习算法在工业界的应用。这篇文章将尝试软件来源分析,结合APT攻击中...
  • 那么今天我们就来看一下在不使用代码的情况下,如何通过Power Automate自动生成Word格式的Report。 前置条件 Word使用最新版本,推荐使用Office 365订阅 Word启用开发者功能。 开启开发者模式 默认情况下,Word是...
  • matlab检测键盘

    2021-04-29 03:02:06
    一种方法是将negdata.txt 文件中的内容复制到word中,使用替换功能实现快速修改。neg替换为neg\neg (2) 正样本描述文件posdata.txt 与建立negdata.txt一样建立posdata.txt,只不过在正样本描述文件中需要指出目标在...
  • 推荐 Word、EXCEL必备工具箱

    千次阅读 2019-09-20 09:41:36
    EXCEL必备工具箱: EXCEL必备工具箱是一个同时支持EXCEL/WPS插件,自带免费多标签(类似于OfficeTab),安装后就可以使用,与...EXCEL必备工具箱智能识别当前是32/64位的EXCEL还是WPS,自动屏蔽WPS已有功能,额外增...
  • X-ray重金属检测仪工程文件的自动格式转换一、问题背景仪器简介二、解决思路脚本实现总结 一、问题背景 仪器简介   这个小巧的机器就是重金属检测仪,看似方便实则对试验员来说及其不方便的仪器。直接说这个设备...
  • for user_word3 in lost_word: if user_word3 in ff3: lost_word.remove(user_word3) print() print('不存在的数据包{}个'.format(len(lost_word))) for lw in lost_word: print('未找到包含此关键字的文件:{}'....
  • 之所以使用python处理word文档,主要是做一些重复、简单、机械性的操作,而且具有一定规律可寻,如果是细致、精确、美观的排版,使用python就明显不合适了,下面我简单介绍一下python是如何操作word文档的,感兴趣的...
  • pytorch实现RNN,majing论文的谣言检测

    千次阅读 热门讨论 2019-06-18 15:11:44
    RNN实现谣言检测遇到的问题:数据处理篇模型搭建和数据提取篇 --------更新时间-------2019/06/08 人真的可以生如蚁,而美如神! 时间不多,废话少说!先处理数据! 遇到的问题: 训练时,loss总是在几个数...
  • ftp服务器上传不了word

    2021-08-11 02:14:59
    ftp服务器上传不了word 内容精选换一换安装传输工具在本地主机和Windows云服务器上分别安装数据传输工具,将文件上传到云服务器。例如QQ.exe。在本地主机和Windows云服务器上分别安装数据传输工具,将文件上传到云...
  • 封条格式用word怎么打

    千次阅读 2021-01-15 02:22:31
    2 回答 2020-11-17 浏览:7 分类:办公入门 回答:楼主你好,首先你检测一下你的Word是否正常,方法是:点开始,再点运行,输入winWord /safe(注意,/前面有一个空格),看看是否能打开Word,如果可以,那么Word是...
  • 我一直相信重复劳动是对人这智能生物的侮辱(逃,所以决定解放一下她。下面整理下需求: 从文件夹中向Word里批量添加整理好的图片,并设置图片格式。 为图片设置整理成Excel数据的图片名,其中有个难点是图片名是给...
  • 作为当前实验室运行的基础工具,LIMS系统的一个非常重要的功能就是自动生成检测结果报告,使用LIMS系统自动生成报告的过程中不需要人工干预,它替代了大量重复手写的工作,从而使实验人员节省大量的时间和精力,减少...
  • 计算机职称考试Word 2007中文字处理考试大纲下面yjbys考试网小编为大家整理了计算机职称考试Word 2007中文字处理考试大纲,仅供大家参考。第一章 Word 2007基础一、内容提要创建、保存、查看、管理和打印文档的操作...
  • 如果能将这些自动更新功能充分利用的话,那带给我们的将不只是惊喜,更重要的是工作效率的飞速提高!
  • 使用Word2Vec,XGBoost和自动编码器进行重复问题检测 在这篇文章中,我解决了基于问题对是否重复来对问题进行分类的问题。 对于Quora或Stack Overflow这样的公司来说,这很重要,因为其中张贴的多个问题是已经回答...
  • word技巧

    千次阅读 2018-03-01 21:40:22
    word 高效经典教程(整理版)目录一分钟驾驭word 高效经典教程(整理版)... 6A、基础知识... 61、度量单位... 62、WORD中文字字号与磅的对应关系..... 85、文字块的快速、重复录入方法... 96、Word文档超级链接知多...
  • 高级办公软件之Word测试题

    千次阅读 2021-07-06 01:19:49
    原标题:高级办公软件之Word测试题【Word部分】1单选(1分)将文档中一部分内容复制到别处,首先要进行的操作是______。A、粘贴B、剪切C、选定D、复制2单选(1分)关于word文档窗口的说法,正确的是____。A、可以同时...
  • 技术文章将 Word 文档转换为 InfoPath 表单模板尽管确实可以使用 Microsoft Office Word 创建外观类似表单的文档,然而 Word 是最好的文字处理程序,而不是表单设计程序。反过来,Microsoft Office InfoPath 是专为...
  • [摘要]文章设计与实现了一个试题自动提取系统,论述了该系统的特点及构建...同时该系统对试题提取过程中的重复性问题、难度问题、章节问题等进行重点处理,在试题添加过程中加进适当的因子进行控制,以保证试题抽...
  • 全国专业技术人员计算机应用能力考试Word 2003中文字处理考试大纲模块代码:205第一章Word 2003基础一、内容提要创建、保存、查看、管理和打印文档的操作。Word2003的工作环境以及如何获取帮助。二、考试基本要求(一)...
  • 因为最近在做语音相关的东西,有大佬推荐了库nltk,查阅了相关的资料,似乎是做语言处理方向很出名的库,很强大,功能很强大,我这里主要选择了他的分类算法,这样我就不用关注具体的实现,也不用重复造轮子了,...
  • MHA自动切换流程

    2021-01-19 14:38:00
    检测master的状态,方法是一秒一次“ SELECT 1 As Value”,发现没有响应后会重复3次检查,如果还没有响应,shutdown并再重复一次SELECT 1 As Value确认master关闭2. 确认SSH到master所在的机器是否可达3. 给出消息...
  • LaTeX 相对于 Word 有什么优势?

    千次阅读 2016-06-05 14:05:33
    Word公式进阶请往下翻】 有人还写过论文,参见PLOS ONE: An Efficiency Comparison of Document Preparation Systems Used in Academic Research and Development 在我看来,最大的优点在于 数学公式

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,539
精华内容 9,815
关键字:

word自动检测重复