精华内容
下载资源
问答
  • 大家可以看到在下图的A、B两列中,有部分行两个单元格中的数据相同,即为重复值,图中用红色标识,现在的需求就是从两列中提取唯一值到其他区域,多次出现的重复只提取一次,下面以Excel 2013和下图两列数据为例向...

    在Excel表格中有两列数据如何提取不重复值,即从两列中提取不重复(唯一)值,本文指将两列中所有相同行的两个单元格数据连接后去掉重复项。大家可以看到在下图的A、B两列中,有部分行两个单元格中的数据相同,即为重复值,图中用红色标识,现在的需求就是从两列中提取唯一值到其他区域,多次出现的重复值只提取一次,下面以Excel 2013和下图两列数据为例向大家介绍使用四种不同的方法从两列数据中提取不重复值,感兴趣的朋友可以参考下。

    在Excel表格的两列数据中提取不重复值的四种方法

    在Excel中,通常可用“删除重复项”功能、高级筛选、数组公式和数据透视表等方法来提取这样的重复值。下面以Excel 2013和上图两列数据为例,介绍如下:

    方法一:用“删除重复项”功能

    将上述A、B两列中的数据复制粘贴到其他区域,例如D2:E19区域,选择D2:E19,在“数据”选项卡的“数据工具组”中单击“删除重复项”,在弹出的对话框中点“确定”。

    在Excel表格的两列数据中提取不重复值的四种方法

    Excel即可自动将重复值删除,得到两列中的唯一值。

    在Excel表格的两列数据中提取不重复值的四种方法

    该方法较为快捷,适用于Excel 2007以上版本,但如果两列中的数据发生更改后还需重新操作。

    方法二:用高级筛选

    选择两列中的某个单元格,在“数据”选项卡的“排序和筛选”组中点“高级”。如果出现“Microsoft Excel 无法确定当前列表或选定区域的哪一行包含列标签,……”对话框,单击“确定”,弹出“高级筛选”对话框,将“列表区域“设置为A、B两列,选择“将筛选结果复制到其他位置”,将“复制到”设置为D2单元格,“条件区域”保留为空,同时勾选“选择不重复的记录”,单击“确定”。

    在Excel表格的两列数据中提取不重复值的四种方法

    Excel会将A、B两列中的唯一值提取到D、E两列。

    在Excel表格的两列数据中提取不重复值的四种方法

    如果以后继续在A、B两列添加数据,再次进行高级筛选时Excel会保存上次的区域设置,还是比较方便的。

    方法三:用数组公式

    这种方法适合于数据量不大的情况。选择D2:E2区域,在编辑栏中输入数组公式:

    =INDEX(A:B,SMALL(IF(MATCH(A$2:A$19&B$2:B$19,A$2:A$19&B$2:B$19,)=ROW($1:$18),ROW($2:$19),4^8),ROW(A1)),{1,2})&""

    按Ctrl+Shift+Enter结束输入,然后选择D2:E2,拖动填充柄向下填充公式,直到出现空白为止。

    说明:公式用SMALL、IF和MATCH函数得到同行数据相连接后第一次出现的行号,再用INDEX函数同时返回A、B两列的唯一值数据。

    方法四:使用数据透视表

    1、如果A、B两列的数据需要更改或添加,可先将这两列数据转换为表格。方法是选择两列数据中的某个单元格,在“插入”选项卡的“数据”组中单击“表格”,弹出“插入表”对话框,单击确定。

    在Excel表格的两列数据中提取不重复值的四种方法

    2、再次选择两列数据中的某个单元格,在“数据”组中单击“数据透视表”,弹出“创建数据透视表”对话框,选择放置数据透视表的位置,本例为同一工作表中的D2单元格,单击“确定”。

    3、在“数据透视表字段列表”中勾选“货号”和“尺码”两个字段,将其添加到数据透视表。

    在Excel表格的两列数据中提取不重复值的四种方法

    4、修改数据透视表的外观和布局。

    ①在“数据透视表工具--设计”选项卡中,分别单击“报表布局→以表格形式显示”和“报表布局→重复所有项目标签”。

    ②在“数据透视表工具--设计”选项卡中,单击“分类汇总→不显示分类汇总”。

    ③在“数据透视表工具--分析”选项卡的“显示”组中,单击取消选择“+-按钮”。

    这样就得到了A、B两列中的不重复值。以后在A、B两列数据后的空单元格中添加数据后,Excel会自动扩展表格,刷新数据透视表即可得到新的唯一值数据。http://pdftoword.55.la/pdf-split/

    展开全文
  • 在jemter压测时,有些操作一个用户只能操作一次,那可能就会涉及到如何获取多个用户token用户传参问题 之前有写过正则表达式提取,今天不在重复,可以查看之前博文 今天以获取订单列表id到本地为例(获取...

    在jemter压测时,有些操作一个用户只能操作一次,那可能就会涉及到如何获取多个用户的token用户传参的问题
    之前有写过正则表达式提取,今天不在重复,可以查看之前的博文
    今天以获取订单列表的id到本地为例(获取token相同的方法,只要能正则提取到参数,则是换汤不换药的方法存到本地即可)

    1,现在本地建立一个文件,自定义命名,列如,1234.txt(记住路径)
    2,在jmeter创建好线程组,保证每个接口都能正常请求,
    按照 我之前写的正则表达式获取方法提取需要导出本地的参数
    在这里插入图片描述
    3,可以添加一个debug sampler看自己是否成功提取参数
    启动后查看结果树,发现获取成功

    在这里插入图片描述
    4,在线程组添加后置处理器BeanShell PostProcessor(一定要注意工具的顺序,顺序不同可能会导致获取不到)注意,路径和参数名需要自己去定义,D:\123.txt 这里是一开始就创建好的文件路径(但是我试过不创建,也会自己创建一个文件)

    在这里插入图片描述

    代码如下
    import java.io.*;
    //import java.io.BufferedWriter;

    File file = new File(“D:\123.txt”);

        FileWriter writer = new FileWriter(file,true); 
        BufferedWriter buffer = new BufferedWriter(writer);
        
        String content = vars.get("pdid");
        buffer.write(content);
        buffer.write("\r\n");    
        buffer.close();
    

    还有一个很奇怪的就是如果线程组只请求一次,是获取不到数据的,必须循环2次以上才能获取,这个我暂时还不知道原因

    在这里插入图片描述

    如果你发现数据获取重复了,比如,线程组只循环了2次确获取了3个参数,是因为debug没有关掉,禁用就可以了
    在这里插入图片描述
    设置完成启动后,可以在本地看到提取的id都导出到本地了
    (我这里都在请求同一个列表,所以id都是同一个,如果是获取登录token,每次登录用户不同,则获取的token不同)
    在这里插入图片描述
    补充
    如果想获取一个接口返回的多个值提取到本地,则写一个循环即可

    代码如下
    import java.io.*;
    //import java.io.BufferedWriter;

    for(int i=0;i< 10; i++){
    File file = new File(“D:\1234.txt”);
    // 建立数据输出通道
    FileWriter writer = new FileWriter(file,true); //true 就是追加
    // 建立缓冲输出字符流
    BufferedWriter buffer = new BufferedWriter(writer);
    // 输出数据
    String name = “pdid”+(i+1);
    String content = vars.get(name);

        buffer.write(content);
        // 拓展功能:newLine(),换行,实际上就是向文件输出\r\n;
    

    // buffer.newLine();
    buffer.write("\r\n"); // 换行,相当于newLine()方法;
    // buffer.write(“成功”);
    // 刷新数据
    // buffer.flush();
    // // 关闭资源
    buffer.close();
    }

    展开全文
  • 这里有一组数据,请问如何将整个表中出现过的词提取出来放在year 2018后面一行,重复的只提取一次。用R语言,谢谢!![图片说明](https://img-ask.csdn.net/upload/202002/19/1582058209_631766.png)
  • "增量更新Delta Update"区:存储的是至上次提取之后到时目前所有增量的数据;每次抽取之后(不管是从"增量更新Delta Update"区还是从"增量重复Delta Repetition"区抽取,只要发生抽取,则会被清空)该区就会被清空;...

    "增量更新Delta Update"区:存储的是至上次提取之后到时目前所有增量的数据;每次抽取之后(不管是从"增量更新Delta Update"区还是从"增量重复Delta Repetition"区抽取,只要发生抽取,则会被清空)该区就会被清空;如果上次抽取没有出错下次还会从该区抽取
    "增量重复Delta Repetition"区:存储了上一次被抽取的所有数据、及从上一次抽取之后到目前所有增量数据(该区永远保留着上一次抽取过的数据);该区的数据清理(不是清空、清除)时间点是在下次数据抽取时,比如上一次如果成功(BW系统里抽取请求状态为绿,或抽取出错但手动置绿)抽取后,下次抽取时就会将该区保留着的上一次被抽取的数据删除掉(注:仅删除上一次成功抽取的数据,删除的永远只是上次成功抽取的数据,而不包括上次抽取之后到目前止的所新增的增量数据,这部分增量数据将在下下次抽取时,决定是否被删除:也就是在下次成功抽取后,下下次抽取时会被删除),如果上次抽取出错(BW系统里抽取请求状态为红,或抽取成功但手动置红)后,则不会被清,而是保留着这些数据与新增增量数据一起再次被抽取,这样防错误数据被丢失;如果上次抽取失败就会从该区抽取,而不会从"增量更新Delta Update"区中抽取

    :增量数据在存放到Delta-QUEUE中的"增量更新Delta Update"区的同时,也会存入一份到"增量重复Delta Repetition"区中,而不是要等"增量更新Delta Update"区中的数据被抽走后才转储到该区

     

    当有增量数据进入Delta Update里时,会同时保留一份到Delta Repetion,而不是要等到BW从Delta Update抽走后,才会转入Delta Repetition。

    当BW抽取失败(抽取请求变红),再抽时,就会从Delta Repetition中抽,此时会将本次新的增量数据与上次抽取失败的数据一起抽过去 ,所以在PSA抽取出错后,千成不要手动将出错的抽取请求置为绿色,这样下次抽取时就不会将上次抽取失败的数据抽上来了,错误数据就会永远丢失

    直到BW抽取成功后,下次再去抽取其新的增量数据时,才会将Delta Repetition中上次已成功抽取的数据删除掉。BW是否抽取成功,是要等到下一次抽取时,BW才会告诉ECC上一次抽取是否成功,如果成功才将上次保留在Delta Repetition中的数据删除掉,所以是否删除上一次抽取过的数据,以及从哪个区(Delta Update,还是Delta Repetition)抽取都要等到下一次抽取时才能决定

    image   image

    转载于:https://www.cnblogs.com/jiangzhengjun/p/4296586.html

    展开全文
  • 一次只加载一页,因此不会被禁用-这使它变慢但非常可靠。 它会经常转储数据,以便在发生崩溃情况下简化恢复过程。 该脚本将提示您从DIGIPASS设备输入您网上银行ID,密码和一次性密码。 然后,它将使用这些...
  • 文章目录一、需求二、代码说明,写在前面:三 代码主体部分。3.1 文件信息提取.py3.2 格式调整.py 一、需求 提取docx、xlsx、pptx、pdf文件信息...2.3 信息运行一次,如果多次运行,出现重复数据,后续格式调整代码

    一、需求

    提取docx、xlsx、pptx、pdf文件信息,然后做格式处理,同时设置文件路径的超链接,已方便找文件时可以直接打开文件,其他格式文件未做。

    二、代码说明,写在前面:

    2.1 代码获取的信息包括:
    文件路径、作者、创建日期、修改日期、各文件层级

    2.2 代码 ‘文件信息提取.py’可以提取文件的信息,未获取的信息留空;

    2.3 信息只运行一次,如果多次运行,出现重复数据,后续的格式调整代码会报错。

    2.4 代码 ‘格式调整.py’是处理所获得的文件信息,会创建一个中间文件‘处理的中间数据_可删除.xlsx’;

    2.5 代码中使用到xlwings模块,用来处理自适应列宽,其实超链接部分也可以使用这模块,但是目前没有详细了解,这里还是先使用openpyxl模块。

    2.6 xlsx 由于本身python第三方包未带这类型属性,需要曲线操作下:
    参考内容:
    https://cloud.tencent.com/developer/article/1664195
    https://www.shangyouw.cn/wenjian/arc2264.html

    由于Excel文件的本质:一个包含XML、图片文件的压缩文件夹-压缩文件,所以可以通过把xlsx文件改为压缩包,然后提取压缩包内的xml文件信息。
    2.7 代码 ‘文件信息提取.py’可以提取文件的信息,未获取的信息留空;

    2.8 信息只运行一次,如果多次运行,出现重复数据,后续的格式调整代码会报错。

    2.9 代码 ‘格式调整.py’是处理所获得的文件信息,会创建一个中间文件‘处理的中间数据_可删除.xlsx’;

    2.10 代码中使用到xlwings模块,用来处理自适应列宽,其实超链接部分也可以使用这模块,但是目前没有详细了解,这里还是先使用openpyxl模块。

    三 代码主体部分。

    3.1 文件信息提取.py
    import os
    from docx import Document
    import zipfile
    import lxml
    from pptx import Presentation
    from PyPDF2 import PdfFileReader
    import pandas as pd
    import glob
    
    
    # 提取 docx文件的详细信息
    def extract_docx(filename, data, start_path, data_path):
        doc = Document(filename)
        data["文件路径"] = start_path + filename
        data["author作者"] = doc.core_properties.author
        data["created创建时间"] = doc.core_properties.created
        data["modified修改时间"] = doc.core_properties.modified
        data["文件格式"] = "docx"
        data.to_csv(data_path, mode="a")
        
    # 提取 xlsx文件的详细信息
    def extract_xlsx(filename, data, start_path, data_path):
        zf = zipfile.ZipFile(filename)
        ns = {
            "dc": "http://purl.org/dc/elements/1.1/",
            "dcterms": "http://purl.org/dc/terms/",
            "cp": "http://schemas.openxmlformats.org/package/2006/metadata/core-properties",
        }
        doc = lxml.etree.fromstring(zf.read("docProps/core.xml"))
    
        data["文件路径"] = start_path + filename
        # 这里不加try,在读取后面生成的中间文件时会报错
        try:
            data["author作者"] = doc.xpath("//dc:creator", namespaces=ns)[0].text
        except:
            data["author作者"] = '0'
        data["created创建时间"] = doc.xpath("//dcterms:created", namespaces=ns)[0].text
        data["modified修改时间"] = doc.xpath("//dcterms:modified", namespaces=ns)[0].text
        data["文件格式"] = "xlsx"
        data.to_csv(data_path, mode="a")
        
    # 提取 pptx文件的详细信息
    def extract_pptx(filename, data, start_path, data_path):
        prs = Presentation(filename)
        data["文件路径"] = start_path + filename
        data["author作者"] = prs.core_properties.author
        data["created创建时间"] = prs.core_properties.created
        data["modified修改时间"] = prs.core_properties.modified
        data["文件格式"] = "pptx"
        data.to_csv(data_path, mode="a")
    
    # 提取 pdf文件的详细信息
    def extract_pdf(filename, data, start_path, data_path):
        inputPdf = PdfFileReader(open(filename, "rb"))
        docInfo = inputPdf.getDocumentInfo()
        data["文件路径"] = start_path + filename
        data["author作者"] = docInfo['/Author']
        data["created创建时间"] = docInfo['/CreationDate'][2:]
        data["modified修改时间"] = docInfo['/ModDate'][2:]
        data["文件格式"] = "pdf"
        data.to_csv(data_path, mode="a")
    
    if __name__ == "__main__":
        start_path = os.getcwd() + "\\"
        data_path = "获取的数据.csv"
        data = pd.DataFrame(
            {
                "文件路径": [0],
                "author作者": [0],
                "created创建时间": [0],
                "modified修改时间": [0],
                "文件格式": [0],
            },
            index=[0],
        )
        for filename in glob.glob("**/*", recursive=True):
            if filename.endswith(".docx"):
                extract_docx(filename, data, start_path, data_path)
    
            elif filename.endswith(".xlsx"):
                extract_xlsx(filename, data, start_path, data_path)
    
            elif filename.endswith(".pptx"):
                extract_pptx(filename, data, start_path, data_path)
    
            elif filename.endswith(".pdf"):
                extract_pdf(filename, data, start_path, data_path)
    
    
    3.2 格式调整.py
    import pandas as pd
    from openpyxl import load_workbook
    from datetime import datetime
    import xlwings as xw
    
    def fun(x):
        if 'Z' in x:
            return datetime.strptime(x,"%Y-%m-%dT%H:%M:%SZ").strftime("%Y-%m-%d %H:%M:%S")
        elif '+' in x:
            return datetime.strptime(x,"%Y%m%d%H%M%S+08'00'").strftime("%Y-%m-%d %H:%M:%S")
        else:
            return x
    
    # 数据处理部分
    df = pd.read_csv("获取的数据.csv")
    df = df.drop_duplicates(subset=["文件路径"], keep=False)
    df.drop(["Unnamed: 0"], axis=1, inplace=True)
    df['created创建时间'] = df['created创建时间'].apply(lambda x: fun(x))
    df['modified修改时间'] = df['modified修改时间'].apply(lambda x: fun(x))
    max_len = max(df["文件路径"].apply(lambda x: len(x.split("\\"))))
    for i in range(1, max_len + 1):
        df[f"路径{i}层"] = df["文件路径"].str.split("\\", expand=True)[i - 1]
    df = df.fillna("0")
    df.replace('0','',inplace=True)
    df.to_excel("可删除文件.xlsx")
    
    # 这里主要是加超链接
    workbook = load_workbook(filename="可删除文件.xlsx")
    sheet = workbook.active
    for cell in sheet["B"][1:]:
        filename = cell.value.split("\\")[-1]
        cell.value = '=HYPERLINK("{}","{}")'.format(cell.value, filename)
    workbook.save(filename="文件信息.xlsx")
    
    # 使用xlwings ,让列宽自适应调整
    # 这个模块会自动打开excel,win10如果不点office更新,偶尔会报错
    wb = xw.Book('文件信息.xlsx')
    wb.sheets['sheet1'].autofit()
    wb.save('文件信息.xlsx')
    

    原文地址

    展开全文
  • 文章目录基本原理作用类和方法类方法流程中文文本处理处理...1.统计文章中的所有词,重复的只看做一次 最后是词的列表 2.对每篇文章,在词的列表里面进行统计每个词出现的次数 注意:单个字母不统计 方法 方法 作用
  • 这道题关心某一天访问百度最多 IP,因此,可以首先对文件进行一次遍历,把这一天访问百度 IP 相关信息记录到一个单独大文件中。接下来采用方法与上一题一样,大致就是先对 IP 进行哈希映射,接着使用 ...
  • 例如,在“顾客”维度中,可以有两个都叫Tom顾客,但每个人都分配了唯一“顾客”键,保证了维度表中成员键出现一次。 当然,由于数据仓库是通过提取业务系统数据产生,上述两个Tom毫无疑问已经有了...
  • 可以首先对文件进行一次遍历,把这一天访问百度 IP 相关信息记录到一个单独大文件中。 接下来采用方法与上一题一样,大致就是先对 IP 进行哈希映射。 接着使用 HashMap 统计重复 IP 次数,最后计算出重复...
  • 本软件支持所有文件格式,下拉列表中没有格式可以自定义,为空就是会为所有文件分配编号(不推荐,一次最好操作一种文件格式) 编号前辍及间隔符:例如 :前辍是 “A”,生成编号是“1234” , 文件名“千里...
  • 一、游标实际上是一种能从包括多条数据记录结果集中每次提取一条记录机制...游标结果集是由SELECT语句产生,如果处理过程需要重复使用一个记录集,那么创建一次游标而重复使用若干次,比重复查询数据库要快多。
  • 一、游标*什么是游标游标实际上是一种能从包括多条数据记录结果集(结果集是select查询之后返回所有行数据的集合)中每次提取一条记录机制充当指针作用,遍历结果中所有行,但他一次只指向一行。...
  • 游标,存储过程,触发器使用

    千次阅读 2018-04-01 16:16:55
    游标实际上是一种能从包括多条数据记录结果集(结果集是select查询之后返回所有行数据的集合)中每次提取一条记录机制充当指针作用,遍历结果中所有行,但他一次只指向一行。游标结果集是由SELECT语句...
  • 正变焦 (>1) 像素重复的实现(zoom为2时像素会重复2) 负缩放 (<1>0) 新的图像数据将通过个新的(较小的)画布对象的实例化来创建。 在为视图提取像素后,该对象将被销毁。 ###导航 您可以通过单击光标键在...
  • 只一个普通模板引擎语法(类似 artTemplate),支持循环语句(each)、条件语句(if elseif else ..)、和文本填充({...}), 应该比较容易看懂&...
  • 数据集方面,需修改Configs配置文件中的数据集根目录即可顺利训练自己的数据(目前支持VOC格式) 数据载入方面,Our_Dataloader 接近于个无限数据载入,需循环,即可从数据集中无限循环的取出数据.不占内存,不用...
  • 将GraphQL与MongoDB结合使用可能会导致数据不匹配和架构重复,从而要求开发人员多编写相似代码。 这会大大减慢开发时间。 另外,没有很多库可以将MongoDB转换为GraphQL模式。 解决这个问题大多数库都集中在...
  •  目前国际上已有的中频解调器一般能够处理某几种定制的数据率,并采用如下的电路结构:①采用模拟Costas环提取相干载波;②针对每种遥感卫星的特征设计个特定的比特同步器,包括特定的基带滤波、时钟提取、...
  • 面向对象特征有以下几个方面:1.抽象:抽象是将类对象共同特征总结出来...3.封装:通常认为就是把多次重复使用方法总结提取出来,用到时需要调用这个方法接口,或者是把数据和操作数据的方法绑定起来,...
  • 最后结合人眼视觉特性和Hopfield网络记忆上限,保证低频部分嵌入一次水印,高频部分重复嵌入水印。实验结果表明,该算法能抵抗JPEG压缩、加噪、剪切等多种攻击,显著提高了水印图像质量,与直接提取水印算法相比,...
  • NeheOpenGL教程电子书

    2018-04-07 12:25:03
    不要再一次一次重复的代码。让显示列表为你做所有的工作吧!这一章里我们将建造Q-bert金字塔(Q-bert是一款游戏),感谢显示列表,我们需要用不多的几行代码。 13.位图字体 这一课我们将创建一些基于2D...
  • 有效信息筛选:于是就用循环把UECapabilityInformation的数据里每行作为个元素放到list里面 然后用bandEUTRA-r10作为组CA的识别信息、在筛选出同组ca-BandwidthClassUL-r10、ca-BandwidthClassDL-r10、...
  • 看到一共采集到了7584条数据,由于脏数据比较多,所以这部分的工作量是比较大的,因此我们不在这里使用太多篇幅去讲如何一步一步提取出我们想要的数据,会单独写篇数据处理过程的文章,不过还是来看看经历了哪些...
  • 我这样做主要是为了提高性能,对每个url进行一次网络访问。 现在主要问题是单个线程实现了,可是爬行线程和解析线程同时多个进行不知该怎么弄,麻烦大家给分析分析,谢谢! 下面是参考流程图。
  • 职场利器CTRL+E

    2021-03-25 12:57:14
    版本:EXCEL2016 适用:Windows10 在数据源有规律的前提下,先输入一个“样本”, Excel会...2、在提取或合并字符串方面,首行被操作的数据中,不能有重复的数据,CTRL+E认为是将左侧开始的第一次出现的数据输入N次,

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 209
精华内容 83
关键字:

重复的数据只提取一次