精华内容
下载资源
问答
  • DOSTOR存储在线3月31日国际报道:重复数据删除软件供应商Permabit针对Linux厂商推出Albireo版本,主流存储OEM市场技术已趋近饱和。Albireo是重复数据删除软件,其可以作为存储OEM的主或二级重复数据删除,因为其在读...

    DOSTOR存储在线3月31日国际报道:重复数据删除软件供应商Permabit针对Linux厂商推出Albireo版本,主流存储OEM市场技术已趋近饱和。

    Albireo是重复数据删除软件,其可以作为存储OEM的主或二级重复数据删除,因为其在读或写数据时不增加延迟。BlueArc和Xiotech已经得到了这项技术的使用权。

    然而,戴尔在收购了Ocarina和Compellent这两家本身具有重复数据删除技术厂家之后,其将走自己的重复数据删除之路。惠普拥有自己的StoreOnce技术,而EMC也有它的Avamar和Data Domain产品集,以及Viper项目。

    NetApp拥有ASIS技术。而IBM有Diligent。主流存储阵列市场已经饱和,因为供应商不是自身拥有重复数据删除技术,就是已经收购了重复数据删除技术,从而压缩了Permabit空间。

    Albireo Virtual Data Optimizer(VDO)是一个关键的版本,其可以在标准的Linux平台上进行重复数据删除和数据压缩。Permabit预计,用该产品“Linux网络附加存储(NAS)OEM可以进行实时主数据的重复数据删除……就像那些大型存储OEM那样。”

    Permabit总裁兼CEO Tom Cook表示:“随着主数据优化市场已经逐渐成熟,基于Linux的OEM已经认识到他们需要在他们的解决方案中应用该技术,如果他们还希望在存储市场中保持竞争力的话。”

    Gartner称,Linux NAS市场从2006年6.5%市场收入份额增长至2009年的17.9%。这是一个不错的趋势,但我们还不清楚2010年的情况。

    Permabit称Albireo是完美的,并且“通过利用现有的Linux应用程序、文件系统、虚拟化功能及数据保护功能,OCM客户可以充分利用他们的基于Linux的存储解决方案。”

    重复数据删除技术将会成为存储阵列的标准功能之一。就开发方面,当数据进入存储基础设施时进行重复数据删除,并且在内部IT基础设施的阵列之间或服务器之间的数据转移时,保持数据的精简。

    这将帮助数据所占用的存储空间和网络资源降到最低。要做到这一点需要在内部IT基础设施使用统一的重复数据删除格式。

    展开全文
  • 惠普整合3PAR存储设备 推出多款产品 Permabit推出针对Linux重复数据删除软件 CommVault :让快照成为“适度”备份
  • Linux删除重复文件

    2019-10-28 10:02:39
    Linux系统处理数据时,经常会遇到删除重复文件的问题。例如,在进行图片分类任务时,希望删除训练数据中的重复图片。在Linux系统中,存在一个fdupes命令可以查找并删除重复文件。 2. Fdupes介绍 Fdupes是Adrian ...

    文章作者:Tyan
    博客:noahsnail.com  |  CSDN  |  简书

    1. 引言

    在Linux系统处理数据时,经常会遇到删除重复文件的问题。例如,在进行图片分类任务时,希望删除训练数据中的重复图片。在Linux系统中,存在一个fdupes命令可以查找并删除重复文件。

    2. Fdupes介绍

    Fdupes是Adrian Lopez用C语言编写的Linux实用程序,它能够在给定的目录和子目录集中找到重复文件,Fdupes通过比较文件的MD5签名然后进行字节比较来识别重复文件。其比较顺序为:

    大小比较 > 部分MD5签名比较 > 完整MD5签名比较 > 字节比较

    3. 安装fdupes

    以CentOS系统为例,fdupes的安装命令为:

    sudo yum install -y fdupes
    

    4. fdupes的使用

    删除重复文件,并且不需要询问用户:

    $ fdupes -dN [folder_name]
    

    其中,-d参数表示保留一个文件,并删除其它重复文件,-N-d一起使用,表示保留第一个重复文件并删除其它重复文件,不需要提示用户。

    使用说明:

    $ fdupes -h
    Usage: fdupes [options] DIRECTORY...
    
     -r --recurse           for every directory given follow subdirectories
                            encountered within
     -R --recurse:          for each directory given after this option follow
                            subdirectories encountered within (note the ':' at
                            the end of the option, manpage for more details)
     -s --symlinks          follow symlinks
     -H --hardlinks         normally, when two or more files point to the same
                            disk area they are treated as non-duplicates; this
                            option will change this behavior
     -n --noempty           exclude zero-length files from consideration
     -A --nohidden          exclude hidden files from consideration
     -f --omitfirst         omit the first file in each set of matches
     -1 --sameline          list each set of matches on a single line
     -S --size              show size of duplicate files
     -m --summarize         summarize dupe information
     -q --quiet             hide progress indicator
     -d --delete            prompt user for files to preserve and delete all
                            others; important: under particular circumstances,
                            data may be lost when using this option together
                            with -s or --symlinks, or when specifying a
                            particular directory more than once; refer to the
                            fdupes documentation for additional information
     -N --noprompt          together with --delete, preserve the first file in
                            each set of duplicates and delete the rest without
                            prompting the user
     -I --immediate         delete duplicates as they are encountered, without
                            grouping into sets; implies --noprompt
     -p --permissions       don't consider files with different owner/group or
                            permission bits as duplicates
     -o --order=BY          select sort order for output and deleting; by file
                            modification time (BY='time'; default), status
                            change time (BY='ctime'), or filename (BY='name')
     -i --reverse           reverse order while sorting
     -v --version           display fdupes version
     -h --help              display this help message
    

    参考资料

    1. https://www.tecmint.com/fdupes-find-and-delete-duplicate-files-in-linux/
    2. https://www.howtoing.com/fdupes-find-and-delete-duplicate-files-in-linux
    3. http://www.runoob.com/linux/linux-comm-who.html
    展开全文
  • 本篇介绍uniq命令,uniq也是linux管道命令家族...默认情况下uniq只会检索相邻的重复数据从而去重。在/tmp/uniq.txt中虽然“onmpw web site” 有三条,但是其中一条是和其他两条不相邻的,所以只去重了一条,同理“e...

    本篇介绍uniq命令,uniq也是linux管道命令家族中的一员,其主要功能是去除重复项。

    在介绍uniq命令之前,我们先来新建在下面的案例中需要用到的文件/tmp/uniq.txt,内容如下

     

    默认情况下uniq只会检索相邻的重复数据从而去重。在/tmp/uniq.txt中虽然“onmpw web site” 有三条,但是其中一条是和其他两条不相邻的,所以只去重了一条,同理“error php function”也是这种情况。

    鉴于以上的检索机制,所以uniq一般情况下要和sort命令一块儿使用。

    # sort 1.txt | uniq
    alpha css web cat linux command error php function hello world onmpw web site recruise page site repeat no data wello web site

    现在再看是不是所有的重复项都已经经过去重处理了。

    好了,小试牛刀一把以后,下面我们开始对uniq命令的选项进行简单的介绍。

    -c 统计每一行数据的重复次数

    sort 1.txt | uniq -c
    1 alpha css web 1 cat linux command 2 error php function 1 hello world 3 onmpw web site 1 recruise page site 1 repeat no data 1 wello web site

    我们看 “error php function”出现了两次,“onmpw web site”出现了三次。其余的都没有重复项所以为1。

    -i 忽略大小写

    在1.txt中添加一行数据 “Error PHP function”

    cat 1.txt
    
    alpha css web
    cat linux command
    error php function
    hello world
    onmpw web site
    onmpw web site
    wello web site
    Error PHP function
    recruise page site
    error php function
    repeat no data
    onmpw web site
    sort 1.txt | uniq –c
    
    1 alpha css web
    1 cat linux command
    2 error php function
    1 Error PHP function
    1 hello world
    3 onmpw web site
    1 recruise page site
    1 repeat no data
    1 wello web site

    我们看结果,uniq默认是区分大小写的。使用-i可以忽略掉大小写问题

     

    sort 1.txt | uniq –c –i
    1 alpha css web 1 cat linux command 3 error php function 1 hello world 3 onmpw web site 1 recruise page site 1 repeat no data 1 wello web site

    现在再看是不是大小写已经忽略掉了。

    -u 只输出没有重复的数据

    sort 1.txt | uniq –iu
    
    alpha css web
    cat linux command
    hello world
    recruise page site
    repeat no data
    wello web site

    看到没,结果中的“error php function”和“onmpw web site”都没有被输出。

    -w N 表示从第一个字符开始只检索N个字符来判重。

    sort 1.txt | uniq –iw 2
    
    alpha css web
    cat linux command
    error php function
    hello world
    onmpw web site
    recruise page site
    wello web site

    这里我们让uniq只对前两个字符进行检索,recruit 和 repeat前两个字符都是re,所以这两行也被认为是重复的。

    -f N 表示略过前面N个字段,从第N+1个字段开始检索重复数据。以空格符或者tab键为分隔符。

     

    sort 1.txt | uniq –icf 2
    
    1 alpha css web
    1 cat linux command
    3 error php function
    1 hello world
    4 onmpw web site
    1 repeat no data
    1 wello web site

    我们在结果中可以看到,这是略过前面的2个字段,从第三个字段开始判重的。“recruise page site” 和 “onmpw web site”的第三个字段相同,所以被认为是相同的数据。但是我们看到,“wello web site”和“onmpw web site”不但第三个字段相同,第二个也相同。那为什么它不被计入“onmpw web site”的重复数据中呢。对于这个问题就要回到前面说的,uniq只检测相邻的数据是否是重复的。

     

    要解决这个问题还需要在sort命令上着手。还记得sort命令的-k选项吗,没错,我们就用它来解决。

    sort –k 2 1.txt | uniq –icf 2

    1 alpha css web 1 cat linux command 1 repeat no data 1 recruise page site 3 error php function 4 onmpw web site 1 hello world

    我们看,是不是解决了。

    -s N表示略过前面N个字符,关于这个选项的例子我们这里就不再举了,该选项和-f N的用法差不多。只不过-f N是略过前面N个字段;-s是略过前面N个字符。

    -d 只输出有重复项的第一条的数据。

    sort 1.txt | uniq -idw 2
    
    repeat no data
    error php function
    onmpw web site

    结果只有这三条。为什么会有“repeat no data”这条数据,这里注意-w 2的应用。

    -D 对于重复项全部输出

    sort 1.txt | uniq –iDw 2
    
    repeat no data
    recruise page site
    error php function
    error php function
    Error PHP function
    onmpw web site
    onmpw web site
    onmpw web site

    好了,关于uniq的选项的所有常用的命令已经都介绍完了。关于uniq更详细的信息可以使用命令info uniq。

    希望本文对大家有所帮助。

    转载于:https://www.cnblogs.com/lee-qi/p/11440518.html

    展开全文
  • 重复数据删除是一种专用技术,用于压缩数据和删除重复数据的副本。它在当今快速生成大量数据的世界中起着重要作用,因为它有助于节省资源,能源和成本。本文介绍了基于Linux的文件系统Lessfs如何用于重复数据删除。 ...

    使用基于Linux的文件系统进行重复数据删除

     Anantha Krishnan PTA二月152019

      

    重复数据删除是一种专用技术,用于压缩数据和删除重复数据的副本。它在当今快速生成大量数据的世界中起着重要作用,因为它有助于节省资源,能源和成本。本文介绍了基于Linux的文件系统Lessfs如何用于重复数据删除。

    在不同位置存在相同文件的副本会造成各种管理问题。涉及简单存储系统的主要问题之一是数据复制。大多数系统中的存储空间可用性被相同文件的副本耗尽。例如,当从不同的聊天室接收或转发给不同的人时,WhatsApp Messenger应用程序会保存同一图像的不同副本。这样可以减少设备上的可用空间。这就是重复数据删除的地方。

    重复数据删除是一种数据压缩技术,用于消除冗余数据并减少已启用的存储卷上的已用空间。卷可以指磁盘设备,分区或一组磁盘设备集-都表示为单个设备。在此过程中,将删除冗余数据,并将数据的单个副本存储在存储卷上。

    重复数据删除的必要性和优点

    重复数据删除的主要重点是指出相同的大数据部分(可以包括整个文件或大文件部分),并且仅存储该数据的一个副本。其他好处包括:

    • 降低存储设备成本
    • 降低能源成本
    • 冷却需求减少

    数据重复数据删除有两种类型:后处理重复数据删除和内联重复数据删除。

    处理后重复数据删除:在此方法中,重复数据删除过程在存储数据之后开始。存储文件后,程序将检查整个文件系统中是否存在重复数据,并确保仅存在一个副本。当可用空间已经很小时并且在执行重复数据删除过程之前不允许保存文件的多个副本时,此方法会出现问题。另一方面,此方法不会影响存储过程的速度或性能。

    内联重复数据删除:在这种方法中,重复数据删除是实时运行的。因此,需要较少的存储空间。但是,由于重复数据删除过程随数据进入而运行,因此会影响存储速度,因为会检查传入的数据以识别冗余副本。

    Linux中的重复数据删除

    Linux中的重复数据删除负担得起,并且所需的硬件更少。在某些情况下,该解决方案在块级别可用,并且只能与数据块的冗余数据流(而不是单个文件)一起使用,因为逻辑无法通过许多协议(例如SCSISAS光纤通道和甚至SATA

    我们在这里讨论的文件系统是Lessfs-块级重复数据删除和启用FUSELinux文件系统。FUSE是在类似UNIX的操作系统上看到的内核模块,它使用户无需触摸内核代码即可创建自己的文件系统。为了使用这些文件系统,必须在系统上安装FUSE。大多数操作系统(如UbuntuFedora)都已预先安装了支持ntfs-3g文件系统的模块。

    关于LessfsPermabit(最近被Red Hat收购)

    Lessfs是为Linux编写的高性能内联重复数据删除文件系统。它还支持LZOQuickLZBZip压缩。

    虽然Lessfs是开源的,但Permabit提供的解决方案直到最近被Red Hat收购才可用。Albeiro是开源块级重复数据删除软件,由Permabit2010年推出,可作为SDK使用。

    Lessfs详细

    Lessfs旨在通过仅存储一个块并使用指向原始块的指针进行复制来减少文件系统块相同的磁盘使用。这种存储方法在企业解决方案中变得越来越流行,特别是用于减少磁盘备份和最大程度地减少虚拟机存储。

    它首先使用LZOQUICKLZ压缩来压缩块,并结合使用这些方法,从而获得更高的压缩率。

    设置和安装

    首先,确保所有要求都已安装。这些是:

    • mhash
    • tokyocabinet
    • 保险丝

    转到http://sourceforge.net/projects/mhash/files/mhash下载最新版本的mhash。然后,下载,构建和安装该软件包。

    /*

     

    $ tar xvzf mhash-0.X.X.X.tar.gz

     

    $ cd mhash-0.9.9.9/

     

    $ ./configure

     

    $ make

     

    $ sudo make install

     

    */

    东京内阁是Lessfs依赖的主要数据库。要构建Tokyo Cabinet,您需要已经安装了zlib1g-devlibbz2-dev

    http://sourceforge.net/projects/fuse下载并安装FUSE 。现在,从http://sourceforge.net/projects/lessfs/files/lessfs下载最新版本的Lessfs 

    在开始使用Lessfs之前,我们需要做一些事情。转到Lessfs源目录中的/ etc子目录。将在那里找到的Lessfs 配置文件复制到系统的/ etc子目录中。

    sudo cp etc/lessfs.cfg /etc/

    有关文档,请参阅SourceForge Lessfs页面,该页面写得很好,任何用户都可以理解。

    记过

    即使在大文件和小空间的情况下,Lessfs提供了快速的压缩和重复数据删除功能,但在其他情况下,事实证明它的速度很慢。而且,尽管从理论上令人印象深刻,但它提供的数据安全性已被证明不如IBMProtecTierSepatonDeltaStor提供的解决方案有效。

     

    展开全文
  • Linux系统操作中,如果文件中的数据过多,想要删除重复数据行是非常麻烦的,查找不方便,那么有什么方法能够快速删除文件重复数据行呢?下面小编就给大家介绍下如何删除文件重复数据行,一起来看看吧。...
  • 删除Linux文件中的重复数据 uniq

    千次阅读 2018-08-02 10:01:50
    -c或--count:在每列旁边显示该行重复出现的次数 -d或--repeated:仅显示重复出现的行列; -f<栏位>或--skip-fields=<栏位>:忽略比较指定的栏位; -s<字符位置>或--...
  • 针对文本文件,有时候我们需要删除其中重复的行、或者统计重复行的总次数,这时候可以采用Linux系统下的uniq命令实现相应的功能。语法格式:uniq[-ic]常用参数说...
  • linux 查找重复文件Hi, long time age when I was new comer to the Linux world I was using duplicate file finder named fdupes. But after a time I change my OS to windows and again to Linux. But I stopped...
  • Linux 命令行去除重复 uniq

    千次阅读 2014-12-04 11:12:36
    linux下有其他命令可以去除重复行,但是我觉得uniq还是比较方便的一个。使用uniq的时候要注意以下二点 1,对文本操作时,它一般会和sort命令进行组合使用,因为uniq 不会检查重复的行,除非它们是相邻的行。如果...
  • 本文实例讲述了删除MySQL重复数据的方法。分享给大家供大家参考。具体方法如下: 项目背景 在最近做的一个linux性能采集项目中,发现线程的程序入库很慢,再仔细定位,发现数据库里面很多冗余数据。因为在采集中,...
  • Linux去除重复列(awk之数组妙用)

    千次阅读 2015-06-10 23:28:59
    去除重复列结果如下:   方法:awk '{for(i=1;i<=NF;i++)a[$i,NR]++}{for(j in a){split(j,b,SUBSEP);if(b[2]==NR)printf b[1]" "} printf "\n"}' file   说明:本方法巧妙的...
  • 重复数据删除技术概述

    千次阅读 2014-10-19 21:59:04
    重复数据删除技术概述 一、 重复数据删除的分类 1. 源端重复数据删除和目标端重复数据删除 源端消重在数据源进行,传输的是已经消重后的数据,能够节省网络带宽,但会占用大量源端系统资源。 目标端消重发生在...
  • linux shell 文件去除重复

    千次阅读 2020-10-13 09:31:49
    去除重复后 sort -u test fffff jason 注意顺序被打乱 方法二:sort test|uniq 去除重复后 $sort test |uniq fffff jason 注意顺序被打乱,原理和方法一雷同 方法三:awk '!a[$0]++' 去除重复后 $ awk ...
  • 单链表中去除重复数据

    千次阅读 2015-07-29 16:38:11
    在写完上篇后,又对单链表中去除重复数据进行编程,以下是编写的代码 #include #include #define N 10 struct Data{  int num; struct Data *next; }; struct Data * Insert() {  int data,i; ...
  • 第一:两个文件的交集,并集 前提条件:每个文件中不得有重复行 ...3. 删除交集,留下其他的行 1. cat file1 file2 | sort | uniq > file3 2. cat file1 file2 | sort | uniq -d > file3 3. cat f...
  • linux重复行的删除

    2013-12-04 02:56:45
     则可以使用sort先进行排序 然后使用 uniq进行删除重复数据即可。必须先使用sort排序。 例如文件 file.txt  sh-3.2# more file.txt BIT20050106146 6 BIT20050106147 0 BIT20050106147 5 BIT20050106148 3 ...
  • 作者:多纤果冻blog.csdn.net/qq_37939251/article/details/90713643以下介绍五种-不同的方法去除 Java 中ArrayList中的重复数据...
  • np.array([[1,8,3,3,4], awk '{a[$0]++} a[$0]==2' code.txt uniq -c 去除重复行并计算 uniq -d 只显示重复行 uniq -u 只显示不重复行 a=[1,2,3,1,2,3,3,21,1]b=set(a)c=list(b) 今天在论坛上瞎逛,看见一条关于awk...
  • 去除重复行 sort file |uniq查找非重复行 sort file |uniq -u查找重复行 sort file |uniq -d统计 sort file | uniq -c
  • 深入理解数据压缩与重复数据删除

    万次阅读 热门讨论 2011-04-14 20:29:00
    数据压缩与重复数据删除两种技术有何区别与联系呢?实际中又该如何正确应用呢?笔者之前对数据压缩原理和技术没有研究,因此做了点功课,查阅整理了相关资料,并与重复数据删除技术进行对比分析。
  • oracle 重复数据去除

    2018-02-05 13:19:18
    oracle 重复数据查重删除 select id from (select row_number() over(partition by self_object_id order by self_object_id) record_line, si.* from sample_info si where self_object_id in
  • Linux 删除文本中的重复

    万次阅读 2012-10-01 18:21:17
    在进行文本处理的时候,我们经常遇到要删除重复行的情况。那怎么解决呢?下面就是三种常见方法?第一,用sort+uniq,注意,单纯uniq是不行的。shell> sort -k2n file | uniq这里我做了个简单的测试,当file中的重复...
  • jq 去除JSON重复数据

    千次阅读 2018-10-25 10:18:40
    //去掉重复选取的数据 for (var i = 0; i < classesArray.length; i++) { for (var j =i+1; j <classesArray.length; ) {  if (classesArray[i].id == classesArray[j].id ) {//通过id属性进行匹...
  • .trigger(Trigger.ProcessingTime(0)) .format("console") .start() query.awaitTermination() dropDuplicates 设置数据去重依据,如果两条数据uid内容完全一致,认为它们是重复数据,可以包含多个列名 dropDuplicates...
  • 建议使用Linux 3.9.4或更高版本,因为它可以修复扫描错误并与跨卷重复数据删除兼容。 这应该使您开始使用Ubuntu 16.04: sudo aptitude install python3-pip python3-dev python3-cffi libffi-dev build-...
  • Linux 命令之uniq 删除重复

    千次阅读 多人点赞 2020-05-20 09:27:12
    uniq 命令用于检查及删除文本中重复出现的行列;如果使用该命令不加任何命令行参数,则视为删除指定文本文件当中重复的行之后进行输出; 如果指定输出文件,则输出到指定文件当中。   1.2 uniq wc.data 将wc....
  • 重复数据删除 欢迎 这是我们在 TOS 中介绍的论文中描述的 RevDedup 的源代码。 该系统在 Ubuntu 12.04 64 位上进行了测试。 - 2014 年 12 月 设置 该程序可以使用 Linux make 编译。 用户需要分别下载三个必需的库。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 138,618
精华内容 55,447
关键字:

linux去除重复的数据

linux 订阅