精华内容
下载资源
问答
  • 自动生成数据[造数据工具]批量造数据
  • 利用PCA对半导体制造数据(1567 X 590)进行降维。

    数据集链接
    提取码:l552

    1. 对数据进行处理,包括对nan进行处理。要注意,这里的文件是以.data形式给出,对.data文件的处理详见:python利用pandas读取.data文件并对nan进行处理
    2. 浏览本文前请先熟知PCA的基本原理及大致过程,详见:降维基础知识(样本均值、样本方差、中心矩阵)与PCA(最大投影方差,最小重构代价,SVD分解)
    3. 根据PCA理论:构建样本矩阵X、协方差矩阵S、中心矩阵H。
    4. 对S进行特征值分解,并取前K个特征值最大的特征向量(降成K维)。
    5. X与上述新构建的特征向量矩阵相乘,得到最终答案。

    完整代码:

    import pandas as pd
    import numpy as np
    from numpy import linalg
    
    def load_file():
       data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
       data = np.array(data)
    
       for i in range(data.shape[1]):
           temp = np.array(data)[:, i].tolist()
           mean = np.nanmean(temp)
           data[np.argwhere(np.isnan(data[:, i].T)), i] = mean
    
       return data
    
    
    def pca(K):
        X = load_file()
        N = X.shape[0]
        En = np.eye(N)
        In = np.ones((N, 1), float)
    
        H = En - (1/N)*np.dot(In, In.T)  #定义中心矩阵
        S = (1/N)*np.dot(np.dot(X.T, H), X)  #定义协方差矩阵
    
        val, vec = linalg.eig(S)   #求解特征值与特征向量
        sorted_indices = np.argsort(-val)   #从大到小排序
        #取前K个最大的特征值的特征向量
        final = np.zeros((K, vec.shape[1]), float)
        for i in range(K):
            final[i, :] = vec[sorted_indices[i], :]
    
        final_data = np.dot(X, final.T)  #降为K为后的矩阵
        return final_data
    
    
    if __name__ == '__main__':
        K = 250
        print(pca(K))
    
    展开全文
  • hive造数据

    2017-08-07 19:03:36
    hive造数据
  • 如何造数据 很多人将造数据看成小儿科,但并不是这样的,往往造数据要思考的甚至比写代码要思考的多了多。 下面让我简单的介绍一下: 基本的随机代码 先来看随机造数的函数。 C++: //需要用到的库 #...

    如何造数据


    很多人将造数据看成小儿科,但并不是这样的,往往造数据要思考的甚至比写代码要思考的多了多。
    下面让我简单的介绍一下:

    基本的随机代码

    先来看随机造数的函数。
    C++:

    //需要用到的库
    #include<cstdlib>
    #include<windows.h>
    srand()//初始化(放在程序开头),如果不初始化,生出来的东西是一样的
    srand(time(0))//较慢的初始化,要调ctime库
    srand(GetTickCount())//毫秒级初始化(反正就是快),要调windows.h库
    rand()//生成一个short int类型的非负整数
    //如果要生成int类型的数就得写个函数
    int brand(){
        return (rand()<<15)+(rand()<<1)+(rand()&1);
    }
    //这样就好了

    pascal:

    randomize;//初始化(很快,放在程序开头)
    random(x)//生成一个0到x-1的整数

    本人只会这两种语言。。。

    树形结构的构造

    造数据时,树形结构是十分麻烦的,如果你想生成一棵树,如果纯随机的话,经常生出一个环来。所以这时候就要思考了。

    1.我们根据树的定义,知道每个节点当且仅有一个父节点,那么我们就为每个节点选一个父节点,然后建图,完美解决。

    2.我们学过Kruskal,知道它的原理,就是从最小的开始,看两端点是否连通,不连通就连上。我们可以根据这个方法,先胡乱造一通,劲量多造,然后打乱(其实也可以不打乱,因为本身就是乱的),然后用并查集,将无用的边删去。最后还需要check一趟,因为你不能保证刚好是一个连通块,经常出现多个的情况,所以有意的加入几条边,整体还是随机的。

    方法还有很多,或许大佬们还有更好的想法。

    一个难造的造数据(题目)

    下面给你们一道小题(同学出的),你可以尝试去造,但是,我是造(tai)不(lan)来(le)的。

    接电路
    (electricity.pas/c/cpp)
    【题目背景】
    这次,ZYK和WLW正在进行电学实验,ZYK装逼气焰十分嚣张,出了难题考考WLW
    【题目描述】
    在WLW和ZYK的试验中,一共有N(1≤N≤79)种型号的用电器,每种用电器的个数无限多
    ZYK与WLW不屑于简单的并联、串联电路,他们常常会尝试复杂的混联电路!
    但是这些用电器质量不过关,每一个用电器都有P的可能断路(0≤P≤1)
    假若表示一个简单的混联电路,是这样的:
    这里写图片描述
    ZYK果断嫌太烦,于是WLW改进了表示方法,上面这个电路,可以这样表示:
    A,(B)(C)(D)
    下面解释一下:
    1.一个元件是最小的电路,最多有79种用电器,分别用字符0到字符~(ASCII码从48到126一共79个,放心,这些关键字符号(,)肯定不在那里面)
    2.K个电路组成的串联电路表示为电路1,电路2,……,电路K
    3.K个电路组成的并联电路表示为(电路1)(电路2)……(电路K)
    【任务】
    现在ZYK想让WLW求出电源两端断路的概率
    【输入格式】
    第1行是一个整数N,表示用电器型号总数
    第2行是一个表示电路的字符串,如题目描述所示
    接下来n行,每行一个字符C(0到~)和一个实数P(小数点后最多6位小数),中间用一个空格隔开,P表示对应用电器C断路的概率,数据保证C各不相同
    【输出格式】
    一行一个实数N,表示电源两端断路的概率,四舍五入保留6位小数
    【样例输入】
    5
    (A,B)((C)(D),E)
    A 0.2
    B 0.3
    C 0.4
    D 0.5
    E 0.6
    【样例输出】
    0.299200
    【数据范围】
    对于9%的数据:N≤10,且全部为数字,电路字符串长度≤40
    对于27%的数据:N≤26,且全部为大写字母,电路字符串长度≤200
    对于54%的数据:N≤52,且全部为大小写字母,电路字符串长度≤3000
    对于81%的数据:N≤79,电路字符串长度≤80000
    对于100%的数据:N≤79,电路字符串长度≤1000000
    【注释】
    本题不开-O2编译优化
    时间限制:1秒
    空间限制:64MB

    其实这个可以用DFS构造,但是由于注意事项太多,本人懒的码代码。

    反例的构造

    造反例,有时是很容易的,但是数据一大,你就很难把控,特别是图论的题目,很有可能会绕过你专门造的路线。所以,当遇到这种题目时,多造几组对拍一下。
    造反例还需要思考很多东西,因为有些代码是根据题目描述,猜出数据方向而写的。
    有些题目,像NOIP2017第三题,数据太弱了,弱到写个从左上角到右下角的DP都能拿95分,想这种DP,随便造一个回路就可以放倒,除非是N次DP,结果,就一个点放倒了,这就是出题人没考虑到,或者太(tai)懒(cai)了(le),懒(cai)到抠脚。
    所以说,每当造数据时,一定要思考往哪个方向造数据,尽量不要让人骗分骗到手。
    造反例有一个很好有的方法,就是对拍,拍它个一个小时,反例就到手了(但是没有好的代码,可能永远也停不了)。
    对拍是用批处理写的

    :loop
    maker//造数据
    a.exe//标程(.exe可以不写)
    b.exe//有反例的程序或可能有反例的程序
    fc a.out b.out//比较输出文件
    if errorlevel==1 pause//如果不同,就停止
    goto loop//继续

    对拍拍停了,那么反例就出来了。在比赛中很好用,有了新想法,和笨蛋对拍一下,就知道大致是否有问题。然后,跟着数据模拟,三下两下错误就找到了。

    如何造出最坏的数据

    就举个例子吧,比如像是区间类的题目,just like区间求最大值(其实这个很简单,只是举个例子)。

    对于Q次询问L,R(1≤L≤R≤N)。
    输出L到R区间的最大值。

    这种数据构造很简单:

    for(int i=1;i<=Q;i++){
        int L=rand()%N,R=rand()%N;
        if(R<L) swap(L,R);
        printf("%d %d\n",L,R);
    }

    有人会写O(N^2)的扫描

    for(int i=1;i<=Q;i++){
        int L=read(),R=read();//读入
        ans=0;
        for(int j=L;j<=R;j++) ans=max(ans,a[j]);
        printf("%d\n",ans);
    }

    然而,(理论估计)当数据N,Q上到10^4时就不行了。但是,你会发现,这种笨蛋照样能杀满。
    因为询问的边界L和R是随机给的,区间跨度有可能很小,时间也就上不到O(N*Q)。
    所以当这种情况,我们需要限制一个边界的跨度,比如5*10^3,因为如果都是1到N的话很容易被人猜中。

    for(int i=1;i<=Q;i++){
        int L=rand()%N,R=rand()%N;
        if(R<L) swap(L,R);
        while(R-L<5000){
            L=rand()%N,R=rand()%N
            if(R<L) swap(L,R);
        }
        printf("%d %d\n",L,R);
    }

    只是举个例子,像这种情况还有很多,题目也不少,这里就不一一介绍了。

    喜欢就加个关注吧!

    展开全文
  • Maxcompute造数据-方法详解.pdf
  • powercenter 造数据问题

    2013-08-01 16:39:36
    powercenter 中关于PT造数据有哪些事项和技巧 我现在在造数据 有好多left outer jion 很麻烦 怎么造数据
  • ACM造数据+测数据

    千次阅读 2018-10-02 16:20:22
    造数据: #include&amp;lt;bits/stdc++.h&amp;gt; using namespace std; int main() { freopen(&quot;in.txt&quot;,&quot;w&quot;,stdout); srand(time(NULL)); /* 写需要输出...

    造数据:

    #include<bits/stdc++.h>
    using namespace std;
    int main()
    {
            freopen("in.txt","w",stdout);
            srand(time(NULL));
            /*
                    写需要输出的数据
            */
            return 0;
    }
    

    测试数据

    #include<bits/stdc++.h>
    using namespace std;
    int main()
    {
            freopen("in.txt","r",stdin);
            freopen("out1.txt","w",stdout);
            /*
                    写待测程序
            */
            return 0;
    }
    
    展开全文
  • Python造数据工具

    2018-04-12 15:49:46
    不管SQL逻辑,直接写SQL数据在前台页面展示,方便快捷,节省时间
  • 目前在测试那边的现状,测试同学经常得在数据库中不断重复造数据删数据。 原因 因为测试环境中的数据库唯一,每次修改无法做到快照备份,在各种测试切换中,需要重复造数据,删数据。 分析 针对测试同学...

    数据库持续备份和恢复

    问题

    目前在测试那边的现状,测试同学经常得在数据库中不断重复造数据删数据。

    原因

    因为测试环境中的数据库唯一,每次修改无法做到快照备份,在各种测试切换中,需要重复造数据,删数据。

    分析

    针对测试同学这个问题,利用 Docker 的快速启动容器,镜像快速制作、分发, 数据卷 等特点,尝试解决这一问题。

    解决思路

    思路一

    镜像备份数据

    1、制作 mysql 基础镜像

    2、开启 mysql 容器,并使用

    3、及时 commit 备份某一断点的镜像

    4、下次需要使用时,用备份好的镜像开启容器

    相关脚本:

    docker commit --change='ENTRYPOINT ["docker-entrypoint.sh"]' --change='CMD ["mysqld"]' 5ab89f39797f mysql:back

    优点:操作简单,易理解和使用
    思路二

    共享数据卷备份数据

    展开全文
  • mysql数据库大量造数据

    千次阅读 2020-08-31 21:35:36
    1、准备一条插入sql: INSERT INTO `t_game_record`(`id`, `game_id`, `viewer_id`, `guess_price`, `status`, `create_date`, `update_date`) VALUES ...2、将上边的sql插入要造数据的那个表,即“t_game_record”表;
  • 使用pl/sql developer data generator造数据
  • 性能工具造数据 (jmeter)

    千次阅读 2017-11-08 10:52:39
    用工具造数据 jmeter 多线程造数据 http中 post请求 要填参数 计数器中的num 参数化 tps 单位(笔/秒) 和 rt 多线程于单线程时候的 区别。计数器中的 最大值和等于 线程数乘以循环次数 单线程多线程jmeter...
  • 今天小编给大家推荐一款Python开源库,技术人必备的造数据神器!非常不错,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
  • 日本外包造数据的exl

    2009-12-18 16:51:10
    专门为对日外包软件开发者做的造数据测试使用
  • ACM--如何出题造数据

    千次阅读 2019-11-08 15:30:26
    今天来记录记录如何出题造数据.. 首先,你先出好一个题: 比如 题目描述: 计算a+b 1<=a,b<=1e9 输入描述: 一行两个整数 输出描述 一行一个答案 输入样例: 1 2 输出样例 3 一 、把标程写好: ...
  • sql批量造数据工具(安装包 + 源码)

    热门讨论 2011-10-14 15:32:25
    sql批量造数据工具(安装包 + 源码) 瞬间自动生成批量数据; 可针对某张表自动生成select,insert,update,delete样例语句,帮助节省编写sql的时间; 这是用VS2010做的小工具。在安装它之前,请先确保你的机器已安装...
  • Yapi造数据有一些典型的用法,下面我们来一一看一下: 第一式:最简单之写啥就返回啥。 这是最简单的造数据方法。创建一个新接口,设置接口路径(略)。然后在“返回数据设置”中设置一串写好的json语句: { ...
  • java实现多线程selenium造数据

    千次阅读 2016-11-07 10:12:52
    总所周知,java有多线程这个利器,那么举个最简单的例子:日常测试中难免会需要...这里我们讲如何通过java的多线程来实现同步快速的造数据。 根据你的需要,可以写N个方法来继承java的Thread抽象类,实现run()方法,在
  • SQL 备份表-造数据-还原表

    千次阅读 2017-03-23 21:28:35
    SQL 备份表-造数据-还原表
  • mysql 通用造数据脚本

    千次阅读 2018-05-25 10:30:07
    计算得到的近三四百个“标签“数据会会落到中台N张表中。操作员,在管理平台,能够通过特定”标签“获取某类满足此”标签“的用户,或者搜索某个用户的账户,查询该用户的”标签“。 在测试过程中,没有数据是一个...
  • 给数据库中的表造数据

    千次阅读 2016-04-19 11:26:41
    mysql造数据 insert INTO tj_nsr (org_id,org_name,nsrsbh,nsrmc,sssq,sksbsl,kpl,kpje,se,writetime) values ("10100000000","Johor","445202790204341","BAN JOO HIN","2016-03",FLOOR(RAND() * 10000),FLOOR(RAND...
  • Scala 造数据脚本,方便Spark做测试用

    千次阅读 2016-12-09 09:26:06
    苦于spark 无数据可测试,于是就动手写了些scala 程序用来造百G 或更多的数据,以方便spark sql 做测试使用,之前在某影视公司面试的面试题数据结构,我就按这个来进行造数据。结构一共6个字段:DataStructure("ID",...
  •  自动化测试除了验证系统功能外,还能够为测试人员根据测试要求造数据实现测试需要!但是一般的自动化测试,都是在编写脚本的时候,写死在程序里的。所以本文是为了在满足系统操作流程的基础上,根据测试的要求实现...
  • 利用MySQL触发器高性能造数据

    千次阅读 2012-11-22 12:59:05
    MySQL 触发器功能比较简单,大部分只用来简单的更新第三方表,今天我来演示下MySQL触发器在造数据方面的功效。 下面是基表结果:CREATE TABLE `tb1` ( `id` varchar(255) NOT NULL, `log_date` date DEFAULT NULL...
  • 简单的数据库造数据方法

    千次阅读 2018-08-20 18:58:54
    public class Snippet { public static void main(String[] args) { try { String url = &quot;数据库URL&quot;; // orcl为数据库的SID String user = &quot;数据库用户名&... String pas...
  • mysql 快速造数据sql

    千次阅读 2019-12-04 18:05:04
    -- 主键冲突时排除主键复制 INSERT INTO `account`.`advertiser`( `advertiser_uid`, `advertiser_type`) SELECT `advertiser_uid`, `advertiser_type` from advertiser_copy 快速造数据 -- 循环插入 drop ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 307,206
精华内容 122,882
关键字:

造数据