精华内容
下载资源
问答
  • users 表和 auth_token_log表多, 现在把user的信息找出来 关联上一些 auth_token_log表的数据, 因为a表多的一方, 要多他的数据进行一些条件匹配   这个sql目的查出每个用户的最新的log记录 ...

    users 表和 auth_token_log表是一对多, 现在是把user的信息找出来 关联上一些 auth_token_log表的数据, 因为a表是多的一方,

    要多他的数据进行一些条件匹配

     

    这个sql目的是查出每个用户的最新的log记录

     

     

    原始写法

     

     

    SELECT
    	users.first_name,
    	users.email_address,
    	users.tp_user_id,
    	users.tp_username,
    	auth_token_log.module_access,
    	auth_token_log.created_date
    FROM
    	users
    	INNER JOIN auth_token_log ON users.id = auth_token_log.user_id
    WHERE
    	auth_token_log.id in(
    		SELECT
    		max(id)
    FROM
    		auth_token_log
    WHERE
    		auth_token_log.user_id = users.id
    	)

     

     

     

     

    自己的理解

     

    SELECT
    	users.first_name,
    	users.email_address,
    	users.tp_user_id,
    	users.tp_username,
    	auth_token_log.module_access,
    	auth_token_log.created_date
    FROM
    	users
    	INNER JOIN auth_token_log ON users.id = auth_token_log.user_id
    WHERE
    	auth_token_log.id in(
    		SELECT
    		max(auth_token_log.id)
    FROM
    		auth_token_log,
    		users
    WHERE
    		auth_token_log.user_id = users.id
    GROUP BY
    		users.id
    	)
     

     

    对于原始写法的理解是

    先查出

    SELECT
    	×
    FROM
    	users
    	INNER JOIN auth_token_log ON users.id = auth_token_log.user_id
    

     

    的记录,  然后针对每一行记录X,拿出这一行X与 一个新的auth_token_log表做join,然后筛选出 log.user_id = x..user.id的所有记录, 然后查出max(id), 这就是最新的log记录的 id

     

     

    还有一个类似的sql  http://www.iteye.com/topic/1029921

     

    表t_stu;其中三个字段:name,gender,grade;要求用一条sql语句查出男生前5名和女生前五名

     

     select * from t_stu a where 5>(select count(*) FROM t_stu where gender=a.gender AND grade>a.grade) order by a.grade desc

     

    对这个sql的理解是 对于每一行t_stu的记录, 拿出该条记录与一个新的t_stu做join, 然后找出这里面性别和自己一样,但分数比自己高的记录,然后统计这些记录的条数, 假如比自己高的记录数少于5,自己当然就是前5名了

     

     

     

     

     

    展开全文
  • 背景:今天接到一个有关江苏省企业信息汇总的excel文件,大小约为48M,包含了三张表,总数据量约为48万条。按照要求需要筛选出地址为徐州市的企业。...对原始数据进行一定处理,将所需表名以及字段名更换成英文,虽

    背景:今天接到一个有关江苏省企业信息汇总的excel文件,大小约为48M,包含了三张表,总数据量约为48万条。按照要求需要筛选出地址为徐州市的企业。
    分析:此excel文件没有设置字段,也没有进行相应的排序,各个市的信息是无序排列的,索引值仅告知我们企业的总数。由于对excel表格并不熟悉,且将48w条数据写入数据库在进行操作并导出会很麻烦,所以我首先想到的是使用SQL语句对excel文件进行查询。
    工具:excel表格2016版本
    具体做法:

    1. 对原始数据进行一定处理,将所需表名以及字段名更换成英文,虽然支持utf8编码格式,但是对于中文的处理还是需要加上引号。

    2. 新建一个excel文件,在上方菜单栏找到数据,并在数据选项下找到现有连接并打开。在这里插入图片描述

    3. 点击浏览更多
      在这里插入图片描述

    4. 找到我们所要处理的excel文件,因为处理的文件有可以有多个表格,所以会出现如下界面。
      在这里插入图片描述
      这里可以选择自动将首行列为标题,然后选中需要处理的表格,点击确定。

    5. 接下来,在下图界面选择属性
      在这里插入图片描述

    6. 我们在属性界面里面首先找到定义,在文本命令处可以得到当前表格的名字(即3处),选择表名后,在命令文本中输入SQL语句,即可对excel表格进行处理
      在这里插入图片描述

    7. 按照分析我们使用的语句是

    select * from [ market_search$] where location like '%徐州%';
    --这里的表名需要加上中括号,对字段location进行模糊查询,使用like并配合上正则表达式即可。
    

    在这里插入图片描述
    8. 最后在点击确定即可,需要注意的是,这里你需要指定是否将筛选的内容生成新的表格
    在这里插入图片描述

    展开全文
  • 接口可以返回的信息如下,格式化数据pandas格式的,希望做一些简单的排序和筛选 资金流向信息接口 字段名 含义 备注 date 日期 sec_code 股票代码 change_pct 涨跌幅(%) net_amount_main 主力净...

    1.原始数据的样子:

    接口可以返回的信息如下,是格式化数据pandas格式的,希望做一些简单的排序和筛选

    资金流向信息接口

    字段名 含义 备注
    date 日期
    sec_code 股票代码
    change_pct 涨跌幅(%)
    net_amount_main 主力净额(万) 主力净额 = 超大单净额 + 大单净额
    net_pct_main 主力净占比(%) 主力净占比 = 主力净额 / 成交额
    net_amount_xl 超大单净额(万) 超大单:大于等于50万股或者100万元的成交单
    net_pct_xl 超大单净占比(%) 超大单净占比 = 超大单净额 / 成交额
    net_amount_l 大单净额(万) 大单:大于等于10万股或者20万元且小于50万股或者100万元的成交单
    net_pct_l 大单净占比(%) 大单净占比 = 大单净额 / 成交额
    net_amount_m 中单净额(万) 中单:大于等于2万股或者4万元且小于10万股或者20万元的成交单
    net_pct_m 中单净占比(%) 中单净占比 = 中单净额 / 成交额
    net_amount_s 小单净额(万) 小单:小于2万股或者4万元的成交单
    net_pct_s 小单净占比(%) 小单净占比 = 小单净额 / 成交额
    
    from jqdatasdk import *
    import pandas as pd
    
    auth('user_name', "password")			# 填写自己的用户名和密码
    my_list = ["002080", "002056", "600372", "300114", "000768", "002179", "600685", "603757", "002157", "300413", "300602", "300511", "000977"]
    new_list = normalize_code(my_list)		# 格式化自己的股票代码,成为标准数据格式
    print(new_list)
    
    df = get_money_flow(new_list, '2020-07-16', '2020-07-16')		# 这里才是我们需要的格式化数据
    
    # 如果没有如下4个设置,在pycharm里面打印的东西不全,有省略
    pd.set_option('display.max_columns', 10000)				# 设置打印的列数
    pd.set_option('display.max_colwidth', 10000)			# 设置打印的列宽
    pd.set_option('display.max_rows', 10000)				# 设置打印的行数
    pd.set_option('display.width', 10000)					# 设置打印的行宽
    print(df)
    
    

    在这里插入图片描述

    2.插入新列,并计算新的值

    以下代码,都是衔接第一部分的所有代码实现的。因为冗余,就只贴出来新增部分

    
    length = len(my_list)						# 计算原始数据共计多少行
    data_list = [""] * length					# 生成N个元素的列表
    
    df.insert(3, 'main_ocp', data_list)			# 在索引为3的位置,插入新的列,列名叫main_ocp,此列的每个元素为上面我们创建的元素(此时的元素是什么不重要,先占位,后续再修改)
    # df["main_ocp"] = data_list				这种方式插入一列也行,但是默认是最后一列
    
    df["main_ocp"] = abs(df["net_pct_main"])	# 最终,计算新列里面,每个元素的值,为net_pct_main列值的绝对值
    print(df)
    
    

    在这里插入图片描述

    红色部分是蓝色部分的绝对值

    3.对列进行排序

    sort_values 使用说明:

    参数 说明
    by 指定列名(axis=0或’index’)或索引值(axis=1或’columns’)
    axis 若axis=0或’index’,则按照指定列中数据大小排序;若axis=1或’columns’,则按照指定索引中数据大小排序,默认axis=0
    ascending 是否按指定列的数组升序排列,默认为True,即升序排列
    inplace 是否用排序后的数据集替换原来的数据,默认为False,即不替换
    na_position {‘first’,‘last’},设定缺失值的显示位置
    
    df_new = df.sort_values(by='main_ocp', ascending = False)		# 默认排序是升序,False是降序
    print(df_new)													# 注意,此处需要有个新表名接收新的排序结果
    
    

    在这里插入图片描述

    如上排序中,如果是多列进行排序呢?

    
    df.sort_values(by=["data", "age"], inplace=True, ascending=[True, False])
    print(df)
    
    # df是上一步,得到的格式化数据表格
    # inplace 为True,就相当于把新的排序替换df表格的排序了
    # data列升序,age列降序
    
    

    4.对列筛选

    
    df_filter = df_new[df_new["main_ocp"] >= 5]
    print(df_filter)
    
    

    在这里插入图片描述

    5.前5条数据

    
    df_new = df.sort_values(by='net_amount_main', ascending=False).head(5)
    print(df_new)
    
    

    在这里插入图片描述

    可以在排序之后,使用head(XX), 获取前XX条数据

    展开全文
  • 本科生教育水平国家科学文化发展水平的根本标志之一...用模糊聚类分析方法数据进行处理,筛选出影响本科生教育水平评定的9项指标,这些指标基本涵盖了本科生教育水平所包含的有效信息,为下一步的研究提供了实证依据。
  • 手机或照机拍摄的照片名称通常"IMG_001.JPG"这种格式,这种文件名称无意义的。...如果照片进行处理,如美化操作,另存为时可能会丢失EXIF信息,或者EXIF信息被改写,会导致识别信息不准。 我以前备份的

    手机或照机拍摄的照片名称通常是"IMG_001.JPG"这种格式,这种文件名称是无意义的。使用照片拍摄时间命名可以让我们在多年以后查找照片时根据文件名就能快速筛选出某一时间段的照片。

    原始照片或视频是带有EXIF信息的。这些信息是设备在拍摄时生成,记录了照片的拍摄时间,设备信息,拍摄GPS位置等信息,在文件属性中可以查看到:

    20210423003430.png

    图片APP和网盘软件中图片时间线也是提取EXIF信息生成的。如果对照片进行处理,如美化操作,另存为时可能会丢失EXIF信息,或者EXIF信息被改写,会导致识别信息不准。

    我以前备份的照片,大多是原始文件名,现在我想根据拍摄日期批量重命名。

    找了一圈,发现老牌看图软件ADSee带有这个功能:

    20210423004238.png

    但是存在几个问题:

    1. 不能排除已丢失EXIF的文件,这类的文件无法重命名
    2. 官方ADSee免费版下载安装后,要注册账号才能使用

    于是动动手,用JAVA代码实现这个小功能。

    提取EXIF信息使用的是开源项目 metadata extractor ,它支持市面上常见的媒体文件格式和设备:

    20210423004839.png

    metadata extractor 官网:https://drewnoakes.com/code/exif/

    引入依赖:

    <dependency>
      <groupId>com.drewnoakes</groupId>
      <artifactId>metadata-extractor</artifactId>
      <version>2.15.0</version>
    </dependency>
    

    官方读取示例代码:

    Metadata metadata = ImageMetadataReader.readMetadata(file);
    
    for (Directory directory : metadata.getDirectories()) {
        for (Tag tag : directory.getTags()) {
            System.out.format("[%s] - %s = %s \n",
                directory.getName(), tag.getTagName(), tag.getDescription());
        }
        if (directory.hasErrors()) {
            for (String error : directory.getErrors()) {
                System.err.format("ERROR: %s", error);
            }
        }
    }
    

    以下是我使用示例代码读取一张图片输出的部分结果:

    20210423005111.png

    其中 Date/Time Original 就是我要取的摄像日期。

    代码如下:

    /**
     * 如果是目录则递归查找
     * @param file 文件或目录
     */
    public static void recursion(File file) {
    	if (file.isDirectory()) {
    		// 目录
    		File[] fileList = file.listFiles();
    		for (File f : fileList) {
    			recursion(f);
    		}
    
    	} else {
    		// 文件
    		if (file.isFile()) {
    			// 格式:2019:06:27 11:23:55 或 2019:07:13 19:07:42下午
    			String originDateTime = getOriginDateTime(file);
    			if (null != originDateTime) {
    				int lastDoc = file.getPath().lastIndexOf(".");
    				String suffix = file.getPath().substring(lastDoc);
    				String fileName = originDateTime.replace("下午", "").replaceAll(":", "-") + suffix;
    				File newFile = new File(file.getParentFile(), fileName);
    				if (newFile.exists()) {
    					System.out.format("文件【%s】已存在 \n", newFile.getPath());
    				} else {
    					System.out.format("重命名【%s】 -> 【%s】 \n", file.getPath(), newFile.getPath());
    					file.renameTo(newFile);
    				}
    			} else {
    				System.out.format("文件【%s】中未找到 Origin DateTime 信息  \n", file.getPath());
    			}
    		}
    	}
    }
    
    /**
     * 提取拍摄日期
     * @param file
     * @return
     */
    public static String getOriginDateTime(File file) {
    
    	String originDateTime = null;
    	try {
    		Metadata metadata = ImageMetadataReader.readMetadata(file);
    
    		for (Directory directory : metadata.getDirectories()) {
    			for (Tag tag : directory.getTags()) {
    				if ("Date/Time Original".equals(tag.getTagName())) {
    //                        System.out.format("[%s] - %s = %s \n",
    //                                directory.getName(), tag.getTagName(), tag.getDescription());
    					originDateTime = tag.getDescription();
    				}
    			}
    			if (directory.hasErrors()) {
    				for (String error : directory.getErrors()) {
    					System.err.format("ERROR: %s %s \n", error, file.getPath());
    				}
    			}
    		}
    	} catch (Exception e) {
    		e.printStackTrace();
    	}
    
    	return originDateTime;
    }
    

    Main方法测试:

    public static void main(String[] args) throws ImageProcessingException, IOException {
    
    	recursion(new File("图片目录"));
    }
    

    执行结果:

    20210423012649.png

    可以根据自己需求重写重命名方法。比如在拍摄日期相同时加上一个自增数。


    除非注明,否则均为"攻城狮·正"原创文章,转载请注明出处。
    本文链接:https://engr-z.com/393.html

    展开全文
  • 研究了纹理较多、噪声较大的两幅或多幅的图像拼接问题....去噪后,利用SIFT算法提取特征点进行匹配,最后利用RANSAC算法匹配点对进行筛选,提高准确度.通过由SKM算法得到的变换矩阵H作用于原始图像,完成图像的拼接.
  • 关联分析matlab代码minepy-基于最大信息的非参数探索 minepy为基于最大信息的非参数...TICe用于所有可能的成关系进行有效的高通量筛选,以评估它们的重要性,而MICe用于根据其强度重要关联的子集进行排名。 ,。
  • 人事信息管理系统

    2006-03-16 00:00:00
    可在“横向筛选”和“纵向筛选”中进行信息筛选,在“计算操作”中进行字段计算处理,在“信息增强处理”中数据进行处理。  分析功能:即图形分析,可在“信息分析”界面对所需分析的数据进行图形分析。系统...
  • 它包括直接在WSL中进行的数据质量筛选,聚类,分类分配和进一步的统计分析,从而避免了从Windows迁移到Linux的先前需求。 BTW有望通过为Windows用户提供生物信息学工具的快速访问,来促进NGS扩增子数据的使用。 ...
  • 无线传感器网络基本安全需求和特殊安全需求分别有哪些? 基本安全需求:1....在融合结点对冗余数据进行过滤、筛选,去除冗余,并对原始数据进行简单计算和处理,将处理后的更贴合实际需要的融合数据继续..
  • 7.3 正则处理

    2021-02-08 15:17:38
    正则表达式一种进行模式匹配和文本操纵的复杂而又强大的工具。虽然正则表达式比纯粹的文本匹配效率低,但是它却更灵活。按照它的语法规则,随需构造出的匹配模式就能够从原始文本中筛选出几乎任何想你要得到的字符...
  • 书接上文。 4. 特征筛选 前述特征工程的工作从原始数据中提取,...因此进行特征对筛选是很必要步骤。我们可以随意的构造众多特征,在筛选的时候根据数据量,问题场景等,或者经验,筛选出一部分特征,再传入模型...
  • 二手车价格预测-Task1

    2020-03-21 20:51:37
    关于变量信息的选择:原始数据有31列变量,按照我的理解,针对模型开展的训练需要特征信息进行筛选,也就是那些最终价格预测无作用甚至起消极作用的特征列进行删除。 交易ID:应该只是个编号,不重要 Name:...
  • 首先对原始特征集进行初始筛选,去除冗余特征及噪声后,对得到的特征子集采用语义神经网络进行智能的特征选择,其核心关联度及激活变量的计算。从而得出代表问题空间的最优特征子集,实现降维并提高分类精度。实验证明...
  • 首先在卷积神经网络中引入一个多尺度特征级联注意力模块,对原始卷积神经网络的特征图中各区域进行不同重要程度的关注,降低特征图的背景及负样本信息的干扰,特别在浅层特征图中可对小目标物体进行有效的关注。...
  • 2021 泰迪杯 A 题

    千次阅读 多人点赞 2021-05-08 21:52:28
    第一问(以‘制造业’为例)给数据加上行业标签离群数据处理标准化处理筛选指标根据偏相关系数进行筛选配合 FLAG 筛选原始数据?不变?显著大于?机器学习模型?特征权重?结果第一问最终结果过程结果第二问时序性?...
  • 研究结果表明,最终建立的指标体系用17%的指标反映了99%的原始信息;四通过人均GDP、国民幸福指数等指标反映了以人为本、可持续发展的科学发展内涵;五在国际权威机构典型观点高频指标基础上进行客观数据筛选...
  • 利用WordNet语义词典中的上下文关系和相似度关系为各个原始查询词构建语义树,并将这些语义树向上溯源建立完整的概念语义空间,以共现信息为特征参数扩展源中的词进行筛选,以避免过度扩展引起查询语义漂移。...
  • ”它集输入、维护、查询、筛选、统计和各种处理为一体,通过采集出入库及库存管理中所产生的各种原始数据,根据物流管理的要求,对原始数据进行分类、汇总、分析,及时准确地提供各种信息数据,利于管理者做出正确的...
  • 我的视频首先展示的该老师发布的全部课程,其中可以课程进行筛选(免费课程和收费课程)。 同时还可以创建课程,需要填写的信息为课程头像,课程标题,课程内容,课程价格,课程类别及课程观看条
  • 目标一张拍照得到的医疗化验单(如血常规),识别出里面的内容。...body一般一列一列数据,而header可能检验者的信息。body:header:垂直投影分析,筛选出有内容的列每一列都特定的数据,比如序号、化验项
  • 回购包括原始数据和中间步骤,这些步骤用于从搜索中识别文章,由多个审阅者筛选摘要,全文文章进行编码以及编码的测试进行处理。 请参阅手稿以获取更多详细信息。 events-db.csv已清理和标准化的数据库。 它...
  • ctr论文调研

    2019-09-30 08:20:27
    文章主要在特征工程这块下功夫,提出来基于GBDT模型的多维特征提取方法,该方法利用原始特征数据构建多维特征库,并将特征库中除ID类特征以外的其余特征输入GBDT模型进行特征筛选,得到高层特征。 数据预处理部分:...
  • 特征数据中抽取出来的结果预测有用的信息,可以文本或者数据,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,因此有必要进行特征工程,其目的就是最大限度地从原始数据中筛选出更好的...
  • 原始码后这本书的第二部分,即注释部分,注释部分对原始进行了讨论。注释部分的每一章讨论了一个不同的内核子系统,或是其他的功能性逻辑组件,例如系统调用或内存管理。注释部分大量的行号引用为你指明了所讨论...
  • 其实在(机器学习从蛋白序列预测蛋白分类(一)中已经做过一次特征筛选,即从两个原始文件中提取出sequence和classification信息并整合至一个文件,这里特征提取主要针对蛋白序列。为何要蛋白序列进行二次特征提取...
  • 1:数据访问层:主要是对原始数据(数据库或者文本文件等存放数据的形式)的操作层,而不是指原始数据,也就是说,是对数据的操作,而不是数据库,具体为业务逻辑层或表示层提供数据服务。 2:业务逻辑层:主要是...
  • 版权申明:本文版权为Stanley所有,仅限于非盈利性网站、BSS、BLOG转载和...其基本原理基于网络嗅探,即抓取并记录经过检测节点以太网接口的数据包并进行协议分析,筛选出符合危险特征的或是特殊的流量。网络管理
  • go正则处理

    2021-02-09 11:09:10
    正则表达式一种进行模式匹配和文本操纵的复杂而又强大的工具。虽然正则表达式比纯粹的文本匹配效率低,但是它却更灵活。按照它的语法规则,随需构造出的匹配模式就能够从原始文本中筛选出几乎任何想你要得到的字符...
  • 答:高级加密标准(AES)美国联邦信息处理标准(FIPS)。 经过5年的筛选,共评估了15个竞争性设计,最终选定了它。 它支持AES-128,AES-192和AES-256。 它将根据您输入的密钥的大小来选择变体。问:安全吗? 答:...

空空如也

空空如也

1 2 3 4 5
收藏数 93
精华内容 37
关键字:

信息筛选是对原始信息进行