精华内容
下载资源
问答
  • //打开文件创建数据流 BufferedWriter out = new BufferedWriter(new FileWriter("C:\\机器人Log\\05\\"+dir+"_out.txt")); BufferedWriter out_rfid= new BufferedWriter(new FileWriter("C:\\机器人Log\\05\\"+dir...

    packagereadText;importjava.io.BufferedReader;importjava.io.FileReader;importjava.io.BufferedWriter;importjava.io.FileWriter;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importjava.util.LinkedList;importreadText.Compare;public classReadData {public static void main(String[] args) throwsIOException {try{

    String dir="Log_2020-12-06_000";

    BufferedReader in= new BufferedReader(new FileReader("C:\\机器人Log\\05\\"+dir+".txt"));//打开文件创建数据流

    BufferedWriter out = new BufferedWriter(new FileWriter("C:\\机器人Log\\05\\"+dir+"_out.txt"));

    BufferedWriter out_rfid= new BufferedWriter(new FileWriter("C:\\机器人Log\\05\\"+dir+"_out_RFID.txt"));

    String str;//定义String变量用来保存每一次读到的每一行的数据

    int i=0;//行数

    int j=0;//RFID个数

    int temp=0;

    String Date="";

    String Missionid="";

    String com="";

    String rfid1="";

    String rfid2="";

    ArrayList arraylist =new ArrayList();

    List ls=new LinkedList();/*对下面的数据进行筛选*/

    while((str=in.readLine())!=null){if(str.contains("MissionID")&&str.contains("Command")&&str.contains("RFID")){//筛选条件

    if(str.length()>0){

    arraylist.add(str);if(str.contains("PSwapD")){

    j=j+2;

    Date=str.substring(0, 19);

    Missionid=str.substring(43, 58);

    com="PSwapD";

    rfid1=str.substring(112, 120);

    rfid2=str.substring(145, 154);//System.out.println(Date+Missionid+com+rfid1+rfid2);

    Compare compare=newCompare(Date,Missionid,com,rfid1,rfid2);//System.out.println(compare.getDate());

    ls.add(compare);

    }else{

    temp=temp+1;

    j=j+1;if(str.contains("PD")){

    Date=str.substring(0, 19);

    Missionid=str.substring(43, 58);

    com="PD";

    rfid1=str.substring(120, 128);

    rfid2="";//System.out.println(Date+Missionid+com+rfid1+rfid2);Compare compare=newCompare(Date,Missionid,com,rfid1,rfid2);//System.out.println(compare.getDate());

    ls.add(compare);

    }if(str.contains("Pickup")){

    Date=str.substring(0, 19);

    Missionid=str.substring(43, 58);

    com="Pickup";

    rfid1=str.substring(113, 122);

    rfid2="";//System.out.println(Date+Missionid+com+rfid1+rfid2);

    Compare compare=newCompare(Date,Missionid,com,rfid1,rfid2);//System.out.println(compare.getDate());

    ls.add(compare);

    }if(str.contains("Dropoff")){

    Date=str.substring(0, 19);

    Missionid=str.substring(43, 58);

    com="Dropoff";

    rfid1=str.substring(112, 120);

    rfid2="";//System.out.println(Date+Missionid+com+rfid1+rfid2);

    Compare compare=newCompare(Date,Missionid,com,rfid1,rfid2);//System.out.println(compare.getDate());

    ls.add(compare);

    }

    }

    i=i+1;

    }

    }

    }

    in.close();for(String s: arraylist){

    out.write(s);

    out.newLine();

    out.flush();

    }

    System.out.println(ls.size());for(int z=0;z

    String rfid=ls.get(z).getDate()+" "+ls.get(z).getMissionid()+" "+ls.get(z).getCom()+" "+ls.get(z).getRfid1()+" "+ls.get(z).getRfid2();

    System.out.println(rfid);

    out_rfid.write(rfid);

    out_rfid.newLine();

    out_rfid.flush();

    }

    out.write("输出完毕,共"+i+"行,"+j+"RFID");

    out.close();

    out_rfid.close();

    System.out.println("输出完毕,共"+i+"行");

    System.out.println("输出完毕,共"+j+"个RFID");

    System.out.println("输出完毕,共"+temp+"个RFID");

    }catch(IOException e) {

    }

    }

    }

    展开全文
  • Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata TestingdataTestingdata Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata TestingdataTestingdat...

    Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata

    Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata Testingdata

    Testingdata Testingdata Testingdata

    D and A

    Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1

    Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1

    Testing1Testing1 Testing1 Testing1 Testing1 Testing1 Testing1 Testing1- End

    Date 11/30/11 Page 2

    D和A

    测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2

    ?测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2

    ?测试2测试2测试2

    ????????????????????????????????????????????????????日期11/30/11第3页

    D和A

    测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2

    ?测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2

    ?测试2测试2测试2-结束

    展开全文
  • 从PDF提取关键数据; <2>将关键数据整理到对应的Excel文件; <3>要求批处理,可以处理多个类似的内容的PDF文件; <4>重点还是提取上市公司年报的财务数据。 小编看到这个需求,首先想到用...

    目录

    一、前言

    二、难点

    三、提取难点解决思路

    四、源代码


    一、前言

    小编最近遇到需求了:

    <1>从PDF提取出关键数据;

    <2>将关键数据整理到对应的Excel文件;

    <3>要求批处理,可以处理多个类似的内容的PDF文件;

    <4>重点还是提取上市公司年报的财务数据。

    小编看到这个需求,首先想到用python,应了那句“人生苦短,必须python”。是的,python确实是一门好用的工具语言。问问度娘,还真有用于处理PDF文件的Package,列示如下:

    (1)PDFMiner;(2)PyPDF2; (3)Tabula; (4)pdfplumber

    每个包的侧重点不同,小编这里细说,伙伴们自行百度/谷歌/Bing。经过一番对比,小编最终选择了pdfplumber,其综合表现最佳。使用教程可以参考这篇博客

    二、难点

    这里先贴出Pdfplumber使用的一些关键说明,关键操作基本有这两张表就OK了。

    初步测试了一篇PDF年报,指定页提取表格数据,是一个3维的list,表格table2维,1维表示当前页面的表数量。感觉还不错,正当小编开始跃跃欲试之际,难点遇到了:

    <1>当页码不知道的时候,怎么提取所需的数据,依据什么关键词判断页面包含关键数据;

    <2>对于上市公司而言,不同公司的年报数据格式不一样,年报的关键词表述也不一致,有的1列,有的2列,甚至更多,表格还存在跨页的现象;

    <3>同一公司不同年份的数据也出现和<2>中一致的情况,这就对工具提出了考验啊。

    三、提取难点解决思路

    1、关于<1>中的难点,基本没啥特别的办法,一方面关键词要选对,但又不能太具体化,要模糊,具备范化能力的关键词,大白话就是几乎所有的PDF文件涉及到这类数据的时候都包含这个关键词,如果有其他情况,那就需要关键词多个组合考虑,基本就是统计组合的思想加上过滤条件。

    2、关于<2><3>中的情况,那就比较复杂,这里不好展开讲,小编经过一番探索,也可以提取了,但是发现像同花顺这样的网站有年报的数据了,直接爬就好了。但是小编对比发现很多数据和年报中的有差异。于是乎决定自己提取。

    四、源代码

    经过几天的摸索,终于出来了可以提取数据的工具。效果展示:

    这是提取的万科投资理财产品中的银行理财数据,还蛮准确的,而这些数据,一些股票软件中是看不到的。如果需要提取别的数据,那么只需更改year和key这两行数据就好了。比如衍生数据的

    源代码分享链接:https://pan.baidu.com/s/1xshkG8cjAyH6NUWqT72UdQ 提取码:5mrd 。批处理只需要一份上市公司目录即可。

    谢谢您的阅读,欢迎交流!!!

    展开全文
  • 文章目录一、概述二、案例2.1 切分大文件2.2 通过shell脚本,提取关键数据 一、概述 ​ 在生产环境中有时候可能会遇到大文件的读取问题,5-10G日志文件很常见。这些大文件普通文本文件根本打不开,更别想在其中查找...

    一、概述

    ​ 在生产环境中有时候可能会遇到大文件的读取问题,5-10G日志文件很常见。这些大文件普通文本文件根本打不开,更别想在其中查找关键信息了,并且,这些大文件在传输上也不方便,因此,可以通过linux系统split命令,将文件进行按文本大小或者行数进行切分为小文件,再对小文件进行操作。

    二、案例

    ​ 数据量千万级的Mysql生产环境做数据备份,将整个库通过mysqldump导出为单个sql文件,单个文件达到100G左右。通过source命令导入mysql数据库时,由于数据量太大,某些表达到200万数据,整个过程同步完估计至少得3-5天。由于系统着急使用,所以必须先恢复核心表,经过一番研究,提供以下可行方案。

    2.1 切分大文件

    ​ 对于split命令不熟悉的同学,可以查找更多详细资料,在此不做赘述。

    注意:对于sql脚本按行提取需求,一定要按行分隔文件,按文件大小分,会造成某些行不完整,被截断的问题。

    # -l 2000 按2000行分隔
    # -d 文件末尾以数字结尾 0000
    # --suffix=5 末尾5位数字表示
    # --additional-suffix=.sql 添加文件后缀
    # test.sql 要切分的大文件
    # comon 文件名前缀,最终生成文件格式为:comon00000.sql
    split -l 2000 -d --suffix=5  --additional-suffix=.sql test.sql comon
    

    ​ 通过上述命令,大文件test.sql就被切分为2000行的一个个小文件,大大缩小单个文件体积。接下来,就从切分完的一堆小文件中,提取关键数据。

    2.2 通过shell脚本,提取关键数据

    split.sh

    #!/bin/bash
    
    #遍历当前文件夹下切分后的comon0000x.sql 文件
    for fileName in $(ls comon0*.sql)
    do
    	echo '扫描到文件:' $fileName
    	echo '开始提取内容......'
    	#通过cat命令,查看包含 insert into `sys_role` 语句的行,将结果追加到result.sql文件
    	cat $fileName | grep -i 'insert into `sys_role`' >> result.sql
    	
    	echo $fileName '文件提取完毕,扫描下一个文件 *******************************'
    done
    

    ​ 通过运行该脚本,可以遍历一个个小文件,提取关键行到目标文件中。这样提取出关键表的数据,就可以对其进行优先恢复了。

    展开全文
  • Mysql数据提取

    2021-02-08 12:54:00
    Mysql数据提取器几个月前,受一位老师的委托,要帮他做一个关系数据库模式信息提取的小项目,主要的功能实现就是将关系数据库的表结构和字段的信息通过表格的形式展示出来。我通过从网上搜集资料以及翻书查找,先...
  • 一、公式提取法EXCEL中,提取数据的常用函数有3个,Left、Right、Mid函数,函数解析和语法格式等如下:二、快速填充法它是EXCEL2013以上版本的中一个新功能。运用快速填充时,首先直接输入一组到三组数据,让Excel...
  • [计算机软件及应用]大量数据关键信息提取和正确性验证毕业论文(设计)题 目大量数据关键信息提取和正确性验证学生姓名 沈 倩学 号 20081305074院 系 电子与信息工程专 业 电子信息工程指导教师 张 宏 群二O一二...
  • 1. 问题描述MATLAB数据处理中看可能遇到这样的问题:数据处理过程,调用第三方工具箱进行分析,得到了预期的图像,但无法提取图像曲线对应的数据。如得到如下曲线:需要提取曲线中的数据,进行进一步的分析。如果在...
  • python从PDF中提取数据的示例

    千次阅读 2020-12-19 16:33:35
    01前言数据数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了解如何从...
  • 一种视频关键提取方法【专利摘要】公开了一种视频关键帧的提取方法,属于视频数据处理领域。本发明中关键提取包含:计算视频帧灰度质心,并依据相邻帧间灰度质心距离,以及当前视频帧灰度质心与前序视觉相似帧...
  • 发现网上有专门做文档格式转换的网站,不过是要充会员才可以。今天来做一篇PDF转换成Excel文档的代码实战,希望大佬喜欢,...然后,再把相应的PDF数据提取出来并且保存在DataFrame数据对象中。 # 打开PDF文件、得到PD
  • python提取txt文件中的数据

    千次阅读 2021-03-16 09:19:20
    从存储在txt文件中的30000多条数据当中提取自己需要的信息,如下图示例的数据格式,需要提取出now后的数值并存储在另外一个txt文件当中。 结果示例: code: path_r = r"..\new\data1.txt" with open(path_r, "r")...
  • PCL中点云关键提取

    千次阅读 2021-10-04 00:51:56
    PCL中点云关键提取1 关键点概念及相关算法1.1 NARF关键点1.2 Harris关键点1.3 PCL中keypoints模块及类介绍2 关键点入门级实例解析2.1 如何从深度图像中提取NARF关键点2.2 SIFT关键提取2.3 Harris关键提取 ...
  • 【Fine原创】JMeter分布式测试中踩过的那些坑 最近因为项目需要,研究了性能测试的相关内容,并且最终选用了jmeter这一轻量... bfs过程中,访问过的局面的记录是此题的关键,9*9的方格在计算过程中直接存储非常占内存. ...
  • index0]) law_index0 += 1 if prosecution_organ == '': print('未提取到公诉机关') prosecution_organ = 'void' if defendants == []: print('未提取到被告人信息') defendants.append('void') if law_relate == []...
  • 但是如果采用提取关键点的方法对遮挡和截断的物体就能具有良好的特性,试想一下即使检测出几个特征点,其它信息的也可以根据物体的表示模型推断出来。 近几年来由于anchor-free技术的日渐成熟,基于关键点检测的...
  • 同一个文件夹中保存了1000多份PDF文档,需要从每份PDF文档中提取关键的信息,将每一条信息存入csv表格作为一个单元格内容,同一份PDF文档中的多条信息生成一行数据,保存为固定格式的1000多行数据表。 解决思路: 1...
  • MATLAB:Excel数据提取与处理关于环境一看就存在的难点整容不是必要的第一步:获得黑名单-拉出所有待处理的CSV文件统一服装容易管理第二步:处理黑名单-提取所需的参数不做不会发现的问题地方官上线第三步:归类黑...
  • 之前我在博客里贴出了操作...贴出实验表 3)也是一样,在class里传入表的路径和表页,然后在函数里传入我们需要找出表里面哪行的内容 我们可以看到,已经找出了表格里面的数据内容 还剩下几个函数这个下期在将吧,加油
  • 本发明涉及计算机网络技术领域,确切地说是一种网页数据结构化提取的方法。背景技术:随着互联网的快速发展,网站页面的表示技术越来越多样化;在舆情领域中,都会涉及到网页结构化数据提取,在多数情况下,为了...
  • 对于深度学习的数据来说,数据的维度往往远远大于四维,四维我们都想象不到,那么远超四维的数据我们就更加难以预料了,为了解决这个问题,我们可以使用机器学习中的数据降维技术,简单的来说就是将高维的数据降低到...
  • 关键步骤7:提取数据周期 单击弹出的pop_epoch.m窗口的右上角标记为“…”的按钮,该窗口将调出一个列出可用事件类型的浏览器框。 在这里,选择事件类型square(在这个实验中,选择square目标刺激集),然后按OK。...
  • python使用pyav库提取视频关键帧 pyav库简介 PyAV是[FFmpeg][FFmpeg]库的python绑定。其目标是提供底层库的所有功能和控制,但是尽可能多地管理细节。PyAV用于通过容器、流、包、编解码器和帧直接而精确地访问您的...
  • 本博文是对关于农田提取论文的简单汇总。有比较新颖的方法,欢迎大家在下面留言。 2018 Deep Extraction of Cropland Parcels from Very High-Resolution Remotely Sensed Imagery 摘要 从高分辨率遥感影像中提取...
  • 从庞大规模的点云及影像数据管理、数据质量的综合检查,到三维矢量特征信息的高效自动化/半自动化提取,再到结合行业应用的各类空间位置信息分析和最终成果输出,让铁路行业用户在获取空间实景三维数据..
  • 最近发现KETTLE抽数越来越慢,特别是增量INSERT/UPDATE的时候,速度已经达到了令人发指的地步(从一个400W数据规模的表中每天增量量抽取30W数据的TRASFORMATION 竟然要20个小时!!!!读取速率是5条/s......),这个...
  • COCO KeyPoints关键数据集准备

    千次阅读 2021-02-19 11:21:16
    网上搜了一圈,关于CenterNet 训练关键数据的资料非常少,而且讲得都很模糊,没法解决实际问题,也未说明细节和要素。在踏坑许久之后,才跑通CenterNet的关键点训练,于是记录一下踏坑历程,以备后忘。 环境 torch...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 189,327
精华内容 75,730
关键字:

提取关键数据

友情链接: aztec.zip