精华内容
下载资源
问答
  • 2021-01-13 15:39:33

    公告: 为响应国家净网行动,部分内容已经删除,感谢读者理解。

    话题:表格excel怎样把一格用斜线分为三格

    问题详情:Excel Word回答:单元格中只有一条斜线: 单击选中单元格; 执行“格式/单元格/边框”命令; 单击斜线按钮(看图形按钮确定)后,“确定”即可。 文字: 单击斜线单元格,输入文字,用“Alt+回车键”强行换行,这样就可在一个单元格录入多行文字了,用空格键推动。 单元格中有多条斜线: 用菜单--视图--工具栏--绘图,用“绘图”工具栏上的“直线”绘制斜线。 还是用alt+enter换行录入,用空格来。话题:在Excel中,把一个格用线分成三个怎么弄啊回答:方法1 1、选中单元格,点常用工具栏中的边框工具加上外框; 2、点视图-工具栏-绘图,点一下绘图工具栏中的直线工具(点击后光标会变成细十字形)后再在单元格里用带十字的光标画第一条斜线,然后再点一次直线工具,再画第二条斜线;直线的长短或位置不合要求,可单击该线段,按住左键即可拖动线段移动位置,再把光标放到两端的园圈上按住左键拖动即可调整线段长度和方向; 3、选中单元格,点格式-单元格-对齐,水平对齐和垂直对齐都选为两端对齐; 4、在单元格里输入“学别年份”,把光标放到“学科”字后面,按ALT+ENTER,再把光标放到“级”字后面,按ALT+ENTER,再把光标放到“别”字后面,按ALT+

    参考回答:说具体点,用斜线还是用直线话题:Microsoft Office Excel 2003 中怎样给第一个格分为三份回答:Excel不可以对单个单元格进行拆分,但你可以入两列,就相当于将该单元格分为3列,但对于该3列的其他单元格可能需要合并。话题:在excel表格中,做台帐时,怎么把格一分为三?

    问题详情:就是一个空的格,我要在里面写日期、重量、名称,应该怎么写回答:1.先把行高调整到合适高度 2.在工具栏右侧右击,调出“绘图”工具栏; 3.在“绘图”工具栏上用“直线”工具绘制单元格的斜线。 4.在“绘图”工具栏上用“文本框”工具斜线表头中的文字。在文本框上设置文本框格式为“无线条颜色”,并设置好文本框中文字的字体、字形、字号后再输入文字。 5.在文本框中第一次输入文字后放入斜线表头位置,按住Ctrl键拖入到合适位置后再释放鼠标和按键,这样再次输入文字时就不必要再设置文本框格式了。 按住ctrl再拖放相当于6.在斜线表头放置文字时,可能只能一个字一个字的放,此时只要在文本框中逐个字输入即可。

    参考回答:分三个格写。单元格是excel最小的单元,不能被分割。话题:如何把Excel中单元格分为三等分并写上字

    问题详情:Excel表格中如何把一单元格分为三等分并各写入标题回答:一般的情况下,是取三个单元格,在三个单元格加外框,当一个单元格用一个单元格是拆分不了的如果你要硬要作的话,就用绘图-方框-加入文字-把方框线条设置为无

    参考回答:没有必要把单元格三等分,选中三个单元格设定他们的列宽相等就可以了。话题:excel中怎么把一个格分成列3份,同时还能在这三个小格回答:可以明确的告诉你不行,在EXCEL中,非合并的单元格是不能够拆分的. 如果你要在三个小格内输入数据,可以再增加两列呀

    参考回答:excel是无法拆分非合并单元格的,但是有个笨办法,先将单元格调整到合适的行高,然后在单元格中输入数据,按ALT+ENTER键将数话题:如何把excel表格分为三格并在3格里面打字回答:楼上是对地excel只能通过合并其他单元格来凸显需要分割的单元格 不过一般有2法替1. 直接加框线需要拆分的几列留白不加框线,其他单元格加框线2.自定义线条,在单元格内自己划几条竖线,就拆分了 的方法.

    参考回答:excel只能通过合并其他单元格来凸显需要分割的单元格 不过一般有2法替1. 直接加框线需要拆分的几列留白不加框线,其他单元话题:怎么样把一个电表格的格分为三份,是斜分的哦!!

    问题详情:高手帮下忙啦.回答:用笔画两条斜线就是了,只是加入字的时候,换行要按“ALT+ENTER”

    参考回答:WORD里面就简单~~~~~话题:如何将Excel的一个单元格分为三份

    问题详情:我这有一列都是日期如:200-6-1,200-6-2,200-6-3现我想把他回答:如果数据在a列,则在a2右面的格里输入"=year(a2)"应能显示年,再右格里输入"=mouth(a2)"应能显示月份,再右格里输入"=data(a2)"应能显示日期.不知你明白了没有,试下吧.

    参考回答:假设这一列为A列,针对A1,可以在B1、C1、D1分别输入以下公式,然后下拉即可:B1:=year(a1)C1:=month(a1)D1:=day(a1)话题:excel表格的中一个单元格分为三个标题,加两道斜线回答:选定单元格——入线条—— 调整线条位置即可

    参考回答:如何在电表中入斜线并添加文字?

    更多相关内容
  • 表格分割方法

    千次阅读 2020-11-10 08:21:47
    表格区域划分 1. 有线 1.1 霍夫直线检测法 Duda R O , Hart P E . Use of Hough Transformation to Detect Lines and Curves in Pictures[J]. Communications of the ACM, 1972, 15(1):11-15. 提出了基于霍夫变换...

    表格区域划分

    1. 有线

    1.1 霍夫直线检测法

    Duda R O , Hart P E . Use of Hough Transformation to Detect Lines and Curves in Pictures[J]. Communications of the ACM, 1972, 15(1):11-15.

    提出了基于霍夫变换检测图像中线的方法,该方法解决了基于霍夫变换的直线检测没有边界的问题。

    首先将直线方程转换到霍夫坐标系(参数平面)

    xsinθ+ycosθ=ρ(x,y坐标系下) 
    
    ρ=xsinθ+ycosθ θ∈[0,π](霍夫ρ,θ坐标系下)
    

    带入试试就能知道:

    1. 直角坐标系下的点对应霍夫坐标系下的一条曲线
    2. 霍夫坐标系下的点对应直角坐标系下的一条直线
    3. 直角坐标系下共线的点对应霍夫坐标系下多曲线交点
    4. 霍夫坐标系下共曲线多点对应直角坐标系下交于同一点的多条直线
    5. 霍夫坐标系下的直线对应直角坐标系下与一个圆相切的直线系

    首先将直角坐标系下n个点映射到参数平面的曲线上,共有n(n-1)/2个交点,可以通过交点找到直线,但复杂度为O(n^2)。
    为了减少复杂度,可以限定:

    0≤θ≤π    
    
    -R≤ρ≤R
    

    将角度划分为d1个小区间,并依次计算对应的ρ,计算量为nd1,若直角坐标系中的两点在霍夫空间上同一个θ上的投影ρ接近,则说明两点在直角坐标系中很可能共线(在线的法向量上投影相近),此方法复杂度为O(nd1),当n较大时可以有效减少计算量。

    1.2 形态学

    通过对表格的二值化、矩形kernel的腐蚀膨胀等操作,将表格中的字符去除掉,保留框线。

    1.3 矢量化算法

    将像素转为矢量进行处理

    1.2.1 有向单连通链

    郑冶枫,刘长松,丁晓青,潘世言.基于有向单连通链的表格框线检测算法[J].软件学报,2002(04):790-796.

    用于检测倾角大于45°的斜线,分横向纵向两类单联通链。横向单连通链由横向的多个宽为1像素,长度不定的游程组成,且相邻游程横向相连通。纵向同理。

    为了提升方法的准确性,定义同线距离,若两个同向单连通链的距离校友同线距离,则将其连通。

    字符会对连通链产生影响,需要先行使用直方图确定字符的最大尺度,以此为阈值过滤掉字符。

    由以上方法得到的表格框线仍存在多检、漏检现象,需要进行筛选、补全。

    1.2.2 游程聚类

    白伟, 崔喆. 基于游程聚类的表格框线检测算法[J].计算机应用, 2018(A01):179-182.

    1.3 线特征检测LSD&LBD

    Von Gioi R G, Jakubowicz J, Morel J M, et al. LSD: a line segment detector[J]. Image Processing On Line, 2012, 2: 35-55.

    https://www.cnblogs.com/Jessica-jie/p/7512152.html

    2. 无线

    2.1 投影法

    丁明宇,牛玉磊,卢志武,文继荣.基于深度学习的图片中商品参数识别方法[J].软件学报,2018,29(04):1039-1048.

    对表格进行横纵方向投影,通过投影的峰值(谷)找到分割线

    2.2 根据字符识别划分

    MSER
    OCR

    3. 深度学习法

    C. Tensmeyer, V. I. Morariu, B. Price, S. Cohen and T. Martinez, “Deep Splitting and Merging for Table Structure Decomposition,” 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019, pp. 114-121, doi: 10.1109/ICDAR.2019.00027.

    先分割,再合并
    使用SFCN + RPN + CPN进行分割
    Shared Fully Convolutional Network(SFCN)
    提取特征
    Row Projection Network (RPN)
    行分割
    Column Projection Network (CPN)
    列分割

    将分割结果与原图像输入合并网络,输出每个分割单元格是否应被合并(0,1)


    S. A. Siddiqui, P. I. Khan, A. Dengel and S. Ahmed, “Rethinking Semantic Segmentation for Table Structure Recognition in Documents,” 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019, pp. 1397-1402, doi: 10.1109/ICDAR.2019.00225.

    将表格结构分析任务看做语义分割,使用基于FCN的网络对表格的行列进行划分
    使用ImageNet做与训练,Inception ResnetV2作为主干网进行特征提取
    3*3转置卷积做上采样,并使用了BN和leaky RelU
    为了简化任务,引入一致性假设:行开始于第一列,结束于最后一列,列同理
    其实就是将表格视为规整的行列结构,然后 将同行、列的像素合并作为划分依据

    S. R. Qasim, H. Mahmood and F. Shafait, “Rethinking Table Recognition using Graph Neural Networks,” 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019, pp. 142-147, doi: 10.1109/ICDAR.2019.00031.

    通过OCR提取位置特征,CNN提取图像特征,将两者作为输入放入图神经网络,由此判断OCR提取出的字符块是否同格/行/列

    4. 数据集

    3.1 TableBank

    https://github.com/doc-analysis/TableBank
    https://arxiv.org/pdf/1903.01949.pdf

    展开全文
  • 记录了下RecyclerView的使用方法,并且讲述了线性布局列表的使用方法,在此基础上加上了万能分割线,支持颜色分割线和图片分割线,同时支持对分割线设置线宽。 这篇是总结一下网格布局的使用,同样也支持两种分割线...
  • 表格是各类文档中常见的对象,其结构化的组织形式...大数据时代存在大量电子文档,应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重要研究课题,也是合合信息这几年的技术突破点方向之。...

    引言:

    表格是各类文档中常见的对象,其结构化的组织形式方便人们进行信息理解和提取。表格的种类根据有无边框可以划分有线表、少线表、无线表。表格样式复杂多样,如存在背景填充、光照阴影、单元格行列合并等情况。大数据时代存在大量电子文档,应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重要研究课题,也是合合信息这几年的技术突破点方向之一

    表格识别主要包括表格检测和表格结构识别两个子任务。表格检测主要检测表格主体,即样本中表格区域。表格结构识别是对表格区域进行分析,提取表格中的数据与结构信息,得到行列分布与逻辑结构。未经特殊说明,以下表格识别专指表格结构识别。

    研究现状与解决方案:

    近年来,国内外专家学者对表格识别进行了大量研究,取得了丰富的研究成果。下面主要从传统图像处理方法和深度学习这两个方面做具体阐述。

    传统方法:传统的表格识别工作是基于一些启发式的规则和图像处理方法,主要利用表格线或者文本块之间的空白分隔区域来确定单元格区域,通过腐蚀、膨胀,找连通区域,检测线段、直线,求交点,合并猜测框等。有自顶向下的方法(先检测表格区域,再不断对表格区域进行切割拆分得到单元格区域);还有自底向上的方法(先检测文本块,找到可能的表格线以及这些线的交点,确定单元格后还原出表格区域)

    1、 OpenCV-检测并提取表格[1]

    这是一种自顶向下的方法,先对图像进行二值化,然后使用霍夫变换,检测其中的直线,并在直线中,找到围成的一个矩形区域,最后将这块区域提取出来。作者主要使用了四步操作:1、处理图像,灰度化,二值化。在灰度图的基础上运用adaptiveThreshold来达成自动阈值的二值化,取代Canny,这个算法在提取直线和文字比Canny有更好的效果 2、利用OpenCV里面的形态学函数,腐蚀erode膨胀dilate 3、交叉横纵线条,对点进行定位,通过bitwise_and函数获得横纵线条的交点,通过交点对表格区域进行提取 4、判断区域是否为表格。虽然此方法可以相对完整的识别图片中的表格,但也存在几个问题:1、图片倾斜不易识别 2、图片背景复杂会干扰识别 3、少线表情况,表格只有上下两条线的时候如何判断

    2、pdfplumber解析表格[2]

    pdfplumber是一款完全用python开发的pdf解析库,对于全线表,pdfminer能够实现较好的抽取效果,但对于少线表和无线表,效果就差了很多。下面介绍pdfplumber中的表格抽取流程,这是一种自底向上的方法,首先找到可见的或猜测出不可见的候选表格线;然后根据候选表格线确定它们的交点;接着根据得到的交点,找到围成它们的最小单元格;最后把连通的单元格进行整合,生成检测出的表格对象。在表格生成的过程中,利用单元格的bbox坐标(四个角的坐标)判断单元格是否属于当前表格;同时对表格的左上角坐标进行排序,过滤掉小表格。

    3、camelot表格抽取[3]

    camelot是一个可以从可编辑的pdf文档中抽取表格的开源框架,与pdfplumber相比,其功能完备性差了点,除了表格抽取之外,并不能用它从pdf文档中解析出字符、单词、文本、线等较为低层次的对象。camelot支持两种表格抽取模式:

    一、lattice线框类表格抽取,步骤如下:1、pdf转图像 2、图像处理算法检测出水平方向和竖直方向可能用于构成表格的直线 3、根据检测出的直线,生成可能表格的bounding box 4、确定表格各行、列的区域 5、根据各行、列的区域,水平、竖直方向的表格线以及页面文本内容,解析出表格结构,填充单元格内容,最终形成表格对象。

    二、stream少线框类表格抽取,步骤如下:1、通过pdfminer获取连续字符串 2、通过文本对齐的方式确定可能表格的bounding box 3、确定表格各行、列的区域 4、根据各行、列的区域以及页面上的文本字符串,解析表格结构,填充单元格内容,最终形成表格对象。

    4、T-recs[4]

    这是一种自底向上的方法,核心思想是对文本块区域进行聚类。步骤如下:1、从文本块中选择种子点 2、在种子点上下各一行分别去找与该种子点文本块之间是否水平方向有重合,如果有重合则将相应文本块和种子点块归到一起,并作为新的种子点 3、重复第1、2步,不断找与之水平方向有重合的文本块,直到所有的文本块都不能再合并下去。此方法也存在诸多局限:1、表头是跨单元格的,表头下面的文本块会被全部合并到一起 2、有时候上下几行文本确确实实是对齐的,但是和左右文本区域比较近,这种本不能分开的区域被错误的分开了 3、孤立的文本块会被切分成单独块。 因此,本方法后面大部分工作是针对这三种局限设定后处理规则,该方法认为表格之所以是表格是由文本块的分布决定的,而与分割带无关。加入后处理规则之后该方法方法具有较好的通用性,无论是对与PDF文档还是OCR的结果,都有比较好的效果。

    深度学习方法:近年来人工智能技术飞速发展,研究人员将CV,NLP和图神经等成熟方法应用在表格识别任务中,取得很多不错的成果。深度学习表格识别主流方法包括语义分割,目标检测,序列预测和图神经等,下面我们对这些工作分别进行介绍。

    1. 语义分割方法:

    1.1 Rethinking Semantic Segmentation for Table Structure Recognition in Documents[5]

    本文将表格结构的识别定义为语义分割问题,使用FCN网络框架,对表格的行和列分别进行预测。主要介绍了一种对预测结果进行切片的方法,降低了表格识别的复杂度。使用了FCN的Encoder和Decoder的结构,并加载了在ImageNet预训练好的模型。图片经过模型生成了与原图大小相同的特征,切片过程将特征按照行和列进行平均,将H*W*C(高*宽*Channel)的特征合并成了H*C和W*C大小特征;对这些特征进行卷积后,再进行复制,扩展为H*W*C的大小,再通过卷积层得到每个像素点的标签;最后进行后处理得到最终的结果。本文pipeline如图1所示。本文方法的局限在于本文所处理的表格对象中所有的单元格不存在跨行跨列,每行每列都从表格的最左侧和最上端开始,到最右侧和最下端结束。

    图1

    1.2 腾讯表格识别技术方案[6]

    图像分割是对图像的每个像素点赋予标签,在表格识别任务中,每个像素可能属于横线、竖线、不可见横线、不可见竖线这几个标签。解决方案流程如图2所示:1、表格线标注:横向的线,竖向的线,横向的不可见线,竖向的不可见线。类别不互斥,考虑到单元格交点问题,即交点处的像素属于多个类别 2、几何分析提取连通区域,对连通区域拟合折线,合并形成框线;考虑图片弯曲、表格倾斜的情况,利用投影变换对原图矫正 3、调用ocr,识别文本内容,确定字符坐标 4、根据第二步的框线计算行列信息,判断单元格合并情况,得到每个单元格在途中的位置 5、根据单元格坐标和字符坐标,将字符嵌入到单元格,还原表格。此方案专注于将页面拍照后进行表格识别,对于一般的表格效果还好,但现实场景太过纷杂,仍有很多问题亟待解决。

    图2

    2. 物体检测方法:

    2.1 海康LGPMA方案[7]

    此方案是ICDAR21比赛Table Recognition赛道的冠军,LGPMA将表格识别分为文本行检测、文字识别和表格结构识别三部分。文本检测模块是一个单行文本检测器,文字识别模块是一个基于attention 的识别器,这两部分用来获取表格图像中的文本信息。表格结构识别部分采用的是一种LGPMA的方案,基于Mask-RCNN同时出两个分割头,一个LPMA学习局部对齐边界,一个GPMA学习全局对齐边界,融合了自顶向下和自底向上两种思想。如图3所示。在得到两路的soft mask之后,将LPMA和GPMA的对齐mask融合,之后对每个单元格边框进行精修。最后经过cell matching , empty cell searching 和 empty cell merging三个后处理步骤得到最终的表格结构。原方案采用较大的基础网络,训练推理对硬件及输出尺寸有一定约束,实际落地较为困难。

    图3

    2.2 角点表格检测法[8]

    针对表格检测本文使用了“角点”来提升表格检测的精确度,对比基本模型在检测结果上能够得到进一步的检测与提升。首先引入角点的概念,如图4所示:角点是表格四个顶点周围的一部份区域,这些区域大小相同,同一个表格的所有角点构成一个角点组,角点的检测与表格检测一样,可以使用目标检测模型来解决,作者使用Faster R-CNN模型,同时进行角点和表格的检测,检测结构如图5所示,使用角点组对对应的表格检测的横坐标进行校准,得到最终的表格区域。该方法与未加入角点的Faster R-CNN模型相比,结果有了较大的提升。

    图4

    图5

    2.3 基于CenterNet的端到端表格识别方案[9]

    目标检测识别往往是在图像上将目标用矩形框的形式框出,目标检测器都先穷举出潜在目标位置,然后对该位置进行分类,这种做法浪费时间,低效,还需要做额外的后处理。CenterNet是将目标作为一个点(BBOX中心点),利用中心点回归其他目标属性,比如尺寸、位置、方向等。本文提出了一种基于CenterNet的表格识别方法,网络结构如图6所示,利用Cycle_Pairing模块和Pairing损失去学习相邻单元格的公共顶点信息,然后通过连结单元格获取一个完整的表格结构,最后使用相同的解析过程去获取行列信息。这篇文章解决户外场景图像的表格解析问题(TSP:table structure parsing),局限在于此方法仅适用于有线表格,无线表角点定义的歧义性使得本文方法不一定work。从本文的思路我们或许可以探索角点法在处理复杂场景的情况下是否比anchor-based的方法表现更优。

    图6

    3. 序列预测方法:

    3.1 Latex标签序列预测[10]

    基于图像的表格分析优势在于,它对表格类型具有鲁棒性,并不要求格式是页面扫描图像还是纯数字文档,它可用于多数文档类型,包括PDF、HTML、PowerPoint格式等。然而,非结构化数字文档中的表格数据,由于其结构和样式的复杂性及多样性,很难解析为结构化的机器可读格式。在实践中,手工标注用于训练的数据集的成本和不灵活性是实际部署深度学习模型的关键瓶颈。本文是微软的一篇文章,利用互联网中存在大量的Word和Latex源文档,对这些在线文档应用一些弱监督来标注表格,创建TableBank数据集。对于word文档,可以修改内部的office xml代码,指定每个表格的边界线;对于latex文档,可以修改tex代码,代码已识别表格的边界框。表格检测使用基于不同配置的Faster R-CNN的架构,表格结构识别模型基于image-to-text的编码器-解码器架构。本文的局限在于版式多样对表格分析任务的准确率具有负面影响,模型泛化能力差,某一领域的模型应用到其他领域效果不好,在TableBank数据集上的建模和学习具有很大改进空间。

    3.2 HTML标签序列预测[11]

    类似地,IBM公司开发并发布了数据集PubTabNet,此数据集中自动为每个表图像加上关于表的结构和每个单元格内的文本信息(HTML格式),如图7(a)所示。作者等人提出了一种端到端的表格识别方案,是一种基于注意力的编码器-解码器(EDD)架构,它是由编码器、结构解码器和单元格解码器组成,可以将表格图像转化成HTML代码。编码器获得表格图像的视觉特征,两个独立的结构解码器⼀个输出表格结构,⼀个输出单元格内容。图7(b)所示为EDD架构,不需要复杂的后处理即可得到表格结果。但end2end的方案在中文场景的落地还有很长的路要走,另外缺少表格物理结构的信息,EDD方法的纠错空间不多。同时,本文的另一个贡献是提出了一种新的基于树编辑距离的图像表格识别评价指标TEDS,将表格建模为树形结构,该指标比之前的基于precision、reacll、F1 score的评价指标更为规范。

    图7(a)

    图7(b)

    3.3 TableMaster解决方案[12]

    平安产险提出的TableMaster方案是ICDAR21比赛Table Recognition赛道的亚军,本方案基于文本识别算法Master[13]。TableMASTER算法采用多任务学习的模式,同时进行表格结构序列预测以及单元格位置回归,最后通过后处理匹配算法,融合表格结构序列和单元格文本内容,得到HTML代码。整个解决方案可以分为4个部分:表格结构序列识别,表格文本行检测,表格文本行识别,以及单元格与表格结构序列匹配。

    表格结构序列识别部分,使用改进的文本识别算法MASTER,它与原生的MASTER在结构上的区别如图8所示。他们的特征提取器在结构上是大体一致的,采用的都是改进后的ResNet网络,TableMaster在解码阶段,经过一个TransformerLayer后,会分为两条分支。一条分支进行表格结构序列的监督学习,另一条分支进行表格中单元位置回归的监督学习。

    表格文本行检测部分,采用的是经典的文本检测算法PSENet[14],表格文本行识别部分,采用的文本识别算法MASTER。

    在单元格与表格结构序列匹配部分,作者团队定义了三种匹配规则,分别是Center Point Rule,IOU Rule,以及Distance Rule。这三种匹配规则的优先级顺序为Center Point Rule>IOU Rule>Distance Rule。

    序列预测的表格识别结果受限于序列长度和类别数量,同时transformer结构推理速度有优化空间。

    图8

    4. 图卷积神经网络方法:

    4.1 Rethinking Table Recognition using Graph Neural Networks[15]

    近年来,越来越多的学者将深度学习技术应用到图数据领域,本文作者将表格结构识别问题描述为一个与图神经网络兼容的图问题,利用图神经网络解决这一问题。将每一个文本区域作为一个顶点,使用矩阵描述的三个图(单元格、行共享矩阵、列共享矩阵)定义为真值,若顶点共享一行,则对应的文本区域属于同一行,这些顶点视作彼此相邻。模型分为四个流程:特征提取、信息交互、随机采样和分类,过程如图9所示。利用CNN提取视觉特征,输出端将ocr得到的顶点位置映射到特征图上,将视觉特征与位置特征结合形成聚集特征。得到所有的顶点特征后进行特征交互融合,得到每个顶点的结构特征。在分类部分使用DenseNet分别对定点对进行是否同行、同列、同单元格的结构关系分类。

    图9

    4.2 GFTE: Graph-based Financial Table Extraction[16]

    本文[16]主要是为了主要解决金融类的、中文表格识别问题,提出一种新的基于图卷积神经网络的模型GFTE作为表格识别数据集(本文自己发布的中文数据集FinTab)中的基线方法。GFTE通过融合图像特征、位置特征和文本特征,能够对表格进行精确的边缘检测,取得较好的效果。GFTE可以分为以下几个步骤:1、构建基本事实,包括表格区域的图像、文本内容、文本位置和结构标签 2、基于单元格构造一个无向图G=<V, R, C> 3、使用GFTE来预测相邻关系,包括垂直和水平关系。作者将表格中的每个单元格视作节点,每个节点包含三种类型的信息:文本内容、绝对位置和图像,节点与它的邻域理解成边,那么表格结构完全可以用一个图来表示,图结构如图10所示。图11是GFTE的基本结构,首先将绝对位置转换成相对位置,然后使用这些位置生成图。然后将纯文本嵌入预先定义好的特征空间,使用LSTM获取语义特征。接着将位置特征与文本特征进行拼接,将他们传入两层的图卷积网络(GCN)。最后,利用节点的相对位置,计算网格,利用网格中国输入的像素位置计算输出,得到某一节点在某一点的图像特征。获得这三种不同的特征后,将生成图的一条边上的两个节点配对,并与三种不同的特征集合在一起,使用MLP预测这两个节点处于同行还是同列。

    图神经网络通过合理建模,将表格中的不同特征进行融合,并取得了不错的效果,这种表格结构识别方法,为未来的工作提供了一些可能的发展道路。

    图10

    图11

    结语:

    目前,表格识别任务逐渐受到工业界和学术界的关注。表格识别对象从PDF文档,到文档图片,再到自然场景图片,复杂场景表格识越来越被重视。随着人工智能应用的成熟,表格识别方法已从传统图像算法转向到深度学习算法。目标检测、语义分割、序列预测、图神经网络等是目前表格识别的主要技术方向,它们各有优劣。作为文档理解的重要一环,一套在复杂场景中鲁棒性很强的表格识别方案仍有待探索。

    对于表格识别及相关内容提炼,合合信息认为传统的表格识别方法设计起来较为复杂,对于版面布局分析和表格结构的提取,图像处理的方法依赖各种阈值和参数的选择,难以满足现实生活中复杂多样的表格场景,鲁棒性也相对较差。目前业界常用的表格识别方法多为深度学习算法,比较依赖算法工程师对于神经网络的精心设计,可以不用依赖阈值和参数,鲁棒性较强。

    从公司角度来讲,算法落地的关键因素大致可分为计算力、数据、算法模型、业务场景等。计算力是人工智能技术的生产力,数据的价值在于给予解决某一场景问题足够的特征,算法模型是项目落地的承载体,业务场景是落地的关键。在技术落地中,应当一切以业务场景为核心,以最少的数据,最简单的模型,最少的计算力解决最实际的问题,达到最好的效果。对于表格识别这一技术来讲,一款推理速度快且在少样本情况下表现优异的表格识别算法会备受青睐。

    更多体验:TextIn - API中心TextIn OCR API文档与调试https://www.textin.com/document/index

    参考文献:

    [1] OpenCV-检测并提取表格:https://blog.csdn.net/yomo127/article/details/52045146

    [2] pdfplumber解析表格:pdfplumber是怎么做表格抽取的(三) - 知乎

    [3] camelot表格抽取:camelot是怎么做表格抽取的(三)—— 非线框类表格抽取 - 知乎

    [4] T-recs:T. Kieninger and A. Dengel, “The T-Recs table recognition and analysis system,” in Document Analysis Systems: Theory and Practice, pp. 255–270, 1999.

    [5] Siddiqui S A , Khan P I , Dengel A , et al. Rethinking Semantic Segmentation for Table Structure Recognition in Documents[C]// 2019 International Conference on Document Analysis and Recognition (ICDAR). 2019.

    [6] 走进AI时代的文档识别技术之表格图像识别 - 云+社区 - 腾讯云 (tencent.com)

    [7] LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment (arxiv.org)

    [8] Sun N , Zhu Y , Hu X . Faster R-CNN Based Table Detection Combining Corner Locating[C]// 2019 International Conference on Document Analysis and Recognition (ICDAR). 2019.

    [9] Long R , Wang W , Xue N , et al. Parsing Table Structures in the Wild. 2021.

    [10] Zhong X , Shafieibavani E , Yepes A J . Image-based table recognition: data, model, and evaluation[J]. 2019.

    [11] Li M , Cui L , Huang S , et al. TableBank: Table Benchmark for Image-based Table Detection and Recognition[J]. 2019.

    [12] Ye J , Qi X , He Y , et al. PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML[J]. 2021.

    [13] Lu N , Yu W , Qi X , et al. MASTER: Multi-Aspect Non-local Network for Scene Text Recognition[J]. 2019.

    [14]Li X , Wang W , Hou W , et al. Shape Robust Text Detection with Progressive Scale Expansion Network[J]. 2018.

    [15] Qasim S R , Mahmood H , F Shafait. Rethinking Table Recognition using Graph Neural Networks. 2019.

    [16] Li Y , Huang Z , Yan J , et al. GFTE: Graph-based Financial Table Extraction[J]. 2020.

    展开全文
  • 表格拆分二个表格Often, you need to split the content of a cell in your spreadsheet that is separated by a comma or space, such as the first and last names of a contact. Luckily, Google Sheets ...
    一个表格拆分二个表格

    一个表格拆分二个表格

    Split Text Hero

    Often, you need to split the content of a cell in your spreadsheet that is separated by a comma or space, such as the first and last names of a contact. Luckily, Google Sheets provides a simple, straightforward approach to dealing with merged datasets.

    通常,您需要拆分电子表格中用逗号或空格分隔的单元格的内容,例如联系人的名字和姓氏。 幸运的是,Google表格提供了一种简单直接的方法来处理合并的数据集。

    如何在Google表格中拆分文本 (How to Split Text in Google Sheets)

    Fire up your browser, open up a Google Sheets document, and select all the cells you want to split up.

    启动浏览器,打开Google表格文档,然后选择要拆分的所有单元格。

    Select the cells you want to Split

    Warning: Make sure the cells to the right don’t already have data in them. This feature overwrites those cells without any warning.

    警告:确保右侧的单元格中没有数据。 此功能将覆盖这些单元,而不会发出任何警告。

    Next, click Data > Split Text Into Columns.

    接下来,单击数据>将文本拆分为列。

    Click Data > Split text into columns

    Sheets has a few common options to choose from when you split up data in your document, such as by comma, semicolon, full stop, and space. For this example, we’ll use “Space” as a separator, since there is a space between our datasets.

    在拆分文档中的数据时,Sheets有一些常用选项可供选择,例如,逗号,分号,句号和空格。 在此示例中,我们将使用“空格”作为分隔符,因为数据集之间存在空格。

    Click the drop-down menu, then choose “Space” from the list of delimiter options.

    单击下拉菜单,然后从定界符选项列表中选择“空格”。

    Click the drop-down menu and select Space from the list provided

    Immediately, the data is separated and placed into the column beside the original.

    立即将数据分离并放入原始数据旁边的列中。

    Immediately, Sheets separates the data into the cells on the right

    If your data separates by something other than the options provided, don’t worry. You can use the “Custom” option to specify any character you want.

    如果您的数据与提供的选项分开,请别担心。 您可以使用“自定义”选项指定所需的任何字符。

    When selecting a separator from the drop-down menu, choose “Custom” instead.

    从下拉菜单中选择分隔符时,请选择“自定义”。

    Select Custom from the drop-down menu if your data is separated by an uncommon character

    Then, in the provided text field, input the character(s)* you want to separate by in your datasets.

    然后,在提供的文本字段中,输入要在数据集中分隔的字符*。

    Type in the character and Sheets automatically filters it out

    *One caveat to this method is the inability to separate data if it contains two different characters. For that, you will need to use Sheet’s built-in SPLIT function, which we’ll cover down below.

    *此方法的一个警告是,如果包含两个不同的字符,则无法分离数据。 为此,您将需要使用Sheet的内置SPLIT函数,我们将在下面进行介绍。

    Voila! The custom separator removed all instances of “@” in your cells.

    瞧! 自定义分隔符删除了单元格中所有“ @”实例。

    Even special characters not listed can be removed from your data as well.

    如何使用分割功能分割文字 (How to Split Text Using the Split Function)

    While the previous feature only lets you specify an exact delimiter to separate, the SPLIT function lets you specify any number of them for a dataset. For example, let’s say your data is an email address and you want to extract the username, sub-domain, and top-level domain into three columns.

    尽管以前的功能仅允许您指定一个确切的分隔符,但SPLIT函数可以为数据集指定任意数量的分隔符。 例如,假设您的数据是一个电子邮件地址,并且要将用户名,子域和顶级域提取到三列中。

    Select an empty cell, type =SPLIT(G14, "@."), where “G14” is the starting cell. Hit Enter.

    选择一个空单元格,键入= SPLIT ( G14 , "@." ) ,其中“ G14”是起始单元格。 按下Enter键。

    Click an empty cell and type in =SPLIT(cell_with_data, "@.") and hit enter

    By default, each character of the delimiter in quotes is individually considered, unlike the previous method, which would look for “@.” in the string and return an unchanged dataset.

    默认情况下,与以前的方法将查找“ @”不同,引号中的分隔符的每个字符都是单独考虑的。 在字符串中,并返回未更改的数据集。

    Next, double-click the blue square to apply this function to the remaining cells.

    接下来,双击蓝色方块以将此功能应用于其余单元格。

    Double-click the blue square to apply the formal to the rest of the cells

    The function does its magic and neatly removes the separators from your data.

    该函数发挥了魔力,并巧妙地从数据中删除了分隔符。

    Voila! Like magic, the email addresses are separated


    That’s all there is to it. Now you can utilize the splitting power of Google Sheets to separate your data into different cells in your spreadsheet.

    这里的所有都是它的。 现在,您可以利用Google表格的拆分功能将数据分为电子表格中的不同单元格。

    翻译自: https://www.howtogeek.com/415512/how-to-split-text-in-google-sheets/

    一个表格拆分二个表格

    展开全文
  • 本文作者:秋叶 Excel 讲师-小敏不知道是不是临近年终,大家经常需要做汇报的缘故,...可是,从在学校里让打印店老板打印,在职场里点点手动调整打印,大家竟然都没有意识,去学习一下打印这个技能!天将降...
  • 图像如何分割matlab代码...2016a自动分割每个,以确定每个的坐标。 该数据库分为两组:个训练集(每个班级13,440个字符480张图像)和个测试集(每个班级3,360个字符120张图像)。 培训集和测试集的作者是排
  • HTML网页设计:七、表格

    千次阅读 多人点赞 2021-03-24 21:44:24
    表格 1.表格的定义         HTML中表格由<table>标签来定义。每个表格均有若干行(由 <tr>标签定义),每行被分割为若干单元格(由<td>标签定义),表格...
  • sql中使一个字段升序,个字段降序 ORDER BY _column1, _column2; /* _column1升序,_column2升序 */ ORDER BY _column1, _column2 DESC; /* _colum ... mysql根据逗号分割的字符串去关联查询另外个表的数据 1....
  • layui table 当表格中没有数据的时候,最后一列会有一块留白 解决方法: 表格数据加载完成后,把表格的宽度设置为100%就ok了。 done: function (res, curr, count) { $('.layui-table').css("width","100%"); $(...
  • GIS思维于这次要介绍的是《GIS技巧100例05-ArcGIS分割栅格(批量裁剪)》,我们之前介绍ArcGIS批量批量裁剪影像建议大家用的是模型构建器。今天我会介绍ArcGIS分割工具来快速的分割栅格,但是快是快但是没模型构建...
  • 比如你在修改三调数据的时候,修改了个图斑,你想对修改的图斑再属性表标记改动,就可以参考这次的内容。 我们主要用到的是地理数据框属性域的分割策略。 下面直接视频教学吧 GIS技巧100例-GIS思维...
  • 平安科技表格识别——原理解读

    千次阅读 2021-12-02 20:15:21
    . 前景介绍 代码:...平安在ICDAR 2021表格识别比赛中获得亚军,基于MASTER的改进。在平安科技最新发布的表格识别模型TableMaster中,提出了另外种解决思路,即同时训练得到单元格内的文字位置和
  • 语义分割工具EISeg

    千次阅读 2021-11-18 11:31:57
    另外,将EISeg获取的标注应用PaddleSeg提供的其他分割模型进行训练,便可得到定制化场景的高精度模型,打通分割任务从数据标注模型训练及预测的全流程。 模型准备 在使用EIseg前,请先下载模型参数。EISeg ...
  • 遇到的问题: 打印预览的时候表格分割了,就是一共两页而其中行显示在不同的两个页面。如下图:
  • 详解个完整的系统工程,通过Python+OpenCV识别图片中的表格并原样还原为Excel文件,涉及Python矩阵运算、OpenCV各种处理、文字区域检测、文本OCR等丰富的内容,希望能帮助入手Python做系统性任务的朋友们。
  • 全网最全的R制作漂亮的表格方法本文原文来自:https://rfortherestofus.com/2019/11/how-to-make-beautiful-tables-in-r/本文为原文的翻译,如果有什么错误的地方,欢迎...清晰的写作是另外个场所的主题,数据可视...
  • 表格内容识别(python-opencv)()【9/8】

    万次阅读 热门讨论 2018-09-08 10:51:36
    暑假都在弄这个,开始以为是要弄个通用的对表格进行分块和把内容全部识别,所以又分块又分行又把横线上的内容单独弄出来,后来说是对于已知的特定表格,所以最后都用python来写了,比较方便。在网上只找到个...
  • 在本文中,我们提出了种新的双向学习框架,用于领域自适应分割。通过双向学习,图像翻译模型和分割适应模型可以交替学习并相互促进。此外,我们还提出了种自监督学习算法来学习更好的分割适应模型,从而改进图像...
  • 本文代码实现基本按照《数据结构》课本目录顺序,外加大量的复杂算法实现,篇文章足够。能换你个收藏了吧?
  • 在做个打印功能时,当表格数据过多而不能显示时,浏览器会自动进行分页处理,但是当页显示不下表格时,自动分页会把行数据暴力的切割显示在两页纸上。问题如下图: 可以使用page-break-inside 属性...
  • 其实本来我是想将数据爬取excel之后再增加一些数据库操作,然后用flash建立个网站将数据导入这个网站中…还想着下个模板优化一下网站界面实现数据可视化来着… 但!!!当我万分激动地上号我的pycharm,使用pip...
  • 语义分割技术综述

    千次阅读 多人点赞 2020-03-30 14:16:35
    近期主要在学习语义分割相关方法,计划将arXiv上的这篇综述好好翻译下,目前已完成了部分,但仅仅是尊重原文的直译,后续将继续完成剩余的部分,并对文中提及的多个方法给出自己的理解。 论文地址:...
  • 安卓表格框架-ExcelView

    千次阅读 2021-10-28 15:47:25
    .项目介绍 项目是仿照WPS中Excel的功能实现的,实现了显示,滑动,编辑等基本功能,并且结构简单,可扩展性强,绘制性能较高。 当然,距离真正的商用还差有一定的差距,比如导出,公式计算,自动扩展等等都还未...
  • 一般如果表格跨了两页,一般规范的要求就是要加续表。 文档加入续表方法 下图所示就是表格跨页的情景。 步骤:选中下面的行表,右键点击拆分表格就好了。 注:注意跟拆分单元格的区别。 步骤二:在右边加入...
  • 医学图像分割评判标准及程序代码

    千次阅读 多人点赞 2019-10-22 18:49:01
    考虑个二分类的情况,类别为1和0,我们将1和0分别作为正类(positive)和负类(negative),则实际分类的结果有4种,表格如下: 从这个表格中可以引出一些其它的评价指标: ACC:classification ...
  • 、数据库表分割技术 数据库表分割技术包含以下内容:水平分割垂直分割库表散列1.1、水平分割 什么是水平分割?打个比较形象的比喻,在食堂吃饭的时候,只有个窗口,排队打饭的队伍太长了,都排成S型了,这时...
  • Android 活用RecyclerView分割线

    万次阅读 2018-07-14 15:21:10
    RecyclerVIew是我们日常开发中使用频率最高的控件了吧,之前由于比较马虎没好好整理过如何添加分割线,以前是通过文件或者在布局里投机取巧进行添加,现如今有空有必要好好的整理一番了。 宏观把控Recycyerview....
  • 、概述 二、算法原理 三、训练 四、部署 4.1 Python本地脚本推理 4.2 基于Django的线上Web部署 4.3 PC端C++部署 4.4 Android端部署
  • 语义分割综述

    万次阅读 多人点赞 2018-09-11 14:55:15
    太优秀了,收藏用!... 综述论文翻译:A Review on Deep Learning Techniques Applied to Semantic Segmentation ...近期主要在学习语义分割相关方法,计划将arXiv上的这篇综述好好翻译下,目前已完成了...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 32,112
精华内容 12,844
关键字:

如何使分割的表格合到一块

友情链接: Btp.rar