三分钟学会用Python+OpenCV批量裁剪xml格式标注的图片

十小大
计算机视觉领域优质创作者
博客专家认证
2021-05-27 15:07:47

@[TOC](文章目录)

<hr style=" border:solid; width:100px; height:1px;" color=#000000 size=1">

# 前言
在目标检测中,数据集常常使用labelimg标注,会生成xml文件。本文旨在根据xml标注文件来裁剪目标,以达到去除背景信息的目的。

<hr style=" border:solid; width:100px; height:1px;" color=#000000 size=1">

# xml文件格式
以下是一个标注好的图片生成的xml文件。具体含义见代码注释。
```xml
<annotation>                             <!--xml所属文件夹-->
    <folder>JPEGImages</folder>          <!--对应图片所属文件夹-->
    <filename>408.bmp</filename>
    <path>E:\JPEGImages\408.bmp</path>
    <source>
        <database>Unknown</database>
    </source>
    <size>                           <!--整张图片宽,高,3通道彩色-->
        <width>413</width>
        <height>342</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>                            <!--标注的目标,一共5个框-->
        <name>bad_part</name>            <!--名称,也就是类别-->
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>                  <!--坐标,左上,左下,右上,右下-->
            <xmin>339</xmin>
            <ymin>103</ymin>
            <xmax>398</xmax>
            <ymax>173</ymax>
        </bndbox>
    </object>
    <object>
        <name>bad_part</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>265</xmin>
            <ymin>15</ymin>
            <xmax>364</xmax>
            <ymax>74</ymax>
        </bndbox>
    </object>
    <object>
        <name>bad_part</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>118</xmin>
            <ymin>33</ymin>
            <xmax>195</xmax>
            <ymax>52</ymax>
        </bndbox>
    </object>
    <object>
        <name>bad_part</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>113</xmin>
            <ymin>103</ymin>
            <xmax>177</xmax>
            <ymax>147</ymax>
        </bndbox>
    </object>
    <object>
        <name>bad_part</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>224</xmin>
            <ymin>298</ymin>
            <xmax>287</xmax>
            <ymax>326</ymax>
        </bndbox>
    </object>
</annotation>
```
<hr style=" border:solid; width:100px; height:1px;" color=#000000 size=1">

# 代码思想

 1. 获取到标签文件路径和图片文件路径;
 2. 遍历图片文件夹获取到图片,并分割文件名;
 3. 根据图片的文件名加后缀xml得到具体的标签文件;
 4. **通过xml.etree.ElementTree读取xml文件**;
 5. 遍历所有的目标框,获取到[$x_{min}$,$y_{min}$,$x_{max}$,$y_{max}$];
 6. 通过cv2裁剪目标(<font color='red' >**先高后宽**   [参考文章:https://blog.csdn.net/qq_36584673/article/details/116265950](https://blog.csdn.net/qq_36584673/article/details/116265950)<font>中的第二中裁剪方法);
 7. 将裁剪好的图片保存到指定文件目录。

<hr style=" border:solid; width:100px; height:1px;" color=#000000 size=1">

# 完整代码
```python
'''
根据xml标签裁剪目标
1.文件夹中可以有除了图片格式或标签格式的文件,有判断可以忽略其他文件
2.图片未标注没有对应的xml文件自动忽略不会报错
3.同一个图片有多个真实框,会按名称_0,名称_1 …… 排列
4.图片本身的命名无规律会按3中的命名规则加上名称后缀重新命名。
'''

import cv2
import xml.etree.ElementTree as ET
import os 

img_path = r'E:/JPEGImages' #图片路径
xml_path = r'E:/Annotations' #标签路径
obj_img_path = r'E:/cut'   #目标裁剪图片存放路径

for img_file in os.listdir(img_path):    #遍历图片文件夹
    if img_file[-4:] in ['.bmp', '.jpg','.png']:    #判断文件是否为图片格式
        img_filename = os.path.join(img_path, img_file)  #将图片路径与图片名进行拼接
        img_cv = cv2.imread(img_filename)  #读取图片
        
        img_name = (os.path.splitext(img_file)[0])  #分割出图片名,如“000.png” 图片名为“000”
        xml_name = xml_path + '\\' + '%s.xml'%img_name  #利用标签路径、图片名、xml后缀拼接出完整的标签路径名
        
        if os.path.exists(xml_name):  #判断与图片同名的标签是否存在,因为图片不一定每张都打标
            root = ET.parse(xml_name).getroot() #利用ET读取xml文件
            count = 0 #目标框个数统计,防止目标文件覆盖
            for obj in root.iter('object'):  #遍历所有目标框
                name = obj.find('name').text   #获取目标框名称,即label名
            
                xmlbox = obj.find('bndbox')   #找到框目标
                x0 = xmlbox.find('xmin').text  #将框目标的四个顶点坐标取出
                y0 = xmlbox.find('ymin').text
                x1 = xmlbox.find('xmax').text
                y1 = xmlbox.find('ymax').text
                
                obj_img = img_cv[int(y0):int(y1), int(x0):int(x1)]  #cv2裁剪出目标框中的图片
                
                cv2.imwrite(obj_img_path + '\\' + '%s_%s'%(img_name, count) + '.jpg', obj_img)  #保存裁剪图片
                count += 1 #目标框统计值自增1
                
print("裁剪完成!")
```
<hr style=" border:solid; width:100px; height:1px;" color=#000000 size=1">

# 效果展示
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210526193315212.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2NTg0Njcz,size_16,color_FFFFFF,t_70)
# 总结

 1. ET解析树基本上是xml标注文件必备的解析库。
 2. labelimg$\rightarrow$xml$\rightarrow$VOC数据集
 3. labelme$\rightarrow$json$\rightarrow$COCO数据集
 4. json是字典形式,内存小;xml是DTD文档,格式统一跨平台
 5. 去除背景信息是很重要的一环,可以避免模型监督学习时学习到相似的错误信息。
 

...全文
345 1 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
一只啦 2022-01-11
  • 打赏
  • 举报
回复

棒!!!

11,849

社区成员

发帖
与我相关
我的任务
社区描述
创建由Python学习者和社区专家组成的国内最大的第三方Python中文社区,帮助社区成员更好地入门学习、职业成长和应用实践
python学习 企业社区
社区管理员
  • Python全栈技术社区
  • Lumos_zbj
  • 北侠大卫
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

创建由Python学习者和社区专家组成的国内最大的第三方Python中文社区,帮助社区成员更好地入门学习、职业成长和应用实践

  • 这里有最新最全的 Python 学习内容及资源,每月多达4次技术公开课
  • 这里有众多 Python 学习者,陪伴你一起交流成长
  • 这里有专业 Python 社区专家、讲师,帮助你跨越学习瓶颈,解决实操难题
  • 这里有丰富的社区活动,可以开阔眼界,结识更多同伴

【最新活动】:

  1. 周四技术公开课讲师招募中,点击查看详情
  2. “Python 社区专家团” 招募中,点击查看详情

 

试试用AI创作助手写篇文章吧