来源:图灵Topia(ID:turingtopia)
图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。近日,数据科学家Derrick Mwiti在一篇文章中,就什么是图像分割、图像分割架构、图像分割损失函数以及图像分割工具和框架等问题进行了讨论,让我们一探究竟吧。
什么是图像分割?
顾名思义,这是将一个图像分割成多个片段的过程。在这个过程中,图像中的每个像素都与一个对象类型相关联。图像分割主要有两种类型:语义分割和实例分割。
图像分割的体系结构
图像分割的基本结构包括编码器和解码器。
完整的U-Net实现可以在这里找到
https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/
FastFCN —Fast Fully-connected network
你可以通过检查这里的代码来实现:
可以在PyTorch或TensorFlow上尝试其实现。
PyTorch:https://github.com/fregu856/deeplabv3
TensorFlow:https://github.com/sthalles/deeplab_v3
语义分割模型在训练过程中通常使用一个简单的交叉熵损失函数。但是,如果对获取图像的粒度信息感兴趣,则必须恢复到稍微高级一些的损失函数,来看几个例子:
Focal Loss
这种损失是对标准交叉熵准则的改进。这是通过改变其形状来实现的,使得分配给分类良好的示例的损失权重降低了。最终,确保不存在类不平衡。
在这个损失函数中,交叉熵损失是会随着缩放系数衰减为零而缩,训练时,比例因数自动降低了简单示例的权重,并将重点放在困难示例上。
Dice loss
Intersection over Union (IoU)-balanced Loss
IoU平衡分类损失的目的是增加高IoU样本的梯度,降低低IoU样本的梯度。从而提高了机器学习模型的定位精度。
Boundary loss
Boundary loss的一种变体应用于具有高度不平衡分段的任务。
这种损失的形式是空间轮廓而非区域上的距离度量。通过这种方式,它解决了高度不平衡的分割任务的区域损失所带来的问题。
Weighted cross-entropy
Lovász-Softmaxloss
该损失基于子模块损失的convex Lovasz扩展,对神经网络中的intersection-over-union loss进行了直接优化。
这些是在图像分割中使用的一些损失函数。了解更多,请查看
https://github.com/JunMa11/SegLoss。
图像分割的数据集
COCO是一个大型的对象检测、分割和字幕数据集。数据集包含91个类。它有25万人,都有自己的关键点。它的下载大小是37.57 GiB。它包含80个对象类别。它在Apache 2.0的许可下可用,可以从这里下载。
PASCAL Visual Object Classes (PASCAL VOC)
PASCAL有20个不同的类,9963张图片。训练/验证集是一个2GB的tar文件。数据集可以从官方网站下载。
The Cityscapes Dataset
这个数据集包含城市场景的图像。该方法可用于评价视觉算法在城市场景中的性能。数据集可以从这里下载。
The Cambridge-driving Labeled Video Database — CamVid
这是一个基于动作的分割和识别数据集。它包含32个语义类。以下链接包含数据集的进一步说明和下载链接。
图像分割框架
Fritz:提供了多种计算机视觉工具,包括用于移动设备的图像分割工具。
END
(添加请备注公司名和职称)
Imagination携手飞桨等多家伙伴联合发布 AI Studio硬件生态专区
Imagination Technologies是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作 场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!
暂无评论哦,快来评论一下吧!