2023年4月15日
YOLOX-Losses
#!/usr/bin/env python# -*- encoding: utf-8 -*-# Copyright (c) Megvii Inc. All rights reserved.
import torchimport torch.nn as nn
# IOU loss表示的是两个框的重叠部分与两个框的并集的比值,IOU越大,表示两个框越接近,越小表示两个框越远离。class IOUloss(nn.Module): def __init__(self, reduction="none", loss_type="iou"): super(IOUloss, self).__init__() self.reduction = reduction # reduction表示的是计算loss的方式,有mean和sum两种方式,mean表示的是对loss求平均,sum表示的是对loss求和。 self.loss_type = loss_type # loss_type表示的是计算loss的方式,有iou和giou两种方式,iou表示的是计算两个框的IOU,giou表示的是计算两个框的GIoU。 # 其中GIoU是IOU的改进版,GIoU的计算方式是先计算两个框的并集,然后计算两个框的IOU,最后用并集的面积减去IOU的面积,再除以并集的面积,得到的结果就是GIoU的值。
def forward(self, pred, target): assert pred.shape[0] == target.shape[0] # pred 表示的是预测的框,target表示的是真实的框,两者的shape都是[batch_size, 4],4表示的是x,y,w,h。
pred = pred.view(-1, 4) target = target.view(-1, 4) # view()函数表示的是把目标Tensor变成指定的形状,-1表示的是自动推断,这里的-1表示的是自动推断出来的结果是batch_size。 # 目标列数是4,表示的是x,y,w,h。 tl = torch.max( (pred[:, :2] - pred[:, 2:] / 2), (target[:, :2] - target[:, 2:] / 2) ) # tl的结果是个二维数组,表示的是两个框的左上角的坐标。 br = torch.min( (pred[:, :2] + pred[:, 2:] / 2), (target[:, :2] + target[:, 2:] / 2) )
area_p = torch.prod(pred[:, 2:], 1) area_g = torch.prod(target[:, 2:], 1) # prod()函数表示的是对数组中的元素进行乘积运算,这里的乘积运算是指对数组中的每个元素进行乘积运算,最后得到的结果是一个数。 # area_p表示的是预测框的面积,area_g表示的是真实框的面积。 # area_g表示的是真实框的面积,area_g表示的是真实框的面积。 en = (tl < br).type(tl.type()).prod(dim=1) # tl < br 表示的是两个框的左上角的坐标是否小于右下角的坐标,如果小于,那么就表示两个框有重叠部分,如果大于,那么就表示两个框没有重叠部分。 # type(tl.type()) 表示的是把tl的数据类型转换成tl.type()的数据类型。 # prod(dim=1) 表示的是对数组中的元素进行乘积运算,这里的乘积运算是指对数组中的每一行进行乘积运算,最后得到的结果是一个数组。 # en表示的是两个框是否有重叠部分,如果有重叠部分,那么en的值为1,如果没有重叠部分,那么en的值为0。 area_i = torch.prod(br - tl, 1) * en # area_i表示的是两个框的重叠部分的面积。 area_u = area_p + area_g - area_i # area_u表示的是两个框的并集的面积。 iou = (area_i) / (area_u + 1e-16) # iou表示的是两个框的重叠部分与两个框的并集的比值。 if self.loss_type == "iou": loss = 1 - iou ** 2 # loss表示的是两个框的重叠部分与两个框的并集的比值的平方。 elif self.loss_type == "giou": c_tl = torch.min( (pred[:, :2] - pred[:, 2:] / 2), (target[:, :2] - target[:, 2:] / 2) ) # c_tl表示的是两个框的左上角的坐标的最小值。 c_br = torch.max( (pred[:, :2] + pred[:, 2:] / 2), (target[:, :2] + target[:, 2:] / 2) ) # c_br表示的是两个框的右下角的坐标的最大值。 area_c = torch.prod(c_br - c_tl, 1) # area_c表示的是两个框的并集的面积。 giou = iou - (area_c - area_u) / area_c.clamp(1e-16) # giou表示的是两个框的重叠部分与两个框的并集的比值的平方。 # clamp(min=-1.0, max=1.0)表示的是把giou的值限制在[-1.0, 1.0]之间。 loss = 1 - giou.clamp(min=-1.0, max=1.0) # loss表示的是两个框的重叠部分与两个框的并集的比值的平方。
if self.reduction == "mean": loss = loss.mean() # loss类似于一个数组,loss.mean()表示的是对loss求平均。 elif self.reduction == "sum": loss = loss.sum() # loss类似于一个数组,loss.sum()表示的是对loss求和。
return loss