바운딩 박스 예측

  • 슬라이딩 윈도우를 도입하여 바운딩박스를 찾는 법을 배웠으나 슬라이딩 윈도우가 이미지를 쭉 스캔하긴 하지만 모든 위치에 대해서 수행하는 게 아니기 때문에 정확한 개체의 위치를 아직 알 수 없음
  • 또한 개체 바운딩 박스가 정사각형이라는 보장도 없다.

YOLO

  • 기본 아이디어: 이미지를 구역별로 나누고 각 구역에서 개체를 찾는다.

  • 위 이미지에서는 3x3 크기로 격자를 나누었고, 각 영역의 구역에서 각각 레이블링 되기 때문에 Pc,bx,by,bh,bw,c1,c2,c3P_c, b_x, b_y, b_h, b_w, c_1, c_2, c_3 의 총 8가지 레이블을 가진다.

  • 영역이 3x3 이므로 출력 볼륨은 3x3x8 이 된다.

  • 보통 영역은 19x19 처럼 3x3 보다 좀 더 미세하게 구분한다.

    • 영역을 더 미세하게 쪼갤수록 여러 셀에 같은 개체가 인식될 확률이 줄어든다. → 더 정확한 위치를 파악할 수 있게 된다.
  • 각 셀에서 검출된 bounding box 의 실제 값은 셀에 대한 상대적인 비율 값이다.

    • 즉 100x100 이미지에서, 우측 중간의 자동차는 (x=90, y=50) 같은 절대적인 위치가 아니라, (2, 1) 위치 셀 내부에서의 비율이다.
    • 곧 x=0.5, y=0.4 정도의 값을 가진다.
    • 그러므로 bx1,by1b_x\le1, b_y\le1 이다.
  • 만약 개체가 커서 여러 셀에 걸치는 바운딩 박스를 가진다면 bh,bwb_h, b_w 는 1보다 커질 수 있다.