[논문 리뷰] Physical Attack on Monocular Depth Estimation with Optimal Adversarial Patches

본 논문은 앞으로의 연구 과제에 기반이 될 것으로 보이는 ACM ECCV 2022 proceeding 에 등재된 논문이다.

Abstract

이 연구는 학습 기반 Monocular Depth Estimation(MDE)을 대상으로 하는 공격 기법을 개발한 내용을 다루고 있다. 이 연구에서는 최적화 기반 방법을 사용하여 실물 객체 지향적인 은밀한 적대적 패치를 생성하는 공격을 개발하였다. 이 적대적 패치는 depth estimation 을 attack 한다.

구체적으로, 객체 지향적 공격 설계와 민감 영역의 위치 확인, 그리고 자연스러운 스타일의 위장 기술을 통해 공격의 은밀성과 효과를 균형 있게 유지하는 방법을 탐구했다. 여기서 민감한 영역의 위치 확인 (sensitive region localization) 은 공격 패치가 대상이 되는 물체에 가장 큰 영향을 미칠 수 있는 특정 영역을 식별하는 것을 의미한다. 이러한 영역에 패치를 배치하면 attack 에 효율성이 극대화되기 때문이다.

실제 주행 환경에서 경쟁 MDE 모델과 대표적인 자율 주행 하위 과제(3D 객체 탐지)를 대상으로 평가한 결과, 다양한 목표 객체와 모델에 대해 은밀하면서도 효과적이고 견고한 공격 패치를 생성할 수 있음을 확인했다. 이 연구의 실험 결과, 자동차 뒷면 면적의 1/9 크기 패치로 깊이 추정 오차가 평균 6미터 이상 발생하고, object detection 에서 공격 성공률 (ASR)이 93%에 달했다. 또한, 세 가지 다른 주행 경로에서 실차 실험을 진행한 결과, 평균 깊이 추정 오차가 6미터 이상 발생했으며, 연속 비디오 프레임에서 객체 탐지율이 90.70%에서 5.16%로 크게 감소함을 확인했다.

1. Introduction

Monocular Depth Estimation (MDE) 는 RGB 이미지 input 을 가지고 물체와 카메라 사이의 거리를 추정하는 기술이다.

대부분의 정확한 방법은 고가의 LiDAR를 사용하여 3D 포인트 클라우드 데이터를 수집한다. 하지만, LiDAR를 대체하기 위해 저렴한 단안(Monocular) 및 스테레오(Stereo) 카메라를 사용하는 방법이 제안되었습니다. 이러한 방법은 정확도는LiDAR 기반 방법에 비해 현저히 낮지만, 비용과 안전성을 개선할 수 있다. 그래서, Tesla, Toyota, Huawei 등등 많은 자율주행 회사에서 MDE 를 도입하였다.

하지만, MDE 에 취약점이 있다. MDE 의 적대적 attack 에 대한 기존 연구가 digital 또는 physical world 플랫폼에서 구현되었다. digital world 공격들에 비교하여, 실제 세계에서 attack 은 도전적인 과제이다. 왜냐하면 다양한 광학적(밝기, 색상) 및 기하학적 변화들을 극복할 수 있는 robust 한 perturbation 을 요구하기 때문이다. 이러한 요구는 attack 의 은밀성을 감소시킨다.

그래서, physical world 에서 적대적 공격에 대한 이전의 연구 노력은 공격의 효과성을 위해 비자연스럽게 보이는 패치를 사용하여, 은밀함을 희생한다. 많은 개선의 여지를 남겨놨다. https://arxiv.org/pdf/2010.03072

Adversarial Patch Attacks on Monocular Depth Estimation Networks

앞서 언급한 문제들을 다루기 위해서, 본 논문은 MDE 에 대한 physical world 에서 attack 의 은밀함을 다루고, 대상 객체에 대한 은밀하고 효과적이고 robust 한 적대적 패치를 만들기 위해 물리적 객체 지향적인 적대적 패치 최적화 framework 를 제시한다. 특히 아래 4가지를 성취한다.

Physical 객체 지향적 적대적 최적화 설계
- 이는 공격 효과와 physical world 변환을 고려하여 patch 와 타켓 객체를 결합한다.
타겟 객체에 붙어있는 패치 영역을 미분가능한 패치 마스크 표현으로 최적화한다.
- 이는 타겟 객체에 공격을 위해 그리고 공격 성능을 작은 패치 사이즈를 가지고 성능을 향상시키기 위해 거의 효과적인 영역에 자동적으로 위치시킨다.
적대적 패턴을 deep photo style transfer 를 가지고 자연스러운 (rusty and dirty) 스타일로 위장한다.
- 공격을 위한 더 은밀한 패치가 될 것이다.
공격을 받은 MDE 가 자율주행의 대표적인 다운스트림 작업인 3D object detection 에 미치는 영향을 조사한다.
- 아래 그림이 예시가 될 것이다.

추가로, 연구진들은 인기있는 방어 기술을 가지고 연구진들의 공격을 실험한다. 본 논문의 핵심 기여는 아래와 같다.

MDE 를 대상으로 은밀함과 효과성의 균형을 맞추는 Physical 객체 지향적 적대적 패치 공격을 개발한다. 우선, 패치 크기와 자연스러움 두가지를 고려해서 MDE 를 대상으로 은밀한 physical world attack 을 연구한다.
최적화 framework 를 제안한다. 이는 physical 객체 특성들을 고려하며 미분가능한 패치 영역 표현을 가지며 자연스러운 위장을 제공한다.
논문은 3가지 대표적인 MDE 모델들에 대한 attack 을 평가하고, digital, physical world 모두에서 실제 세계 주행 시나리오를 가지고 하위 스트림 작업을 평가한다. 논문의 공격은 다양한 유형의 타겟 객체에 대해서 효과적이고, 최신 모델에서도 효과적이다. 이는 실제 차량에 대해서 평균 6 미터 이상의 depth estimation error 를 일으킨다. 여기서, 차량 후방 영역의 오직 1/9 이 패치이고, 3D object detection 에서 90% 이상 공격 성공률을 보인다. 해당 영상은 https://youtu.be/L-SyoAsAM0Y. 에서 시청 가능하다.

2. Related Work

AD Systems Security
- Sensor Security
  - 이전 연구는 camera, LiDAR, RADAR, ultrasonic, GPS, IMU 등등 에 대한 spoofing / jamming 에 초점이 맞춰져 있었다.
- Autonomy software security
  - 이전 연구는 연속적인 값을 예측하는 regression tasks (depth estimation, optical flow estimation) 과 classification tasks (2D object detection and classficiation, tracking, lane detection, traffic light detection) 에 초점이 맞춰져 있었다.
  - 본 논문은 자율주행 소프트웨어 보안에 초점을 맞춘다. 즉, MDE 을 속이는 것과 이와 관련된 하위 스트림 task 들을 다룬다.
Physical-world Adversarial Attacks
- 적대적 공격에 대한 많은 이전 노력들은 digital space 에서 perturbation 이나 패치를 생성하는 것을 지향해왔다. 이와 비교하여, 본 논문은 physical world 에서 적대적 공격에 대한 광범위한 공격들을 수행한다.
- 기존의 physical-world attack 이 이미지 분류, 물체 탐지, 얼굴 인식과 같은 task 들을 다뤘지만, depth estimation attack 의 영역에서는 거의 다루지 않았다.
- 게다가, 은밀함과 공격 효과성 사이의 상관관계가 대체로 잘 연구되지 않았다. 본 논문에서, 연구진들은 이 두가지를 가깝게 하는 시도를 한다.
MDE Attacks
- Zhang 은 보편적인 attack 시나리오에서 성능을 향상시키기 위한 multi-task 공격 전략을 제안한다. Wong 은 타겟 적대적 perturbation 을 image 에 생성하고 depth map 을 임의로 바꾸는 방식을 제안한다. 이러한 두가지 attack 은 digital-space perturbations 에 초점에 맞춰져 있다. 그래서, 직접적으로 physical world 에서 적용할 수는 없다. Yamanaka 는 MDE 의 출력가능한 적대적 패치를 생산하는 방식을 제안하지만, 패치의 은밀함을 고려하지는 않았다. 이전의 노력들과 달리, 본 논문은 은말함과 공격 효과성에 초점을 맞추고, MDE 의 physical world attack 에 대한 적대적 패치의 은밀함을 최초로 연구한다.

3. Method

3.1 Physical-object-oriented MDE Attack

의심스러워 보이는 이전 연구의 적대적 패치(a) 와 비교하여 은밀한 패치는 눈에 띄지 않고, 따라서 타겟 차량에 더 오랜 시간 동안 머무를 수 있다.

그렇다면, 은밀하다는 것의 기준은 2가지로 보면 되겠다.

Patch Size minimization
- 패치 사이즈를 최소화 하기 위해서, 연구진들은 가장 작은 패치를 가지고 공격 효과를 최대화하는 방안을 조사했고, 이를 위해 2가지의 approach 를 제안한다.
  1. enlarging the patch's affected area
    - 위의 그림에서 b,c 를 보면 되겠다.
  2. locating the adversarial patch in a more sensitive region of the target vehicle
    - 위의 그림에서 c,d,e 를 보면 되겠다.
Achieving natural appearance
- physical world 에서 attack 을 시작하기 위해서 요구되는 perturbation 의 규모가 아주 상당하기 때문에, 단순히 적대적인 노이즈를 사람이 알아차릴 수 없는 수준으로 bound 할 수 없다. digital-world attack 에서는 $\mathcal{L}_{p}$-norms 를 통해서 가능했지만, physical world attack 에서는 어렵다. 그래서, 연구진들은 적대적인 패턴을 natural styles (dirty or rusty) 로 위장하기 위해서 style transfer 를 사용한다.

이제, Attack Pipeline 에 대해서 살펴보자.

연구진들은 최적화 기반 method 를 사용하여 적대적인 패치를 만든다. 여기에는 3가지의 주요 최적화 목표들이 있다.

Increasing the estimated distance of target object ($3.2)
Minimizing the patch to locate a sensitive (most effective) region for attack ( $3.3)
Camouflaging the adversarial patch with natural styles ($3.4)

위의 Figure 3 는 본 논문의 attack 의 overview 를 보여준다.

좌상단을 보면, 패치 content 이미지에 style transfer 로 시작하여, style-transfer 된 패치를 최적화할 수 있는 패치 mask ($m_{p}^{\Theta}$) 로 crop 한다. 그리고, 타켓 차량 $\mathcal{O}$ 에 붙인다. 이는 적대적인 차량 $\mathcal{O'}$ 이 될 것이다. 그리고 나서, 적대적인 시나리오들 $(\mathcal{D}(\mathcal{R'_{t}})$ 을 합성하는데, 이는 적대적인 객체를 물리적인 변형들($\mathcal{t}$)을 가지고 랜덤한 scene 들에 놓고, MDE 를 적용하여($\mathcal{R'_{t}}$) 이루어진다.

연구진들은 타겟 차량의 depth 를 증가시키기 위해서 적대적인 loss ($\mathcal{L}_{a}$) 를 정의한다. 자연스러움을 유지하기 위한 style transfer loss ($\mathcal{L}_{st}$) 그리고 패치를 minimize 하기 위한 패치 사이즈 loss ($L_{m}$) 와 함께, back propagation 을 수행하여 패치 content 와 mask 를 반복적으로 업데이트하여 3가지의 최적화 목표를 다룬다.

위 그림의 굵은 선은 data flow 를 나타내고 점선은 back propagation 경로들을 나타낸다. 각각의 구성요소는 다음 섹션에서 세부적으로 설명된다.

3.2 Adversarial Perturbation Generation

준비에 있어서, 연구진들은 타켓 차량 ($\mathcal{O}$) 과 패치 content 이미지 ($\mathcal{x}$) 과 style 이미지를 선택한다. 패치 마스크 ($\mathcal{m}_{p}$) 가 주어질 때, style transfer 된 패치 ($\mathcal{x'}$) 을 정상 차량에 적용하여 적대적인 차량 ($\mathcal{O'}$) 을 만든다. 아래 식 (1) 과 같다.

$\mathcal{O'} = \mathcal{O} \odot (1-\mathcal{m}_{p}) + \mathcal{x'} \odot \mathcal{m}_{p} \quad (1) $

여기서, $\odot$ 은 element-wise multiplication 을 의미하고, $\mathcal{O}, \mathcal{m}_{p}, \mathcal{x'}$ 은 같은 width 과 height 를 갖는다. 패치가 적용될 위치를 정의하는 바이너리 마스크(값이 0 또는 1) 이다. 패치 마스크 정의와 style transfer 는 나중에 3.3, 3.4 에서 설명하겠다.

논문은 타켓 차량의 depth 를 scene 내에서 평가한다. 이는 victim 차량의 camera 가 독립적인 객체가 아니라 scene frame 들을 capture 하기 때문이다. 특히, 각 최적화 iteration 에서, 연구진들은 랜덤하게 dataset 으로부터 scene 을 sampling 하고, 적대적인 scenario 를 만들기 위해 적대적인 객체를 scene 으로 붙인다. 특정한 scene 이나 road section 에 겨냥하는 이전 자율주행 시스템에 대한 attack 들과 달리 본 논문의 attack 은 보편적이고 scene 에 종속적이다.

physical world 에서 본 논문의 attack 의 robustness 를 향상시키기 위해, 연구진들은 랜덤하게 객체의 size, rotation, brightness, saturation 등을 변형시켜서 Expectation of Transformation (EoT) 를 적용한다. https://arxiv.org/pdf/1707.07397

수평적인 pasting 위치는 랜덤이다. 반면에 수직적인 위치는 physical 적인 제약들을 고려해서 객체의 size 에 따라 계산된다.

특히, Figure 4 는 차량의 perspective model 을 side view 로 보여주고 연구진들은 camera 가 기울어지지 않은 상태에서 정면을 향하고 있다고 가정한다.

$\mathcal{H}$는 타겟 차량의 height 이고, $\mathcal{h}$ 는 victim 차량 관점에서 camera 의 height 이다. $\mathcal{f}$ 는 camera 의 초점 길이이고 $\alpha$ 는 camera 의 view angle 과 관련있다. 이미지에서, 차량의 수직적인 위치 ($\mathcal{d}$) 는 차량의 높이 ($\mathcal{s}$) 로부터 계산된다. 아래 식 (2) 를 통해 계산된다.

$\mathcal{d} = - {\mathcal{h} \over \mathcal{H}} \mathcal{s} + {\mathcal{f} \over \tan{\alpha}} \quad (2)$

직관적으로, 원근법에서는 더 멀리 있는 물체가 더 작게 보이므로, 변환 후 크기가 작은 물체는 이미지에서 더 높은 수직 위치에 붙여진다. 이는 카메라의 소실점(vanishing point)에 더 가까운 위치가 된다. 소실점은 카메라 시야에서 가장 먼 물리적 지점을 나타내며 더 큰 depth estimation을 갖는다.

추가로, 적대적인 scenario $\mathcal{R'}_{t}$ 는 아래 식 (3) 로 묘사된다.

$\mathcal{R'}_{t} = \Lambda_{t} (t(\mathcal{O'} \odot m_{o}), \mathcal{R})$

여기서, $\mathcal{t}$ 는 타겟 차량에 적용되는 랜덤 transformation 이고, $\mathcal{m}_{o}$ 는 이미지로부터 객체를 추출하기 위해 사용되는 object mask 이고, $\mathcal{R}$ 은 database 에서 랜덤하게 sampling 된 scene 이다. 그리고, $\lambda(\dot, \dot)$ 는 적대적인 차량과 위의 식(2) 에서 physical 적인 제약을 따르는 scene 을 결합하기 위한 paste operation 으로 보면 되겠다.

본 논문의 목표가 타겟 차량을 더 멀리 떨어지도록 하는 것이 목표이기 때문에, 연구진들은 차량의 depth estimation 을 maximize 하려고 한다. 역수로 취하면 minimize 하려는 것이 될 것이다. 따라서, 연구진들은 적대적인 loss 를 아래 식 (4) 에서 정의한다.

$$
L_{a}
=
\mathbb{E}_{\,t \sim \mathcal{T},\, R \sim \mathcal{D}_{R}}
\Bigl[
  \mathrm{MSE}\Bigl(
    \mathcal{D}\bigl(\mathcal{R}'_{t}\bigr)^{-1}
    \,\odot\, m_{o},\,
    0
  \Bigr)
\Bigr].
$$

여기서, $\mathcal{T}$ 는 transformation 들의 집합이고, $\mathcal{D}_{R}$ 은 scene 들의 집합이며 $MSE(\dot, \dot)$ 은 두가지 변수들 사이의 mean square error 를 의미한다. 또한, $\mathcal{D}$ 는 depth estimation model 이고, $\mathcal{M}_{o}$ 은 scenario 에서 object mask 를 의미한다. 또한, E 는 평균을 의미한다.

3.3 Sensitive Region Localization

마스크를 최적화하는 이전 연구들에서는 마스크의 각각의 픽셀을 파라미터로 다룬다. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8835365

https://dl.acm.org/doi/pdf/10.1145/3319535.3363216

이렇게 생성된 마스크는 희소행렬, 분산된 마스크 영역(Figure 11 (b) 참조) 때문에 실제 deployability 가 낮다. 대신에 연구진들은 새로운 직사각형의 패치 영역 최적화 method 를 설계한다. (Figure 11 (a) 참조) Regional optimization 이라고 불림. 이는 sensitive 영역을 자동으로 위치시키기 위함이다. 패치 영역을 직사각형으로 정의할지라도, 최후의 패치는 반드시 직사각형이 아니라 임의의 사전에 정의된 shape 을 가진다. 세부사항은 이후에 설명하겠다.

전형적인 직사각형의 패치 마스크는 직사각형 경계 내에서는 1이고 그 이외에는 0 이다. 그러나, 이 마스크는 border parameter 들 때문에 미분가능하지 않다. 왜냐하면 마스크 값이 경계에서는 연속적이지 않고, 경계 정보가 각각의 마스크 값으로 인코딩되지 않기 때문이다. 이는 gradient descent 와 back propagation 을 통해 최적화될 수 없는 것을 의미한다. 이러한 문제를 해결하기 위해서, 연구진들은 미분가능한 soft version 의 직사각형 마스크를 설계한다. 이는 4개의 경계 parameter 들에 대해서 미분가능하게 만들게 한다. 특히, 연구진들은 border parameter 들을 $\Theta = [l, r, t, b]$ 로 정의한다. 아래 Figure 5 을 살펴보자.

위의 그림에서 $l $ 과 $r$ 은 각각 left 와 right border 의 column 인덱스들이다. 그리고, $t$ 와 $b$ 는 각각 top 과 bottom border 의 row 인덱스들이다. $w$ 와 $h$ 를 각각 마스트의 width 와 height 라고 하면, $0<=l<=r<=w$ 와 $0<=t<=b<=h$ 가 성립한다.

$\mathcal{m}_{p}^{\Theta} = \{ \mathcal{m}_{p}^{\Theta}[i, j] | i \in 1 \dots w, j \in 1 \dots h \} $

$\mathcal{m}_{p}^{\Theta} [i, j] = {1 \over 4} (-sign(i-t) \cdot sign(i-b) + 1) \cdot (-sign(j-l) \cdot sign(j-r) + 1), \quad (5) $

전형적으로, 마스크는 $\Theta$ 와 함께 파라미터로 위의 식 (5) 를 통해서 정의된다. 여기서 $\mathcal{m}_{p}^{\Theta} \in \{0,1\}^{w \times h}$ 는 패치 마스크이고 $ [i, j] $ 는 i 번째 과 j 번째 열을 의미한다. $sign(x)$ 는 $x>=0$ 일 때, output 이 1이고, $x<0$ 일 때, output 이 -1이다. 그리고 $\mathcal{m}_{p}^{\Theta}[i,j]$ 는 pixel 이 4개의 border 들 내에 있으면 1이고, 그 이외에는 0 으로 정의된다. 각각의 mask 값을 border 에서 미분가능하게 만들기 위해서 연구진들은 $sign(\cdot)$ 을 $tanh(\cdot)$ 로 근사시키고, 패치 마스크를 아래 식 (6) 으로 정의한다.

$\mathcal{m}_{p}^{\Theta} [i, j] = {1 \over 4} (-tanh(i-t) \cdot tanh(i-b) + 1) \cdot (-tanh(j-l) \cdot tanh(j-r) + 1), \quad (6) $

Figure 5 (b) 는 연구진이 정의한 mask 의 example 이다. 이 example 에서 $w$ 와 $h$ 는 30이고, $l$ 과 $t$ 는 10, 그리고 $r$ 과 $b$ 는 20이다. 직사각형의 region 의 border 들은 점차적으로 바뀌는 것을 볼 수 있다. 각각의 픽셀 값은 border parameter 들 $\Theta$ 로 인코딩된다.

초기에, 패치 마스크는 전체 이미지를 cover 하도록 initialize 되었다. $(i.e., l=t=0, b=h, r=w)$ 본 논문의 최적화 목표중 하나는 마스크 영역을 최소화하는 것이다. 그래서 연구진들은 마스크 loss 식을 아래 식 (7) 과 같이 정의한다.

$\mathcal{L}_{m} = {r-l+b-t \over w+h} \quad (7) $

연구진들은 직사각형 region 의 width 와 height 의 linear combination 을 사용한다. 이는 edge 들의 update 에서 bias 를 avoid 하기 위한 것이다. 그렇지 않으면, 만약 영역의 비율 $(i.e., {(r - l) \times (b-t) \over (w \times h)})$ 을 마스크 loss 로 사용한다면, 더 긴 edge 의 parameter 들 $(e.g., b , t if, (b-t) < (r-l)) $ 가 더 큰 gradient 들을 갖게 될 것이고, 더 짧은 edges 보다 더 빠르게 바뀌는 경향이 있기 때문이다. 이는 더 긴 edge parameter 들을 update 하는 방향으로 bias 로 이어질 수 있다. linear combination 을 사용하는 것은 앞서 언급한 문제를 avoid 하고 각각의 마스크 parameter 는 같은 weight 를 갖는다.

비록, 연구진들이 직사각형의 패치 region 을 정의할 지라도, 최후의 패치 마스크는 region 내에서 임의의 shape 가 될 수 있다. Figure 5 (c) 에서 볼 수 있는 것 처럼, 사전에 정의된 패치 shape 마스크 $\mathcal{m}_{s}(\mathcal{m}_{s}[i, j] \in \{ 0,1\})$ 가 주어지면, 최후의 패치 마스크 $\mathcal{m'}_{p}^{\Theta}$ 는 직사각형의 region 내에서 스케일링된 shape 마스크 $\mathcal{m'}_{s}$ 를region mask $\mathcal{m}_{p}^{\Theta}$ 와의 element-wise 곱으로 계산될 것이다.

특히, 각 iteration 에서, border parameter 들 $\Theta$ 가 주어지면, 사전에 정의된 shape 마스크 $\mathcal{m}_{s}$ 를 직사각형 region 의 중앙으로 fitting 하고 스케일링 한다. $\mathcal{m'}_{s}$ 가 된다. 이는 Figure 5 (c) 에서 빨간색으로 표시되어 있다. 최후의 패치 마스크는 아래 식 (8) 로 계산된다. region 마스크와 shape 마스크을 직사각형 region 내에서 곱한다. 일반성을 잃지 않고, 연구진들은 evaluation 에서 직사각형 shape 들에 초점을 맞춘다. $(i.e., m_{s} \equiv 1) $

$$
m_{p}'^{\Theta}[i,j]
=
\begin{cases}
m_{p}^{\Theta}[i,j] \cdot m_{s}'[i,j], & i \in [l, r],\, j \in [t, b]\\
m_{p}^{\Theta}[i,j], & \text{otherwise}.
\end{cases} \quad (8)
$$

게다가, 마스크 정의는 또한, 다수의 패치들과 optimize 하는 것을 지원한다. 핵심 포인트는 여러 가지 region 들을 합집합하여 그들을 함께 optimize 하는 것이다. 세부적인 것은 Appendix A 에 남겼다. 본 논문의 주요 결과를 위해 하나의 패치에 집중하였다.

3.4 Attack Camouflage

depth estimation 모델의 기존 적대적인 공격에서 생성된 패치들은 Figure 2 (a) 에서 볼 수 있드시 눈에 띄는 perturbation 을 가지고 있다. 이와 달리, 연구진들은 style transfer 를 사용한다 이는 자연스러운 style 을 가지고 attack 을 위장하기 위함이다. Classficiation model 을 attack 하는데에 style transfer 를 사용하는 연구들이 있었다. https://arxiv.org/pdf/2003.08757

하지만, 본 논문은 style transfer 를 더 challenging 한 depth estimation attack 과 결합하는 것은 최초이다. 연구진들은 deep photo style transfer 를 style transfer method 로 사용한다. https://arxiv.org/pdf/1703.07511

이 method 는 neural style transfer 의 종류이다. CNN 모델을 활용하여 image 의 deep features 들을 추출하고 content 와 style 정보를 deep feature 표현들에서 분리한다. Source 이미지는 style 이미지로부터 추출된 style 정보에 접근하기 위해서 반복적으로 업데이트 될 것이다. 특히, deep photo transfer 에서 정의되었드시, loss function 에서 style transfer 구성요소들에 대한 4가지의 식들이 있다. style loss $(\mathcal{L}_{s})$, content loss $(\mathcal{L}_{c})$, smoothness loss $(\mathcal{L}_{t})$ 그리고 photorealism regularization loss $(\mathcal{L}_{r})$. 이러한 4가지 style transfer loss 들의 정이는 Appendix B 에서 남겨놓았다. Style transfer loss 는 아래 식 (9) 과 같이 4가지들의 합이다.

$\mathcal{L}_{st} = \mathcal{L}_{s} + \mathcal{L}_{c} + \mathcal{L}_{t} + \mathcal{L}_{r} \quad (9)$

요악컨데, 본 논문의 적대적인 패치 생성 process 는 아래 식 (10) 과 같이 최적화 문제로 공식화 될 수 있다.

$$
\min_{x', \Theta} \mathcal{L}_a + \mathcal{L}_m + \lambda \mathcal{L}_{st} \\
\text{s.t. } x' \in [0, 255]^{3 \times w \times h}, \Theta = \{l, r, t, b\} \quad (10) \\
0 <= l <= r <= w, 0 <= t <= b <= h
$$

여기서 $\lambda$ 는 style transfer 자연스러움과 attack performance 의 균형을 유지하기 위한 바뀔 수 있는 weight parameter 이다. 다양한 $\lambda$ 의 값에 대한 ablation study 는 Appendix E 에 남겨놓았다. ablation study 는 제거 연구로, 모델의 성능에 가장 큰 영향을 미치는 요소를 찾기 위해 모델의 구성요소 및 feature들을 단계적으로 제거 하거나 변경해가며 성능의 변화를 관찰하는 방법이다.

본 논문의 실험에서는 다른 식들에 대한 weight 는 고정되었다. 각 반복에서 연구진들은 $x'$ 과 $\Theta$ 의 gradient 를 계산하여 back propagation 을 진행하였고, deep photo style transfer 에서도 마찬가지로 gradient 를 계산하였다. 그리고 패치 $x' $ 을 업데이트하기 위해 LBFGS 를 사용하였다. https://digital.library.unt.edu/ark:/67531/metadc666315/m2/1/high_res_d/204262.pdf

border parameter 들 $\Theta$ 를 업데이트하기 위해서 Adam optimizer 를 사용하였다. 그리고 연구진들은 네 방향의 경계를 모두 동시에 업데이트하는 것이 아니라, 절대 기울기(absolute gradient) 가 가장 큰 한 방향의 경계만 업데이트한다. 연구진들은 패치 region 에 대한 목표 비율을 마스크 optimization 의 stopping 기준으로 설정한다. 다시 말해서, 마스크는 사전에 정의된 타켓 비율보다 더 작을 때, 더이상 update 되지 않을 것이다.

4. Experiments

4.1 Experimental Setup

MDE Model Selection
- 연구진들은 3가지 monocular depth estimation model 들을 사용한다.
  1. Monodepth2
  2. Depthhints
  3. Manydepth
- representativeness 와 실용성 그리고 open model 들을 고려하여 이러한 모델을 서택했다.
- 모델 selection 기준의 세부사항은 Appendix C 에 남겨놓았다.
Target Object Selection
- 본 논문의 공격은 public 한 road 에 객체들의 어떠한 class 에도 적용되기 때문에 일반성을 잃지 않는다. attack 할 객체들의 3가지 대표적인 유형 (차량, 교통 장애물, 보행자) 에 초점을 맞춘다. 이는 아래 Figure 6 에서 보여진다.
- 연구진들은 정상적인 주행 scenarios 에서 public 한 road 에 가장 흔하고, 이들을 detect 하지 못하면 생명에 위협적인 결과로 이어질 수 있기 때문에 이들을 선택했다.
- 차량은 자율주행 차량에서 인지 system 의 주요 타겟이기 때문에 attacker 들에게 가장 매력적인 객체이다.
- 연구진들은 실험에서 주로 차량에 초점을 맞춘다.
Evaluation Scene Selection
- 연구진들은 100개의 real-world 주행 scene 들을 KITTI dataset 에서 선택해서 생성된 패치의 각 객체에 대한attack performance 를 평가한다. https://www.cvlibs.net/publications/Geiger2012CVPR.pdf
- 이러한 scene 들은 광범위한 road 들을 cover 한다. (e.g., high-way, local, and rural roads)
- 또한, background 객체들 (e.g., trucks, traffic lights, and cars) 도 cover 한다.
Evaluation Metrics
- 연구진들은 target object의 mean depth estimation error $(\epsilon_{d})$ 과 영향받은 region 의 비율 $\mathcal{R}_{a}$ 을 evaluation metrics 로 사용한다.
- 원본 객체의 depth estimation 을 ground truth 로 사용하고, 적대적인 객체의 depth estimation 과 비교한다.
- mean depth estimation error 는 적대적 패치의 attack 효과성을 암시한다. 더 크면 클수록, performance 가 좋아진다.
- 아래 식 (11) 로 정의된다.
  $$
  \epsilon_{d}
  =
  \frac{
    \sum \Bigl(
      \bigl|\mathcal{D}\bigl(\Lambda(\mathcal{O}, \mathcal{R})\bigr)
      \;-\;
      \mathcal{D}\bigl(\Lambda(\mathcal{O}', \mathcal{R})\bigr)\bigr|
      \;\odot\;
      \mathcal{M}_{o}
    \Bigr)
  }{
    \sum(\mathcal{M}_{o})
  } \quad (11)
  $$
- 영향을 받은 region $(\mathcal{R}_{o})$ 의 비율은 아래 식 (12) 에서 정의된다.
  $$ \mathcal{R}_{a} = \frac{ \sum \Bigl( \mathcal{I}\Bigl( \bigl|\mathcal{D}\bigl(\Lambda(\mathcal{O}, \mathcal{R})\bigr) - \mathcal{D}\bigl(\Lambda(\mathcal{O}', \mathcal{R})\bigr)\bigr| \;\odot\; \mathcal{M}_{o} \;\ge\; 10 \Bigr) \Bigr) }{ \sum(\mathcal{M}_{o}) } \quad (12) $$
  - 여기서, $\mathcal{I}(x)$ 는 $x$ 가 true 일 때만 1로 평가하는 indicator function 이다.
  - depth estimation 의 error 가 10미터 이상인 픽셀을 유효한 공격(Valid Attack)으로 정의하며, 이 픽셀은 영향 지역(Affected Region)에 포함된다. 이 값은 객체의 모든 픽셀 중 영향을 받은 픽셀의 개수의 비율로 계산된다. 값이 클수록 더 넓은 영역이 영향을 받았음을 나타낸다

4.2 Main Results

연구진들은 effectiveness, robustness 와 stealth 관점에서 주요 결과를 제시한다.

Attack Effectiveness
- 연구진들은 세 가지 MDE(Monocular Depth Estimation) 모델에서 세 가지 객체 유형을 대상으로 각각 공격을 수행한다. 각 객체는 동일한 크기의 여러 영역으로 나뉘며(Fig. 6 참조), 이러한 고정된 영역에 대해 패치를 최적화하여 공격한다. 그 후, 다음 두 가지 패치 영역 최적화 기법과 비교한다.
  - Our sensitive region localization (3.3)
  - location-optimized patch (https://arxiv.org/pdf/2005.02313)
    - 고정 크기의 패치 위치를 각 최적화 반복(iteration) 후 업데이트한다.
    - 패치를 네 방향으로 미리 정의된 거리(Stride)만큼 이동시킨 뒤, 적대적 손실(Adversarial Loss)이 가장 적은 방향을 다음 패치 위치로 선택한다.
  - 공정한 비교를 위해, 패치 영역의 목표 비율을 고정된 영역의 비율과 동일하게 설정한다.(예: 차량의 read 영역의 1/9 비율). 패치 비율이 목표 비율보다 작아지면 최적화를 중단한다
  - 각 테스트에서 100개의 장면에서 타겟 차량의 평균 depth estimation error $(\epsilon_{d})$를 계산하고, 이들의 평균값을 결과로 사용한다.각 장면에서 객체는 피해 차량(victim)의 카메라로부터 7m 거리에 배치된다.
    - 7m 거리는 시속 25마일(약 40km/h)로 주행 시, 제동 거리( Vehicle Stopping Distance Calculator )에 해당한다.
    - 이는 정상 주행 시 충돌을 피하기 위해 객체를 감지해야 하는 최소 거리이다.(https://arxiv.org/pdf/2106.09249)

위의 Table 1 은 effectiveness 평가 결과를 보여준다. 보여진 것 처럼, 본 논문의 attack 은 다양한 depth estimation model 들과 객체들에 대해서 generic 하고 effective 하다. Our sensitive region localization 으로, 차량의 후방 영역의 1/9 에 해당하는 적대적 패치 는 다양한 depth estimation model 들에 대해서 최소 6m $\epsilon_{d}$ 를 일으켰다. Our sensitive region localization 은 모든 이러한 고정된 영역과 location optimized 영역보다 성능이 좋은 최적의 place 를 위치시킬 수 있다. Physical world 실험에서, Figure 8 이 예시를 제시한다.

보여진 것 처럼, 차량에 붙어있는 적대적인 패치는 차량의 depth estimation 을 속이고, 그 효과는 패치 영역에 국한되지 않고 더 넓은 영역으로 전파된다. 3D 공간으로 projection 된 이후에, 적대적인 차량의 point cloud 가 정상적인 것과 비교했을 때, 왜곡될 수 있다는 것은 명백하다.

Table 2 는 physical world attack 성능을 보여준다. 이 table 에서 첫번째 열은 다양한 drive 들을 나타낸다. 두번째 열은 각각의 drive 의 time 을 초 단위로 보여준다. 3번째 열은 video 로부터 평가된 전체 프레임들을 보여준다. 그리고, 연구진들은 초당 5 프레임을 평가했다. 네번째 열은 차량의 평균 depth estimation error $(\epsilon_{d})$를 보여준다. 보여진것처럼, 정상적인 시나리오에서, error 는 1m 이하이지만, 적대적인 시나리오들에서 error 는 7m 이상이다. 이는 physical world 에서 본 논문의 attack 의 effectiveness 를 정당화한다.

Attack Robustness
- Victim vehicle 과 비교하여 적대적인 차량을 7m 에서 35m 까지의 범위를 갖는 logitudinal distance (forward and back) 를 갖는 장소에 둔다. 그리고, -1m 에서 1m 까지의 범위를 갖는 lateral distances (left and right) 에 둔다.
  - 7m 와 35m 의 logitudinal distance 는 25 마일에서 55 마일까지의 주행 속도에 대한 제동 거리와 일치한다.
- Victim vehicle 을 차선의 중앙으로 고려하고, 차선 중앙으로부터 -1m 에서 1m 의 lateral deviation 은 대부분의 앞 차량 주행 시나리오들을 cover 한다. (https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7795743)
- 타겟 객체를 차량으로 사용하고 Monodepth2 를 depth estimation network 로 사용한다.
- regional optimization 을 사용하고, 목표 패치 사이즈를 차량 후방 영역의 1/9 로 설정한다.
- optimization 동안 EoT 를 사용하는 경우와 사용하지 않는 경우 모두를 테스트한다. (3.2)

위의 Figure 7 은 robustness evaluation 의 결과를 보여준다. 타겟 차량의 평균 depth estimation error 를 피해 차량(victim vehicle)과의 다양한 종방향 거리(longitude distances) 조건에서 report 한다. 본 논문의 공격은 robust 하며, 다양한 피해 차량 접근 위치(victim approaching positions)에서도 3m 이상의 평균 depth estimation error 를 유발한다.

EoT 는 attack performance 를 40.63% 증가시키며, 본 논문의 attack 을 다양한 거리에서 더 robust 하게 만들어준다. 보여진것 처럼, 타겟 차량이 가까워지면 depth estimation 에서 error 는 더 커진다. 이는 왜곡된 pseudo-Lidar 로부터 victim 차량이 object 를 탐지하기 힘들게 한다. victim vehicle 이 collision 할 때까지 계속해서 접근하게 만든다. physical world 실험에서, 본 논문의 attack 은 실제 주행 시나리오들에서 수행되었다. 이전 연구에서는 특정 위치로부터 단일 이미지로 평가를 했던 것과 비교하여, 연속적이고 역동적인 움직임이 더 challenge 이고 실용적이다. 본 논문의 attack 은 다양한 조명 조건 (e.g., 그림자, 다양한 빛 방향) , 주행 조건(e.g., 직진, 회전), background scene 하에 robust 한 것으로 보여진다. 이와 관련된 영상은 Monocular Depth Estimation Attack 에서 확인할 수 있다.

Stealth
- naturalness of appearance (외관상 자연스러움)와 patch size(패치 사이즈) 이 2가지 방향성에서 stealth 를 고려한다.
  - 외관상 자연스러움 관점에서, 본 논문의 method 로 생성한 적대적 패치와 Yamanaka 등이 제안한 baseline method 와 비교한다. (https://arxiv.org/pdf/2010.03072)
  - 아래 Figure 9 에서 볼 수 있드시, style transfer 기반의 위장이 들어간 본 논문의 method 가 더 자연스러운 패치를 생성하고 적대자로 덜 식별될 것이다. https://arxiv.org/pdf/1703.07511, https://arxiv.org/pdf/2003.08757 에서 수행된 연구들 또한 style transfer 기반의 이미지 processing 의 자연스러움을 정당화한다.
  - 패치 사이즈에 관하여, 더 작은 사이즈는 더 은밀함과 더 적은 효과성을 제안한다. 연구진들은 따라서, 작은 패치들을 가지고 attack 을 maximize 하는 것을 연구한다. 연구진들은 본 논문의 객체 지향적인 attack 이 일으킨$\mathcal{R}_{a}$ 와 패치 지향적인 attack 이 일으킨 $\mathcal{R}_{a}$ (https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9207958)를 비교한다. 본 논문은 패치 영역뿐만 아니라 객체 전체를 고려하여 적대적 손실(adversarial loss)을 설계한다.
  - 공정한 비교를 위해, 두 방법 모두 style-transfer-based 위장을 사용하여 시각적 자연스러움을 동일하게 유지한다. 그리고, 고정된 region 들과 regional optimization 을 테스트한다.
  - 본 실험은 차량을 타겟팅하는 Monodepth2 로 수행되었다. 다른 환경은 effectiveness evaluation 에서 이전 setup 과 같다.

Figure 10(a) 에서 보여지듯이, 모든 경우에서 baseline(Patch-oriented)보다 차량에서 2.5배 더 높은 $\mathcal{R}_{a}$를 기록한다. regional optimization case 에서 본 논문의 method 모든 다른 고정된 region case 들보다 성능이 좋다. 따라서, 같은 전체 패치 영역을 가지고 본 논문의 regional optimization 을 갖는 객체 지향적인 attack 은 baseline 보다 더 넓은 영역에 영향을 끼친다. 다시 말해서, 비슷한 attack 효과를 얻기 위해서, 우리의 method 를 사용하는 것은 더 작은 패치를 요구하고 그래서 더 은밀하다.

Figure 10(b) 는 추가로 우리의 regional optimization 을 갖는 경우에서 CDF 와 depth estimation error 의 histogram 을 보여준다. 보여진것처럼, baseline method 가 일으킨 error 는 80% 이상 10m 이하이다. 이는 패치 지향적인 attack 이 주로 제한된 패치 영역에 영향을 끼친다는 Figure 2(c) 에서 관찰과 일치한다. 우리의 method 효과는 더 넓은 영역에 전파된다. 더 큰 error 를 일으킨다. 우리의 attack 의 전이 가능성에 대한 evaluation 은 Appendix D 에 남겨 두었다.

4.3 Ablation Study

Combinations
- object-oriented 적대적 loss design 과 작은 패치를 가지고 attack 효과를 최대화하기 위한 패치 마스크 regional optimization 를 사용한다.
- 각각의 구성요소가 얼마나 기여하는지를 보기 위한 이러한 기술들에 대해서 ablation 를 수행한다.
- 아래 Table 3 가 결과를 보여준다.
- Monodepth2 를 attack 하고 차량을 타겟 객체로 사용하여 $\epsilon_{d}$ 와 $\mathcal{R}_{a}$ 를 report 한다.
- regional optimization (RO) 이 없는 테스트들에 대해서는 #5 고정 region 을 사용한다. 이는 attack performance 가 이전 평가들에서 모든 고정 region 들 사이에서 가장 좋았기 때문이다.
- 보여진것처럼, object-oriented (OA) 적대적 loss 자체가 attack performance 를 향상시킬 수 있다. 반면에, regional optimization 은 향상시킬 수 없다.
- regional optimization 은 오직 object-oriented 적대적 loss 가 함께 적용될 때만 유용하다.
- regional optimization 은 타겟 객체의 최적 place 를 찾기 위해서는 전체 객체를 고려해야 한다는 의미가 된다.
- 그러나, patch-oriented design 은 global 한 정보를 encoding 할 수 없어서 우리의 regional optimization 은 대부분의 효과적인 region 에 수렴할 수 없다.
Mask Optimization Methods
- 연구진들은 우리의 regional optimization 과 다른 흔히 사용되는 마스크 optimization 기술을 비교한다.
- 우리 방법(Regional Optimization): 패치 마스크의 4개의 경계(border)를 최적화하는 방식.
- 기존 방법(Baseline): 패치 마스크 $m_{p}$ 의 각 픽셀을 개별적으로 최적화하는 방식.
  - 이 방식은 Neural Cleanse와 ABS 같은 백도어 스캐닝 연구에서 사용됨.
    - https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8835365
    - https://dl.acm.org/doi/pdf/10.1145/3319535.3363216
  - 목표는 이미지의 제한된 부분을 수정하면서도 잘못된 분류를 유발하는 트리거(trigger)를 찾는 것.
- 아래 Figure 11 이 비교 내용을 보여준다.
  - 기존 방법:
    - 생성된 패치 마스크가 희소(sparse)하고 산발적(scattered)으로 나타남.
    - 패치 단위가 작아 물리적 세계 공격(Physical World Attack) 벡터로 사용하기에 부적합.이런 작은 패치를 출력하고 실제 환경에서 배포하기 어렵기 때문.
  - 우리 방법:
    - 생성된 지역적 패치(regional patch)는 물리적 공격에서 더 실용적(practical)임.
Patch Sizes
- 더 큰 패치는 depth estimation 에 더 큰 효과를 갖지만, 더 적은 은밀함을 갖는다.
- 그래서, 연구진들은 세 가지 다른 타겟 패치 크기와 세 가지 Depth Estimation Models 을 사용하여 공격 효과 분석한다.
- 아래 Figure 12 가 결과를 보여준다.
  - 패치 크기가 클수록 모든 3가지의 타겟 network 에 대해서 평균 depth estimation error $(\epsilon_{d})$ 와 영향받은 region $\mathcal{R}_{a}$ 의 비율이 증가했다.
  - 이는 패치가 커질 수록 depth estimation 에 더 큰 영향을 미친다는 것을 의미한다.
  - 하지만, 은밀성은 감소한다.

style transfer weight $\lambda$에 대한 더 많은 ablation 연구들은 Appendix E 에 남겨두었다.

4.4 Downstream Task Impack

3D 객체 검출(PointPillars 모델)에 기반한 point cloud 에 대한 공격 효과를 평가하고, 3D 객체 검출에 대한 본 논문의 method 를 평가하기 위한 metric 로서 공격 성공률(ASR) 을 사용한다.

https://openaccess.thecvf.com/content_CVPR_2019/papers/Lang_PointPillars_Fast_Encoders_for_Object_Detection_From_Point_Clouds_CVPR_2019_paper.pdf

정상적인 차량을 PointPillar 가 detect 하고 적대적인 객체를 detect 할 수 없다면 attack 은 성공적이다.

아래 Figure 13 은 성공적인 attack 의 example 를 보여준다.

Fig. 13a (정상 시나리오):
- PointPillars 네트워크가 정상 차량을 올바르게 3D 경계 상자로 검출.
Fig. 13b (공격 시나리오):
- 공격 패치로 인해 가상 LiDAR 포인트 클라우드가 심각하게 왜곡.
- 결과적으로 차량이 검출되지 않음.

PointPillar network 는 모든 100개의 scene 에서 정상 차량을 올바르게 detect 했고, 다른 적대적 패치의 attack 성공률은 아래 Table 4 에서 확인할 수 있다.

결과 요약:
- 패치 크기와 타겟 네트워크에 따른 공격 성공률(ASR)을 측정.
- ASR ≥ 90%: 모든 패치 크기와 네트워크에서 90% 이상의 공격 성공률 기록.
- 패치 크기 1/9(차량 후면 영역의 1/9 크기)만 사용해도 ASR ≥ 93% 달성.
  - 이는 매우 작은 패치 크기로도 높은 성공률을 달성함을 의미.
의미:
- 우리 공격 방법은 PointPillars 같은 3D 객체 검출 모델을 속이는 데 매우 효과적임.

physical world 실험에서, 아래 Table 2 의 5번째 열은 차량이 pseudo-Lidar point cloud 로부터 detect 되는 프레임들의 숫자를 보여준다. 그리고 6번째 열은 object detection rate 를 보여준다.

정상적인 경우에 성공적인 object detection 의 비율은 1291 data 프레임들에서 90.70% 이다. 반면에, 적대적인 경우에는 해당 비율이 1278 data 프레임들에서 5.16 % 로 떨어졌다. 이는 본 논문의 attack 이 효과적이고 object detection 비율을 상당히 감소시켰다는 것을 보여준다.

4.5 Defense Discussion

적대적 example 들에 대한 많은 방어 기법이 제안되었지만, 현재까지 MDE 모델에 특화된 방어 기법은 없었다.

다양한 방어들하에 본 논문의 attack 의 performance 를 잘 이해하기 위해서, 5가지의 인기있는 방어 기법들을 적용한다. 이는 victim network 를 retraining 하지 않고 input 변형을 수행한다.

JPEG 압축 https://arxiv.org/pdf/1608.00853
bit depth reduction https://arxiv.org/pdf/1704.01155
media blurring https://arxiv.org/pdf/1704.01155
Adding Gaussian noise https://arxiv.org/pdf/1903.10586
Autoencoder reformation https://arxiv.org/pdf/1705.09064

아래 Figure 14 는 우리의 결과를 보여준다.

앞서 언급한 5가지의 방어 기법들 하에 정상적인 차량과 적대적인 차량의 $\epsilon_{d}$ 을 보여준다. 이상적인 방어는 두 error 모두를 minimize 해야 한다. 보여진것 처럼, 본 논문의 attack 은 median blur 를 제외한 여전히 모든 method 들에서 5 m 이상의 $\epsilon_{d}$ 를 일으킨다. Median blur 에서, attack 은 완화되었지만, 정상적인 performance 또한 많이 떨어졌다. 이는 이러한 기술들은 정상적인 performance 를 해치지 않고서는 효과적으로 본 논문의 attack 을 방어할 수 없음을 보여준다.

이러한 방어기법들이 주로 디지털 공간에서 인간이 인지하지 못하는 perturbation 들을 왜곡하는 것에 초점을 맞추었고, robust 한 physcial world 공격에는 효과적이지 않기 때문일 것이다. (위의 방어기법들에 대한 세부적인 설명과 구성들은 Appendix H 에 남겨두었다)

다시 말해서, physcial world 공격을 방어하려면 새로운 접근 방식이 필요하다. 적대적 Training 이나 Fusion-based 방어 기법과 같은 다른 잠재적인 방어들에 대한 논의 또한 Appendix H 에 남겨두었다.

5. Conclusion

연구진들은 자율주행(AD, Autonomous Driving) 시나리오에서 MDE(Monocular Depth Estimation)를 대상으로 한 은폐된(stealthy) 물리적 세계 적대적 패치(Adversarial Patch) 공격을 연구하였다.

새로운 physical 적인 object-oriented optimization framework 를 설계하여 object-oriented 적대적 loss design 과 sensitive region localization 과 natural style 기반 위장을 통해 은밀하고 효과적인 적대적 patch 들을 만들었다. 실험적인 결과는 본 논문의 attack 이 다양한 타겟 객체와 최신 모델 그리고, 대표적인 AD 에서 downstream task 에 대하여 효과적이고 은밀하고 robust 하다는 것을 보여준다.

연구진들은 차량 후방 영역의 1/9 사이즈의 패치를 가지고 실제 차량에 대한 평균 depth estimation error 을 6m 이상 달성했다. 그리고 3D object detection 에서 90% 이상 attack 성공률을 보여준다. input 변형들을 사용하는 인기있는 방어 기술들은 본 논문의 attack 을 잘 방어할 수 없다.

Appendix

A : Optimizing multiple patch regions
B : Style Transfer loss terms
C : MDE model selection criteria
D : Transferability evaluation
E : More ablation studies
F : Physical world experiments settings
G: 3D object detection settings
H: Defense methods and discussion

A. Optimizing multiple patch regions

본 논문의 regional optimization 기술은 다수의 패치들을 optimizing 하는 것을 지원한다.

이 경우에, 최후의 패치 마스크는 다수의 sub-마스크들의 합이다. 각각 sub-마스크는 하나의 직사각형 region 을 표현한다. 최후의 마스크는 아래 식 (A1) 에서 정의된다.

$m_{p}^{k} = clamp(\sum\limits_{i=0}^{k}m_{p}^{\Theta_{i}}, 0, 1) \quad (A1) $

여기서, $m_{p}^{\Theta_{i}}$ 는 i번째 sub 마스크를 나타내고, $\Theta_{i}$ 는 해당 boundary parameter 들을 나타내며, $clamp()$ 은 마스크 값을 0과 1사이로 국한시키는 function 이 되겠다. 마스크 loss 인 $\mathcal{L}_{m}$ 은 모든 sub 마스크 loss 식들의 합이다.

위의 Figure A1 는 $3 \times 3$ 초기 패치의 최적화 process 의 example 이다. 최적화 과정을 거듭함에 따라, 몇몇의 패치들이 minimized 되고 사라진다, 그리고 목표 비율이 차량 후방 영역의 1/9 이 되면 단일 패치가 최후의 패치를 지배한다. 연구진들은 다양한 초기 패치 setup 들을 가지고 optimizing 을 test 한다. 아래 Figure A2는 결과를 보여준다.

각 곡선은 전체 패치 비율이 감소할 때, attack 효과의 변화를 보여주며, $i \times j$ 는 i 행 j 열의 초기 setup 을 나타낸다.

보여진것 처럼, 목표 마스크 비율이 1/9 일 때, 다양한 초기 패치 setups 은 같은 전체 패치 영역에 대해서 마지막엔 비슷한 attack performance 를 갖는다. 따라서, 연구진들은 평가할 때 주로 단일 패치의 optimization 에 초점을 맞춘다. (i.e., $1 \times 1$ setup)

B. Style transfer loss terms

Style Loss
- $\mathcal{F}$ 가 feature 추출 network 라고 하자, 이는 사전에 학습된 CNN model 이 될 수 있다.
- $\mathcal{x}_{s}$ 가 style reference 이미지, $\mathcal{x'}$ 이 적대적 패치 example 이 된다고 하자. 이는 반복적으로 업데이트 될 것이다.
- style loss 는 아래 식(A2) 에서 타겟 이미지와 적대적 example 간의 style distance 로 정의된다.
  - $\mathcal{L}_{c} = \sum\limits_{l=1}^L ||G(\mathcal{F}_{l}(\mathcal{x}_{s})) - G(\mathcal{F}_{l}(\mathcal{x'})) ||_{2}^2 $
    - 여기서 $\mathcal{F}_{l}$ 은 $\mathcal{F}$ 의 $\mathcal{l}$ 번째 layer 에서 추출된 feature 들을 의미한다.
    - $\mathcal{G}$ 는 deep features 의 Gram matrix 이다.
    - $\mathcal{L}$ 은 $\mathcal{F}$ 에서 convolutional layer 전체 개수이다.
Content Loss
- 원본 이미지의 content 를 보존하기 위해서 설계된다. style loss 가 적대적인 example 을 원본 이미지와 많이 다르게 만들 수 있기 때문이다. 이는 아래 식 A3 에서 정의된다.
  - $\mathcal{L}_{c} = \sum\limits_{l=1}^L ||\mathcal{F}_{l}(x) - \mathcal{F}_{l}(x') ||_{2}^2 $
Photorealism Regularization
- 도입된 이 용어는 재구성된 이미지(즉, 적대적 example)가 content 이미지를 국소적인 아핀(affine) 색 변환으로 표현하도록 제약함으로써 왜곡이 발생하는 것을 방지하고, 결과적으로 생성된 이미지를 더 사실적으로 만들기 위한 것이다. https://arxiv.org/pdf/1703.07511
- 구체적으로, 이는 Levin 등이 제안한 Matting Laplacian(매팅 라플라시안)을 기반으로 하며, 아래 식 A4에서 정의된다. https://people.csail.mit.edu/alevin/papers/Matting-Levin-Lischinski-Weiss-CVPR06.pdf
- $ \mathcal{L}_r = \sum\limits_{c=1}^{3} V_{c}(x')^\top \,\mathcal{M}(x)\, V_{c}(x') \quad (A4)$
  - 여기서 $c$ 는 $c$ 번째 color 채널을 나타내고, $V_{c}(x')$ 은 적대적 example 의 $c$번째 채널의 벡터화된 버전을 output 한다. (i.e., $V_{c}(x') \in \mathcal{R}^{N \times 1}$, 여기서, $N$ 은 이미지 $x'$ 에서 픽셀의 개수이다.)
  - $\mathcal{M}(x) \in \mathcal{R}^{N \times N}$ 은 content 이미지 $x$ 에만 의존적인 matrix 이고, 이는 최소제곱 페널티 함수를 최소화하기 위한 표준 선형 시스템을 나타낸다. https://people.csail.mit.edu/alevin/papers/Matting-Levin-Lischinski-Weiss-CVPR06.pdf
Smoothness loss
- 이 loss 는 인접한 픽셀들 사이의 차이를 감소시키고 output 이미지를 국지적으로 부드럽게 하기 위해 설계되었다. smoothness 식은 physical world 적대적 example 의 robustness 를 개선시키는데 유용하다. 아래 식5 에서 정의된다. https://dl.acm.org/doi/pdf/10.1145/2976749.2978392
- $ \mathcal{L}_t = \sum\limits_{i,j} \sqrt{\bigl(x'[i,j] - x[i+1,j]\bigr)^2 + \bigl(x'[i,j] - x[i,j+1]\bigr)^2} \quad (A5)$
  - 여기서 $x[i,j]$ 는 이미지 $x$ 의 $i$ 번째 행과 $j$ 번째 열에서 픽셀을 나타낸다.

C. Model selection criteria

MDE 모델(Monocular Depth Estimation Models)은 LiDAR나 깊이 카메라에서 수집한 정답(ground truth) 깊이를 사용하는 지도학습 방식 혹은 비디오 프레임이나 스테레오 이미지 쌍을 사용하는 비지도학습 방식으로 학습할 수 있다.

산업계에서는 이러한 비지도학습 모델이 더 매력적인데, 이는 저렴한 RGB 카메라로 쉽게 대규모 학습 데이터를(예: 비디오) 수집할 수 있고, 기존에 존재하는 비디오 데이터를 저비용으로 재사용할 수 있기 때문이다. 테슬라는 monocular depth estimation 에서 self-supervised 모델을 사용한다고 밝힌 바 있다. 자가 지도 학습은 비지도 학습의 한 유형으로 볼 수 있으나, 단순히 데이터 패턴 발견에 그치지 않고, 데이터 내부에서 ‘가상의 라벨(학습 신호)’을 뽑아 사용하는 점에서 차이가 있다. 따라서 본 평가에서는 세 가지 단안 깊이 추정 모델인 Monodepth2, Depthhints, 그리고 Manydepth 를 사용하고, 아래와 같은 기준으로 3가지 모델이 선택되었다.

Representativeness
- self-supervised 방식을 사용하는 MDE 중에서, 위 모델들은 많은 이전 연구에서 널리 사용되었다. Monodepth2 는 가장 성공적인 MDE 기법 중 하나이며, Depthhints는 스테레오 알고리즘으로부터 얻은 추가적인 깊이 정보를 활용하여 성능을 향상시키는 고급 모델dl다. Manydepth은 여러 장의 이미지에서 얻은 시퀀스 정보를 활용해 더 나은 성능을 달성하는 최신(state-of-the-art) 모델이다
Practivality
- self supervised MDE 에 초점을 맞춘 이유는, 일반적으로 고가의 LiDAR 센서를 사용해 수집해야 하는 정답(ground truth) 깊이 데이터 없이도 학습이 가능하기 때문이다. 즉, 이들 모델은 단안 비디오나 RGB 카메라로 수집한 스테레오 이미지만 있으면 되므로, 저렴하고 효율적으로 데이터를 수집하고 모델을 학습할 수 있다. 이러한 기술은 이미 테슬라 오토파일럿(Tesla Autopilot) 이나 바이두 아폴로 라이트(Baidu Apollo Lite) 와 같은 비전 기반 자율주행 시스템에서 실무 수준으로 활용되고 있다.
Open Model
- 해당 모델들은 모두 공개되어 있다. 본 평가에서는 KITTI 데이터셋으로부터 단안 비디오와 스테레오 쌍을 함께 사용해 학습된 모델을 활용하였고, 입력 이미지 해상도는 $320 \times 1024 $320×1024$ 이다. 이 모델들은 GitHub프로젝트 저장소에서 공개적으로 이용할 수 있다.

D. Transferability evaluation

우리는 제안한 적대적 패치(adversarial patch)가 물체 간 전이성(transferability across objects)과 네트워크 간 전이성(transferability across networks) 두 가지 측면에서 얼마나 잘 전이되는지 평가한다.

물체 간 전이성
- 세 종류의 차량(검정색 SUV(V-A), 파란색 세단(V-B), 회색 트럭(V-C))을 대상으로 삼는다. Monodepth2 모델을 타깃 깊이 추정 모델로 사용하여, 각각의 차량에 대해 적대적 패치를 생성한다. 이어서 이렇게 생성된 각 패치를 다시 세 차량에 각각 paste해보고 공격 성능을 측정한다.
네트워크 간 전이성
- 검정색 SUV를 타깃 물체로 정하고, 세 종류의 MDE 을 사용해 적대적 패치를 생성한다. 그리고 이 패치를 다시 세 네트워크 각각에 적용했을 때 공격 성능을 평가한다.

아래 Table A3 에서 결과가 있다.

표 A1(a)에서, 첫 번째 열은 어떤 차량을 기준으로 패치를 생성했는지를 나타내고, 첫 번째 행은 생성된 패치를 어떤 차량에 부착했는지를 나타낸다.
- 한 차량에서 생성한 적대적 패치를 다른 차량에 붙였을 때도 공격이 유효함을 확인할 수 있는데, 이는 우리의 적대적 패치가 물체 간에 전이성이 높다는 것을 의미한다.
- 동시에, 특정 차량(타깃 물체)에 최적화된 패치가 다른 비매칭 객체보다 더 뛰어난 공격 성능을 보였는데, 이는 물체별 특화(object-specific) 최적화가 효과적이라는 점을 보여준다.
표 A1(b)에서, 첫 번째 열은 어떤 네트워크(깊이 추정 모델)를 대상으로 패치를 생성했는지를 나타내고, 첫 번째 행은 어느 네트워크에서 공격을 평가했는지를 나타낸다.
- 대각선(diagonal)에 위치한 결과는 화이트박스 공격(white-box attack)이며, 그 외는 블랙박스 공격(black-box attack)에 해당한다.
- 세 모델 모두 화이트박스 공격에는 취약함을 확인할 수 있는데, 이는 우리가 수행한 공격 효과성 평가 결과와 일치한다.
- 블랙박스 공격 측면에서, Monodepth2는 다른 두 네트워크(Depthhints, Manydepth)로부터 생성된 패치에도 큰 영향을 받기 때문에 상대적으로 더 취약하고, 반면 Manydepth와 Depthhints는 조금 더 견고함을 보인다.

결론적으로, 우리의 공격은 Monodepth2에 대해 전이성이 높아 잘 작동하지만, Depthhints나 Manydepth에 대해서는 상대적으로 그 효과가 떨어진다.

E. More ablation studies

Style transfer Weight
- 우리는 다양한 스타일 전이(style transfer) 가중치 λ 가 공격에 미치는 영향을 평가했다. λ 값을 크게 설정하면 더 은밀한 패치를 생성할 수 있지만, 공격 성능은 떨어지는 양상을 보인다. 모든 다른 실험에서는 기본 설정(즉, λ=1)을 사용하며, 여기서는 다양한 스타일 전이 가중치에 대해 에블레이션 연구를 수행한다. 우리는 Monodepth2와 특정 차량(vehicle)을 각각 타깃 네트워크와 물체로 설정한다. 공정한 비교를 위해, 패치 영역은 기본 설정에서 최적화된 영역으로 고정하고, 매 실험마다 동일한 장면 위치에 차량을 배치한다. 아래 Table A2가 그 결과를 나타낸다.
  - 첫 번째 열은 style transfer weight 파라미터다. 두 번째와 세 번째 열은 각각 생성된 패치 이미지와, 공격으로 인해 발생한 해당 깊이 차(depth gap)를 보여준다. 네 번째와 다섯 번째 열은 공격 성능을 평가하는 데 사용된 두 가지 지표다.
  - 마지막 열은 적대적 패치와 원본 스타일 이미지 간의 Structural Similarity Index (SSIM)를 나타낸다. SSIM은 0에서 1 사이 값을 가지며, 값이 높을수록 두 이미지가 더 유사함을 의미한다.

결과에서 확인할 수 있듯, 스타일 전이 가중치를 크게 하면 패치는 더욱 은밀해지지만(즉, 스타일 이미지에 더 가까워짐) 공격 성능은 악화된다. 우리 기본 설정(λ=1)은 은밀성과 공격 효과 사이에서 적절한 균형을 이룬다. 이처럼 넓은 범위에서 λ를 변화시키면, “스타일 전이(λ)”와 “공격 성능” 사이의 트레이드오프가 어떻게 변하는지 한눈에 볼 수 있다. 0.1, 1, 10, 100처럼 지수적으로 증가하는 값들을 시험하는 것은 전형적인 에블레이션 방식이다.

F. Physical world experiments settings

물리 환경 실험에서, 연구진들은 2016년식 BMW X1을 타겟 차량으로, Monodepth2를 타겟 MDE 모델로 사용한다.

먼저 차량의 뒷면을 촬영한 사진을 얻은 뒤, §3에서 설명한 공격 기법으로 적대적 패치를 생성한다. 이 과정에서 데이터셋에 있는 여러 배경 장면(시나리오)을 사용한다. 이렇게 생성한 패치를 차량의 최적화된 영역에 부착한 모습이 그림 9a에 제시되어 있다. 이어서 실제 패치를 인쇄해 차량에 부착해 “적대적 차량(adversarial car)”을 만든다.

victim side 에서는 아이폰 11 뒷면 카메라를 메인 카메라로 사용한다. 피해 차량을 운전하면서, 적대적 패치가 부착된 타겟 차량을 약 7~10m 거리에서 뒤따르며 주행 장면을 기록한다. 그림 A3 (a)와 (b)는 이러한 실험 설정의 내부 및 외부 모습을 보여준다.

다양한 조건에서의 공격 성능을 확인하기 위해, 그림 A3 (c)에 표시된 세 가지 경로를 주행하는 실험을 진행한다. 이 과정에는 해가 비추는 각도나 그림자 같은 여러 조명 조건, 직진·회전 등 다양한 주행 상황, 그리고 서로 다른 배경 장면과 물체들이 포함된다. 각 경로를 두 번씩 주행하되, 첫 번째는 패치를 부착하지 않은 정상(benign) 상황이며, 두 번째는 패치를 부착한 적대적(adversarial) 상황이다. 이렇게 얻은 정상과 적대적 상황에서의 MDE 결과를 비교해 패치의 효과를 평가한다. 구체적으로, 두 상황 모두에서 차량의 평균 깊이 추정 오차 $\epsilon_{d}$를 보고한다.

Figure 4에서 보이듯, 차량의 깊이 $(z)$는 아래 공식으로 계산할 수 있다.

$z = \mathcal{f}\mathcal{H} /over s$

: 카메라 초점 거리(focal length)
$\mathcal{H}$: 물리 환경에서 차량 높이
$s$ : 영상 상에서 측정한 차량의 높이(픽셀 단위)

이 $z$ 값을 차량의 실제 깊이(ground truth)로 삼아 깊이 추정 오차 $\epsilon_{d}$를 산출한다. 또한 우리는 이 깊이 맵을 pseudo-Lidar 포인트 클라우드로 투영하고, PointPillar 네트워크를 사용해 3D 물체 인식을 수행한다.

G. 3D object detection settings

우리는 포인트 클라우드 기반 3D 물체 탐지 네트워크로 PointPillars를 사용한다. 원본 모델은 KITTI 객체 탐지 데이터셋의 실제 라이다 데이터를 활용해 학습되었으나, 우리의 pseudo LiDAR 데이터는 실제 라이다 데이터와 밀도나 분포가 다르므로 그대로 적용하기 어렵다. 따라서 우리는 데이터셋에서 실제 라이다 데이터를 대응되는 의사 라이다(pseudo-Lidar) 데이터로 대체한 뒤, 이 새로운 데이터셋으로 모델을 다시 학습한다.

구체적으로, Monodepth2 MDE model 을 이용해 KITTI 객체 탐지 데이터셋 내 모든 이미지에 대한 의사 라이다를 생성하고, 원본 라이다 데이터를 대체한다. 그런 다음 이 의사 라이다 데이터셋을 이용해 PointPillars를 처음부터 학습한다. 학습 과정은 원본 설정과 동일하며, 연구진이 학습한 모델이 자동차(car) 범주에서 달성한 평균 정밀도(mAP)는 61.04로, Apollo에서의 성능(63.49)에 근접한다.

각 scene 마다, 피해 차량 앞 약 7m 거리 지점에 적대적 차량을 배치하고, 그 상황을 MDE 하여 3D 공간으로 투영해 의사 라이다(point cloud)를 만든다. 이후 이 포인트 클라우드를 입력으로 하여 PointPillars가 3D 물체를 탐지한다. 세 가지 MDE 모델과 단일 차량 물체를 대상으로 평가를 진행하고, 패치 영역 최적화에서 세 가지 다른 크기의 패치를 적용한다. 100개 시나리오에 대해 평가한 뒤 공격 성공률(attack success rate)을 보고한다.

H. Defense methods and discussion

§4.5에서 우리는 다섯 가지 일반적인 방어 기법을 평가했다. 각 기법의 소개와 설정(config)에 대한 세부 사항은 다음과 같다.

JPEG 압축(JPEG compression)
- 이 방식은 네트워크에 이미지를 입력하기 전에 JPEG 방식으로 이미지 압축을 수행한다. 픽셀 단위로 매우 정밀하게 설계된 적대적 노이즈를 압축 과정에서 왜곡·소멸시켜 공격을 방어한다는 개념이다. 우리의 평가에서는 Python Image Library(PIL)를 사용하여 이미지 품질을 90부터 20까지 달리하면서 적용했다. 품질 수치가 낮을수록 압축률이 올라간다.
비트 심도 축소(Bit-Depth Reduction)
- 일반 RGB 이미지는 채널별 8비트를 사용(0~255)한다. 비트 심도 축소는 8비트에서 더 작은 비트 수로 재매핑하는 방식이다. 비트 수가 낮아질수록 색 공간이 줄어들고, 이 재매핑 과정에서 적대적 섭동(adversarial perturbation) 또한 분산·왜곡되어 공격 방어에 기여할 수 있다. 실험에서는 5비트부터 2비트까지 4가지 비트 심도 축소를 평가했다.
미디언 블러(Median Blur)
- 지정된 커널 크기 내 픽셀 주변값의 중앙값(미디언)을 취해 이미지를 부드럽게(smoothing) 처리하는 방법이다. 이러한 스무딩(smoothing) 효과로 인해 적대적 노이즈를 일부 제거할 수 있다. 실험에서는 SciPy의 미디언 필터를 사용했고, 커널 크기는 5부터 25까지의 정사각 커널을 적용했다. 커널 크기가 커질수록 스무딩 효과가 강해진다.
가우시안 노이즈(Gaussian Noise)
- 적대적 섭동도 일종의 정교한 노이즈이므로, 추가 가우시안 노이즈를 더함으로써 이를 교란시킬 수 있다. 우리의 실험에서는 평균 0(zero-mean)을 갖는 가우시안 노이즈를 추가했으며, 표준편차 σ\sigma는 0.01부터 0.1까지 변화시켰다. 참고로, 이미지 데이터는 [0,1][0, 1] 범위로 정규화되어 있다. σ\sigma가 클수록 노이즈 세기가 더 강해진다.
오토인코더(Autoencoder)
- Magnet [34]에서 제안된 방식으로, 적대적 노이즈가 원래 모델 학습 데이터의 분포에서 벗어나는 부분을 신경망으로 걸러내는 아이디어다. 네트워크 구조는 데이터셋과 입력 이미지 크기에 따라 달라지며, 우리 실험에서는 원 논문( mnist 및 cifar10 용)에서 정의된 구조, 그리고 [43]에서 제안된 대형 이미지용 구조(Arch-1, Arch-2)를 사용했다. 모델 학습에는 KITTI 데이터셋을 활용하되, 평가에 사용될 100개 장면은 학습에서 제외하여 오버피팅(동일 샘플 재평가) 문제를 방지했다.

위 기법들 외에도 적대적 학습(Adversarial Training) 은 DNN 모델의 견고성을 높이는 효과적인 방법이다. 그러나 전통적 적대적 학습은 정답(ground truth) 데이터가 필요한 지도학습 모델을 전제로 하는데, 우리가 다루는 MDE 모델은 주로 비지도(정확히는 자가 지도) 방식으로, 즉 비디오 프레임이나 스테레오 쌍을 이용해 학습한다. 이러한 자가 지도 MDE 모델을 적대적 학습으로 효과적이면서도 효율적으로 강화하는 문제는 아직 해결되지 않은 과제로, 이는 향후 연구 과제로 남겨둔다.

또 다른 방법은 의사 라이다(pseudo-Lidar)와 RGB 이미지를 융합(fusion)하는 것이다. 완전히 비전 기반인 지각(perception) 시스템을 가정하기 때문에, 라이다나 레이더, 초음파 센서 등 다른 유형의 센서를 포함할 수는 없다. 물체 탐지 오류를 방지하기 위한 한 가지 방향은, 의사 라이다 포인트 클라우드와 RGB 이미지를 융합하여 카메라 프레임을 최대한 활용하는 것이다. 비록 적대적 패치 때문에 타깃 물체의 포인트 클라우드가 왜곡되더라도, RGB 이미지에서는 여전히 물체를 검출할 수 있다. 두 정보를 융합하면 좀 더 견고한 3D 물체 탐지를 기대할 수 있다.

하지만 이것만으로 공격을 근본적으로 무력화할 수는 없는 게, RGB 이미지에서 검출된 물체 자체에는 깊이 정보가 없기 때문에, 타깃 물체와 피해 차량 사이의 공간적 관계(깊이)는 여전히 잘못 추정될 수 있다. 또한 융합만으로 잘못된 깊이 추정 문제 자체를 해결하진 못한다.

저작자표시 비영리 변경금지 (새창열림)

하얀해킹