본문 바로가기
연구실/멀티모달

[Multimodal] 02. Representation

by whiteTommy 2025. 2. 6.
반응형

Challenge 1 : Representation

다른 모달리티들 간의 개별적인 요소 사이의 cross-modal 상호작용을 반영하기 위한 Challenge 이다.

 

앞서, 1장에서 3가지의 하위 Challenge 들이 있다고 언급했었다.

 

우선, Fusion 에 대해서 살펴보자.

Sub-Challenge 1a: Fusion

  • 정의
    • 다양한 모달리티 간의 개별 요소들이 상호작용하는 공동 표현 (joint representation) 을 학습하는 과정
  • 목표
    • 모달리티 간의 상호작용을 효과적으로 통합하여 정보의 시너지를 극대화하는 것
  • 종류
    • Basic Fusion

      • 정의
        • Homogenous 한 데이터 융합
      • 예시:
        1. 다중 카메라 영상 (Multi-Camera Images):
          • 모달리티 A: 정면 카메라 영상
          • 모달리티 B: 측면 카메라 영상
          • 둘 다 이미지 데이터로, 표현 방식이 유사함.
        2. 다국어 텍스트 데이터 (Multilingual Texts):
          • 모달리티 A: 영어 문장
          • 모달리티 B: 한국어 번역 문장
          • 둘 다 텍스트이며, 같은 정보를 표현하는 방식이 유사함.
      • 특징:
        • 유사한 구조 덕분에 간단한 연산(Concatenation, Average Pooling)으로도 융합이 가능.
        • 모델이 복잡한 변환 없이도 정보를 쉽게 통합할 수 있음.
    • Complex Fusion

      • 정의
        • Heterogeneous 한 데이터 간의 융합
      • 예시
        • 이미지 + 텍스트 (Image + Text):
          • 모달리티 A: 음식 사진 (Image)
          • 모달리티 B: 음식 설명 문장 (Text)
          • 시각적 정보와 언어적 정보가 완전히 다름.
        • 오디오 + 비디오 (Audio + Video):
          • 모달리티 A: 사람의 음성 데이터 (Audio)
          • 모달리티 B: 사람의 표정 영상 (Video)
          • 청각 정보와 시각 정보의 결합.
        • 센서 데이터 + GPS 데이터:
          • 모달리티 A: 차량의 속도 센서 데이터
          • 모달리티 B: GPS를 통한 위치 정보
          • 물리적 특성이 서로 다르기 때문에 이질적임.
      • 특징:
        • 다양한 표현 방식으로 인해 단순한 결합으로는 정보의 시너지를 극대화하기 어려움.
        • Attention Mechanism, Transformer 같은 복잡한 모델이 필요.

 

위의 설명을 통해 Complex Fusion 이 복잡하고 어렵다는 사실을 알 수 있을 것이다. 이 경우에 어떻게 해야할까?

unimodal encoder 를 통해 가능하다.

 

Fusion with Unimodal Encoders

 

핵심 아이디어는 heterogeneous 한 데이터를 각각의 encoder 를 통해 homogeneous 하게 만들고, Basic Fusion 을 통해 합성을 하는 것이다.

 

예시를 살펴보자.

 

이미지는 CNN, ViT 로 인코딩하고, 텍스트는 Word2Vec, BERT로 vector 로 인코딩하고 합성한다.

 

여기서 사용되는 encoder 는 pre-train 된 네트워크가 될 수 있고, fusion network 와 함께 학습될 수 있다.

 

이제부터, Basic Fusion 에 대해서 자세하게 알아보자.

 

Basic Concepts for Representation Fusion (aka, Basic Fusion)

 

다시 한번 언급하면, Basic Fusion 은 서로 다른 모달리티의 Feature 를 추출하여 하나의 통합된 표현(z) 로 만드는 과정이다.

 

다중 모달리티 요소 간의 상호작용을 어떻게 모델링할 수 있을까?

 

우선, 이해를 쉽게 하기 위해서 단일 1차원 (univariate) 부터 살펴보자.

 

선형 회귀는 두 변수 간의 관계를 모델링하는 가장 기본적이고 널리 사용되는 방법 중 하나이다. 멀티모달 데이터에서도 각 모달리티(Modality) 간의 상호작용을 이해하고 예측하기 위해 선형 회귀를 사용한다.

 

  • Additive interaction
    • 정의
      • 각 모달리티의 특징을 단순히 더해서 융합
      • $z = w_{1}x_{A} + w_{2}x_{B}+\epsilon$
    • 단점
      • 모달리티 간 복합적인 관계를 포착하기 어려움
  • Multiplicative interaction
    • 정의
      • 두 모달리티 특징을 곱셈하여 상호작용을 포착 
      • $ z = w_{3}(x_{A} \times x_{B}) +\epsilon$
  • Additive and multiplicative interactions
    • 정의
      • 개별적인 영향과 두 모달리티의 결합 효과를 모두 반영 (복잡한 관계를 포괄적으로 모델링)
    • 식 
      • $ z = w_{1}x_{A} + w_{2}x_{B} + w_{3}(x_{A} \times x_{B})  +\epsilon$

 

그래서 개별적인 영향과 두 모달리티의 결합 효과를 모두 반영하는 방식에 기반하여 선형 회귀를 모델링하고, 추가적으로 $w_0$ 를 더해주는데 이는 Bias 로 보면 되겠다. 또한, $\epsilon$ 은 Error 로 보면 된다. 이는 두 모달리티의 결합만으로 설명할 수 없는 현실 세계의 복잡성을 담고 있는 노이즈 항을 의미한다.

 

아래 식과 같이 선형 회귀가 모델링된다.

$z=w_{0} + w_{1}x_{A}+w_{2}x_{B} + W_{3}(x_{A} \times x_{B}) + \epsilon$

 

 

이제, 각각의 상호작용에 대해서 다차원으로 확장해보자.

Additive Fusion

아래 식과 같이 표현된다.

$z = W \cdot \begin{bmatrix} x_A \\ x_B \end{bmatrix}$

 

heterogenous 모달리티에서 인코더를 통해 유사한 구조로 인코딩한 후 basic fusion 으로 합성하는 과정을 보면 아래와 같다.

 

Multiplicative Fusion

여기서, 곱셈 방식은 2가지로 가능한데, Element-wise 곱과 행렬 곱이다.

  • Multiplicative Fusion
    • 정의
      • Element-wise 연산을 통해 두 모달리티의 상호작용을 단순하게 모델링한다.
    •  식
      • $$ z = w(x_A \times x_B) $$
    • 특징
      • 계산 비용이 낮다.
      • 하지만, 표현이 제한적이다.
  • Bilinear Fusion
    • 정의
      • 쌍선형(Bilinear) 연산을 통해 두 모달리티의 모든 가능한 상호작용을 포착한다.
    •  식
      • $$ Z = w(x_A^T \cdot x_B) $$
    • 특징
      • 모든 조합의 상호작용 포착이 가능하므로 더 강력한 표현이 가능하다.
      • 하지만, 계산 비용이 높다.

 

Tensor Fusion 에 대해서 살펴보자.

 

Zadeh et al., Tensor Fusion Network for Multimodal Sentiment Analysis, EMNLP 2017

 

Tensor Fusion

  • 정의
    • 서로 다른 모달리티를 텐서 연산(Tensor Operations) 을 활용하여 융합하는 방법
    • 기존의 Additive, Multiplicative fusion 보다 더 복합적인 상호작용을 모델링할 수 있다.
  • 핵심 아이디어
    • 각 모달리티의 특징을 고차원 텐서 (Tensor) 로 확장
    • 단순한 벡터 연산이 아니라, 다중 모달리티의 조합을 고차원 공간에서 캡처
    • 유니모달(Unimodal), 바이모달(Bimodal), 트리모달(Trimodal) 상호작용까지 포착
  • 모델링 방식 (Bimodal)

    • $z = w([x_{A} \quad 1]^T \cdot [x_{B} \quad 1])$
  • 특징
    • Unimodal 상호작용 : 개별 모달리티의 정보 유지
    • Bimodal 상호작용 : 두 가지 모달리티 간의 곱셈적 관계 학습
    • Trimodal 상호작용 : 세 가지 모달리티 간 복합전 관계 모델
  • 문제점
    • 세 가지 이상의 모달리티에 대해서는 weight matrix 가 기하급수적으로 커짐
  • 대안

 

Low-rank Fusion

  • 도입 배경
    • 기존의 Tensor Fusion 방식은 매우 높은 차원의 텐서를 생성한다는 문제가 있었다. 이로 인해 연산량이 기하급수적으로 증가하고, 모델의 매개변수 개수가 커져 과적합(overfitting) 가능성이 높아지는 문제가 발생
  • 정의
    • 텐서 분해(Tensor Decomposition) 기법을 활용하여 Tensor Fusion의 계산량을 줄이는 방식
  • 비교 

    • 기존 Tensor Fusion 방식 (높은 차원 연산)
        • $ z = w \cdot (x_{A} \times x_{B} \times x_{C}) $
          • 모달리티 수가 증가할수록 차원이 매우 커져서 계산량이 증가하고, 모델 크기가 커지는 문제 
    • Low-rank Fusion 방식 (저차원 행렬 분해)
        • $ z = \sum_{r=1}^{R} (W_{A}^{(r)} x_{A})\times(W_{B}^{(r)} x_{B})$
          • 가중치 행렬 W 를 여러 개의 저차원 행렬 $W_{A}^{(r)}$ 와 $W_{B}^{(r)} $로 분해하여 학습
          • 행렬을 분해함으로써, 각 모달리티에 대한 독립적인 특징을 학습할 수 있으며, 전체 연산량을 크게 줄일 수 있음.

 

(Rank)을 결정하는 방법은 고정된 Rank 값을 실험적으로 설정하고, 각 Rank 값에 따른 성능 변화를 분석하는 방식을 사용한다. 즉, 은 학습 중 자동으로 결정되는 것이 아니라, 사전에 선택된 Rank 값으로 설정된다. 

 

Rank가 너무 낮으면 모델 성능이 떨어지고, Rank가 증가하면 성능이 향상되지만, 너무 크면 학습이 불안정해지는 것을 확인했고, 이에 따라 과적합을 방지하기 위해 적절한 Rank 값 (= 4)을 선택했다. 아래 Figure 4 는 실험 결과를 보여준다.

 

 

 

또한, 논문에서는 감정 분석(Sentiment Analysis), 화자 특성 분석(Speaker Trait Analysis), 감정 인식(Emotion Recognition) 등 다양한 태스크를 수행하며, 각각의 태스크에 따라 Loss Function이 달라진다. 

  • 감정 분석 태스크 (CMU-MOSI, POM 데이터셋)에서 Mean Absolute Error (MAE) Loss 를 사용
  • 감정 인식(Emotion Recognition)과 화자 특성 분석(Speaker Trait Analysis)에서는 다중 클래스 분류를 수행해야 하므로, Cross-Entropy Loss 사용

 

앞서, 2가지의 모달리티에 대해서 살펴보았지만, 3개 이상의 모달리티에 대해서도 확장이 가능하다.

Low-rank Fusion with Trimodal Input

 

추가로, 다양한 차원의 모달리티 상호작용을 포함한 멀티모달 융합 개념을 알아보자.

Going Beyond Additive and Multiplicative Fusion

 

  • Additive Interaction (First-order polynomial)
    • 각각의 모달리티 (feature) $x_{A}, x_{B}$ 가 독립적으로 반영됨
  • Additive + Multiplicative Interaction (Second-order polynomial)
    • 곱셈(interaction term) 을 추가하여 모달리티 간 관계를 반영한 융합
      • $x_{A}, x_{B}$ 의 개별 효과 + 상호작용 효과까지 포함됨
      • 텐서 기반 멀티 모달 융합과 연결됨
  • Trimodal Fusion (Tensor Fusion Network 기반 융합)
    • 세 개 이상의 모달리티를 포함하는 경우, 모든 조합을 반영하는 다항식 표현
      • Unimodal terms (First-order): 각 모달리티 $x_{A}, x_{B}, x_{c} $  자체
      • Bimodal terms (Second-order): 두 개의 모달리티 조합 $x_{A}x_{B}, x_{A}x_{C}, x_{B}x_{C}  $
      • Trimodal terms (Third-order): 세 개의 모달리티 간 상호작용 $x_{A}x_{B}x_{c} $

 

  1. Concatenate (백터 연결)
    • 두 개의 입력 벡터 $z_{1}, z_{2}$ 가 주어짐
    • 여기에 편향을 표현하는 상수 1을 추가한 벡터 $\mathcal{f}^{T} = [1, z_{1}^{T}, z_{2}^{T}]$ 를 만듦. 
  2. P-order tensor product
    • $\mathcal{f}$ 벡터를 여러 번 곱하여 p 차원 다항식 표현을 만듦.
    • 이 과정에서 다양한 모달 간의 상호작용 (unimodal, bimodal, trimodal...) 이 표현됨
    • 결과적으로 P 차원의 텐서가 생성됨
  3. Weight matrix will be order P+1 (가중치 행렬의 차원 증가
    • 텐서 곱이 이루어진 후, 이 정보를 압축하기 위해 가중치 텐서 W 가 적용됨
    • 이 가중치 행렬의 차원(order) 은 P보다 하나 더 높음. 즉, P+1 차원의 텐서가 됨
  4. Low-rank tensor network 
    • 계산 비용을 줄이고  효율적으로 학습하기 위해 Low-rank factorization  를 적용
    • 이는 Low-rank Fusion 방법과 유사하게 동작하며, 텐서 차원을 줄여 연산을 최적화함.
  5. Tensor contraction (텐서 축소 연산)
    • 높은 차원의 텐서를 더 낮은 차원으로 변환하여 최종 출력을 생성함.
    • 이 과정에서 저차원의 표현을 유지하면서도 다중 모달 간 상호작용 정보를 보존함.

 

모달 간 중요도의 차이 반영 필요성이 대두되면서 Gated Fusion 이 도입이 되었다. 일부 모달리티(A, B) 중 특정 모달이 더 중요한 정보를 포함할 수 있다. 단순한 선형 결합이나 텐서 곱을 사용하면 각 모달의 중요도를 동적으로 조절하는 기능이 부족하다. 

 

 

Gated Fusion

GATED MULTIMODAL UNITS FOR INFORMATION FUSION

 

  • 입력 모달리티
    • Modality A: 빨간색 벡터 $x_{A}$
    • Modality B: 파란색 벡터 $x_{B}$
  • 게이트(gate) 적용
    • 각각의 모달은 게이트 네트워크를 통과하여 적절한 가중치를 학습.
    • $g_{A}(x_{A}, x_{B})$ 와 $g_{B}(x_{A}, x_{B})$  는 모달 간의 중요도를 조절하는 스칼라 값.
      • 여기서 $g_{A}, g_{B}$ 는 attention function 으로 해석 가능
      • Transformer의 self-attention과 유사하게, 모달 간 관계를 학습하고 동적으로 가중치를 부여.
  • 최종 융합 (Fusion)
    • 게이트를 통과한 모달리티들을 결합하여 최종 벡터 $z$ 생성.
  • 가중치 결정
    • 모달리티 A,B 각각이 얼마나 반영이 되어야 하는지 Gate 를 어떻게 설계할지에 대한 내용이다.
    • 방식
      • Linear (선형 모델)
        • $x_{A}w_{1}\cdot (x_{B}W_{2})^{T}$
      • Nonlinear (비선형 함수)
        • $f_{A}(x_{A})\cdot (f_{B}(x_{B}))^{T}$
      • Kernel-based (커널 기반)
        • $k_{x_{A}, x_{B}}$
          • linear
          • polynomial
          • Exponential
          • RBF

 

 

이질적인 모달리티 문제로 인해 Complex Fusion 이 도입되었다. 모달리티마다 데이터의 특성이 다르다. 단순한 벡터 결합(concatenation) 방식의 조기 융합(Early Fusion)만으로는 정보 손실이 발생할 수 있다. 예를 들어, 영상 데이터는 CNN 기반의 2D 공간 정보를 활용하지만, 음성 데이터는 1D 시계열(temporal sequence) 정보를 갖고 있다.

 

 

Complex Fusion

On the Benefits of Early Fusion in Multimodal Representation Learning.

 

 

Complex Fusion(복합 융합)은 다중 모달 데이터 간의 이질적인 특성을 고려하면서 융합하는 방법이다. 단순한 조기 융합(Early Fusion)이나 후기 융합(Late Fusion)과 달리, 각 모달리티의 구조적 차이(heterogeneous nature)를 반영하면서 융합하는 것이 핵심이다.

 

  • Early Fusion
    • Visual (영상 데이터): CNN 기반의 encoder를 통해 feature extraction.
    • Acoustic (음성 데이터): 별도의 encoder를 통해 feature extraction.
    • Fusion 방식: Concatenation(벡터 결합) 후에 비선형 변환을 거쳐 최종 출력.
    • 이는 전통적인 Early Fusion 방식이며, 단순한 feature-level 융합에 가까움.

 

 

  • Very Early Fusion (Inspired by Human Brain)
    • 기존 Early Fusion보다 한 단계 더 이른 단계에서 융합을 진행.
    • 각 모달리티의 feature를 독립적으로 인코딩하는 것이 아니라, 서로 공유하도록 설계.
    • Convolutional LSTM Units를 활용하여 모달리티 간 교차 정보 교환을 진행.

 

하지만, Open Challenge 이다.

 

1. 서로 다른 모달리티 간의 이질성을 어떻게 해결할 것인가?

  • 예제에서 Visual(영상)과 Acoustic(음성)의 데이터 구조가 다름
    • 영상은 CNN이 적합하지만, 음성은 주로 RNN/LSTM이 사용됨.
  • 서로 다른 데이터 타입을 어떻게 효과적으로 융합할지 여전히 연구 중.

2. Early Fusion과 Very Early Fusion 중 어떤 방법이 더 효과적인가?

  • 기존 Early Fusion에서는 모달리티별로 feature를 추출한 뒤 벡터를 결합.
  • Very Early Fusion은 Convolutional LSTM을 활용해 더 초기 단계에서 융합.
  • 하지만 어떤 방식이 가장 최적의 성능을 보장하는지는 여전히 연구 중.

3. 복잡한 융합 모델에서 계산량(Computational Cost)을 줄이는 방법?

  • LSTM, Transformer 같은 복잡한 모델을 사용하면 연산량이 증가.
  • 모달 간 상호작용을 강화하면서도 경량화된 모델을 설계하는 것이 과제.

4. 인간 두뇌의 정보 융합을 어떻게 모방할 것인가?

  • 인간의 뇌는 멀티모달 감각 정보를 매우 효율적으로 융합.
  • 이를 딥러닝 모델로 구현하는 것은 여전히 도전적인 과제.

 

 

Sub-Challenge 1b: Representation Coordination

 

 

  • 정의
    • 멀티모달 데이터를 다룰 때, 서로 다른 모달리티(A와 B) 가 교차 모달 상호작용(Cross-modal interactions) 을 통해 조정된(multimodally-contextualized) 표현을 학습하는 것을 의미한다.
  • 핵심
    • 서로 다른 모달리티(Modality A & B)가 유기적으로 연결되어 공통된 의미를 가지도록 표현이 조정되어야 한다.
    • 멀티모달 학습의 목표: 다양한 모달리티에서 추출된 정보를 일관된 표현 공간(Representation Space)에서 조정하여, 모델이 더 좋은 예측을 할 수 있도록 돕는 것이다.

 

 

  • Strong Coordination
    • 모달리티 A와 B의 표현이 서로 가깝게 정렬됨 (Closer)
    • 즉, 같은 개념을 표현하는 두 모달리티가 비슷한 표현 공간에서 학습됨
    • 예시
      • 영상과 음성이 "고양이"를 표현할 때, 두 모달리티가 학습하는 임베딩 벡터가 비슷한 표현 공간에 위치하면 모델이 "고양이"라는 개념을 더 쉽게 인식 가능.
    • 멀티모달 표현 학습 시, 강한 조정을 유도해야 성능이 향상됨.
    • 강한 조정을 달성하면 모달 간 정보 공유가 더 원활해지고, 융합이 효과적으로 이루어짐.
      • 예를 들어, Vision-Language 모델(BERT + ViT 등)에서도 동일한 개념을 나타내는 두 모달이 유사한 의미 공간에 배치되도록 조정하는 것이 중요함.
  • Partial Coordination
    • 모달리티 A와 B의 표현이 멀리 떨어져 있음 (Further)
    • 즉, 같은 개념을 표현하지만 서로 다른 공간에서 학습됨 → 융합이 어려울 수 있음
    • 예시
      • 반면에 두 모달리티가 서로 다른 공간에 떨어져 있다면, 모델이 "고양이"라는 개념을 통합적으로 이해하는 데 어려움을 겪을 수 있음.

 

Strong Coordination 이 핵심이다. 여기에 사용되는 Function 에 대해서 살펴보자.

 

Coordination Function

이질적인 모달리티를 조정하여 매우 유사하게 만드는 것이 목표가 되겠다.

 

  • 각 모달리티(예: A, B)는 서로 다른 인코더(encoder) $f_{A}, f_{B}$ 를 거쳐 잠재 표현(latent representation) $z_{A}, z_{B}$ 로 변환된다.
  • 변환된 표현들 $z_{A}, z_{B}$ 간의 관계를 학습하기 위해 coordination function $g(z_{A}, z_{B})$  를 사용한다.
  • 최종적으로, 이 coordination function $g$ 이 손실 함수 $\mathcal{L}$ 로 사용되어 학습된다.
    • $\mathcal{L}=g(f_{A}( △ ), f_{B}( ⚫ ))$
      • 여기서 사용되는 $g$ 는 3가지가 있다.
        • Cosine similarity
          • 이는 벡터 간의 각도를 기반으로 한 유사도 측정 방법으로, 1에 가까울수록 두 벡터가 같은 방향을 가리킨다는 의미이다.
          • 강한 coordination을 의미한다.
          • 즉, 모달리티 간 강한 조정을 위해 cosine similarity를 활용할 수 있다.
            • $ g(z_{A}, z_{B}) = {z_{A} \cdot z_{B} \over ||z_{A}|| ||z_{B}||}$
        • Kernel similarity functions
          • 커널 함수를 이용하여 두 벡터의 관계를 학습한다.
          • 이러한 커널 함수들은 모달리티 간의 비교적 강한 coordination을 유도할 수 있다.
          • 즉, 단순한 유사도 측정보다 더 다양한 비선형 관계를 학습할 수 있도록 돕는다.
            • $ g(z_{A}, z_{B}) = k(z_{A}, z_{B})$
              • Linear
              • Polynomial
              • Exponential
              • RBF
        • Canonical Correlation Analysis (CCA)
          • 서로 다른 모달리티의 표현을 변환하여 최대한 서로 상관성이 높은 방향으로 정렬하는 기법이다.
          • 여러 개의 투영(projections)을 포함하며, 이들은 모두 서로 직교(orthogonal) 관계를 가진다.
          • 즉, 여러 차원의 데이터를 효과적으로 매핑하여 두 모달리티 간의 관계를 최적화할 수 있다.
          • 이러한 방법을 활용하면 서로 다른 모달리티 간의 coordination을 더욱 정밀하게 학습할 수 있다.
            • $$
              \arg\max_{V, U, f_A, f_B} \text{corr}(z_A, z_B)
              $$
              • 여기서 U와 V는 각각 모달리티 A와 B의 변환 행렬로, 이들을 통해 두 모달리티 간의 선형 변환을 수행한다.
              • 목표는 두 모달리티가 서로 높은 상관성을 갖도록 정렬하는 것이다.
          • 관련 논문

 

 

 

Sub-Challenge 1c: Fission

 

multimodal 데이터에서 내부 구조를 더 잘 반영하는 새로운 표현을 학습하는 기법이다. 이는 데이터를 Factorization (인자화) 또는 Clustering (군집화) 하는 방식으로 표현을 변환하여 보다 정교한 표현을 만들고자 하는 접근 방식이다. 즉, 하나의 모달리티에서 얻어진 특징(feature)을 하나의 단일 벡터 표현으로 유지하는 대신, 세부적인 요소들로 분해하여 더욱 의미 있는 표현을 학습하는 것이 Representation Fission의 핵심 목표다.

  • 정의
    • 새로운 표현 집합을 학습하여 다중 모달 데이터의 내부 구조를 반영하는 것을 의미이다.
    • Factorization (인자화): 표현을 여러 개의 중요한 요소(feature)로 분해하는 것.
    • Clustering (군집화): 특정한 특징을 공유하는 표현들을 그룹화하는 것.

 

 

 

  • Modality-level fission
    • 기존에는 하나의 모달리티(A 또는 B)를 하나의 벡터로 변환했다면, 각 모달리티에서 더 작은 요소들로 나뉘어지는 방식을 의미함.
    • 두 모달리티 간의 겹치는 부분이 반영됨 (빨간색과 파란색 타원이 겹침).
    • 이는 서로 다른 모달리티 간에 일부 공유되는 정보를 독립적으로 학습할 수 있도록 함.
  • Fine-grained fission
    • Modality-level Fission보다 더 세밀한 수준에서 모달리티의 표현을 나눔.
    • 하나의 모달리티가 단일 벡터로 학습되는 것이 아니라, 더 작은 의미 단위(요소)로 나뉘어 학습됨.
    • 즉, 같은 모달리티 내에서도 여러 개의 세부적인 표현이 생성되며, 이는 다중 클러스터(cluster)로 구분될 수 있음.

 

 

Modality-Level Fission

  • 기존 Multi-view Learning 방식
    • 텍스트
      • "I am extremely happy today!" → 단일 벡터 표현 (텍스트 전체를 하나의 벡터로 인코딩)
    • 이미지
      • 고양이 사진 → 단일 벡터 변환
  • Modality-level fission 방식
    • 이미지
      • 색상 정보(Color Information): RGB 색상 분포 학습
      • 윤곽선 정보(Edge Information): 객체의 형태 및 경계선 학습
      • 질감 정보(Texture Information): 고양이 털의 패턴 및 질감 학습
    • 텍스트
      • 감정 요소: "happy" → 긍정적인 감정 단어
      • 의미 요소: "extremely" → 강도 강조 표현
      • 문법 요소: "today" → 시점을 나타내는 시간 정보
    • 색상 정보는 텍스트 모달리티에서 감정 분석과 연결될 수 있음 (예: 붉은색 → 강한 감정, 파란색 → 차분한 감정)

 

그렇다면, 이러한 분리된 표현을 어떻게 학습할 것인가?

 

 

Learning Factorized Multimodal Representations

Tsai et al., Learning Factoriazed Multimodal Representations, ICLR 2019

 

아래는 각 모달리티의 데이터를 학습할 때, 서로 겹치는 정보와 독립적인 정보를 올바르게 학습하기 위한 손실 함수(loss function)를 설계하는 과정이다. 자세하게 살펴보자.

  • 그림에서 나타난 개념
    • 인코더 (Encoder): 각각의 모달리티에서 데이터를 압축된 표현으로 변환하는 과정. 
    • 디코더 (Decoder): 압축된 표현을 다시 원래의 데이터로 복원하는 과정 (생성적 학습)
    • 예측 (Prediction): 분해된 표현이 실제 예측 과제(예: 감정 분석, 객체 인식)에 효과적으로 사용될 수 있도록 보장하는 과정.
  • Loss Function ($\mathcal{L} = \mathcal{L}_{1} + \mathcal{L}_{2} + \mathcal{L}_{3} $)
    • $\mathcal{L}_{1}$ (No Overlap, 독립성 유지)
      • 각 모달리티의 고유한 정보를 보존하면서도, 공통된 부분을 겹치지 않게 분리하도록 강제하는 손실 함수
    • $\mathcal{L}_{2}$ (Generative, 생성 가능성 유지)
      • 각 모달리티에서 인코딩된 표현을 다시 복원할 수 있도록 디코더를 활용하여 학습
      • Autoencoder 구조를 활용하여 모달리티별 데이터의 핵심적인 표현을 유지하면서도 복원할 수 있도록 함
    • $\mathcal{L}_{3}$ (Discriminative, 판별 가능성 유지)
      • 분해된 표현들이 실제로 유용한 특징을 가지고 있으며, 특정 예측에 효과적으로 활용될 수 있도록 학습
      • 예를 들어, 분류 문제에서 분해된 특징들이 정확한 예측을 수행할 수 있도록 학습을 보장해야 함

 

그렇다면, 각 모달리티는 정보 공유를 어떻게 할까?

 

Information Theory Perspective

아래 그림은 정보 이론을 활용하여 멀티모달 데이터 간의 관계를 설명하는 방법을 나타낸다. 특히 엔트로피(Entropy)와 상호 정보량(Mutual Information)을 이용하여 두 모달리티(Modality A, B) 간의 정보 공유 정도를 분석한다.

  • Entropy
    • 정의
      • 데이터의 무작위성(randomness)과 불확실성(uncertainty)을 측정하는 척도이다.
      • $$ H(X) = - \sum_{x \in X} p(x) \log_b p(x) $$
        • 확률 분포 $p(x)$를 가지는 변수 $X$의 엔트로피는 모든 가능한 값 $x$에 대해 확률 값과 그 로그값을 곱한 뒤, 총합을 구한 값으로 정의된다.
        • 엔트로피가 높을 수록 데이터가 불확실하고 무작위성이 크며, 엔트로피가 낮을 수록 예측 가능성이 높음
    • : 모달리티 A의 엔트로피 → 텍스트 데이터의 불확실성을 측정.
    • $H(∘)$: 모달리티 B의 엔트로피 → 이미지 데이터의 불확실성을 측정.
    • $H(△∣∘)$: 모달리티 B가 주어졌을 때, 모달리티 A의 엔트로피.
    • $H(∘∣△)$: 모달리티 A가 주어졌을 때, 모달리티 B의 엔트로피.
  • Mutual information
    • 정의
      • 두 랜덤 변수 $X, Y$ 사이의 공유되는 정보량을 측정하는 척도
      • $$ I(X;Y) = D_{KL} \left( P_{(X,Y)} \parallel P_X \otimes P_Y \right) $$
        • 이는 KL-발산 (Kullback-Leibler Divergence)로, 실제 결합 분포 $P_(X,Y)$ 와 두 변수의 독립적인 분포 $P_X$ 및 $P_Y$ 간의 차이를 나타낸다.
        • $I(X; Y)$ 값이 클수록 두 변수 간의 정보 공유 정도가 높음

 

이를 Self-Supervised Learning 과 연결해보자. Self-Supervised Learning(SSL)은 라벨이 없는 데이터를 활용하여 학습하는 방법으로, 데이터 증강(Augmentation) 등을 활용하여 학습 신호를 생성한다. 정보 이론 관점에서, 효과적인 표현 학습(Representation Learning)을 위해 상호 정보량(Mutual Information, MI) 극대화조건부 엔트로피(Conditional Entropy) 최소화를 고려할 수 있다.

 

Link with Self-Supervised Learning

Tsai et al., Self-Supervised Learning from a Multi-View Perspective, ICLR 2021

 

  • 데이터 증강 (Augmentation) 
    • 원본 데이터 $X$ 에 대해 서로 다른 변형을 적용하여 두 개의 View ( △ , ∘ ) 를 생성한다.
  • 목표 1 - Maximize the mutual information
    • I(z;   ) 를 극대화하여, 잠재 표현 $z$ 가 각 모달리티(view) 의 중요한 정보를 유지하도록 유도다.
  • 목표 2 - Minimize the conditional entropy
    • H(z∣ △ )  를 최소화하여, 각 모달리티가 잠재 표현을 통해 정보를 잃지 않도록 보장한다.
  • 결론
    • 정보 이론을 활용한 자기 지도 학습은 분리된(disentangled) 표현 학습을 위한 이론적 기반을 제공한다.

 

 

Fine-Grained Fission

 

 

Modality A,  B 에서 각각의 표현(Representation)이 더 작은 단위로 분해될 수 있음을 보여준다. 모달리티 전체가 하나의 벡터로 인코딩되는 것이 아니라, 모달리티 내부의 작은 요소들이 개별적으로 표현되며, 이들이 클러스터링될 수 있다. 

 

그렇다면, 이러한 내부 클러스터와 요인들을 자동으로 찾을 수 있을까?

 

Fine-Grained Fission - A Clustering Approach

Hu et al., Deep Multimodal Clustering for Unsupervised Audiovisual Learning, CVPR 2019

 

Unimodal Encoders(단일 모달 인코더)를 사용하여 각 모달리티(비주얼, 오디오)에서 특징을 추출한다.

 

비주얼 모달리티에서는 CNN(Convolutional Neural Network)을 사용하여 이미지에서 로컬 영역(Localized Activations)을 활성화한다. 오디오 모달리티에서도 CNN을 사용하여 특정 소리 패턴을 감지한다.

 

오른쪽에서 보면, 이미지에서 특정 객체(예: 아기, 드럼 등)와 같은 지역적 정보가 활성화되며, 특징 맵이 생성된다. 이 과정은 개별 객체들이 서로 다른 오디오 및 비주얼 표현과 연결될 수 있음을 의미한다.

 

 

그렇다면, 다중 모달리티는 어떨까?

 

왼쪽에서는 개별 모달리티(이미지, 오디오)에 대한 Unimodal Encoders가 작동하여 각 모달리티의 특징을 추출한다. 오른쪽에서는 Multimodal Fission이 적용되어 서로 다른 모달리티 간의 클러스터링이 진행된다.

 

예를 들어, "baby"와 같은 클러스터에서는 이미지의 아기 얼굴과 오디오의 특정 주파수 패턴이 연관된다. "drumming" 클러스터에서는 드럼 소리와 드럼을 치는 손의 움직임이 함께 클러스터링된다. 이러한 방법을 통해, 서로 다른 모달리티 간의 오디오-비주얼 연관성을 자동으로 발견할 수 있다. 

 

각 모달리티에서 공통적인 표현 공간을 찾는 것이 연구의 주요 목표가 되겠다.

반응형

'연구실 > 멀티모달' 카테고리의 다른 글

[Multimodal] 03. Alignment  (0) 2025.02.20
[Multimodal] 01. Introduction  (0) 2025.01.20