본 내용은 MML Tutorial 강의를 바탕으로 작성되었다.
Content
- What is Multimodal?
- Definitions
- Heterogeneity
- Interconnection
- Dimensions of heterogeneity
- Cross-modal interactions
- Definitions
- Core technical challenges
- Representation
- Alignment
- Transference
- Reasoning
- Generation
- Quantification.
Reading
What is Multimodal?
기존에 우리가 만들었던 AI는 텍스트나 자연어를 이해하는 데 중점을 두었다.
그런데 여기서 문제는 AI는 실제 그 단어가 의미하는 것이 어떻게 생겼고, 실제 세상에는 어떤 형태로 존재하는지 이해하지 못하는 것이다. 예를 들어, '남자가 말을 타고 있다' 라는 문장에서 '탄다(ride)' 라는 개념을 이해하지 못하고, 말의 크기가 얼마만 한 것인지, 어떻게 타는 것인지 알 수 없다.
즉, 데이터 처리나 통계, 텍스트를 검색해서 보여주는 것은 가능하지만, 인간과 유사한 방식의 사고는 할 수 없다. 그래서 등장한 개념이 ' 멀티 모달리티 (Multi Modality) ' 이다. 멀티 모달리티는 다중 모달리티를 의미한다.
여기서, 모달리티는 '양식', '양상' 이라는 의미이다. 특정 데이터를 표현하거나 인식하는 방식 및 인터페이스를 말한다.
'멀티 모달(Multimodal)' 은 시각, 청각 등을 비롯한 여러 인터페이스를 통해서 정보를 주고받는 것을 말하는 개념이다.
쉽게 이해해보자.
사과라는 단어가 머리에 각인되기 전에 이미 사과를 맛보고, 그 생김새와 색깔, 크기, 그리고 시큼하면서도 달콤한 맛, 까끌 거리면서도 매끈한 촉감을 알게 된다. 그리고 비슷한 모양의 청사과 풋사과, 잘 익은 사과, 상하거나 멍든 사과까지 여러 종류의 사과를 알게 되고 나서는 그것을 묶어서 '사과(Apple)'라는 개념으로 뇌에 통합해서 저장하게 된다.
이렇듯, 인류는 이렇게 사과라는 개념을 이해하기 위해서 시각, 미각, 촉각, 텍스트까지 여러 개념을 통합해서 인식을 했다. 그렇다면, AI 는 어떻게 사과라는 개념을 받아들일까? 인간이 학습했던 방법으로 배워야, 인간과 제대로 소통할 줄 아는 AI 가 될 것이다. 그래서 등장한 개념이 "멀티 모달리티 (Multi Modality)" 이 되겠다.
그렇다면 어떠한 데이터들이 모달리티가 될 수 있을까?
- 데이터의 유형
- Raw Modalities : 센서에서 직접 수신된 신호
- ex) 음성 신호, 이미지 픽셀
- Abstract Modalities : 원시 데이터를 기반으로 추출된 정보
- ex) 이미지와 음성 모두에서 "감정(anger, joy)"을 추출하면 결과는 같은 범주 내에서 표현됨.
- Raw Modalities : 센서에서 직접 수신된 신호
위의 그림과 같이 언어, 시각, 촉각, 청각 등 다양한 신호의 모달리티가 멀티모달 데이터를 형성한다. 멀티모달 데이터는 서로 다른 구조, 표현 공간, 정보 밀도를 가지며, 이를 통합하여 학습하고 활용하는 것이 핵심이다.
멀티모달은 사전적인 의미로, 다중 모달리티이지만, 연구 관점에서는 heterogeneous (이질적인) 와 interconnected (상호연결된) data 의 과학이다. 즉, 이질적인 모달리티를 상호 연결시키는 관점으로 보면 되겠다.
어떻게 통합해서 학습을 시킬 수 있을까? 뒤에서 다시 자세하게 다뤄보자.
Heterogeneous Modalities
다른 모달리티에서 제시된 정보가 다양한 퀄리티, 다양한 구조와 표현을 보여준다는 의미이다.
추상 모달리티는 원시 데이터를 높은 수준으로 요약하거나 변환한 결과로, 모달리티 간 공통된 표현이나 구조를 갖게 된다. 예를 들어, 이미지, 음성, 텍스트에서 모두 "감정 분류" 를 수행하면 결과는 "행복, 슬픔" 과 같은 동일한 범주로 표현된다.
그래서, 학습을 통해 이질적인 모달리티를 추상적으로 만들고, 경우에 따라 동질적 표현 공간으로 변환하는 것은 멀티모달 머신러닝의 중요한 목표이다. 이를 통해 모달리티 간의 차이를 극복하고, 데이터 간의 의미적 관계를 통합적으로 모델링할 수 있다.
이제, Heterogeneity 의 차원에 대해서 살펴보자.
Interconnected Modalities
모달리티는 종종 서로 관련이 있으며, 상호작용을 통해 보완적 정보를 공유한다. 예를 들어, 텍스트는 언어적 맥락을 제공하고, 이미지는 시각적 정보를 제공하며, 이를 결합하면 더 완전한 이해가 가능하다.
- Connections (연결성) : 어떤 요소들이 연결되어 있으며, 왜 연결되는가?
- 각 모달리티(Modes)는 데이터를 개별적으로 처리하는 대신, 서로 연결된 관계를 가질 수 있다. 예를 들어, 텍스트(언어)와 이미지(시각)는 같은 장면이나 상황을 설명할 수 있으며, 이를 연결하여 더 풍부한 정보를 얻을 수 있다.
- 텍스트: "고양이가 소파 위에 있다."
- 이미지: 소파 위에 고양이가 앉아 있는 사진.
- 이 두 모달리티는 "고양이"와 "소파"라는 공통된 요소를 통해 연결된다.
- 각 모달리티(Modes)는 데이터를 개별적으로 처리하는 대신, 서로 연결된 관계를 가질 수 있다. 예를 들어, 텍스트(언어)와 이미지(시각)는 같은 장면이나 상황을 설명할 수 있으며, 이를 연결하여 더 풍부한 정보를 얻을 수 있다.
- Cross-modal interactions (교차 모달 상호작용) : 연결된 요소들이 추론 중에 어떻게 상호작용하는가?
- 연결된 모달리티들 사이의 데이터가 추론(inference) 단계에서 어떻게 영향을 주고받는지를 다룬다. 예를 들어, 음성과 얼굴 표정을 동시에 분석하여 화자의 감정을 더 정확하게 파악할 수 있다.
- 음성 모달리티에서 감정이 "행복"으로 나타날 경우, 얼굴 표정 모달리티의 미소 정보와 결합하여 감정의 신뢰도를 높인다.
- 연결된 모달리티들 사이의 데이터가 추론(inference) 단계에서 어떻게 영향을 주고받는지를 다룬다. 예를 들어, 음성과 얼굴 표정을 동시에 분석하여 화자의 감정을 더 정확하게 파악할 수 있다.
Cross-modal interations 의 행동 과학적 관점에서 모달들 간의 관계에 대해 살펴보자.
멀티모달 상호작용은 입력된 신호(a, b)가 어떻게 조합되어 결과(response)를 형성하는지에 따라 다르게 분류된다. 이 상호작용은 크게 두 범주로 나뉜다.
- Redundancy (중복성) : 여러 신호가 동일한 정보를 전달
- Equivalence (동등성) : 신호 a, b 가 동일한 정보를 전달하며, 독립적으로 같은 결과를 생성
- ex) 사람이 "고양이" 라는 단어를 말하면서 동시에 고양이를 가리키는 제스처를 함
=> 두 신호가 동일한 정보를 전달하므로, 하나만 있어도 결과가 동일
- ex) 사람이 "고양이" 라는 단어를 말하면서 동시에 고양이를 가리키는 제스처를 함
- Enhancement (강화) : 신호 a, b 가 함께 작용하여 결과를 강화함. 개별 신호도 결과를 생성하지만, 함께 사용하면 더 강력한 결과를 얻을 수 있음
- ex) 강사가 말하면서 그림을 사용해 설명할 때, 음성과 시각 자료가 함께 더 큰 이해를 돕는 경우
- Equivalence (동등성) : 신호 a, b 가 동일한 정보를 전달하며, 독립적으로 같은 결과를 생성
- Nonredundancy (비중복성) : 여러 신호가 별개의 정보를 전달
- Independence (독립성) : 신호 a, b 가 독립적으로 작용하여, 개별적으로 서로 다른 결과를 생성
- ex) 사람이 말하면서 다른 손으로 숫자를 세는 동작을 할 때, 말과 동작은 서로 독립적인 정보를 제공
- Dominance (우위) : 한 신호가 다른 신호보다 더 중요한 역할을 하여 결과를 지배함
- ex) 사람이 "예" 라고 말하면서 고개를 가로젓는 경우, 말보다는 고개를 흔드는 제스처가 더 중요한 의미를 전달
- Modulation (조정) : 신호 a, b 가 조합되어 결과를 조정하거나 영향을 미침. 결과는 단순 합이 아니라 특정 방식으로 변화됨
- ex) 사람이 낮은 목소리로 "괜찮아" 라고 말하면서 미소를 짓는 경우, 목소리와 표정이 조합되어 더 복잡한 감정을 전달.
- Emergence (새로운 의미 생성) : 신호 a, b 가 조합되어 개별 신호에는 나타나지 않는 새로운 결과를 생성
- ex) 음악과 춤이 결합되어 새로운 예술적 표현이 만들어지는 경우
- Independence (독립성) : 신호 a, b 가 독립적으로 작용하여, 개별적으로 서로 다른 결과를 생성
Cross-modal Interactions 에서 디지털로 표현된 모달리티 간의 상호작용을 분석하기 위해 차원에 대해서 살펴보자.
- Additive, Multiplicative, non-additive
- 모달리티 간의 상호작용 방식이 데이터를 단순히 더하거나(가산적), 곱하거나(곱셈적), 비선형적으로 결합(비가산적)하는지에 따라 다르다.
- 예시
- 가산적: 음성과 텍스트가 각각 독립적으로 정보를 제공하고, 두 신호를 단순히 더해 의미를 전달
- 곱셈적: 이미지와 텍스트가 결합되어 특정 의미를 강화
- 비가산적: 두 모달리티가 결합될 때, 결과가 원래 신호의 단순 합 이상으로 복잡한 관계를 형성
- Bimodal, trimodal, high-modal
- 이중 모달 : 두 가지 모달리티 간 상호작용
- 삼중 모달 : 세 가지 모달리티 간 상호작용
- 다중 모달 : 네 가지 이상의 모달리티가 상호작용
- Equivalence, correspondence, dependency
- 동등성 : 두 모달리티가 동일한 정보를 전달
- 대응 관계 : 모달리티 간 일대일 대응이 존재
- 의존성 : 한 모달리티가 다른 모달리티의 영향을 받음
- Dominance, entailment, divergence
- 우위성 : 특정 모달리의 결과가 더 큰 영향을 미침
- ex) 감정 분석에서 음성이 텍스트보다 더 중요한 경우
- 함의 : 한 모달리티가 다른 모달리티의 결과를 암시
- ex) 표정이 슬픔을 암시하는 경우
- 분기 : 모달리티 간 정보가 상충되거나 서로 다른 방향을 제시
- ex) "괜찮다" 라고 말하지만, 얼굴 표정이 화난 상태
- 우위성 : 특정 모달리의 결과가 더 큰 영향을 미침
- Modulation, attention, transfer
- 조정 : 한 모달리티가 다른 모달리티의 의미를 조정
- ex) 목소리 톤이 텍스트의 의미를 강화
- 주의 : 특정 모달리티에 집중하여 중요한 정보를 추출
- ex) 영상 데이터에서 특정 영역에 주의를 집중
- 전 : 한 모달리티에서 얻은 정보를 다른 모달리티로 전이
- ex) 텍스트 데이터를 기반으로 이미지를 생성
- 조정 : 한 모달리티가 다른 모달리티의 의미를 조정
- Causality, influences, directionality
- 인과관계 : 한 모달리티가 다른 모달리티의 결과를 유발
- ex) 소리의 변화를 통해 움직임이 예측되는 경우
- 영향 : 모달리티 간의 상호작용이 결과에 미치는 영향을 측정
- ex) 말투가 대화의 전체 분위기에 영향을 주는 경우
- 방향성 : 정보의 흐름이 어떤 방향으로 이루어지는지
- ex) 텍스트에서 영상으로 의미가 전달되거나 반대 방향으로 흐름
- 인과관계 : 한 모달리티가 다른 모달리티의 결과를 유발
What is Multimodal Machine Learning?
- Multimodal Machine Learning (ML) : 여러 모달리티에서 얻은 데이터를 활용하여 학습하고 개선하는 컴퓨터 알고리즘을 연구하는 분야.
- Multimodal Artificial Intelligence (AI) : 멀티모달 경험과 데이터를 활용하여 이해, 추론, 계획과 같은 지능적 능력을 보여주는 컴퓨터 에이전트를 연구하는 분야.
Multimodal Machine Learning
- Language (언어):
- 텍스트 데이터로부터 감정이나 주제 파악.
- ex) "I really like this tutorial"라는 문장을 통해 긍정적인 태도를 추론.
- Vision (시각):
- 영상 데이터를 분석하여 얼굴 표정이나 행동을 이해.
- ex) 웃고 있는 표정을 통해 긍정적인 감정을 추론.
- Acoustic (음향):
- 음성 데이터를 분석하여 억양, 목소리 톤 등을 기반으로 감정이나 의미를 추론.
- ex) 말의 억양이 밝고 긍정적일 때 긍정적인 감정을 판단.
- Modality A, B, C:
- 서로 다른 모달리티(예: 텍스트, 이미지, 음성)를 나타낸다.
- 각 모달리티는 고유한 구조(Structure)를 가지며, 이 구조는 정적(Static), 시간적(Temporal), 공간적(Spatial) 또는 계층적(Hierarchical)일 수 있다.
- 예:
- 텍스트: 정적 및 계층적 구조 (단어 -> 문장 -> 문단).
- 이미지: 공간적 구조 (픽셀 위치).
- 음성: 시간적 구조 (시간에 따른 음파 변화).
- 멀티모달 데이터 통합:
- Multimodal ML 모델은 서로 다른 모달리티의 데이터를 통합하여 하나의 출력(ŷ) 또는 새로운 표현 공간을 생성한다.
- 학습 방식
- Unsupervised Learning (비지도 학습):
- 레이블 없이 데이터 간의 패턴을 학습.
- 예: 텍스트와 이미지를 클러스터링하여 공통된 주제를 파악.
- Self-supervised Learning (자기 지도 학습):
- 데이터 자체에서 생성된 레이블을 사용하여 학습.
- 예: 텍스트를 기반으로 이미지를 예측하거나, 이미지에서 텍스트 설명을 생성.
- Supervised Learning (지도 학습):
- 레이블된 데이터를 사용하여 명확한 입력-출력 관계를 학습.
- 예: 텍스트와 이미지를 사용해 감정을 분류.
- Reinforcement Learning (강화 학습):
- 보상 시스템을 기반으로 최적의 행동을 학습.
- 예: 자율주행차가 카메라(이미지)와 라이다(센서) 데이터를 결합해 보상을 최적화하는 경로를 학습.
- Unsupervised Learning (비지도 학습):
- 출력
- 새로운 표현 공간 : 입력 데이터를 통합하여 더 풍부한 표현을 생성
- ex) 텍스트와 이미지의 결합된 임베딩 공간
- 단일 출력 : 특정 작업을 수행하기 위한 결과 생성
- ex) 감정 분류, 객체 탐지
- 새로운 표현 공간 : 입력 데이터를 통합하여 더 풍부한 표현을 생성
기존 머신러닝과 비교했을 때, 멀티모달 머신러닝에서 해결해야 할 핵심 기술적 과제에 대해서 살펴보자.
Challenge 1 : Representation
- 정의 : 서로 다른 모달리티의 개별 요소 간 cross-modal interactions 을 반영하는 표현을 학습하는 것
- 데이터의 다양한 모달리티 간의 관계를 효과적으로 표현하는 것이 목표
- 이 과제는 대부분의 멀티모달 모델링 문제에서 핵심 요소이다.
- 역할
- Local Representation (로컬 표현)
- 개별 요소(예: 이미지의 픽셀, 텍스트의 단어)를 각각 나타내는 표현
- ex) 텍스트의 단어 임베딩, 이미지의 특정 부분을 나타내는 벡터
- Holistic Features (전체적 특징 표현)
- 모달리티 간 요소의 상호작용을 반영한 전체적인 표현
- ex) 텍스트와 이미지를 결합하여 감정을 나타내는 하나의 벡터 생성
- Local Representation (로컬 표현)
- Sub-Challenges
- Fusion (통합) : 여러 모달리티의 데이터를 하나의 표현으로 결합
- 모든 모달리티를 사용하여 단일 표현 벡터를 생성
- 모달리티 수 > 표현의 수
- ex) 텍스트, 음성, 이미지를 결합하여 감정을 분석하는 모델
- Coordination (조정) : 각 모달리티를 개별적으로 처리하면서도, 서로 조정된 표현을 학습
- 모달리티 간 연결을 유지하면서 각각 독립적인 표현을 생성
- 모달리티 수 = 표현의 수
- ex) 비디오 데이터를 처리할 때, 오디오와 영상 데이터를 개별적으로 학습하지만, 두 모달리티의 관계를 반영
- Fission (분리) : 단일 입력 표현을 여러 모달리티로 나누어 처리
- 하나의 데이터(예: 텍스트) 를 여러 모달리티에 걸쳐 표현
- 모달리티 수 < 표현의 수
- ex) 텍스트 데이터를 이미지와 텍스트 설명으로 나누어 처리
- Fusion (통합) : 여러 모달리티의 데이터를 하나의 표현으로 결합
Challenge 2 : Alignment
- 정의 : 여러 모달리티의 모든 요소들 간의 cross-modal connections 을 식별하고 모델링하는 것
- 여러 모달리티 간의 데이터를 연결하고 동기화하는 것을 목표로 한다.
- 대부분의 모달리티는 내부적으로 여러 요소들로 구성된 구조를 가지므로 이를 정렬하는 것이 필수적이다.
- ex) 텍스트에서 단어와 문장, 이미지에서 픽셀과 객체, 음성에서 시간적 신호 패턴
- 구조적 예시
- Temporal Structure (시간적 구조) : 시간 순서에 따라 데이터가 정렬됨
- ex) 텍스트 (단어 순서)와 음성(시간적 신호)이 동기화되어 정렬
- Spatial Structure (공간적 구조) : 공간에서 데이터 요소들이 연결됨
- ex) 이미지에서 객체의 위치와 픽셀 정보 간의 연결
- Hierarchical Struecutre (계층적 구조) : 계층적인 데이터 관계를 정렬
- ex) 텍스트(단어->문장->문단) 또는 이미지의 객체 탐지(전체->세부 객체)
- Temporal Structure (시간적 구조) : 시간 순서에 따라 데이터가 정렬됨
- Sub-Challenges
- Connections (연결) : 데이터 요소들 간 명시적으로 연결을 설정
- ex) 텍스트 설명이 특정 이미지 객체에 대응이되도록 연결 (grounding)
- Aligned Representation (정렬된 표현) : 암시적 연결과 표현 학습을 통해 데이터 간 관계를 정렬
- ex) 텍스트와 음성 간 연관성을 임베딩 공간에서 자동으로 학습
- Segmentation (분할) : 데이터를 세분화하여 정렬
- ex) Granularity (세분성)
- 개별 데이터 요소들을 더 작은 단위로 나누어 정렬
- ex) 음성 데이터를 단어 단위로 나누어 텍스트와 동기화
- ex) Granularity (세분성)
- Connections (연결) : 데이터 요소들 간 명시적으로 연결을 설정
Challenge 3 : Reasoning
- 정의 : 여러 모달리티에서 얻은 지식을 여러 단계의 추론을 통해 결합하여 문제를 해결하는 과정
- 멀티모달 정렬과 문제 구조를 활용해 지능적 결론을 도출
- 단순한 데이터 처리나 예측을 넘어, 모달리티 간의 상호작용과 문제 해결을 위한 논리적 사고 과정을 포함
- ex) 텍스트와 이미지 데이터를 기반으로 복잡한 질문에 답하거나 사건의 원인을 추론
- 프로세스
- 다중 모달리티의 결합 : 서로 다른 모달리티에서 데이터를 가져옴
- 여러 추론 단계 : 데이터를 단계적으로 처리하며 의미를 정제
- ex) 텍스트에서 핵심 단어를 추출 -> 관련 이미지를 매핑 -> 최종 결론 도출
- 최종 출력 : 표현 벡터 또는 특정 작업의 출력을 생성
- Sub-Challenges
- Structure Modeling (구조적 모델링): 각 모달리티의 데이터 구조를 이해하고, 이를 활용해 추론의 논리적 기반을 형성.
- ex) 텍스트에서 문법적 구조를 분석하거나, 이미지에서 계층적 객체 관계를 파악.
- Intermediate Concepts (중간 개념) : 최종 결론을 도출하기 전에 중간 단계에서 유용한 정보를 추출.
- ex) 텍스트와 이미지를 결합해 "중간 레이블"을 생성(예: 감정, 주제).
- Inference Paradigm (추론 패러다임) : 여러 단계의 추론 방식을 정의하고 실행.
- ex) 단순 논리(True/False) 기반의 추론, 그래프 기반 추론(모달리티 간 연결 관계 활용)
- External Knownledge (외부 지식) : 외부 지식 기반(지식 그래프, 데이터베이스 등)을 활용해 추론을 보완.
- ex) 자율주행차에서 도로 규칙 DB 를 활용
- Structure Modeling (구조적 모델링): 각 모달리티의 데이터 구조를 이해하고, 이를 활용해 추론의 논리적 기반을 형성.
- 예시
- 텍스트와 이미지 기반 질문 응답:
- 질문: "이 사람은 무엇을 하고 있나요?"
- 프로세스:
- 텍스트(질문)와 이미지(행동)를 결합.
- 중간 단계에서 행동과 관련된 개념(예: '스포츠', '스케이팅') 추출.
- 외부 지식 기반(스포츠 규칙)을 참조해 "하키를 하고 있다"라는 답변 생성.
- 의료 데이터 분석:
- 데이터: 환자의 의료 기록(텍스트)와 X-ray 이미지.
- 프로세스:
- 텍스트 데이터를 통해 증상을 분석.
- X-ray 이미지를 통해 이상 소견 추출.
- 두 데이터를 결합해 질병 진단.
- 텍스트와 이미지 기반 질문 응답:
Challenge 4 : Generation
- 정의 : 생성 과정을 학습하여 원시 모달리티를 생성
- 생성된 원시 모달리티는 cross-modal interactions, 데이터 구조, 일관성을 반영해야 함
- Sub-challenges
- Summarization (요약):
- 데이터를 축소하여 핵심 정보를 유지.
- ex) 긴 텍스트를 요약하거나 동영상을 짧게 편집
- 데이터를 축소하여 핵심 정보를 유지.
- Translation (번역):
- 한 모달리티를 다른 모달리티로 변환.
- ex) 텍스트에서 이미지를 생성하거나, 이미지에서 텍스트 설명 생성.
- 한 모달리티를 다른 모달리티로 변환.
- Creation (창조):
- 데이터를 확장하거나 새로운 콘텐츠 생성.
- ex) 이미지 일부에서 전체 이미지를 복원(outpainting)하거나, 기존 데이터를 기반으로 새로운 데이터를 생성.
- 데이터를 확장하거나 새로운 콘텐츠 생성.
- Summarization (요약):
Challenge 5 : Transference
- 정의: 모달리티 간 지식을 전이하여, 노이즈가 있거나 제한된 자원을 가진 모달리티를 지원.
- 하나의 모달리티(A)의 정보를 활용해 다른 모달리티(B)를 보완.
- ex) 텍스트 모달리티에서 학습한 정보를 이미지 모달리티에 전이하여 결과 향상.
- 훈련 중에만 일부 모달리티를 사용하여 학습하고, 테스트 시에는 없는 경우를 대비.
- Sub-challenges
- Transfer (지식 전이):
- 한 모달리티에서 학습된 정보를 다른 모달리티로 직접 전이.
- ex) 텍스트 데이터를 활용해 이미지를 보완.
- 한 모달리티에서 학습된 정보를 다른 모달리티로 직접 전이.
- Co-learning via representation (표현을 통한 공동 학습):
- 모달리티 간 공유된 표현을 학습하여 공동으로 학습.
- ex) 텍스트와 음성을 결합해 공통된 감정 표현 임베딩 학습.
- 모달리티 간 공유된 표현을 학습하여 공동으로 학습.
- Co-learning via generation (생성을 통한 공동 학습):
- 한 모달리티에서 생성된 데이터를 사용해 다른 모달리티를 학습.
- ex) 이미지 생성을 통해 텍스트 설명 학습.
- 한 모달리티에서 생성된 데이터를 사용해 다른 모달리티를 학습.
- Transfer (지식 전이):
Challenge 6 : Quantification
- 정의 : 이질성, 교차 모달 상호작용, 멀티모달 학습 과정을 더 잘 이해하기 위한 경험적/이론적 연구.
- Sub-challenges
- Heterogeneity (이질성) : 각 모달리티의 다양한 특성(예: 데이터 구조, 표현 공간)을 분석.
- ex) 텍스트와 이미지의 표현 방식 차이 이해.
- Interactions (상호작용) : 모달리티 간 상호작용을 분석.
- ex) 텍스트와 음성이 감정을 전달할 때, 각각의 기여도를 측정.
- Learning (학습) : 멀티모달 학습 과정에서 손실(loss)과 성능 변화를 이론적으로 분석.
- Heterogeneity (이질성) : 각 모달리티의 다양한 특성(예: 데이터 구조, 표현 공간)을 분석.
Core Multimodal Challenges
멀티모달 머신러닝의 6대 핵심 과제(Core Multimodal Challenges)를 시각적으로 정리하여 각 과제 간의 관계와 흐름을 보여준다.
이후에는 6가지 Challenge 들을 하나씩 다뤄보도록 하자.