본문 바로가기

인공지능(Coursera)15

[AI 15주차] Transformer Network Transformer NetworkTransformer Network Intuitionsequence 작업의 복잡도가 증가함에 따라, model 의 복잡도도 증가했다.RNN 에서 vanishing gradients 문제가 있어서 긴 범위의 의존성과 sequence를 포착하기 어렵다는 단점이 있어서 이를 해결하기 위한 모델인 GRU가 나왔고, 정보의 흐름을 제어하는 것이 용이하게 하기 위해 LSTM 으로 모델이 이동하면서 연산량과 작업량은 더 복잡해졌다. 이는 모든 모델들은 순차적 모델(sequential model)로, 마지막 단위를 계산하기 위해서는 이전의 단위를 계산해야만 하기 때문이다. Transformer architecture 는 전체 sequence에 대한 많은 계산들을 병렬적으로 실행하도록 .. 2024. 8. 19.
[AI 14주차] Sequence models & Attention Mechanism 1. Various Sequence To Sequence ArchitecturesBasic Models이번에는 Sequence-to-sequence 모델에 대한 내용이다. Basic model부터 시작해서 Beam search와 attention model에 대해서 알아보자. 'Jane viste l'Afrique en septembre'라는 프랑스어로 된 문장을 영어 문장으로 변환하고 싶다면, 프랑스어로 된 문장 시퀀스를 $ x^{} $ 부터 $ x^{} $ 까지 표시하고, $ y^{} $ 부터 $ y^{} $ 까지 까지 사용해서 output 시퀀스 단어를 표시한다. 그렇다면 어떻게 새로운 network를 학습해서 시퀀스 x를 입력으로 하고 시퀀스 y를 출력할 수 있을까? 위와 같이 인코더(Encode.. 2024. 8. 19.
[AI 13주차] Natural Language Processing & Word Embeddings Word Representation이전 내용에서 RNN, GRU, LSTM에 대해서 배웠고, 이번주에서는 NLP에 어떤 아이디어들을 적용할 수 있는지 살펴보도록 할 것이다. NLP에서 중요한 아이디어 중의 하나는 Word Embedding(단어 임베딩)이다. 이전에 사용했던 1만개의 단어에 대해서 우리는 one-hot encoding을 통해서 단어를 표시했다. 즉, Man은 5391의 index를 갖고 있으며, 10000 dimension의 벡터에서 5391번째 요소만 1이고 나머지는 다 0으로 표시되는 벡터로 나타낼 수 있다. $ O _{5391} $ 로 나타내며, O는 one-hot vector를 의미한다. one-hot encoding의 약점 중의 하나는 각 단어를 하나의 object로 여기기 때문.. 2024. 8. 18.
[AI 12주차] Sequence Model : 순환 신경망(RNN) Why sequence modelsRecurrent Neural Network (RNN) 같은 모델은 음성 인식, 자연어 처리(NLP) 영역에 영향을 끼쳤다. 아래는 Sequence model 이 사용되는 몇 가지 예시들이다. Speech recognition (음성 인식) :  Input X 인 오디오가 Text Output Y 에 mapping 된다. 입력과 출력 모두 sequence data인데, X는 시간에 따라 재생되는 음성이며, Y는 단어 sequence 이다.Music generation (음악 생성) : Output  Y 만 sequence data 이고, 입력은 빈 집합이거나 단일 정수, 또는 생성하려는 음악의 장르나 원하는 음악의 처음 몇 개의 음일 수 있다.Sentiment class.. 2024. 8. 16.