attention

개인공부/데이터 사이언스

BERT 논문 리뷰

BERT는 transformer의 인코더 구조만을 사용하여 만든 bidirectional 모델이다. BERT 논문에서는 'Deep'이라는 글자를 강조했는데, 이는 기존의 language representation 모델들과 다르게 자신들의 모델 구조가 진정한 의미의 양방향 representation을 가능하게 했다는 것을 말하고자 한 것으로 보인다. BERT의 가장 큰 특징은 한번 Pre-training해 놓으면 모델 구조를 바꾸지 않고도 Fine-tuning 만으로 여러 NLP task에 적용할 수 있다는 것이다. 이처럼 개량 방식은 매우 간단하지만 여러 분야에서 SOTA를 달성할 만큼 우수한 모델임이 증명되었다. Introduction LM pretraining은 BERT 이전에도 다양한 NLP tas..

개인공부/데이터 사이언스

Attention Is All You Need 논문 리뷰

Introduction 초기 기계번역 모델은 Seq2Seq 아키텍처로 구현되었다. 이 모델은 입력 문장을 인코더로 압축하고, 그 결과를 디코더로 전달하여 번역을 생성하는 'encoder-decoder' 방식이었다. 그러나 이 방식은 인코더가 context vector라는 고정된 크기의 벡터에 모든 입력 정보를 담기 때문에 정보가 손실될 우려가 있었다. 뿐만 아니라 Seq2Seq와 같은 RNN 기반 모델들은 계산이 순차적으로 이루어져 병렬처리가 어려웠다. 하지만 논문에서 제안하는 Transformer 모델은 행렬곱 계산을 통해 Context vector을 순차적 계산 없이 한번에 생성할 수 있는 동시에, 정보 손실을 최소화하는 매커니즘을 가지고 있다. Seq2Seq 모델은 위 그림과 같이 인코더의 최종 결..

DevM
'attention' 태그의 글 목록