딥러닝 12.09

2025. 12. 9. 19:17

딥러닝 12.09

Attention의 혁명: Sequence-to-Sequence에서 Transformer까지

프롤로그: RNN의 다음 단계

Sequence-to-Sequence의 구조

Sequence-to-Sequence의 치명적 문제

Attention의 등장

Attention의 메커니즘: Dictionary에서 배우다

Dot Product Attention

Softmax의 한계

Transformer의 탄생

Transformer의 핵심 Parameters

Transformer의 특징 1: Multi-Head Attention

Transformer의 특징 2: Positional Encoding

Transformer의 Attention: 세 가지 종류

Scaled Dot-Product Attention

병렬 처리의 마법

Feed-Forward Neural Network

Residual Connection & Layer Normalization

전체 구조의 단순함

에필로그: Nonlinearity의 승리

요약: Sequence-to-Sequence에서 Transformer까지