분류 전체보기
딥러닝 12.12
RNN의 응용: 언어 모델에서 멀티모달까지프롤로그여러분 안녕하세요. 딥러닝 마지막 시간입니다. 오늘은 순환 신경망의 마지막 응용 사례에 대해 말씀드리겠습니다.언어 모델순환 신경망의 응용 사례로 언어 모델이 있습니다. 언어 모델이라는 건 하나의 문장이 있을 때, 이 문장의 단어 열을 보고 이 단어 열이 발생할 확률에 대한 확률 분포를 추정하는 일입니다.예를 들어볼게요."자세히 보아야 예쁘다""예쁘다 보아야 자세히"이 두 문장이 있다면 일반적으로 더 자연스러운 문장은 "자세히 보아야 예쁘다"입니다. 언어 모델은 이 문장에 대해서 높은 확률을 도출하는 겁니다.그러면 이 확률 모델은 언제 활용되느냐? 음성 인식기나 번역기가 후보로 여러 문장을 출력할 수 있습니다. 그중에서 가장 확률이 높은 것을 선택할 때 언어..
딥러닝 12.09
Attention의 혁명: Sequence-to-Sequence에서 Transformer까지프롤로그: RNN의 다음 단계우리는 RNN과 LSTM을 배웠습니다. 순환 엣지 하나로 시간성을 다루고, 메모리와 게이팅으로 장기 의존성 문제를 해결했죠.그 다음에 나온 게 Sequence-to-Sequence 모델입니다.Sequence-to-sequence, 이름에서 알 수 있듯이 입력도 sequence고 출력도 sequence입니다. Sequence라는 말은 순서가 있는 단어들의 집합을 의미합니다.어디에 쓰일까요?한국어 → 영어 번역문장 생성ChatbotSummarization (요약)Speech to Text (음성 인식)Sequence-to-Sequence의 구조인코더와 디코더구조는 간단합니다: **인코더(E..
딥러닝 12.05
메모리의 마법: LSTM에서 현대 Transformer까지프롤로그: RNN의 치명적 약점지난 시간에 우리는 RNN의 근본적인 문제를 봤습니다. 정보 희석이었죠."길동은 어제 친구랑 소풍을 다녀왔고 그 다음날은 엄마를 따라갔고 그 다음날은 여자친구랑 놀이동산에서 놀았기 때문에 오늘은 집에서 푹 쉬기로 했다."이 문장에서 **"길동은"**이라는 주어와 **"쉬기로"**라는 동사가 연결되어야 합니다. 하지만 그 사이에 수많은 단어가 끼어있죠.RNN의 문제는 이겁니다. H(은닉 벡터)가 하나밖에 없는데, 이 H가 계속 W와 곱해지고 새로운 입력과 더해지면서 처음의 "길동은" 정보가 점점 희석됩니다. 푹 쉬기로 할 때쯤 가면 "길동은"은 온데간데없고, 누가 쉬었는지조차 모르는 상황이 발생하는 거죠.이건 RNN의 ..
딥러닝 12.02
시간이 흐르는 데이터를 이해하는 법: 순환 신경망 이야기프롤로그: 사진에서 동영상으로지금까지 우리가 배운 신경망은 모두 정지된 순간을 다뤘습니다. 컨볼루션 신경망으로 이미지를 분류할 때, 그건 1분 37초에 찍은 영상, 어느 한 순간 T 시점의 스냅샷이었죠. 마치 사진 한 장을 보고 "이건 고양이야, 저건 강아지야"라고 판단하는 것처럼요.그런데 세상에는 시간이 흐르는 데이터가 훨씬 많습니다. 심장 박동 신호, 주식 시세, 음성, 문장, 유전자 염기서열... 이 모든 것들은 시간에 따라 변화합니다. t-1 시점의 값, t 시점의 값, t+1 시점의 값이 연속적으로 이어지며 의미를 만들어냅니다. 우리는 이런 데이터를 '순차 데이터(sequential data)'라고 부릅니다.사진과 동영상의 차이를 생각해보세..
딥러닝 11.27
희소 코딩과 오토인코더복습: PCA와 ICA지난 시간 내용을 간단히 정리하고 시작합니다.분산은 어디서 재나요? Z축에서 잽니다. Projection된 공간에서의 샘플 분산을 의미해요. 그리고 찾아진 축들이 서로 orthogonal하다는 점도 중요합니다.라그랑주 승수법은 언제 사용하나요? 목적함수를 최적화할 때 등식 조건이 있을 때 씁니다. 최적해에서 목적함수와 조건식의 gradient가 평행해지는 성질을 이용하는 거죠.수식으로 쓰면:L = f + λ(g - c)f가 최적화하려는 것, g가 조건이에요. 미분해서 쓸 거니까 c는 적분상수라 안 적어도 상관없습니다.ICA 복습**독립 성분 분석(ICA)**은 블라인드 원음 분리 문제를 풉니다. 보이스톡할 때 여러분 목소리와 카페 시끌시끌한 배경음을 분리하는 것..
딥러닝 11.25
선형 인자 모델: PCA와 ICA복습: 인코딩과 디코딩지난 시간에 인코더-디코더를 배웠습니다. 인코딩은 원래 공간을 은닉 공간으로 변환하는 것이고, 디코딩은 은닉 공간을 다시 원래 공간으로 복원하는 겁니다.오늘은 이 인코딩과 디코딩을 선형 변환으로 수행하는 방법을 배웁니다. 이걸 **선형 인자 모델(Linear Factor Model)**이라고 부릅니다.선형 인자 모델이란X가 Z가 될 때 가중치 행렬 W를 곱해서 변환합니다:Z = W^T X + α여기서 α는 bias 역할을 합니다. 이 구조는 사실 우리가 이미 잘 아는 **완전연결층(fully connected layer)**과 100% 동일합니다. 단지 activation 함수가 없을 뿐이죠.α의 역할은 두 가지입니다:평균 조정: 데이터를 원점으로 옮..
딥러닝 11.20
밀도 추정과 Gaussian Mixture Model밀도 추정이란 무엇인가지난 시간에 군집화를 배웠습니다. 오늘은 비슷하지만 목적이 다른 밀도 추정을 다룹니다.군집화는 "이 샘플이 어느 그룹에 속하는가?"를 묻습니다. 분류 문제죠.밀도 추정은 "이 샘플들이 원래 어떤 분포에서 왔는가?"를 묻습니다. 예를 들어, 주사위를 6만 번 던져서 각 숫자가 만 번씩 나왔다면, 우리는 P(X) = 1/6 이라고 추정할 수 있습니다.분포를 알면 뭐가 좋을까요? 새로운 샘플을 무한히 생성할 수 있습니다. 이게 생성 모델의 출발점입니다.첫 번째 시도: Histogram가장 단순한 방법은 Histogram입니다. 특징 공간을 격자로 나눕니다. 예를 들어 0.1씩 간격으로 칸을 만듭니다. 그리고 각 칸에 샘플이 몇 개 들어있..
딥러닝 11.18
레이블 없는 세계에서 패턴 찾기: 비지도 학습 이야기프롤로그: 유튜브는 어떻게 당신을 알까?유튜브를 켜면 마치 나를 아는 듯한 추천 영상들이 펼쳐진다. 테니스를 좋아하는 사람에게는 테니스 하이라이트가, 요리에 관심 있는 사람에게는 맛집 탐방이 나타난다. 심지어 같은 집에 사는 부부도 완전히 다른 콘텐츠를 받는다. 한 사람은 스포츠와 기술 영상을, 다른 사람은 예술과 동물 영상을 본다.이 마법 같은 일은 어떻게 가능할까? 비밀은 **비지도 학습(Unsupervised Learning)**에 있다. 시스템은 당신이 무엇을 좋아하는지 명시적으로 말하지 않아도, 당신의 시청 패턴을 전 세계 수백만 사용자의 패턴과 비교해 유사한 사람들의 그룹을 찾아낸다. 그리고 그 그룹이 소비하는 콘텐츠를 당신에게 추천한다.이것..
딥러닝 11.16
암시적 규제의 기술: 조기 멈춤부터 데이터 증강까지규제에는 두 얼굴이 있다. 하나는 직접적이고, 다른 하나는 간접적이다. 지난 시간 배운 가중치 감쇠나 구조 수정은 명시적 규제였다. 오늘은 그 반대편, 암시적 규제에 대해 이야기하려 한다. 결과적으로 규제 효과를 가져오지만, 직접 규제를 가하지 않는 방법들이다.조기 멈춤: 가장 단순하면서도 효과적인조기 멈춤(Early Stopping)은 구현이 매우 쉽다는 장점이 있다. 통찰은 단순하다. 학습이 진행될수록 훈련 오류는 계속 감소한다. 하지만 검증 오류는? 처음에는 감소하다가 어느 순간 다시 증가한다. 그 전환점이 바로 과적합이 시작되는 지점이다.해결책은 명확하다. 검증 오류가 증가하기 직전에 학습을 멈추면 된다. 과적합이 일어나기 전의 모델을 얻는 것이다..