서론 경사 하강법과 같이 결과를 내기 위해서 여러번의 최적화 과정을 거쳐야 하는 알고리즘을 iterative 하다고 한다. 반복해서 많은 양의 데이터 학습을 진행할 때, 보통 한번에 최적화된 값을 찾기 어렵다. 머신러닝에서는 최적화(optimization)를 하기 위해 여러번의 학습 과정을 거친다. 또한 한번에 모든 양의 데이터를 넣지 않고 데이터를 나눠서 학습시키는데 이때 등장하는 개념이 에폭(epoch), 배치 사이즈(batch size), 반복(iteration)이다. 전체 개념에 대한 개략적인 내용이다. 에폭(epoch)이란 ? 한번의 에폭은 전체 데이터셋에 대해 forward pass/backward pass 과정을 거친 것을 말한다. 즉, 전체 데이터셋에 대해 한번 학습을 완료한 상태를 의미힌..
역전파 알고리즘이란 ? 역전파 알고리즘이란 인공 신경망을 학습시키기 위한 일반적인 알고리즘 중 하나이다. Perceptron(퍼셉트론) : 초기 인공 신경망 모델 input → output까지 가중치를 업데이트하면서 활성화 함수(sigmoid, rule 등)를 통해 결과값을 냈다면, 역전파 알고리즘은 그렇게 도출된 결과값을 통해 다시 output에서 input까지 역방향으로 가면서 가중치를 재업데이트를 해주는 방법이다. 역전파를 하는 이유는 무엇일까 ? 수치 미분을 통해 신경망을 갱신하려면, 미분 과정에서 delta 값을 더한 순전파를 몇번이고 다시 행해야 한다. → 즉, 연산량이 많다. 더 복잡하고 더 큰 규모의 딥러닝에 대해 순전파로 몇번이고 학습을 수행하면서 적절한 가중치 값을 찾고자 한다면 매우매..
🚀 Embedding이란 ? NLP 분야에서는 Embedding 과정을 거치는데 Embedding이란 자연어를 기계(컴퓨터)가 이해할 수 있는 형태(숫자, Vector)로 바꾸는 과정 전체를 말한다. 임베딩은 대표적으로 아래 3가지 역할을 한다. 1. 단어/문장 간 관련도 계산 2. 단어와 단어 사이의 의미적/문법적 정보 함축(단어 유추 평가) 3. 전이학습(Tansfer Learning) → 좋은 임베딩을 딥러닝 모델 입력값으로 사용하는 것 🚀 BERT의 내부 동작 과정 🚀 Input BERT의 Input과 Output은 위와 같다. 3가지의 요소를 입력해줘야 한다. Token Embedding : 각 문자 단위로 임베딩 Segment Embedding : 토큰화 한 단어들을 다시 하나의 문장으로 만드..
🚀 BERT란 무엇인가 ? BERT, Bidirectional Encoder Representations from Transformers는 Transformers로 부터의 양방향(Bidirectional) Encoder 표현(Representations)으로 2018년 11월 Google이 공개한 사전 훈련된(Pre-trained) 언어 모델이다. 트랜스포머를 이용해 구현되었으며 위키피디아 (25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블(label)이 없는 텍스트 데이터로 훈련되었다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용..