🚀 Embedding이란 ? NLP 분야에서는 Embedding 과정을 거치는데 Embedding이란 자연어를 기계(컴퓨터)가 이해할 수 있는 형태(숫자, Vector)로 바꾸는 과정 전체를 말한다. 임베딩은 대표적으로 아래 3가지 역할을 한다. 1. 단어/문장 간 관련도 계산 2. 단어와 단어 사이의 의미적/문법적 정보 함축(단어 유추 평가) 3. 전이학습(Tansfer Learning) → 좋은 임베딩을 딥러닝 모델 입력값으로 사용하는 것 🚀 BERT의 내부 동작 과정 🚀 Input BERT의 Input과 Output은 위와 같다. 3가지의 요소를 입력해줘야 한다. Token Embedding : 각 문자 단위로 임베딩 Segment Embedding : 토큰화 한 단어들을 다시 하나의 문장으로 만드..
🚀 BERT란 무엇인가 ? BERT, Bidirectional Encoder Representations from Transformers는 Transformers로 부터의 양방향(Bidirectional) Encoder 표현(Representations)으로 2018년 11월 Google이 공개한 사전 훈련된(Pre-trained) 언어 모델이다. 트랜스포머를 이용해 구현되었으며 위키피디아 (25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블(label)이 없는 텍스트 데이터로 훈련되었다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용..