🚀 Embedding이란 ? NLP 분야에서는 Embedding 과정을 거치는데 Embedding이란 자연어를 기계(컴퓨터)가 이해할 수 있는 형태(숫자, Vector)로 바꾸는 과정 전체를 말한다. 임베딩은 대표적으로 아래 3가지 역할을 한다. 1. 단어/문장 간 관련도 계산 2. 단어와 단어 사이의 의미적/문법적 정보 함축(단어 유추 평가) 3. 전이학습(Tansfer Learning) → 좋은 임베딩을 딥러닝 모델 입력값으로 사용하는 것 🚀 BERT의 내부 동작 과정 🚀 Input BERT의 Input과 Output은 위와 같다. 3가지의 요소를 입력해줘야 한다. Token Embedding : 각 문자 단위로 임베딩 Segment Embedding : 토큰화 한 단어들을 다시 하나의 문장으로 만드..
🚀 BERT란 무엇인가 ? BERT, Bidirectional Encoder Representations from Transformers는 Transformers로 부터의 양방향(Bidirectional) Encoder 표현(Representations)으로 2018년 11월 Google이 공개한 사전 훈련된(Pre-trained) 언어 모델이다. 트랜스포머를 이용해 구현되었으며 위키피디아 (25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블(label)이 없는 텍스트 데이터로 훈련되었다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용..
🚀 자연어 처리(NLP, Natural Language Processing)란 ? NLP(Natural Language Processing, 자연어 처리)는 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석한다. 자연어 인식 및 자연어 생성이 NLP의 유형이다. NLP의 하위 주제인 자연어 이해는(NLU, Natural Language Understanding) 텍스트 본문의 실제 의미를 이용하기 위해 사용된다. NLU는 텍스트를 분류, 아카이브, 분석할 수 있다. NLP는 한 단계 더 나아가 그러한 의미에 기반한 의사결정을 도와준다. 🚀 NLP의 용도는 무엇인가 ? 자연어 처리 어플리케이션은 구조화되지 않은 텍스트 기반 데이터로부터 유용한 정보를 얻기 위해 사용되며, 사용자가 ..