LLM (Large Language Model)
: 대규모 언어 모델로, 수많은 파라미터를 가진 인공 신경망으로 구성된 언어 모델.
- 방대한 데이터 세트를 학습하기에 "대규모"라는 이름이 붙음
- Transformer 신경망 아키텍처 기반
- tuning을 통해서 추가 학습이 이루어지며 프로그래머가 원하는 특정 작업에 맞게 조정
- 학습 데이터에 기반해서 답변을 생성하기 때문에 편향적 답변이나 환각 현상 발생 가능성 높음
※ Transformer 모델
- 기존 RNN, LSTM, GRU와 달리 셀프 어텐션이라는 메커니즘을 도입
- 병렬 처리가 가능하며 문장의 모든 단어를 동시에 처리가 가능
- 장거리 의존 문제 해결: 셀프 어텐션 메커니즘으로 문장 내 모든 단어 간의 관계를 직접 계산
- 문맥을 고려해서 단어의 의미를 정확하게 파악함
- 별도 메모리 구조 없이 어텐션 메커니즘 만으로 정보 처리
* 셀프 어텐션
- 쿼리, 키, 값 벡터로 구성
- 각 단어의 쿼리 벡터와 다른 모든 단어의 키 벡터 사이의 내적을 계산하고 해당 단어가 다른 단어들에 얼마나 어텐션해야 하는지 수치로 나타냄
- 계산된 값에 소프트맥스 함수를 적용해서 확률 분포로 변환하고 확률을 각 단어의 값 벡터와 곱하고 모두 더해서 최종 출력을 만듬
- 장점: 문장 전체를 고려, 병렬 처리 가능, 해석 가능성 존재
* Transformer vs RNN, LSTM, GRU
- RNN: 순차적 데이터 처리. 먼 과거의 정보를 효과적으로 활용하지 못하는 한계가 존재
- LSTM: RNN의 장거리 의존성 문제 해결을 위해 개발된 모델
- GRU: LSTM을 단순화한 모델. LSTM의 계산 효율성을 개선
LLM의 한계
1) 특정 날까지 데이터를 끊어서 모델 학습
→ 이는 LLM보다 정확하고 최신 상태로 유지하는데 어려움이 있으며 큰 문제임
2) 환각 현상 발생
→ 데이터 출처가 명확하지 않으며 답변을 생성하면서 잘못된 정보를 만들어냄
LLM을 보다 정확하고 최신 상태로 유지하는데 도움이 되는 프레임워크, RAG 등장
RAG(검색 증강 생성)
- Retrieval: 검색보다는 어디서 가져오는 것, 집어오는 것
- Augmented: 증강
- Generation: 프롬프트에 대한 응답을 텍스트로 생성
- LLM에 검색 기능을 결합해서 질문과 정보 검색으로 정보를 생성
- LLM이 대답하기 전, 지식 콘텐츠 저장소에 들려서 먼저 정보를 검색해서 찾아오고 대답을 풍부하게 증강
- LLM의 두가지 문제점 개선
- 정보를 업데이트 하지 않아서 생긴 오류 → LLM을 다시 훈련할 필요 없이 새로운 정보로 지식 컨텐츠 저장소를 보강하고 업데이트
- 데이터 출처 소스문제 → 기본 출처 데이터에 주의를 기울이도록 지시를 받아서 환각이나 데이터 유출 가능성 줄어듬
Fine-tuning vs RAG
- Fine-tuning
- 학습 데이터를 바탕으로 하이퍼 파라미터를 조정하면서 학습하는 것
- 새로운 데이터가 들어올 경우에 모델을 재학습해서 많은 시간과 자원이 필요
- 정적 데이터를 활용하기 때문에 환각 현상 발생 가능성 존재
- RAG
- LLM 모델 자체를 수정하지 않기 때문에 자원 효율적
- 답변 생성을 외부의 학습 데이터 소스를 참조하며 역동적 데이터를 활용하기 때문에 정확도를 높임
Vector DB
- RAG와 주로 같이 등장하는 것이 벡터 DB
- 다른 DBMS와 큰 차이는 없으나 데이터의 성격과 처리 방법이 다름
- 정형, 비정형 데이터를 수치화해서 벡터 형태로 저장
- 주로 실수 형태의 데이터가 포함되며 이를 기반으로 유사도 높은 결과를 추출하기 위해 다양한 방법 제공 가능
- 복잡한 데이터에 적합한 고차원 벡터를 저장하고 처리
- 장점: 근접성, 유사성 기반으로 데이터를 신속하고 정확하게 찾아서 검색이 가능 → 의미론적 또는 문맥적 관련성에 기반해서 가능
'IT Study > ML & DL' 카테고리의 다른 글
[RNN] RNN, LSTM, GRU 모델 (1) | 2023.12.31 |
---|---|
[CNN] OpenCV 실습 | 이미지 조각 순서변경, 프리윗 필터, 회선처리 (1) | 2023.12.31 |
[DL/NLP] RNN 실습 (with. nsmc data) (1) | 2023.12.23 |
[DL/NLP] Word2Vec - CBOW & Skip-Gram 방식 (1) | 2023.12.23 |
[DL/CNN] CNN 실습 (with. MNIST data) (0) | 2023.12.22 |