Dev/AI
LLM(Large Language Model) 기본 설명
Luigi.yoon
2025. 3. 17. 02:19
✅ LLM이란?
**LLM (Large Language Model)**은 대규모 텍스트 데이터를 기반으로 학습된 인공지능 모델로, 자연어를 이해하고 생성하는 데 특화된 모델입니다.
- LLM은 GPT, PaLM, Claude, LLaMA 등 다양한 형태로 존재하며, 주로 Transformer 아키텍처를 기반으로 동작합니다.
- 인간의 언어를 해석하고, 요약, 번역, 질의응답, 코딩, 문서 생성 등 다양한 작업을 수행할 수 있습니다.
✅ LLM의 주요 특징
항목 |
설명 |
📚 대규모 학습 데이터 |
수십~수백 TB 수준의 웹 텍스트, 문서, 코드 등을 학습 |
🧠 매우 큰 모델 파라미터 수 |
수십억~수천억 개 파라미터 (ex. GPT-4는 1조+ 추정) |
🗣 다양한 자연어 처리 작업 가능 |
번역, 요약, 문서 생성, 코딩, 질의응답, 챗봇 등 |
🔄 Few-shot / Zero-shot 학습 |
별도 fine-tuning 없이도 예제만으로 작업 수행 가능 |
🔌 플러그형 활용 |
RAG, 에이전트, API, 앱 등 다양한 구조로 응용 가능 |
✅ LLM vs 기존 NLP 모델 비교
항목 |
기존 NLP 모델 (예: BERT, LSTM) |
LLM (예: GPT-4, Claude, LLaMA) |
학습 방식 |
Task-specific, supervised 학습 |
범용 언어 모델, unsupervised 사전 학습 후 fine-tuning |
파라미터 수 |
수백만~수억 |
수십억~수천억 |
활용 방식 |
각 Task에 별도 모델 학습 필요 |
하나의 모델로 다양한 작업 수행 |
대표 작업 |
문장 분류, 개체명 인식 등 |
요약, 생성, 대화, 질의응답 등 |
대표 모델 |
BERT, ELMo, LSTM |
GPT, PaLM, LLaMA, Claude 등 |
✅ LLM과 관련된 주요 개념 비교
구분 |
설명 |
대표 기술 |
NLP (자연어처리) |
컴퓨터가 인간 언어를 이해하도록 하는 분야 |
BERT, spaCy, NLTK |
LLM |
대규모 데이터로 사전 학습된 범용 언어 모델 |
GPT, Claude, LLaMA |
RAG |
LLM에 외부 지식(문서 검색 등)을 연계해 응답 생성 |
LangChain, LlamaIndex 기반 |
Prompt Engineering |
프롬프트 설계 기법으로 모델 성능 최적화 |
Few-shot, Chain-of-Thought |
Fine-tuning |
사전학습된 LLM을 특정 데이터에 맞춰 추가 학습 |
LoRA, PEFT, Full fine-tune |
✅ LLM 활용 사례
분야 |
활용 예 |
챗봇/고객지원 |
AI 상담사, 지식 기반 QA |
검색엔진 |
자연어 기반 질의 응답 검색 |
문서 자동화 |
보고서 요약, 계약서 생성 |
코딩 보조 |
코드 생성 및 리뷰 (ex. GitHub Copilot) |
교육 |
AI 튜터, 맞춤형 학습 보조 |
의료/법률 |
차트 요약, 판례 검색 등 |
✅ LLM의 한계 및 고려사항
한계 |
설명 |
🧠 환각(hallucination) |
실제로 없는 내용을 사실처럼 생성 가능 |
🕵️ 투명성 부족 |
왜 그런 응답을 했는지 설명하기 어려움 |
🛡 보안/윤리 문제 |
유해 발언, 편향 등 |
💰 자원 소모 큼 |
학습·서빙에 고사양 GPU 필요 |
🔌 외부 지식 제한 |
자체 지식 cutoff 이후 정보 반영 어려움 → RAG로 보완 |