✅ LLM이란?
**LLM (Large Language Model)**은 대규모 텍스트 데이터를 기반으로 학습된 인공지능 모델로, 자연어를 이해하고 생성하는 데 특화된 모델입니다.
- LLM은 GPT, PaLM, Claude, LLaMA 등 다양한 형태로 존재하며, 주로 Transformer 아키텍처를 기반으로 동작합니다.
- 인간의 언어를 해석하고, 요약, 번역, 질의응답, 코딩, 문서 생성 등 다양한 작업을 수행할 수 있습니다.
✅ LLM의 주요 특징
항목 | 설명 |
📚 대규모 학습 데이터 | 수십~수백 TB 수준의 웹 텍스트, 문서, 코드 등을 학습 |
🧠 매우 큰 모델 파라미터 수 | 수십억~수천억 개 파라미터 (ex. GPT-4는 1조+ 추정) |
🗣 다양한 자연어 처리 작업 가능 | 번역, 요약, 문서 생성, 코딩, 질의응답, 챗봇 등 |
🔄 Few-shot / Zero-shot 학습 | 별도 fine-tuning 없이도 예제만으로 작업 수행 가능 |
🔌 플러그형 활용 | RAG, 에이전트, API, 앱 등 다양한 구조로 응용 가능 |
✅ LLM vs 기존 NLP 모델 비교
항목 | 기존 NLP 모델 (예: BERT, LSTM) | LLM (예: GPT-4, Claude, LLaMA) |
학습 방식 | Task-specific, supervised 학습 | 범용 언어 모델, unsupervised 사전 학습 후 fine-tuning |
파라미터 수 | 수백만~수억 | 수십억~수천억 |
활용 방식 | 각 Task에 별도 모델 학습 필요 | 하나의 모델로 다양한 작업 수행 |
대표 작업 | 문장 분류, 개체명 인식 등 | 요약, 생성, 대화, 질의응답 등 |
대표 모델 | BERT, ELMo, LSTM | GPT, PaLM, LLaMA, Claude 등 |
✅ LLM과 관련된 주요 개념 비교
구분 | 설명 | 대표 기술 |
NLP (자연어처리) | 컴퓨터가 인간 언어를 이해하도록 하는 분야 | BERT, spaCy, NLTK |
LLM | 대규모 데이터로 사전 학습된 범용 언어 모델 | GPT, Claude, LLaMA |
RAG | LLM에 외부 지식(문서 검색 등)을 연계해 응답 생성 | LangChain, LlamaIndex 기반 |
Prompt Engineering | 프롬프트 설계 기법으로 모델 성능 최적화 | Few-shot, Chain-of-Thought |
Fine-tuning | 사전학습된 LLM을 특정 데이터에 맞춰 추가 학습 | LoRA, PEFT, Full fine-tune |
✅ LLM 활용 사례
분야 | 활용 예 |
챗봇/고객지원 | AI 상담사, 지식 기반 QA |
검색엔진 | 자연어 기반 질의 응답 검색 |
문서 자동화 | 보고서 요약, 계약서 생성 |
코딩 보조 | 코드 생성 및 리뷰 (ex. GitHub Copilot) |
교육 | AI 튜터, 맞춤형 학습 보조 |
의료/법률 | 차트 요약, 판례 검색 등 |
✅ LLM의 한계 및 고려사항
한계 | 설명 |
🧠 환각(hallucination) | 실제로 없는 내용을 사실처럼 생성 가능 |
🕵️ 투명성 부족 | 왜 그런 응답을 했는지 설명하기 어려움 |
🛡 보안/윤리 문제 | 유해 발언, 편향 등 |
💰 자원 소모 큼 | 학습·서빙에 고사양 GPU 필요 |
🔌 외부 지식 제한 | 자체 지식 cutoff 이후 정보 반영 어려움 → RAG로 보완 |
'Dev > AI' 카테고리의 다른 글
Self-Attention 매커니즘 설명 (0) | 2025.05.16 |
---|---|
트랜스포머(Transformer) 모델 (0) | 2025.03.17 |
MoE(Mixture of Experts) : 전문가 혼합 (0) | 2025.02.07 |
MLA(Multi-head Latent Attention) : 멀티헤드 잠재 주의 (0) | 2025.02.07 |
VAE(Variational Autoencoder) : 다변수 오토인코더 (0) | 2025.02.06 |