본문 바로가기

Dev/AI

LLM(Large Language Model) 기본 설명

by Luigi.yoon 2025. 3. 17.

✅ LLM이란?

**LLM (Large Language Model)**은 대규모 텍스트 데이터를 기반으로 학습된 인공지능 모델로, 자연어를 이해하고 생성하는 데 특화된 모델입니다.

LLM은 GPT, PaLM, Claude, LLaMA 등 다양한 형태로 존재하며, 주로 Transformer 아키텍처를 기반으로 동작합니다.
인간의 언어를 해석하고, 요약, 번역, 질의응답, 코딩, 문서 생성 등 다양한 작업을 수행할 수 있습니다.

✅ LLM의 주요 특징

항목	설명
📚 대규모 학습 데이터	수십~수백 TB 수준의 웹 텍스트, 문서, 코드 등을 학습
🧠 매우 큰 모델 파라미터 수	수십억~수천억 개 파라미터 (ex. GPT-4는 1조+ 추정)
🗣 다양한 자연어 처리 작업 가능	번역, 요약, 문서 생성, 코딩, 질의응답, 챗봇 등
🔄 Few-shot / Zero-shot 학습	별도 fine-tuning 없이도 예제만으로 작업 수행 가능
🔌 플러그형 활용	RAG, 에이전트, API, 앱 등 다양한 구조로 응용 가능

✅ LLM vs 기존 NLP 모델 비교

항목	기존 NLP 모델 (예: BERT, LSTM)	LLM (예: GPT-4, Claude, LLaMA)
학습 방식	Task-specific, supervised 학습	범용 언어 모델, unsupervised 사전 학습 후 fine-tuning
파라미터 수	수백만~수억	수십억~수천억
활용 방식	각 Task에 별도 모델 학습 필요	하나의 모델로 다양한 작업 수행
대표 작업	문장 분류, 개체명 인식 등	요약, 생성, 대화, 질의응답 등
대표 모델	BERT, ELMo, LSTM	GPT, PaLM, LLaMA, Claude 등

✅ LLM과 관련된 주요 개념 비교

구분	설명	대표 기술
NLP (자연어처리)	컴퓨터가 인간 언어를 이해하도록 하는 분야	BERT, spaCy, NLTK
LLM	대규모 데이터로 사전 학습된 범용 언어 모델	GPT, Claude, LLaMA
RAG	LLM에 외부 지식(문서 검색 등)을 연계해 응답 생성	LangChain, LlamaIndex 기반
Prompt Engineering	프롬프트 설계 기법으로 모델 성능 최적화	Few-shot, Chain-of-Thought
Fine-tuning	사전학습된 LLM을 특정 데이터에 맞춰 추가 학습	LoRA, PEFT, Full fine-tune

✅ LLM 활용 사례

분야	활용 예
챗봇/고객지원	AI 상담사, 지식 기반 QA
검색엔진	자연어 기반 질의 응답 검색
문서 자동화	보고서 요약, 계약서 생성
코딩 보조	코드 생성 및 리뷰 (ex. GitHub Copilot)
교육	AI 튜터, 맞춤형 학습 보조
의료/법률	차트 요약, 판례 검색 등

✅ LLM의 한계 및 고려사항

한계	설명
🧠 환각(hallucination)	실제로 없는 내용을 사실처럼 생성 가능
🕵️ 투명성 부족	왜 그런 응답을 했는지 설명하기 어려움
🛡 보안/윤리 문제	유해 발언, 편향 등
💰 자원 소모 큼	학습·서빙에 고사양 GPU 필요
🔌 외부 지식 제한	자체 지식 cutoff 이후 정보 반영 어려움 → RAG로 보완

저작자표시 (새창열림)

'Dev > AI' 카테고리의 다른 글

Self-Attention 매커니즘 설명 (0)	2025.05.16
트랜스포머(Transformer) 모델 (0)	2025.03.17
MoE(Mixture of Experts) : 전문가 혼합 (0)	2025.02.07
MLA(Multi-head Latent Attention) : 멀티헤드 잠재 주의 (0)	2025.02.07
VAE(Variational Autoencoder) : 다변수 오토인코더 (0)	2025.02.06

티스토리툴바