본문 바로가기

Dev/AI11

트랜스포머(Transformer) 모델 트랜스포머 모델이란?- 트랜스포머(Transformer)는 자연어 처리(NLP)에서 널리 사용되는 딥러닝 모델로, 입력 전체를 동시에 처리하면서 문맥 정보를 효율적으로 파악한다.- 기존 RNN이나 LSTM과 달리 시퀀스를 순차적으로 처리하지 않고, 병렬 처리가 가능하다.- "Attention is all you need" 논문에서 처음 소개되었으며, 특히 Self-Attention 메커니즘이 핵심이다.- BERT, GPT 같은 최신 언어 모델의 기반이 되는 아키텍처이다.- 언어, 이미지, 음성 등 다양한 도메인에 확장 가능하다. 트랜스포머 특징 및 장단점구분내용주요 특징- 셀프 어텐션(Self-Attention) 메커니즘- 병렬 처리 가능- 인코더-디코더 구조- 포지셔널 인코딩 사용장점- 긴 .. 2025. 3. 17.
LLM(Large Language Model) 기본 설명 ✅ LLM이란?**LLM (Large Language Model)**은 대규모 텍스트 데이터를 기반으로 학습된 인공지능 모델로, 자연어를 이해하고 생성하는 데 특화된 모델입니다.LLM은 GPT, PaLM, Claude, LLaMA 등 다양한 형태로 존재하며, 주로 Transformer 아키텍처를 기반으로 동작합니다.인간의 언어를 해석하고, 요약, 번역, 질의응답, 코딩, 문서 생성 등 다양한 작업을 수행할 수 있습니다.✅ LLM의 주요 특징항목설명📚 대규모 학습 데이터수십~수백 TB 수준의 웹 텍스트, 문서, 코드 등을 학습🧠 매우 큰 모델 파라미터 수수십억~수천억 개 파라미터 (ex. GPT-4는 1조+ 추정)🗣 다양한 자연어 처리 작업 가능번역, 요약, 문서 생성, 코딩, 질의응답, 챗봇 등🔄.. 2025. 3. 17.
MoE(Mixture of Experts) : 전문가 혼합 1. MoE(Mixture of Experts) 모델- 여러 개의 전문가(서브 모델) 중 입력에 따라 적절한 전문가를 선택해 학습 및 추론을 수행하는 구조- 특정 작업에 필요한 부분만 선택적으로 활성화하여 성능/속도/효율성 향상- 'Transformer' Encoder의 FFN 레이어 역할을 담당 특징GLU (Gated Linear Unit)MoE (Mixture of Experts)구조게이트 메커니즘을 사용하여 정보 흐름을 조절여러 전문가(서브 모델) 중 일부를 선택적으로 활성화주요 목적불필요한 정보 필터링 및 학습 효율성 향상특정 입력에 적합한 전문가를 선택해 계산 효율성 향상계산 비용비교적 낮음 (게이트 연산만 추가)상대적으로 높지만, 일부 전문가만 활성화해 최적화 가능활용 분야자연어 처리(.. 2025. 2. 7.
MLA(Multi-head Latent Attention) : 멀티헤드 잠재 주의 1. MLA(Multi-head Latent Attention) 정의- Transformer 모델 기반 LLM 들이 공통으로 겪는 긴 문맥을 처리하느라 폭증하는 메모리 사용량 문제를 해결하기 위해 DeepSeek (LLM)에 적용된 기술- MLA는 입력 데이터를 잠재 공간으로 투영하여 기존 MHA보다 추론 시 메모리 사용량을 줄이고 연산 속도까지 향상시킨 Attention layer - 고성능 GPU 가 다량으로 필요하던 LLM 비용 절감 비교 항목기존 Multi-Head AttentionDeepSeek MLAKey-Value 저장 방식모든 Key-Value 데이터를 저장중요 데이터만 압축 저장메모리 사용량문맥이 길어질수록 급격히 증가최대 50% 이상 절감 가능연산 속도문맥이 길이가 길어질수록 느려.. 2025. 2. 7.
VAE(Variational Autoencoder) : 다변수 오토인코더 정의/개념- 모델평균(mean)과 표준편차(std)를 학습하고 사후확률을 최대화 하여, 입력 데이터와 유사한 새로운 데이터를 생성하는 AI 기술 개념도 / 구성요소 구분구성 요소설명Encoder- Input Layer- 학습할 x의 입력 데이터- Encoder- 입력 데이터를 평균과 분산으로 나타내는 학률 분포를 학습Latent Space- 잠재변수 (Z)- Input 값의 평균과 표준편차를 학습한 벡터 값- Sample Latent- 평균, 표준편차를 통한 사후 확률 추론- 변분추론을 통하여 근사적으로 학습Decoder- Decoder- 학습한 평균과 분산 정보를 이용하여 정규분포에서 임의의 포인트를 추출하여 디코더의 입력으로 사용해 데이터를 재생성- Output Layer- Input 데이터와 .. 2025. 2. 6.