🧠 대규모 언어 모델(LLM)이란 무엇인가요?
— AI가 긴 글을 이해하고 말하는 이유
요즘 ChatGPT, Gemini 같은 AI는 문장 하나가 아니라 긴 글, 대화, 문서 전체를 이해하고 답변합니다.이런 능력의 중심에는
👉 대규모 언어 모델(LLM, Large Language Model) 이 있습니다.
🌟 대규모 언어 모델(LLM)이란?
대규모 언어 모델이란
👉 인간의 언어를 아주 큰 규모로 학습한 인공지능 언어 모델입니다.
-
수많은 문장과 문서를 학습하고
-
문장, 단락, 문서 전체의 확률 구조를 계산하며
-
다음에 올 말이나 문장을 예측합니다.
즉,
“긴 텍스트를 이해하고 생성할 수 있는 언어 모델”
이 바로 LLM입니다.
🧩 왜 ‘대규모’라고 부를까?
인간의 언어를 모델링하는 일은
아주 복잡하고, 많은 자원이 필요합니다.
그래서 언어 모델은
수십 년에 걸쳐 점점 발전해 왔습니다.
👉 모델이 커질수록,
👉 이해 범위와 표현력이 함께 커졌습니다.
🚀 LLM이 급격히 발전한 이유
최근 몇 년간 LLM이 폭발적으로 성장한 이유는 다음과 같습니다.
-
컴퓨터 메모리 증가
-
학습 가능한 데이터 양 증가
-
연산 처리 능력(GPU/TPU) 향상
-
긴 문장을 다루는 새로운 모델 구조 개발
이 모든 것이 결합되어
👉 아주 큰 언어 모델이 가능해졌습니다.
🔢 ‘대규모’는 어느 정도일까?
‘대규모’라는 표현에는
정확한 기준은 없지만, 보통 매개변수 수로 설명합니다.
🔹 매개변수(Parameter)란?
-
모델이 학습하면서 얻은 가중치
-
다음 토큰을 예측할 때 사용하는 내부 숫자
🔹 예시
-
BERT: 약 1억 1천만 개 매개변수
-
PaLM 2: 최대 약 3,400억 개 매개변수
🏗️ LLM의 핵심 기술: 트랜스포머(Transformer)
대규모 언어 모델의 결정적 전환점은
2017년, Transformer 아키텍처의 등장이었습니다.
🔹 Transformer란?
-
주의(attention) 개념을 중심으로 설계된 모델 구조
-
문장 전체에서 중요한 부분에 집중할 수 있음
-
긴 문장에서도 기억 문제를 해결
👉 현재 대부분의 LLM은
Transformer 기반입니다.
🔄 인코더와 디코더
완전한 Transformer는 보통 두 부분으로 나뉩니다.
-
인코더(Encoder)
→ 입력 문장을 의미 있는 내부 표현으로 변환
-
디코더(Decoder)
→ 이 표현을 바탕으로 새로운 문장 생성
👉 의미를 이해하고 다른 언어로 다시 생성합니다.
👀 셀프 어텐션(Self-Attention)이란?
Transformer의 핵심은
👉 셀프 어텐션(Self-Attention) 입니다.
🔹 셀프 어텐션이 하는 질문
“이 단어를 이해할 때
다른 단어들은 나에게 얼마나 중요할까?”
📝 예문으로 이해해보기
The animal was so tired that it did not cross the road.
여기서 it은 무엇을 가리킬까요?
-
animal?
-
road?
셀프 어텐션은
문장 속 모든 단어 간의 관계를 계산하여
👉 it이 ‘animal’을 가리킨다는 것을 확률적으로 판단합니다.
이 덕분에 LLM은
-
문맥 이해
-
대명사 해석
-
긴 문장 추론
이 가능해집니다.
🎯 LLM은 무엇을 잘할까?
👉 이 모든 것은
다음 토큰의 확률을 예측하는 문제로 통합됩니다.
⚠️ 꼭 기억해야 할 점
LLM은 ❌
-
생각하거나 이해하지 않습니다
-
감정이나 의식이 없습니다
LLM은 ⭕
-
확률적으로 가장 그럴듯한 언어를 생성합니다
그래서:
-
매우 똑똑해 보이지만
-
항상 정답은 아닙니다
댓글 쓰기