Skip to main content

Transformer 이후 첫 번째 질문: RNN은 정말 끝났는가

· 5 min read
p4r4d0xb0x
Rustacean, AI, OSS Enthusiast

2017년 Transformer는 sequence model의 기본 가정을 바꿨다. “순서대로 읽는 모델”보다 “한 번에 보고 중요한 관계를 고르는 모델”이 더 잘 확장될 수 있다는 주장이 기계번역에서 먼저 증명됐고, 이후 LLM 시대의 표준 구조가 됐다. 그런데 표준이 된 구조에는 항상 비용이 따라온다. 긴 문맥을 다룰수록 attention 계산량과 메모리 사용량이 커지고, 추론 시에는 이미 지나간 토큰을 계속 참조하기 위한 캐시가 시스템 설계의 중심 문제가 된다.

ICLR의 Transformer 대체제 논의를 예시로 보면, 흥미로운 첫 질문은 “Transformer를 더 크게 만들 것인가?”가 아니라 “Transformer 이전의 RNN을 다시 설계하면 무엇이 남는가?”다. Leo Feng 등은 *Were RNNs All We Needed?*에서 LSTM과 GRU를 최소화한 minLSTM, minGRU를 제안하며, 오래된 recurrent 계열도 병렬 학습과 경쟁력 있는 성능을 동시에 가질 수 있다고 주장한다.

왜 Transformer 대체제가 다시 중요해졌나

Transformer의 강점은 명확하다. 문장 안의 모든 토큰이 서로를 직접 볼 수 있고, 학습 단계에서 병렬화가 쉽다. GPU는 순차 작업보다 큰 행렬 연산을 한꺼번에 처리할 때 효율이 좋기 때문에, Transformer는 모델 크기와 데이터 크기가 커질수록 더 유리해졌다.

Image choice

표지 이미지는 Transformer의 all-to-all attention과 minimal RNN의 compact recurrent path를 나란히 배치한 직접 제작 다이어그램으로 정했다. 글의 핵심 질문이 “더 큰 Transformer인가, 다시 설계한 recurrent 구조인가”이므로, 두 계산 관점을 한눈에 비교하는 이미지가 가장 관련성이 높고 카드 목록에서도 즉시 시선을 끈다.

하지만 긴 sequence에서는 문제가 달라진다. self-attention은 기본적으로 토큰 쌍 사이의 관계를 계산한다. 토큰이 두 배가 되면 비교해야 할 관계는 대략 네 배로 늘어난다. 실제 시스템에서는 다양한 최적화가 들어가지만, 긴 context를 저렴하게 처리하려는 요구는 Transformer 외 구조를 다시 보게 만든다.

용어 해설: Sequence model

순서가 있는 데이터를 앞뒤 관계까지 고려해 처리하는 모델이다.

예: 문장을 읽을 때 단어 하나만 보는 것이 아니라, 앞에서 나온 단어들이 뒤 단어의 뜻을 바꾸는지 함께 보는 것과 비슷하다.

용어 해설: Self-attention

문장 안의 각 단어가 다른 단어들을 얼마나 참고해야 하는지 계산하는 방식이다.

예: “사과를 먹었다. 그것은 달았다.”에서 “그것”이 무엇인지 알기 위해 앞의 “사과”를 더 집중해서 보는 것과 비슷하다.

RNN은 왜 밀려났고, 무엇을 되찾으려 하나

RNN은 sequence를 한 단계씩 읽는다. 다음 상태는 이전 상태에 의존한다. 이 구조는 자연스럽지만, 학습 단계에서 병렬화가 어렵다. 문장을 첫 단어부터 차례대로 처리해야 하므로, GPU가 한꺼번에 많은 계산을 처리하기 어렵다. Transformer가 등장했을 때 RNN이 빠르게 주변부로 밀려난 이유도 여기에 있다.

*Were RNNs All We Needed?*의 핵심은 RNN을 그대로 되살리는 것이 아니다. 논문은 LSTM과 GRU에서 복잡한 구성 요소를 줄여 minLSTM, minGRU를 만들고, 이 단순화가 세 가지 효과를 낼 수 있다고 설명한다.

  1. 기존 LSTM/GRU보다 파라미터가 적다.
  2. 학습 단계에서 완전 병렬화가 가능하다.
  3. 여러 작업에서 Transformer를 포함한 최근 모델과 경쟁할 수 있는 성능을 보인다.

이 주장은 “RNN이 Transformer보다 무조건 낫다”가 아니다. 더 정확한 해석은 “Transformer가 이긴 이유 중 일부는 RNN이라는 아이디어의 한계가 아니라, 당시 RNN 설계의 계산 구조 때문이었을 수 있다”에 가깝다.

용어 해설: RNN

이전까지 읽은 내용을 작은 메모리처럼 들고 다음 입력을 처리하는 신경망 구조다.

예: 긴 이야기를 한 줄씩 읽으면서 중요한 내용을 머릿속 메모장에 적어 두고, 다음 줄을 이해할 때 그 메모를 참고하는 방식과 비슷하다.

용어 해설: 병렬화

여러 계산을 순서대로 하나씩 하지 않고 동시에 처리하는 것이다.

예: 반 친구 30명의 시험지를 선생님 한 명이 차례대로 채점하면 오래 걸리지만, 여러 선생님이 나눠서 동시에 채점하면 훨씬 빨라지는 것과 같다.

“대체제”라는 말의 정확한 의미

Transformer 대체제라는 표현은 종종 과장된다. 실제 연구 현장에서는 단일 구조가 모든 문제를 대체하기보다, workload에 따라 다른 구조가 선택된다. 긴 문맥, streaming 입력, 낮은 지연시간, 제한된 메모리 같은 조건에서는 recurrent 구조나 state-space model이 더 매력적일 수 있다. 반대로 범용 언어 모델 학습과 생태계 호환성에서는 Transformer의 장점이 여전히 크다.

minLSTMminGRU가 보여주는 의미는 구조의 단순함이다. 모델이 더 복잡해질수록 성능이 좋아진다는 직관과 달리, 오래된 구조에서 불필요한 의존성과 계산을 제거하면 새로운 경쟁력이 생길 수 있다. 이는 연구적으로도 실용적으로도 중요하다. 대체제의 가치는 “왕좌 교체”가 아니라 “설계 공간 확장”에서 먼저 나온다.

용어 해설: 파라미터

모델이 학습하면서 조정하는 숫자들이다.

예: 라면을 끓일 때 물의 양, 불 세기, 끓이는 시간을 여러 번 바꿔 보며 가장 맛있는 조합을 찾는다면, 그 조정값들이 모델의 파라미터와 비슷하다.

한계와 읽는 법

이 발표를 읽을 때 조심해야 할 점이 있다. 첫째, 논문이 제시한 결과는 “모든 LLM을 RNN으로 바꾸자”가 아니다. 실험 범위, 데이터 규모, 구현 최적화, 하드웨어 특성에 따라 결론은 달라진다. 둘째, Transformer 생태계는 모델 구조만으로 구성되지 않는다. tokenizer, training recipe, inference stack, distributed training, serving framework까지 많은 도구가 Transformer 중심으로 최적화되어 있다.

그럼에도 이 흐름은 중요하다. Transformer 이후 첫 번째로 던져야 할 좋은 질문은 “다음 유행 구조가 무엇인가?”가 아니라 “현재 표준 구조가 비싸지는 지점은 어디인가?”다. 그 지점을 정확히 찾으면, RNN처럼 오래된 아이디어도 다시 연구 후보가 된다.

Sources