본문으로 건너뛰기

"AI" 태그로 연결된 1개 게시물개의 게시물이 있습니다.

인공지능 관련 태그

모든 태그 보기

Transformer 이후 첫 번째 질문: RNN은 정말 끝났는가

· 약 5분
p4r4d0xb0x
Rustacean, AI, OSS Enthusiast

2017년 Transformer는 sequence model의 기본 가정을 바꿨다. “순서대로 읽는 모델”보다 “한 번에 보고 중요한 관계를 고르는 모델”이 더 잘 확장될 수 있다는 주장이 기계번역에서 먼저 증명됐고, 이후 LLM 시대의 표준 구조가 됐다. 그런데 표준이 된 구조에는 항상 비용이 따라온다. 긴 문맥을 다룰수록 attention 계산량과 메모리 사용량이 커지고, 추론 시에는 이미 지나간 토큰을 계속 참조하기 위한 캐시가 시스템 설계의 중심 문제가 된다.

ICLR의 Transformer 대체제 논의를 예시로 보면, 흥미로운 첫 질문은 “Transformer를 더 크게 만들 것인가?”가 아니라 “Transformer 이전의 RNN을 다시 설계하면 무엇이 남는가?”다. Leo Feng 등은 *Were RNNs All We Needed?*에서 LSTM과 GRU를 최소화한 minLSTM, minGRU를 제안하며, 오래된 recurrent 계열도 병렬 학습과 경쟁력 있는 성능을 동시에 가질 수 있다고 주장한다.