A Survey on Large Language Models for Recommendation
1. 기본 정보
- 논문 제목: A Survey on Large Language Models for Recommendation
- 출판연도: 2024년 6월
- 핵심 키워드: Large Language Models (LLMs), Recommendation Systems (RS), Discriminative LLMs, Generative LLMs, Fine-Tuning, Prompt Tuning, Instruction Tuning
2. 핵심 요약
1) 연구 배경과 목적
이 논문은 대규모 언어 모델(LLM)을 추천 시스템에 적용하는 최근 연구 동향을 포괄적으로 정리합니다. 기존 추천 시스템은 사용자-아이템 상호작용 데이터의 부족과 문맥 이해의 한계를 겪고 있습니다. 이를 해결하기 위해 LLM을 활용하여 추천 품질을 향상시키는 다양한 방법론을 제시하며, 특히 Generative LLM의 가능성을 중점적으로 탐구합니다.
2) 핵심 기술
✅ LLM을 추천 시스템에 통합하는 방식
LLM을 활용한 RC 모델링 패러다임은 다음과 같이 세 가지로 구분할 수 있습니다.
- (1) LLM Embeddings + RS
- LLM을 특성 추출기로 활용하여 사용자와 아이템의 features를 입력받고, 이를 바탕으로 임베딩을 생성합니다.이 때 LLM은 추천 시스템을 보조하는 역할만 하며, 핵심 추천 로직은 별도의 모델에서 처리됩니다.
- 이 방법은 지식 기반 임베딩을 통해 다양한 추천 작업에 활용될 수 있습니다.
- (2) LLM Tokens + RS
- 사용자와 아이템의 features를 바탕으로 token(단어, 문장 등)을 생성하며, 이 토큰은 사용자 선호(potential preferences)를 분석하거나 의사 결정에 사용됩니다.
- 텍스트 데이터를 사용하여 사용자의 잠재적인 선호도를 더 잘 반영합니다. 또한 LLM이 텍스트 표현을 생성하지만 최종 추천 작업은 여전히 외부의 추천 시스템이 수행합니다.
- (3) LLM as RS
- (1)과 (2)와는 달리, LLM이 단독적으로 추천 시스템 역할을 하며, 별도의 추천 모델이 필요하지 않습니다.
- 입력은 프로필 설명(profile description), 행동 프롬프트(behavior prompt), 작업 지침(task instruction)으로 구성되며, 출력은 합리적인 추천 결과를 제공합니다.
✅ LLM 분류별 추천 시스템
- 판별 모델 (Discriminative Models)
- 판별 모델은 주로 데이터를 분류하거나 예측하는 데 중점을 둡니다. 추천 시스템에서 이 모델은 다음과 같은 과정을 통해 동작합니다.
- LLM을 표현 학습 도구로 사용:
- LLM이 아이템(상품)과 사용자 데이터를 기반으로 벡터 임베딩을 생성합니다. 예를 들어, 사용자가 좋아하는 상품과 상품 자체의 텍스트 설명을 학습하여 각 데이터를 수치화합니다.
- 이 임베딩은 추천 시스템의 입력값으로 사용되어 사용자와 아이템 간의 연관성(추천 점수)을 계산합니다.
- 추천 도메인에 맞춰 조정:
- 학습 과정에서 LLM의 표현(임베딩)을 추천 도메인의 데이터에 맞게 fine-tuning하거나, 추가적인 학습 기법(예: prompt tuning)을 적용하여 특정 추천 작업에 최적화합니다.판별 모델은 주로 데이터를 분류하거나 예측하는 데 중점을 둡니다. 추천 시스템에서 이 모델은 다음과 같은 과정을 통해 동작합니다:
- LLM을 표현 학습 도구로 사용:
- 이 방식은 LLM을 텍스트 표현의 "기초 작업 도구"로 사용하고, 추천 작업은 별도의 모델에서 처리합니다. 즉, LLM은 데이터 전처리나 임베딩 생성 역할에 그칩니다.
- 판별 모델은 주로 데이터를 분류하거나 예측하는 데 중점을 둡니다. 추천 시스템에서 이 모델은 다음과 같은 과정을 통해 동작합니다.
- 생성 모델(Generative Models)
- 생성 모델은 데이터를 단순히 분류하거나 예측하는 것을 넘어, 직접적인 추천 결과를 자연어 형태로 생성할 수 있는 능력을 갖추고 있습니다. 이를 통해 추천 작업 자체를 자연어 처리 작업으로 변환합니다. 이 과정은 다음과 같이 이루어 집니다.
- 추천 작업을 자연어 처리(NLP) 작업으로 변환:
- 추천 작업을 텍스트 기반 작업으로 표현합니다. 예를 들어:
- 사용자 입력: "내가 최근에 읽은 책과 비슷한 책을 추천해줘."
- LLM 입력: 사용자의 프로필, 행동 데이터, 추천 시스템의 목표를 자연어 형태로 전달.
- LLM 출력: "당신에게 추천하는 책은 'The Night Circus'입니다."
- 추천 작업을 텍스트 기반 작업으로 표현합니다. 예를 들어:
- 생성 결과 직접 출력:
- 생성 모델은 데이터를 이해하고, 이를 기반으로 결과물을 직접 생성합니다. 이 과정에서는 다음 기술이 사용됩니다:
- In-context learning: LLM이 입력된 데이터(컨텍스트)만으로 작업을 수행.
- Prompt tuning: 특정 추천 작업에 적합한 지시문(프롬프트)을 설계하여 LLM의 출력을 최적화.
- Instruction tuning: 다양한 추천 작업 유형에 대해 학습하여, 제로샷/퓨샷 학습 능력을 강화.
- 생성 모델은 데이터를 이해하고, 이를 기반으로 결과물을 직접 생성합니다. 이 과정에서는 다음 기술이 사용됩니다:
- 추천 작업을 자연어 처리(NLP) 작업으로 변환:
- 생성 모델은 데이터를 단순히 분류하거나 예측하는 것을 넘어, 직접적인 추천 결과를 자연어 형태로 생성할 수 있는 능력을 갖추고 있습니다. 이를 통해 추천 작업 자체를 자연어 처리 작업으로 변환합니다. 이 과정은 다음과 같이 이루어 집니다.
주요 결과
- LLM은 기존의 ID 기반 추천 시스템을 보완하며 제로샷 및 퓨샷 추천 능력을 통해 콜드스타트 문제를 해결할 가능성을 보여줌.
- 생성적 LLM은 자연어 생성 기능을 활용해 설명 가능한 추천을 가능하게 하며, 사용자 맞춤형 상호작용을 촉진.
- 다양한 추천 시나리오에서 NDCG, MSE 등 기존 평가 지표를 적용하여 성능 검증.
적용 분야
- 전자상거래: 사용자 맞춤형 상품 추천.
- 미디어: 영화, 음악, 뉴스 추천.
- 게임: 사용자 인터랙션 기반 게임 추천.
한계점 및 향후 연구
- 모델 편향:
- 위치 편향(Position Bias)
- 인기 편향(Popularity Bias)
- 공정성 문제(Fairness Issues)
- 프롬프트 설계:
- 사용자 행동 시퀀스 및 항목 표현 제한.
- LLM의 문맥 길이 제약.
- 향후 연구 방향:
- 효율적이고 공정한 LLM 기반 추천 시스템 개발.
- 생성적 추천의 평가 기준 및 대규모 데이터셋 개선.