추천 시스템 연구에서 Sequential Recommendation(순차적 추천)은 사용자의 과거 행동을 기반으로 다음 행동을 예측하는 중요한 문제입니다. 이를 연구하려면 시간 순서에 따른 사용자-아이템 상호작용 데이터가 필수적으로 포함된 데이터셋이 필요합니다.
이번 글에서는 실제 플랫폼에서 수집된 다양한 도메인의 Sequential Recommendation 데이터셋을 소개합니다. 각 데이터셋은 특정 플랫폼에서 사용자 행동 데이터를 수집하여 정제한 것이며, 추천 모델 연구 및 평가에 활용할 수 있습니다.
1. Meituan1
- 데이터 출처: https://www.meituan.com
- 설명
- 중국 Meituan 플랫폼에서 베이징 지역의 6년간(2014년 1월~2020년 1월) 거래 기록을 포함한 데이터셋입니다.
- 사용자의 카테고리, 위치, 고객 리뷰에서 추출한 키워드 등의 정보를 속성으로 활용할 수 있습니다.
2. Amazon Review Dataset
- 데이터 출처: https://huggingface.co/datasets/McAuley-Lab/Amazon-Reviews-2023
- 설명
- Amazon에서 제공하는 상품 리뷰 데이터셋으로, 여러 하위 카테고리로 구성되어 있습니다.
- 상품의 세분화된 카테고리 및 브랜드 정보를 속성으로 포함하고 있습니다.
3. Yelp2
- 데이터 출처 : https://www.yelp.com/dataset
- 설명
- 비즈니스 추천 연구를 위한 대표적인 데이터셋입니다.
- 데이터의 크기가 방대하기 때문에 2019년 1월 1일 이후의 거래 기록만을 사용했습니다.
- 비즈니스 카테고리를 속성으로 포함하고 있어, 특정 업종에 대한 추천 모델을 연구하는 데 유용합니다.
4. LastFM3
- 데이터 출처 : https://grouplens.org/datasets/hetrec-2011/
- 설명
- 음악 아티스트 추천을 위한 데이터셋으로, 사용자의 아티스트 태깅 행동을 포함하고 있습니다.
- 사용자가 특정 아티스트에게 부여한 태그(tag) 정보를 속성으로 활용할 수 있어, 음악 취향을 반영한 추천 모델 연구에 적합합니다.
'LLM' 카테고리의 다른 글
[LLM/개념] 자기지도 학습(Self-Supervised Learning) 이란? (0) | 2025.03.06 |
---|---|
[LLM/논문리뷰] LLM-Rec: Personalized Recommendation via Prompting Large Language Models (2) | 2025.02.23 |
Hugging Face 로그인하는 2가지 방법 (Jupyter Notebook & CLI) (0) | 2025.02.07 |
[LLMRec/논문리뷰] Zero-Shot Next-Item Recommendation using Large Pretrained Language Models (1) | 2025.02.03 |
[LLMRec/개념] Generative Retrieval이란? (0) | 2025.02.02 |