admin 管理员组

文章数量: 887007

最近在做融合评论信息的推荐系统,找到了许多数据集,就在这里总结一下吧。

 

Retailrocket 商品评论和推荐数据

The dataset consists of three files: a file with behaviour data (events.csv), a file with item properties (item_properties.csv) and a file, which describes category tree (category_tree.csv). The data has been collected from a real-world ecommerce website. It is raw data, i.e. without any content transformations, however, all values are hashed due to confidential issues. The purpose of publishing is to motivate researches in the field of recommender systems with implicit feedback.

 

主要适用于隐式反馈推荐系统

下载地址:https://www.kaggle/retailrocket/ecommerce-dataset

 

Million Songs Dataset 百万音乐数据集

 

The Million Song Dataset is also a cluster of complementary datasets contributed by the community:

  • SecondHandSongs dataset -> cover songs
  • musiXmatch dataset -> lyrics
  • Last.fm dataset -> song-level tags and similarity
  • Taste Profile subset -> user data
  • thisismyjam-to-MSD mapping -> more user data
  • tagtraum genre annotations -> genre labels
  • Top MAGD dataset -> more genre labels

 

包含多种类型的音乐数据集,适用于带标签的推荐系统

 

下载地址https://labrosa.ee.columbia.edu/millionsong/

 

Yelp 点评网站官方公开数据

包含470万评论和15.6万商家信息,以及相应的商品图片,适用于加入评论元素的推荐系统

下载地址:https://www.yelp/dataset

 

Amazon product data

数据集包含了亚马逊各类商品的数据,分为只有评分的数据集和即有评论也有评分的数据集

适用于加入评论元素的推荐系统

下载地址:http://jmcauley.ucsd.edu/data/amazon/

 

Epinions Dataset

包括用户trust关系、用户对item的打分信息、评论信息

下载地址:http://www.trustlet/epinions.html

 

 

HetRec2011 Dataset

包括了movielens-2k、delicious-2k和last.fm-2k。

在movielens-2k中,电影的信息更加丰富了,有IMDB和Rotten Tomatoes的信息,具体还有电影对应的genre、director、actor、发行的国家、拍摄的地点、tag信息,当然还有打分信息。

在delicious-2k中,是用户对bookmark(书签)的tag信息。具体包括用户之间的relation、书签的title和url、用户对书签使用的tag。这个数据集适用于tag的推荐。

在last.fm-2k中,是用户收听音乐的信息。具体包括双向的朋友关系、艺术家、用户收听艺术家信息(有weight)、用户对艺术家的tag信息、艺术家tag信息。

适用于加入标签的推荐系统

下载地址:https://grouplens/datasets/hetrec-2011/

 

Julian McAuley

Julian McAuley教授实验室发布的一系列数据集,种类非常齐全,炒鸡推荐

适用于融合评论,图片,社交,位置,问答,商品关系等的推荐系统

下载地址:https://cseweb.ucsd.edu/~jmcauley/datasets.html

 

sugar~

 

 

 

 

本文标签: 系统 常用 数据