Skip to content

请教一下数据预处理的问题 #5

@IamLihua

Description

@IamLihua

您好,非常感谢您的工作。
我是一个刚接触推荐系统的小白,从 https://huggingface.co/datasets/McAuley-Lab/Amazon-Reviews-2023/tree/main/benchmark/5core/last_out_w_his 下载数据集并自己预处理时,发现物品数量过多,不方便自己的模型后续预测,以Video_Games为例,设置最大截断长度为10,过滤后仍有2.5万个唯一物品(您给出的是9517个唯一物品)
为此,我想请教一下:

  1. 是我下载的数据集不对吗
  2. 您是否使用了另外的过滤方法,方便提供一下数据预处理脚本吗
    如果您能在百忙之中回答我的疑问,我将不胜荣幸!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions