点击率(Click-through Rate, CTR)预测在推荐系统中至关重要,直接影响用户的体验和平台的收入。近年来,CTR引起了行业和学术界的关注,也推动了各种开源CTR数据集的出现。然而,当前现有的CTR数据集还存在一些局限。为解决CTR数据集存在的部分局限问题,蚂蚁集团提出了一个基于支付宝平台真实工业数据集——多场景多模态点击率预测数据集(AntM2C,Multi-Scenario Multi-Modal CTR)数据集。
它包括支付宝平台五类业务场景的10亿个CTR数据。除了包含ID特征外,每个样本还包含多模态特征,为CTR模型提供了全面的评估信息。在ATEC“数星”计划首批发布的数据集中,AntM2C也首次公开发布了1000万条数据,并且即将进行第二轮总体数据量级达到十亿的开源。
本数据集的发布填补了行业内多场景多模态点击率预估问题的数据集空白,后续AntM2C还发布更多的数据和特征,并逐步对AntM2C进行更先进的基线方法的评估,提供全面而可靠的评估结果。
目前,蚂蚁集团多场景多模态点击率预估数据集第一阶段开源(AntM2C)可在ATEC官方平台下载,数据集下载入口:https://www.atecup.cn/ods
点击率预测在在线广告、搜索引擎和推荐系统等各个领域发挥着重要作用。CTR预测任务是估计用户点击给定商品的概率。它对于提高用户参与度、提升用户体验、以及优化广告收入至关重要。但CTR预测中的一个难点在于如何对不同的CTR模型进行准确评估。为应对这类挑战,开源CTR数据集为评估不同CTR模型的性能提供了标准化和基准环境,能够使研究人员比较不同模型的有效性,确定适用于特定应用的、最合适的模型。但是,现有的CTR数据集仍然存在一些局限。首先,在实际的工业CTR预测中,用户通常会点击来自不同业务场景的各类商品,并对不同商品带有个人的偏好。例如,用户可能会在支付宝Tab3页面上浏览有关咖啡的视频,然后在营销活动期间点击咖啡优惠券,最后使用支付宝搜索点击咖啡订购小程序下单。联合建模这种多场景的CTR数据不仅可以更全面地了解用户的偏好,还可以共享场景之间的知识,以提高每个场景下的CTR效果。然而,现有的CTR数据集通常仅涵盖有限种类的商品,且通常来自相同的业务场景,无法捕捉到用户的多场景偏好。例如,Criteo和 Avazu只涉及广告的CTR数据;作为电商平台,亚马逊和AliExpress只提供了他们的电商商品的CTR数据;Tenrec更专注于视频和文章推荐。其次,多模态特征可以解决不同业务场景中相似商品的ID不一致问题,并有效地建立不同场景之间的桥梁。例如,在不同的业务场景中,关于咖啡的视频和咖啡优惠券具有不同的ID。因此直接使用ID特征无法感知这两个商品之间的关系。同时,随着大型语言模型(LLMs)的兴起,将LLMs与CTR相结合已成为新兴的研究领域。但是现有的CTR数据集大多都是基于ID类特征,其他模态的数据较少,难以支撑目前研究的需求。第三,现有的数据集通常在1亿左右规模,无法进一步验证模型在更大规模的工业场景中的能力,需要更大规模的数据集全面地反映CTR模型的在真实工业生产环境中的实际性能。为解决上述挑战,蚂蚁集团提出了AntM2C数据集,这是一个用于CTR预测的大规模多场景多模态数据集。与现有的CTR数据集相比,AntM2C具有以下优势:【多样的业务场景和商品类型】:AntM2C数据集包含了支付宝平台上五类典型业务场景中不同类型的商品,包括广告、优惠券、小程序、内容和视频。每个业务场景都有独特的数据分布,不同场景之间也存在大量交叉用户和相似商品,这可以用于对多场景CTR建模进行更全面的评估,以测试CTR模型在多个业务场景中的有效性。
【多模态特征系统】:AntM2C不仅包括ID特征,还提供了丰富的多模态特征,如文本和图像,可以在不同场景之间建立相似商品之间的联系,并能够更好地评估多模态CTR模型。此外,AntM2C的特征系统包括200多个特征,使其更加贴近工业场景中的实际CTR预测(在第一阶段开源中,AntM2C开源了1000万个样本,包括29个ID特征和2个文本特征,更多的数据和图像特征将会在后续阶段中逐步发布)。
【最大的数据规模】:AntM2C包括2亿用户和600万个商品,总共达10亿个样本。每个用户的平均交互次数超过50次。据开源方所知,AntM2C是目前规模最大的公开CTR数据集,可以提供全面可靠的CTR评估结果。
【全面的基准测试】:基于AntM2C数据集,开源方构建了三个典型的CTR任务,包括多场景建模、冷启动建模和多模态建模。在此基础上还提供了基线模型的评估结果。这些评估结果不仅可以帮助研究人员和从业者更好地了解不同CTR任务的性能和挑战,还提供了参考和比较的依据。
当前,AntM2C数据集可在https://www.atecup.cn/home获取。源于支付宝平台真实工业数据而生的AntM2C数据集
为了满足用户的日益增长的需求,支付宝向用户推荐不同业务场景的各种类型的商品。AntM2C从支付宝的五类场景中汲取CTR数据,其中每类场景下的商品类型都AntM2C存在差异,如图1所示,搜索中的服务和内容、营销中的优惠券、Tab3页面中的视频以及会员页面上的广告各有不同。在搜索场景中,当用户输入搜索词时,几个相关的服务或内容的小程序会显示出来以供用户点击;在营销场景下,平台会推荐一些消费者优惠券,用户可以点击他们想要使用的优惠券;在Tab3页面上,推荐的项目主要是短视频,用户可以选择观看他们感兴趣的视频;在会员页面上,用户可能会点击一些在线广告。总之,AntM2C数据取材于不同业务场景的各类商品。AntM2C从上述五类场景中收集了连续9天(从20230709到20230717)的CTR样本,然后筛选出了总点击次数高于30次的高活跃用户的10亿个样本。在开源的第一阶段,蚂蚁集团从这10亿个样本中随机抽取了1000万个样本,表1展示了数据的统计信息。在后续阶段,开源方将陆续开放所有10亿个样本。出于保护用户隐私,数据集中将使用字母“A-E”以替代场景的真实名称。此外,AntM2C数据集已经进行了去标识化和加密处理,不包含任何个人可识别信息(PII)。在数据集中,每个用户都经过了安全编码。在实验过程中,开源方也采取了充分的数据保护措施,以减轻数据拷贝泄露的风险。需要注意的是,该数据集仅用于学术研究,不做任何实际的商业使用。AntM2C数据集中的一部分用户在五个场景之间存在重叠。如下文的表2显示了不同场景之间重叠用户的数量,表明AntM2C可以有效地反映同一用户在不同场景中对商品的偏好,从而进行多场景CTR评估。至于商品,由于不同场景之间的商品类型差异显著,不同场景之间的商品没有交集。同时,在数据集中,基于所有样本以及不同场景(A-E)的样本,以用户/商品的频率数量为横轴,以该频率下的用户/商品数量为纵轴,统计了用户和商品的频率分布情况,如图2所示。在商品分布方面,所有场景都呈现出长尾分布的情况,80%的样本出现频率少于5次。这种长尾分布与实际情况一致。至于用户分布,不同场景之间存在差异。在B场景中,用户频率分布有两个峰值,一个在5次以下,另一个在50次左右。频率超过50次后,用户数量随着频率增加而减少。在其他场景中,用户的曝光频率也遵循类似于商品的长尾分布,即更高的曝光频率对应的用户数量更少。由于场景之间存在重叠用户,多个场景中用户的长尾分布在全局样本中变成了正态分布。大多数用户的曝光频率是在50次左右。总体而言,AntM2C数据集中商品和用户的分布能够反映CTR预测的实际情况。图2 AntM2C数据集中用户和商品的频率分布情况
AntM2C数据集特征体系:不止用户和商品特征,更有额外特征
AntM2C数据集的特征系统,如表3所示,包括用户和商品的ID特征以及文本特征。用户特征由静态特征(用户静态属性和商品标题将在后续阶段公开)和用户序列特征组成。静态特征包括用户的基本属性,如性别、年龄、职业等。序列特征提供了用户在支付宝上的最近活动信息,包括点击的小程序、搜索的服务、购买的商品等。但如上文所述,为保护用户隐私,这些用户特征已经进行了去标识化和加密处理,以加密ID的格式出现在数据集中,无法重新构建原始的用户特征。除了基于ID的特征外,还包括用户搜索实体的原始文本,以提供多模态评估。商品特征包括商品ID和商品文本特征。商品ID是每个商品的全局唯一标识符,商品ID的编码方式在不同场景中可能有所不同。为解决不同场景中商品ID的不一致性,AntM2C还包括商品的原始标题文本和基于标题文本提取的实体。除了用户和商品特征外,AntM2C还提供了额外的特征,如日志时间和场景标识。研究人员可以利用这些额外的特征,根据时间灵活地拆分训练、验证和测试集,并在不同场景中评估性能。AntM2C中的标签表示用户是否点击了相应的商品。如果用户进行了点击操作,标签设置为1,否则设置为0。AntM2C中正负样本的比例可以从表1中的点击率中获得。需要注意的是,实际的在线日志存在大量的负样本(曝光但未被点击的样本)。为解决这个问题,AntM2C进行了负采样,导致数据集中的点击率高于实际在线日志中的点击率。数据集的应用:多场景CTR预估、冷启动CTR预估、多模态CTR预估
基于AntM2C,开源方选择了常用的AUC作为所有实验的度量指标,通过几个CTR预测任务进行了测试,并得到了一些评估结果,作为AntM2C的使用示例。在未来的工作中计划将继续更新更多的基线方法和评估结果。多场景CTR预测是工业推荐系统中的常见问题之一。它通过利用来自多个场景的CTR数据构建一个统一的模型。场景之间的知识共享能够使多场景模型相较于单场景建模达到更好的性能。开源方基于AntM2C数据集中的5类场景,使用不同的基线方法对多场景CTR预测进行评估。其中,主要选择多任务方法作为多场景CTR预测的基线方法。每个场景的CTR估计视为一个任务,并在底层共享场景之间的知识。
通过表4,可以得出以下结论。首先,与所有数据混合训练的DNN模型相比,所有的多任务模型都取得了更好的性能。这表明在AntM2C中,不同场景之间存在差异和共性,简单地混合训练数据不能得到最佳结果。其次,每个场景的CTR性能不同,表明不同场景之间存在不同的困难程度。例如,在场景B中,数据量较大,AUC普遍在0.93以上,而在场景D中,AUC仅约为0.68。AntM2C中多样的业务场景和商品使得CTR的评估更加全面和多样化。最后,具有专家结构化的MMOE和PLE优于共享底层模型,显示出精细化的模型设计可以提升在AntM2C上的性能,反映不同模型之间的差异。冷启动问题是推荐系统中的一个具有挑战性的问题。使用稀疏的用户-商品交互数据训练高质量的CTR模型是一个具有挑战性的任务。冷启动主要涉及两个方面:用户和商品。如图2所示,AntM2C数据集中的用户和商品呈现自然的长尾分布。因此,开源方在AntM2C数据集上对冷启动基线方法进行了全面评估,其中模拟了两种常见的冷启动问题:少样本和零样本。●少样本:在训练集中出现次数大于0且小于N的(本文设定N为100)用户和商品,表示这些用户和商品只有很少的训练数据。
●零样本:在训练集中从未出现过的用户和商品,表示用户是第一次访问该场景,或者该商品在第一天被推出。
在冷启动建模中的关键问题是如何在有限数据下学习用户偏好以及用户和商品的表征。近年来,基于元学习的冷启动方法已成为最先进的方法。因此,开源方选择了几种具有公开可用代码的代表性方法作为基线模型。由于冷启动用户和商品的数据有限,开源方没有按场景计算AUC,而是评估了冷启动用户和商品的整体效果。通过表5,可以得到以下结果。首先,与表4中的结果相比,冷启动用户和商品的AUC普遍低于整体水平,这表明AntM2C的数据能够有效地反映冷启动商品和用户之间的差异。其次,不同的冷启动方法在AntM2C中显示出可区分的结果,而且所有的方法都明显优于没有冷启动优化的DNN模型。这表明AntM2C能够有效地比较不同冷启动方法的效果,并展示了方法之间的差异性。最后,零样本的性效果低于少样本,这表明零样本CTR预测比少样本更具挑战性。AntM2C提供的两种冷启动模式可以全面评估冷启动CTR预测。随着大型语言模型(LLM)的兴起,有效地将LLM的知识转移到CTR预测中已成为一个热门的研究课题,已经有许多基于多模态CTR建模的工作使用了商品和用户文本等特征。AntM2C包含了用户和商品的原始文本特征,与现有的CTR数据集相比,可以提供更全面的多模态建模评估。因此,开源方在AntM2C数据集上对不同的多模态方法进行评估。作为基线模型,开源方使用语言模型来处理文本特征,然后将文本嵌入与其他ID特征进行拼接,输入到多场景模型中。为了方便评估,选择MMoE作为主干模型,并使用预训练的Bert-base,得出多模态CTR的评估结果,如表6所示。相较于仅使用ID模态的MMoE,在数据稀疏的场景C、D和E中加入文本模态后,CTR性能有所提升。由于当前使用文本模态的基线相对简单,性能改进并不显著,但这也显示了AntM2C提供的文本模态改进CTR性能的潜力。希望未来有更多的团队加入CTR相关的研究领域,在合规安全的前提下,参与数据集的开源及共建工作。感谢蚂蚁集团AntM2C数据集开源团队(蚂蚁集团机器智能团队、蚂蚁集团商业智能团队、蚂蚁集团应用智能AML团队)为公益性技术研究做出的贡献。
雷峰网(公众号:雷峰网)