KDD2021 放榜，6 篇论文带你了解阿里妈妈AI技术-技术圈

关于 KDD

ACM SIGKDD（国际数据挖掘与知识发现大会，简称 KDD）是国际数据挖掘领域的顶级会议，由 ACM 的数据挖掘及知识发现专委会（SIGKDD）主办，被中国计算机协会推荐为A类会议。自 1995 年以来已连续举办 26 届，今年将于 8月14日至18日在新加坡举办。

据 KDD2021 官方发布的信息，本届会议共吸引了 1541 篇论文投递，其中有 238 篇论文被接收，接收率为15.44%，相比 KDD2020 的接收率16.9%有所下降。

阿里妈妈论文概述

阿里妈妈技术团队此次共有6篇论文被接收，涵盖深度学习、投放策略推荐、端到端机制优化、协同竞价博弈等多个方向的技术沉淀和应用。关注公众号，回复 KDD 一次性获取已公开论文下载链接~

为系统性探讨深度学习在大规模工业级稀疏数据上的应用实践及高度个性化内容体验目标下的数字广告趋势，阿里妈妈资深技术专家怀人和广呆还将在会议期间组织和主持两场 workshop（线上线下同步）：DLP-KDD 和 AdKDD，欢迎感兴趣的同学关注并参与。

今天，我们带来了这次被接收的6篇论文（其中5篇已开放下载）。接下来，我们会陆续邀请论文作者来为大家详细解析论文思路和技术成果，敬请期待！

▐ A Unified Solution to Constrained Bidding in Online Display Advertising

一种对在线展示广告约束出价问题的通用解决方案

摘要：在线展示广告场景下，广告主通常以实时竞价的方式获取曝光机会。在大多数广告平台，广告主最常见的需求就是在预算及某些KPI约束下最大化竞得流量的价值（如在预算和点击成本约束下最大化点击量）。每个广告主的投放需求在营销目标（如点击、曝光）、KPI约束类型（如点击成本上界、点击率下界）以及KPI约束数量三个维度上都有很大不同。现有的研究通常局限于某个特定的投放需求，缺乏通用性，或者很难达到最优投放结果。

在本文中，我们将广告主的各种投放需求形式化为约束出价问题，并且推导出了统一的最优出价策略。对于每个广告投放计划来说，其最优出价公式由m个参数组成，m为约束数量。然而在实际应用过程中，由于参竞环境不断波动，确定每天的最优出价参数是很困难的事。针对该问题，本文提出了一个强化学习方法，该方法会在计划投放过程中根据投放状态动态调整出价参数，使其尽可能逼近最优参数。其中，我们基于约束出价问题的子问题特性，对强化学习训练过程进行了优化，使其能够更快地收敛到最优解。我们将提出的统一的约束出价问题的形式化与强化学习方法称为Unified Solution to Constrained Bidding in Online(USCB)。USCB在工业场景真实数据集上取得了很好的效果，与此同时，该方法已经在阿里妈妈广告投放策略平台成功部署，为各个业务线提供出价参数调控服务，为平台收入与广告主投放效果带来了显著提升。

▐ NeuralAuction: End-to-End Learning of Auction Mechanisms for E-Commerce Advertising

NeuralAuction: 电商广告中的端到端机制优化方法

摘要：在电商广告系统中，综合考虑多利益方（用户、广告主、平台）的目标十分关键。传统的拍卖机制（例如GSP/VCG）由于分配规则确定且专注于优化单一目标（例如收入/社会福利），在优化多利益方指标时可能是次优解。一种可能的研究方向是使用基于数据驱动的机器学习方法，它能从真实数据中直接学习拍卖机制，并有能力使机制朝着给定的业务目标灵活调控。然而，拍卖机制的执行过程中涉及一些不可导的操作（如排序等），这些操作可能和基于梯度的大多数深度学习方法难以兼容，制约了机制模型的学习能力。

在本文中，我们进一步将深度学习和机制设计方法深度融合，提出一种可端到端学习的深度拍卖机制——Deep Neural Auction (DNA)，并将其应用在工业界电商广告场景中。DNA使用深度神经网络从原始拍卖数据中提取特征信息，并将机制分配过程编码到模型内部，利用一种可微分算子对该分配过程中的排序操作进行松弛，在分配结果和反馈信号间建立可微分梯度计算关系以支持端到端训练。此外，我们将机制的博弈均衡属性（广告主激励兼容）显式融入模型设计中。DNA机制已被部署在淘宝电商广告系统中，在大规模离线数据集实验以及在线A/B实验中，DNA机制对比传统机制在优化多利益方指标上都展现出了更好的效果。

论文下载：https://arxiv.org/abs/2106.03593

▐ Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling

一种使用真负样本的在线延迟反馈建模

摘要：转化率 (CVR) 预测的难点之一是转化可能会延迟并在点击后很长时间内发生。延迟反馈带来了挑战：新数据有利于在线学习，但在它们在注入到训练流程时可能没有完整的标签信息。为了平衡模型新鲜度和标签确定性，以前的方法设置了一个较短的等待窗口，甚至不等待转化信号。如果转换发生在等待窗口之外，则此样本将被复制并以正标签注入到训练流程中。但是，这些方法存在一些问题。首先，他们假设观察到的特征分布与实际分布保持一致。但是由于获取了重复样本，这个假设不成立。其次，转化动作的确定性仅来自正例。但由于商业系统中的转化数据很少，因此正例很少。这些问题在延迟反馈的建模过程中会导致偏差。

在本文中，我们提出了 Defer建模方法来解决这些问题。所提出的方法将真实的负样本注入到训练管道中。注入真实负样本确保观察到的特征分布与实际分布等效，从而减少偏差。真实负样本的注入也给转化带来了更多确定性信息。为了纠正分布偏移，Defer使用重要性采样来权衡损失函数。工业数据集的实验结果验证了Defer 的优越性。Defer 已部署在阿里巴巴的展示广告系统中，在多个场景下获得超过 6.0% 的 CVR 提升。

论文下载：https://arxiv.org/abs/2104.14121

▐ We Know What You Want: An Advertising Strategy Recommender System for Online Advertising

广告主端的“猜你喜欢”：在线广告投放策略推荐系统

摘要：广告主在电子商务平台中起着重要作用，其广告支出是电子商务平台的主要收入来源。通过减少广告实时出价过程中的试错成本为广告主提供更好的广告体验，对于电子商务平台的长期收入至关重要。为了实现这一目标，广告平台需要了解广告主的独特营销需求，并积极为其推荐个性化和最佳的广告策略。在这项工作中，我们首先在淘宝展示广告平台上部署了一个原型推荐系统，以实现广告主人群出价和人群选择的优化。然后，我们提出了一种新颖的用于动态出价策略推荐的推荐系统，该系统将广告主的策略推荐问题建模为上下文老虎机问题。我们使用神经网络，根据广告主的信息和历史采纳行为来预测广告主的需求。基于预测的需求，我们应用模拟竞价来推导用于推荐的最佳出价策略，并通过显示预估的广告效果与广告主进行交互。为了解决探索/利用问题，我们用Dropout表示网络的不确定性，以进行有效的策略探索，可以证明这种方式近似等价于汤普森采样。在线评估表明，原型推荐系统可以优化广告主的广告效果，广告主愿意打开该系统，选择并采纳建议，这也进一步增加了平台的收入。基于阿里巴巴在线竞价数据的仿真实验证明，上下文老虎机算法可以有效优化广告主的采纳率。对比实验证明汤普森采样可以更好地平衡探索和利用，进一步优化模型的性能。

论文下载：https://arxiv.org/abs/2105.14188

▐ Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search

基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化

摘要：在线广告是一种以互联网为载体，帮助广告主触达目标消费者，从而实现商业诉求的广告形式。在线广告通常通过实时竞价的方式决定胜出者。电商搜索广告是一种主流的在线广告：消费者在电商平台表达搜索请求，触发相关广告主的实时竞价以及平台流量分配，并带来可能的成交行为。在高度动态的电商市场，每天通常有数百万的广告主，这些广告主诉求各异，经由上千亿次的实时竞价竞争接近百亿次的用户曝光。如何在如此大规模的电商流量场景下，通过优化实时竞价，满足广告主多样化目标诉求是一个颇具挑战的问题。学术界和工业界已经深入研究了单广告主视角的竞价优化问题，这些研究往往即假设其他竞争者不改变出价，这一强假设往往不成立，导致策略在运用于多广告主真实竞价时往往表现较差。少量现有工作从多广告主视角，利用多智能体强化学习，通过构建一致的目标进行出价的协同优化，但他们存在如下缺陷：（1）由于信息完全共享，这些方法很难避免多广告主串谋的问题，一种显而易见的更优解是广告主串通出较低价竞价流量，导致平台收益受损；（2）在复杂动态的竞价环境中，这些策略需要较长时间收敛并且极度不稳定。此外，针对电商搜索广告竞价优化问题，以往的工作很少考虑同时优化广告主多样化的诉求目标。

针对以上问题，本文提出了一套新颖的多目标协同出价优化框架，即多智能体协同出价博弈。在该合作博弈框架中，本文通过引入一个全局的目标以优化所有广告主的总体利益，鼓励了广告主更好的协同，从而间接保护了自主出价广告主的利益，使得流量分配更加公平。为解决多广告主串谋问题，本文也额外引入了平台的收入作为约束。本文通过理论分析给出了最优出价公式的泛函形式，并设计了一种策略网络用于探索泛函出价公式中的最优参数。为寻找最优参数，本文同时设计了一种高效的多智能体进化策略搜索算法。进化策略不需要显式建模动态环境，使得求解过程具有更好的鲁棒性。淘宝搜索广告平台上广泛的离线评测和在线A/B测试，都显示本文的方法显著优于现有最新的工作。该模型已经上线部署到淘宝搜索广告平台，每天服务上百万广告主的实时竞价优化，使得整体大盘效率指标以及广告主自身诉求均有5%以上提升。

论文下载：https://arxiv.org/abs/2106.04075

▐ Exploration in Online Advertising Systems with Deep Uncertainty-Aware Learning

基于深度置信度感知学习的广告投放探索方案

摘要：目前先进的在线广告系统得益于个性化方法，例如点击率预估技术。依托于深度学习丰富的表示能力，深层点击率预估模型在工业界获得大规模应用，并取得了巨大成功。但是，这些方法可能会受限于“缺乏探索”问题。此前的一系列工作借助上下文赌博机（Contextual Bandit）方法来解决探索与利用的权衡问题，但这些方法难以兼容深层模型，因而表示能力受限。

在本文中，我们提出了一种新颖的深度置信度感知学习（DUAL）方法，基于高斯过程（Gaussian Process）学习点击率模型。该方法可以在保持深层模型灵活表示能力的同时，提供模型预估不确定性的估计。DUAL可以轻松地在现有模型上实现，并以极少的额外计算开销部署于实时系统中。通过结合DUAL对模型预估不确定性的估计能力与Bandit算法，我们进一步提出了基于DUAL的广告投放策略，以提高广告系统的长期效用。在几个公共数据集上的实验结果均表明了该方法的有效性。同时，在阿里巴巴展示外投广告平台上部署的在线A/B测试结果显示，DUAL方法显著提升了平台收入等指标。

论文下载：https://arxiv.org/abs/2012.02298

写在最后

据不完全统计，在过去三年，阿里妈妈技术团队发表在国际顶会的论文数量超过50篇，相信很多内容也有被业内同学所关注。

比如，在 KDD2018 上由阿里妈妈技术团队首先提出的深度兴趣网络（Deep Interest Network，简称 DIN），被普遍认为是该领域的开篇之作。DIN 是一种有效的用于 CTR（点击率）、个性化推荐的深度学习模型，其效果在阿里妈妈的业务中得到验证并已经开源，可适用于其他很多场景。感兴趣同学可在公众号回复 DIN 获取相关资料~

接下来，阿里妈妈技术团队会持续以深度学习为核心，在阿里自研的业 AIOS、MaxComputer 等基础上面，构建 XDL、MDL、EULER 三大AI平台（其中 XDL、EULER 已经开源）和八大智能方向，包括：深度匹配（Intelligent Matching）、行为预测（Deep Response Prediction）、机制设计学习（Learning-based Mechanism Design）、智能出价（Smart Bidding）、智能创意（Smart Creative）、智能多触点归因（Multi-Touch Attribution）、联邦学习（Federated Learning）、图神经网络（Graph Neural Network）。当然，我们也会定期分享我们在业务上的技术创新与实践，希望给从事相关工作的同学带来启发。

正如阿里妈妈 CTO 郑波所提到的：“深研AI前沿技术，是为了大规模应用于实际业务；论文不是目的，重要的是分享。我们也会尽可能多的开源，和大家共享AI技术带来的红利。