观沧海,特仑苏,贫血吃什么好-时爱平台-用心对待爱人每一秒,您的健康我们来呵护

频道:最近大事件 日期: 浏览:210

机器之心专栏

作者:罗远飞、王梦硕、周浩、姚权铭

涂威威、陈雨强、杨强、戴文渊

论文简介

论文:AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications

论文链接:https://arxiv.org/pdf/1904.12857.pdf

本文提出了一种在实践运用中主动完成表数据特征组合的办法 AutoCross。该办法能够取得特征之间有用的相互效果,并进步机器学习算法的猜测才能。该办法运用集束查找战略(beam search strategy)构建有用的组合特征,其间包括尚未被现有作业掩盖的高阶(两个以上)特征组合,弥补了此前作业的缺乏。

此外,该研讨提出了接连小批量梯度下降和多粒度离散化,以进一步进步功率和有用性,一起确保简略,无需机器学习专业知识或冗长的超参数调整。这些算法旨在下降分布式核算中触及的核算、传输和存储本钱。在基准数据集和实在事务数据集上的试验成果表明,AutoCross 能够明显进步线性模型和深度模型对表数据的学习才能和功能,优于其他依据查找和深度学习的特征生成办法,进一步证明了其有用性和功率。

布景介绍

近年来,机器学习尽管已在引荐体系、在线广告、金融市场分析等许多范畴取得了许多成功,但在这些成功的运用中,人类专家参加了机器学习的一切阶段,包括:界说问题、搜集数据、特征工程、调整模型超参数,模型评价等。

而这些使命的复杂性往往超出了非机器学习专家的才能规模。机器学习技能运用门槛高、专家本钱昂扬等问题成为了限制 AI 遍及的关键因素。因而,AutoML 的出现被视为进步机器学习易用性的一种最有用办法,经过技能手法削减对人类专家的依托,让更多的人运用 AI,取得更大的社会和商业效益。

众所周知,机器学习的功能很大程度上取决于特征的质量。由于原始特征很少发生令人满意的成果,因而一般要对特征进行组合,以更好地表明数据并进步学习功能。例如在新闻引荐中,若只要新闻类型、用户 ID 两类特征,模型只能别离猜测不同新闻类型或不同用户 ID 对点击率的影响。经过参加新闻类型 x 用户 ID 组合特征,模型就可学习到一个用户对不同新闻的偏好。再参加时刻等特征进行高阶组合,模型就可对一个用户在不一起间对不同新闻的偏好进行猜测,进步模型的个性化猜测才能。

特征组合作为进步模型效果的重要手法,以往大多需求构建巨大的数据科学家团队,依托他们的经历进行探究和试错,但繁琐、低效的进程令科学家非常苦楚,且并非一切企业都能接受昂扬的本钱。

第四范式从很早便开端重视并深耕 AutoML 范畴,从处理客户事务中心添加的视点动身,构建了反诈骗、个性化引荐等事务场景下的 AutoML,并将其赋能给企业的一般开发人员,取得了挨近乃至超越数据科学家的事务效果。其间,AutoCross 发挥了重要的效果。

痛点

特征组合是对从数据中提取的海量原始特征进行组合的进程,选用稀少特征叉乘得出组合特征。在线性模型如 LR 只能描写特征间的线性关系、表达才能受限,而非线性模型如 GBDT 不能运用于大规模离散特征场景的情况下,特征组合能够添加数据的非线性,然后进步功能。

但枚举一切组合特性,理论上很难做到,由于或许的组合特征数是指数级的,一起暴力添加特征或许会导致学习功能下降,由于它们或许是无关的或冗余的特征,然后添加学习难度。

尽管深度神经网络可主动构建高阶特征 (generate high-order features),但面临大多数以表方式出现的事务数据,最先进的依据深度学习的办法无法有用包括一切高阶组合特征,且存在可解释性差、核算本钱高级坏处。该论文投稿时,最先进的深度学习办法是 xDeepFM [1]。这篇论文证明了 xDeepFM 可生成的特征是 AutoCross 可生成特征嵌入(embedding)的子集。

AutoCross 的优势

完成进程

给定练习数据 ,并将其区分为练习集 和验证集 。咱们能够用一个特征调集 S 来表明 ,并用学习算法 L 练习一个模型 。之后,用验证集和同一个特征调集 S 核算一个需求被最大化的目标 。特征组合查找问题能够界说为查找一个最优子特搜集的问题:

其间 F 是 的原始特征调集,包括 F 一切原始特征以及依据 F 可生成的一切组合特征。

可是,假定原始特征数为 d,则上述问题中一切或许解的数量是 ,查找空间巨大。为了进步查找功率,AutoCross 将查找最优子特搜集的问题转换为用贪婪战略逐渐构建较优解的问题。首要,AutoCross 考虑一个树结构的查找空间 (图 3),其间每一个节点表明一个子特搜集。之后,用集束查找战略在 上查找较优解。经过这种办法,AutoCross 只需求拜访 个候选解,极大地进步了查找功率。AutoCross 的全体算法如算法 1 所示。

算法 1 中的一个关键步骤是评价候选特搜集。最直接的办法是用每个候选特搜集练习模型并评价其功能,可是这种办法核算价值巨大,难以在查找进程中重复履行。为了进步特搜集评价的功率,AutoCross 提出了逐域对数几率回归(field-wise logistic regression)和接连批练习梯度下降(successive mini-batch gradient descent)办法。

为了进步特搜集评价功率,逐域对数几率回归作出两种近似。首要,用特搜集在对数几率回归模型上的体现近似终究将运用这个特搜集的模型上的体现;其次,在考虑 中一个节点的子节点时,不改动该节点包括特征对应的权重(weight),仅练习子节点新增特征的权重。

图 4 阐明了如何将逐域对数几率回归布置在参数服务器架构上。逐域对数几率回归与参数服务器的结合能够进步特搜集评价的存储功率、传输功率和核算功率。在逐域对数几率回归练习完毕后,AutoCross 核算练习得模型的目标,并以此办法来评价每一个候选特搜集。

AutoCross 选用接连批练习梯度下降办法进一步进步特搜集评价的功率。该办法学习 successive halving 算法 [2],以为每一个候选特搜集是 multi-arm bandit 问题中的一个 arm,对一个特搜集用一个数据块进行权重更新相当于拉了一次对应的 arm,其报答为该次练习后的验证集 AUC。

详细算法见算法 2,算法 2 中仅有的参数是数据块的数量 N。N 能够依据数据的巨细和核算环境自习惯地确认。在运用接连批练习梯度下降时,用户不需求像运用传统的 subsampling 办法相同调整 mini-batch 的尺度和采样率。

为了支撑数值特征与离散特征的组合,AutoCross 在预处理时将数值特征离散化为离散特征。AutoCross 提出了多粒度离散化(multi-granularity discretization)办法,使得用户不需求重复调整离散化的粒度。多粒度离散化思维简略:将每一个数值特征,依据不同粒度区分为多个离散特征。然后选用逐域对数几率回归挑选出最优的离散特征。多个区分粒度既能够由用户指定,也能够由 AutoCross 依据数据巨细和核算环境来自习惯地挑选,然后下降了用户的运用难度。

试验成果

该论文在十个数据集(五个揭露、五个实践事务)进步行了试验。比较的办法包括:

效果比较:如下表 3 所示,AC+LR 和 AC+W&D 在大部分数据集上的排名都在前两位。这体现了 AutoCross 发生的特征不只能够增强 LR 模型,也能够用于进步深度学习模型的功能,而且 AC+LR 和 AC+W&D 的效果都优于 xDeepFM。如之前所说,xDeepFM 所生成的特征不能彻底包括 AutoCross 生成的特征。这些成果体现出显式生成高阶组合特征的效果优势。

高阶特征的效果:见表 5 和图 6。从中能够得出,高阶组合特征能够有用进步模型功能。

时刻耗费:见表 6、图 7(主要做展现用)。

揣度推迟:见表 7。从中能够得出:AC+LR 的揣度速度比 AC+W&D、Deep、xDeepFM 快几个数量级。这阐明 AutoCross 不只能够进步模型体现,一起确保了很低的揣度推迟。

参考文献

[1] J. Lian, X. Zhou, F. Zhang, Z. Chen, X. Xie, and G. Sun. 2018. xDeepFM: Com- bining Explicit and Implicit Feature Interactions for Recommender Systems. In International Conference on Knowledge Discovery & Data Mining.

[2] K. Jamieson and A. Talwalkar. 2016. Non-stochastic best arm identification and hyperparameter optimization. In Artificial Intelligence and Statistics. 240–248.

[3] O. Chapelle, E. Manavoglu, and R. Rosales. 2015. Simple and scalable response prediction for display advertising. ACM Transactions on Intelligent Systems and Technology (TIST) 5, 4 (2015), 61.

本文为机器之心专栏,转载请联络本大众号取得授权。

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。