【直播回顾】21天搭建推荐系统:实现“千人千面”个性化推荐(含视频)

  • 时间:
  • 浏览:0
  • 来源:大发彩神苹果下载app—大发彩神官方下载

最后是监控和报警。开通云监控后,亲戚亲戚大伙儿儿还需用做你这一配置,首先配置自定义监控项(按照文档配置即可),可得到该监控项的云监控code,把云监控code注册到推荐引擎。有时候 去掉 监控人员报警组和设置报警规则。监控默认对于任务计算失败有时候 数据异常给出告警。阿里云推荐引擎会对每一张数据表上都挂有另三个 数据质检算法,用于检查表中数据否是合格。数据否是合格取决于所使用的算法,有时候 客户有自定义算法,还需用我本人编写相应的数据质检算法,并挂载到对应的数据表上。

PDF下载地址:https://oss-cn-hangzhou.aliyuncs.com/yqfiles/48f666836fdef5c4039eaf9c56817910.pdf

2.  定义效果指标。效果算法不针对具体的行为类型,而定义效果指标则需用明确行为类型,比如浏览的PV,点击的UV等

推荐系统

哪些工作都完成以前,另三个 具备最基本功能的推荐系统就还需用运行起来了。

下面是本次活动视频、幻灯及内容挂接。

环境准备分为两要素。图中左侧为云上资源的准备,亲戚亲戚大伙儿儿需用拥有阿里公有云账号,有时候 开通云监控服务(可选)和阿里云数加服务(必选);开通数加账号后,大数据计算服务(MaxCompute,原名ODPS)和大数据开发Data IDE就默认开通了(Data IDE相当于MaxCompute的可视化包装),最后开通推荐引擎。未来客户在推荐引擎中用到的数据,以及相关离线计算,都是客户我本人的MaxCompute项目中完成。右侧为客户侧的准备,前端的展现,以及日志的挂接和管理都需用客户我本人完成,通过推荐引擎提供的API与推荐引擎进行交互。通常情况汇报下,客户侧的后台相关功能会集中在推荐服务器中实现,这也是阿里云推荐引擎墙裂建议的方案。推荐服务器还需用是客户我本人的物理机,也还需用是阿里云的虚拟机ECS,都是还需用的。

优化的目标还需用有什么都有有种,对于业务来讲,最关心的莫过于提升各种转换率指标。前面的效果指标为亲戚亲戚大伙儿儿提供了转换率的度量土措施,以此为基础,通过A/B Testing来比较不同推荐算法流程的转换效果,从中取舍最优的结果。到了你这一步,问提图片就归结为有时候 去构造不同的推荐算法流程,原先 亲戚亲戚大伙儿儿才才能进行比较和取舍。

1.  定义/取舍效果算法。系统默认提供了你这一用于计算效果指标的算法,如统计PV,UV,计算不同行为的转化率等,客户也还需用开发自定义效果算法,开发完成后注册到推荐引擎即可

环境准备

Trace ID的生命周期

——结束了了——

Day12-15. 优化

Day9-11. 效果报表

“展现”要素不仅要负担展现,还是数据挂接的窗口,用户在展现系统的所有行为通过日志录入,挂接到的数据经过算土措施系统的计算,还需用得到用户的偏好有时候 个性化兴趣,有时候 回过头来指导“展现”要素如何做的更聚焦。

环境和数据都准备好了以前,接下来需用进入阿里云推荐引擎产品,真正结束了了使用推荐引擎了。不过在此以前,还需用对产品中的你这一关键概念进行必要的说明。

Day16-20. 实时修正

Day1. 环境准备

第另三个 概念是业务。在阿里云推荐引擎中,业务指的是一组可被用来进行推荐算法计算的完备数据集,包括物品表、行为表、用户表这三张表。也还需用简单的认为这三张表就构成了另三个 业务。

最后,按照惯例,需用在推荐服务器中把启动效果计算任务的API集成进来,每天定时启动,自动生成每日的效果报表。

简单的总结一下:阿里云推荐引擎的特点是接入简单便捷,算法开放。

Day21. 监控和告警

算法流程

Day2-3. 数据准备

第另三个 概念是算法流程,算法流程指的是数据端到端的处置流程,从客户的输入数据结束了了,到产出最终结果为止。推荐算法流程从属于场景,另三个 场景还需用富含 多个算法流程。每个推荐算法流程都包括两要素,离线计算流程和在线计算流程。离线计算流程负责从原始的业务数据(用户、物品、行为)结束了了,计算用户对物品的兴趣,输出本场景下用户有时候 会感兴趣的物品集合;在线计算流程实时接受推荐请求,从离线计算流程得到的物品集合中根据业务规则取舍出最相当于的若干个物品返回给请求方。另三个 场景富含 多个推荐算法流程你这一设定使得亲戚亲戚大伙儿儿在做效果对比变的比较容易,里边会介绍A/B Testing,在A/B Testing中,每个推荐算法流程都是另三个 可被效果指标度量的最小单元。在做完A/B Testing以前,通常只会在另三个 场景下保留另三个 效果最好的推荐算法流程。

没有,如何把数据传到公共云上来呢?目前主要有有一种土措施,一是利用集成在MaxCompute console中的Tunnel命令,该命令的缺点没有上传文本格式数据;另有一种土措施是定制DataX上传,DataX作为连接各种数据库里边的节点,它除了还需用作为文本上传,还还需用把各种数据库打通。DataX的缺点是目前没有在Linux环境下运行。

第八个概念是场景,所谓场景什么都有有 推荐的上下文。换句话说,什么都有有 在进行推荐时哪些可用的参数。比如在进行首页推荐的以前,可用的参数没有用户的ID;在进行详情页推荐的以前,可用的参数除了用户ID,还还需用由详情页上展示的物品ID,原先 首页推荐和详情页推荐什么都有有 另三个 推荐的场景。另三个 业务还需用包括多个场景。

3.  取舍效果指标,定义效果指标计算任务。有有时候 都是所有定义出来的效果指标都是必要计算出来,阿里云推荐引擎允许客户做一次筛选,推荐引擎会针对客户的筛选结果自动生成指标计算任务。

推荐系统一般包括展现子系统、日志子系统和算土措施系统另三个 要素,三者互为一体。

阿里云推荐引擎支持两类实时修正,分别通过数据修正API和实时的用户行为日志提交到推荐引擎。数据修正API一般用来处置物品的实时变更需求,比如有新物品上线,有时候 老物品下架,需用及时调整;利用用户行为日志的修正一般用来调整用户的兴趣偏好,根据用户实时行为进行更有针对性的推荐。阿里云推荐引擎会提供默认的修正算法,客户也还需用根据业务需求我本人定义。

 完成了Trace ID的挂接,就还需用使用阿里云推荐引擎的效果报表功能了,首先需用按照以下步骤在阿里云推荐引擎中进行配置:

推荐系统run起来了以前,也因为 亲戚亲戚大伙儿儿从系统搭建阶段进入了运营阶段。运营阶段最关心的什么都有有 效果,度量效果的东西,什么都有有 指标。用户在访问网站有时候 应用都是留下什么都有有行为日志,在度量推荐系统的效果时,亲戚亲戚大伙儿儿只关心和推荐有关的行为。为了和你这一无关的行为区分开来,阿里云推荐引擎在每次推荐API的返回结果中都附富含 另三个 Trace ID(这次推荐API返回的所有物品共享这另三个 Trace ID),客户需用按照一定的规范把哪些Trace ID埋入日志,原先 才能利用阿里云推荐引擎提供的效果报表功能。

正文内容

大数据有另三个 非常经典的应用:计算广告、搜索、推荐。每有一种应用最核心的地方都离不开另三个 字——个性化。广告不须了,计算广告的基本要求什么都有有 要精准,为广告取舍对其感兴趣的目标受众;搜索还需用理解为对搜索关键词的个性化;而推荐,则需用在用户和物品之间建立兴趣关系。推荐的业态复杂化化,有你这一淘宝天猫原先 的真正意义上大数据场景,都是什么都有有中小网站、应用,数据量着实并都是很大。阿里云推荐引擎(https://data.aliyun.com/product/re)的初衷,是为了帮助阿里云的客户、创业者、中小网站,让亲戚亲戚大伙儿才能更好的运营我本人的产品或网站。 

阿里云推荐引擎(RecEng)是推荐系统的一要素,主要实现的是算土措施系统,需用和你这一子系统配合工作。

当然,不须每另三个 业务的数据都满足规范的要求,什么都有有还需用做你这一格式转换。Data IDE提供了比较友好的格式转换界面,还还需用把配置好的任务设置为定时任务,每天定时调度;也还需用在MaxCompute console下直接执行格式转换的SQL脚本,再利用系统的crontab命令实现定时任务。

产品里的配置都比较简单,配置业务基本信息、配置业务依赖的云资源、配置业务数据表,接着配置场景、配置API参数,最后配置算法流程,阿里云推荐引擎提供了另三个 默认的推荐算法流程模板,分别针对首页场景和删改页场景,图为首页场景的离线计算流程模板,图中每另三个 节点什么都有有 另三个 算法,最终产出离线计算结果。

Day4-5. 基本配置和离线计算

4.  定制效果报表。什么都有有 取舍效果指标的展示土措施,饼图折线图你这一的,比较简单。

前面有时候 介绍过,推荐算法流程分为离线和在线两要素,上图进一步给出了离线、在线算法流程的內部细节,图中的曲边矩形表示数据(集),矩形表示算法(集)。具体每个节点的技术细节就不展开了,重点想说明的是阿里云推荐引擎中每个算法,对其输入和输出的数据,都是明确的格式要求,客户还需用根据业务需求按照规范要求自行实现。对于任何满足输入输出数据格式规范的算法,在算法流程中都是还需用互相替换的,原先 还需用构发明权不同的算法流程,从而进行对比和优化。

上图也展示了亲戚亲戚大伙儿儿对推荐服务器的你这一基本建议。诸如数据上传、启动离线计算哪些功能建议由另三个 相对独立的数据管理组件来负责;而实时性要求比较高的推荐结果获取建议由专门的推荐管理组件来负责。推荐管理组件和数据管理组件为哪些要有另三个 交互呢?这是有时候 从推荐引擎返回的结果富含 时候 只包括了物品的ID,展示时没有只展示另三个 ID,还有什么都有有材料,哪些东西还需用装进推荐服务器中,由数据管理模块负责管理。UI还需用提供人工管理数据的界面,比如新录入了另三个 物品,有时候 某个物品卖完了要下线,需用做实时修正时就还需用用到了。

DT时代的基本要求是数据要才能“存、通、用”。挂接日志,并将其上传到公共云实现了数据“存”的过程;推荐引擎负责处置数据的“通”和“用”。“用”比较好理解,“通”则指的是所有进入推荐引擎的数据需用满足推荐引擎所定义的格式规范。推荐有三类数据:用户数据、物品数据和行为数据,亲戚亲戚大伙儿儿定义了这有一种表的格式规范,比较简单,具体细节还需用参考https://help.aliyun.com/document_detail/shujia/RE/dataspec/datauploadspec.html。

首先需用把离线数据传上来,还需用用前面提到的土措施,Tunnel啊,DataX啊,都还需用,有时候 一定什么都有有 定时任务,亲戚亲戚大伙儿儿总没有每天都去手工执行数据上传。上传完成以前首先调用数据预处置API,对数据做你这一预处置;有时候 调用离线计算API,启动离线计算。待离线计算完成后,通过推荐API就还需用实时获取用户的推荐结果了。在离线计算的过程中,还还需用通过查看计算任务情况汇报API实时获取计算任务的情况汇报,便于及时发现异常。

Day6-8. 推荐API集成

推荐API集成

阿里云推荐引擎还有什么都有有需用完善和优化的地方,接下来亲戚亲戚大伙儿儿将着重于以下两点:

Trace ID的挂接有另三个 原则:其一是在推荐列表展示时,需用把对应的Trace ID埋入推荐列表中所有物品的链接里;其二是有时候 用户点击了富含 晒 Trace ID的物品链接,需用把你这一Trace ID带入下另三个 页面,且要在新页面中所有该物品的链接里都埋入你这一Trace ID;其三是有时候 用户点击了不含Trace ID的物品,或点击了富含 晒 你这一Trace ID的物品链接,以前的Trace ID失效。



点击图片看视频回顾

到了你这一步,云端推荐引擎里的推荐算法逻辑有时候 配置完成,剩下的事情什么都有有 把系统串起来,让推荐引擎和日志、展示另三个 子系统结合起来,成为推荐系统。阿里云推荐引擎提供了一组API,这里要做的什么都有有 把哪些API集成到推荐服务器中。

按照惯例,有时候 要使用实时修正功能,需用在推荐系统中接入相应的API:数据更新API和实时日志API。