youtube是什么架构

mip.xncswj.com 2025-11-08 08:06:29
本文介绍youtube是什么架构
「干货」YouTube 基于深度神经网络推荐系统剖析

YouTube推荐系统的三大难点:

youtube是什么架构

· 一是规模太大,简单的推荐算法在如此大规模数据量上可能是失效的;

youtube是什么架构

· 二是实效性,即新数据不断产生,需要将其良好的呈现给用户,以平衡旧有的好内容以及新内容;

youtube是什么架构

· 三是噪音问题,用户行为与视频描述均有噪音,并且只能获得充满噪音的用户隐含反馈,而不能直接获取用户满意度。

图1.YouTube基于深度学习推荐系统架构图

本文呈现的推荐系统解决方案分为两个部分:

· 一个是备选生成(Candidate Generation),其目标是初选结果,从海量数据中选择出符合其个人需求偏好的百级别数据;

· 一个则是排序(Ranking),通过更加丰富的用户,视频乃至场景信息,对结果进行精细化排序,得到呈现给用户的备选。

备选生成阶段,将推荐系统定义为一个多分类器,其职责是确定某个用户,在某个场景与时间下,将从系统的视频中选择消费哪一个视频。具体的方法是,将用户与视频全部转化为Embedding描述,即一个向量,最终用户消费某个视频的概率通过如下方式计算得到:

而构建用户与视频的Embedding,则是通过训练而来。将用户观看视频/搜索记录/其它信息如年龄性别等作为输入特征,部分稀疏特征首先进行Embedding化,中间为数层ReLU,最终一层用SoftMax进行分类。 换句话讲,是将用户与场景信息作为输入,预估用户下一个要看的视频,也就是将用户分到具体某一个视频作为其类别。 用户与视频的Eembedding,则是神经网络最后一层的对应矩阵。这种方法除了能利用用户行为信息外,其它信息例如设备,地理位置,性别等也可以作为输入,这是神经网络相对于普通MF类算法的优势之一。

图2.YouTube推荐备选生成阶段架构

备选生成的下一个阶段是排序。其网络结构跟备选生成阶段类似,将所有排序模型中的信息输入后,进入多层ReLU,最终进行优化的是一个加权逻辑回归损失函数,观看时间作为阳性样本权重。在这一层,也可以看到其推荐“代理问题”的转化:由点击行为预估转为了以观看时长为权重的点击行为预估,这样更佳贴近Youtube的产品优化方向。与备选生成阶段另一个不同在于,排序模块需要考量的特征要多得多:

· “场景”类特征,例如用户可能在某个地方某个时间愿意观看某一条视频,但是在别的地方别的时间则不会;

· 曝光信息:用户观看了某界面,但是并未在其上进行操作,那么随之应进行已呈现内容降级;

· 备选生成层输出:排序需要将各种备选结果联合起来;

· 更丰富的用户信息:例如用户最近的一次搜索词,用户最近观看的同一个主题下的视频数量,用户上一次观看同主题视频的时间,用户所使用的语言等;

图3.YouTube推荐排序阶段架构

除了整体设计与系统架构以外,本篇论文中陈述了很多“选择”,这些选择更多的是“艺术”而不完全属于技术范畴。这些选择往往是很多技术人员关注不多的点,但在笔者看来,这些都蕴含着YouTube技术与产品人员深入的思考与判断。

“Example Age” 特征

对于YouTube产品层来讲,鼓励内容产生毫无疑问是至关重要的,所以推荐系统也希望对用户上传的新内容的有所偏好。然而幸运的是,即使损失一部分相关性,视频的消费者也偏好新内容。也就是说,新内容的价值可以良好的通过其带来的吸引力呈现出来,并不需要平台刻意而为之。

由于系统使用一个时间窗口的训练样本进行训练,如果没有视频的上传时间信息,那么模型会认为这个时间窗口内用户对视频的偏好是稳定的,然而事实远非如此。将视频的上传时间加入到特征集合后,预估更加准确,尤其是视频刚上传阶段的强烈便好被成功捕捉到。

图4.无时间特征预估/有时间特征预估/真实情况 三者对比

优化目标选择

图5.优化对象的选择

算法系统的设计首先要明确优化对象,这不仅仅涉及到损失函数的形式,同样也是评判系统成功与否的标准。YouTube是视频平台,更是富含“价值”的长视频平台,其观看行为比点击行为意义更大。(当然,笔者认为没有任何一个简单指标可以完全代表一个产品)

“正样本”定义

图6.何为正样本的设计选择

训练数据来源

图7.关于训练数据来源的设计抉择

训练数据应该只来源于推荐界面的曝光吗?YouTube认为不然。如果只考虑推荐界面曝光,则无法对用户便好进行 探索 ,更加无法捕捉用户偏好的变化,因为用户偏好的变化往往首先会对应着搜索与浏览行为。所以YouTube将各个界面例如搜索,导航等用户行为全部纳入其中。

训练数据窗口

图8. 训练数据收集方式的设计选择

Youtube将所有用户等而视之,每个用户收集一定量的样本。而不是惯常可见的直接收集一个时间窗口内的所有用户行为,作为训练样本。这样的好处是避免系统收到少数行为过多用户的影响,使得系统更多的为大众设计。这样的设计理念与近期阿里Gai Kun的论文中评测方法(用户AUC)设计有异曲同工之妙。

用户行为序列处理

图9.用户行为序列信息处理的设计选择

在系统中,用户往往会顺着一个检索结果页或者用户发布者浏览页进行顺序观看,如果系统捕捉到了用户看了检索界面的前三个结果,那么预估用户将看第四个结果就会很容易。但是这样真的好吗?将检索结果页面或者用户发布视频界面直接作为推荐结果呈现给用户是并不友好的--抢了别的界面应该干的活嘛。所以此处YouTube对用户行为序列做了处理,在模型输入中选择放弃用户行为的序列信息,将其打散成词袋Embedding,即使这样的信息有利于模型的离线训练效果。

预估对象的选择

图10.关于预估对象的设计选择

用户的行为往往是有顺序的,用户在系统中“热身”后,在一个频道下面,往往先看大众喜欢的热门,然后逐步找到自己的兴趣点,聚焦看一块内容。那么,训练数据则应该收集用户前段时间行为,预估此后的行为。而不是收集时间前后段的行为,预估中间时间段的用户行为。这样模型更加接近用户习惯。

除此之外,Youtube根据系统设计了对应的实验,结果非常简单:深度网络层数越高,效果越好。

YouTube的推荐系统,已经为其贡献了70%的用户播放时长,搜索与导航在PC时代的主导地位在移动时代已经完全被颠覆掉。希望大家在其中学到一些东西。笔者水平所限,若有错误不当之处,敬请指正。

另外,个人用TensorFlow模拟Youtube的推荐系统,做了一个简单实现。其实就是一个多分类器外加一个单分类器,远谈不上成熟,可以供大家参考。

——END——

【软件架构篇】互联网架构模板

架构图如下图所示。这张图基本涵盖了互联网技术公司的大部分技术点,不同公司只是在具体的技术实现上稍有差异,但不会跳出这个框架的范畴。

SQL: 常用的有mysql,用于存储业务数据。互联网发展初期,各个业务一般都会独立运营mysql集群,但随着业务越来越多,mysql集群规模越来越大,那就有必要做成SQL平台。

NoSQL: 翻译为Not Only SQL,作为mysql的一种补充。Nosql一般本身就提供集群,且使用起来很方便,公司业务发展初期没有必要。一般Nosql集群的数量越来越多,那就有必要做成Nosql平台。

小文件: 互联网中有很多小文件,比如商品图片,Facebook的图片。这类小文件具有数据小、数量巨大、访问大的特点。如果每个业务都去考虑小文件存储的话,就会出现重复造轮子现象,那就有必要做成小文件平台了。

大文件: 互联网的大文件主要分为两类:一类是业务上的大数据,例如Youtube的视频、电影网站的电影;另一类是海量的日志数据,例如各种访问日志。实力雄厚的一些大公司会基于开源方案做成大数据平台。

开发框架: 比如常见的Spring框架。

Web服务器: 常见的有tomcat、jetty等。

容器: Docker可以极大降低运维成本,以及在实现动态扩容上非常方便。

配置中心: 故名思义,配置中心就是集中管理各个系统的配置。

服务中心: 解决跨系统依赖的配置和调度问题。比如有10个系统依赖A系统的x接口,此时A系统实现了一个y接口可以更好地支持x接口,那么如果直接更新10个系统依赖的配置将会很麻烦。

消息队列: 支持系统解耦。

负载均衡: 充当任务分配器的职责。

CDN: 可以对一些常用文件进行就近缓存,来提高访问速度。

多机房: 多机房的主要目的是备灾,当机房故障时可以快速地将业务切换到另外一个机房,这种切换操作允许一定时间的中断,比如10分钟,1个小时。

多中心: 多中心的要求就更高了,要求同时对外提供服务,且业务能够自动在多中心之间切换,故障后不需人工干预或者很少的人工干预就能自动恢复。

用户管理: 对各个系统的用户进行统一管理。

消息推送: 根据不同途径分为短信、邮件、站内信、App推送。

存储云: 实现是CDN+小文件存储。

图片云: 实现也是CDN+小文件存储。为何不与存储云统一一套系统呢?这是因为图片业务的复杂性导致的。图片涉及的业务会更多,包括裁剪、压缩、美化、审核、水印等。

业务千差万别,各个互联网业务面对的主要问题是复杂度越来越高。此时就要用到拆和合的技术。拆即将一个大系统拆分为多个子系统,降低复杂度。当子系统越来越多,有可能就需要采用合的技术。

测试平台的核心目的是提升测试效率。

运维平台的核心职责分为四大块:配置、部署、监控、应急。

数据平台的核心职责主要包含三部分:数据管理、数据分析和数据应用。

管理平台的核心职责就是权限管理。

oppoR9安装了google服务框架,为啥还不能用youtobe,求大神指教

oppoR9安装了google服务框架不能用youtobe,因为谷歌退出中国市场而移除了Google服务框架,所以目前手机无法使用Google相关服务,如Google Play、Google+等服务。国内的所有手机都是用不了youtube的,因为这个是国外软件,在国内没有服务器。

YouTube,全球最大的视频分享网站,早期公司总部位于加利福尼亚州的圣布里诺。公司由台湾裔美籍华人陈士骏等人创立并于2005年2月15日注册,网站的口号为“Broadcast Yourself”(表现你自己),网站的名称和标志皆是自早期电视所使用的阴极射线管发想而成。2006年11月,Google公司以16.5亿美元收购了YouTube,并把其当做一间子公司来经营。

Google旗下的YouTube视频网站含有不合法的视频、图像、言论等内容,违反了中国互联网审查标准。自YouTube香港分站2007年10月18日推出后,2009年2月份YouTube在中国大陆被收录互联网关键字阻断过滤的范畴,并使用IP封锁、URL关键词过滤、DNS域名劫持污染、TCP连接重置、主干网路由器侦测拦截等方法进行阻断屏蔽。同时,中国三大主要互联网服务提供商〈ISP〉永久性封锁了YouTube的DNS服务器端口的接入,屏蔽了YouTube的所有国际IP地址,故中国大陆地区无法访问YouTube,而在华外籍人士和留学生一般通过6***等,访问Youtube。国内网站激动网曾经传闻将会以内容合作的方式和youtube展开合作,但是最后不了了之。


以上就是关于youtube是什么架构的介绍,更多问题请留言或者咨询老师呢

文档于 2025-11-08 08:06:29 修改