看法 | TikTok 算法背后是抖音用户数据?想多了!

最近十来天,字节跳动被迫出售 TikTok 的新闻几乎7x24小时占据了微博、知乎的热榜(www.hbnj.com.cn)。一家中国互联网公司的海外业务发展,几番来回,集齐了国际纷争、总统选举、民族情怀、巨擘商战等多重戏码。

上周末,一位 UP 主在视频中讨论 TikTok 时,还提及字节跳动出售 TikTok 会影响背后的 7 亿用户数据。不过在字节跳动发出官方辟谣声明之后,目前该视频已经被下架。

那么,字节跳动出售 TikTok,真的会卖掉用户数据吗?TikTok 的算法里包含抖音用户数据吗?

TikTok 的算法里有抖音用户数据吗?

字节跳动利用算法,不仅在国内打造了抖音、头条,也在海外,结合当地用户数据,训练出了最适合短视频产品的推荐模型,打造了今天的 TikTok。

如果真如视频中所言,TikTok 背后有“7亿中国用户的数据”,那 TikTok 的算法里会有抖音用户数据吗?

了解算法、数据与模型关系的同学基本可以知道,答案是:NO。

算法,就是在计算或解决其他问题的操作中要遵循的过程或规则集合。更通俗地讲,算法是解决特定问题的一系列步骤。

在计算机领域,算法就是帮助用户向计算机发出指令的快捷方式。算法只是通过“and”,“or”或“not”语句告诉计算机下一步该做什么。

在一个推荐系统里,会有很多种算法,简单的,可能只有三步:找到内容、找到用户、展示内容。

那么就可能出现一些情况:面向喜欢篮球的用户,推荐了美妆的内容;面向喜欢美妆的用户,推荐了历史的内容;面向喜欢历史的用户,推荐了音乐的内容……

显然,这个简单的推荐系统,没能做到千人千面,没有所谓的个性化推荐效果。

原因是,这个推荐系统只有先做什么后做什么的算法步骤,没有根据用户特征、内容特征等信息进行做针对性的推荐。

所以,要针对不同的用户推荐他们感兴趣的内容,光有算法肯定不行。系统需要在算法的基础上,深入了解用户和内容的特征,然后去做针对性的推荐。那么,步骤可能就变成了:先了解用户的特征,把用户特征做提取分析,再了解内容的特征,把内容特征做提取分析,可能还要了解当时的外部环境特征,获取当前的热点、天气、时间等特征……然后再综合做推荐。

这时候的算法,可能是几十乃至上百个步骤的算法。而且,不光有算法,还有了用户特征、内容特征、环境特征等等数据特征。当算法结合数据特征,并不断地进行训练后,就有了所谓的“模型”。

同样一个算法,比如协同过滤算法,因为用户特征、内容特征,乃至环境特征的不同,可能训练出很多种模型。而且这些模型,不是一成不变的,还在根据用户特征、内容特征的丰富与变化,不断演进升级。

数据越丰富,算法基于数据训练出来的模型就越准确。今日头条如此,抖音如此,TikTok 也如此。

那么,TikTok 为什么不拿抖音的推荐模型直接使用呢?从产品角度看,不能;从商业角度看,没有收益。

一款推荐类内容产品的推荐算法模型,通常要结合三方面的特征信息做训练,分别是内容特征、用户特征、环境特征。

而海外的 TikTok 与国内的抖音,这三方面的特征信息,可以说是完全不同的。如果要将抖音特征信息共享给 TikTok,需要满足两个条件,即国内抖音用户可以看到国外 TikTok 用户发表的短视频,同时国外TikTok 用户能看到国内抖音用户发布的短视频。但我们都知道,抖音与 TikTok 是完全独立的两个产品,这两个条件根本无法实现。

另外,因为抖音是针对中国用户的短视频产品,TikTok 是针对海外用户的产品,拿抖音的模型去给 TikTok 直接套用,不但没有正向收益,反而还可能出现干扰 TikTok 推荐模型准确性的严重问题。

这相当于拿一份中国人喜欢的“菜谱(模型)”,去海外,给印度、美国的“食客(用户)”做菜。结果就是,TikTok 好不容易拉来的用户,打开 TikTok 看了两个视频,因为口味不同,直接就卸载了。

真正想要做好海外市场,面对新的用户群,TikTok 一定需要针对海外的内容、用户,利用算法从 0 开始训练模型,推荐才能更精准更有效。

没有了抖音数据,TikTok 靠什么成功?

既然国内抖音用户数据、模型拿出去没有价值,而且按照字节跳动所说,也拿不出去,那么一无所有的TikTok 凭什么在海外迅速开疆扩土呢?

当然是算法。

TikTok 用的是字节跳动的算法,不仅是 TikTok,字节跳动外部的公司也可以使用,因为字节跳动已经将推荐算法产品化了。

在字节跳动火山引擎官网上,有个产品叫“智能推荐”,就是推荐算法服务。

智能推荐的产品架构图

简单来说,企业客户可以利用智能推荐服务,基于自己的用户数据、物品数据和行为数据训练推荐模型,通过 API/SDK 接入获取推荐结果。

通过架构图,可以看出,字节跳动的推荐算法产品能够通过离线模块和在线模块提供多种关键技术能力,包括对模型训练、调优特别重要的“特征抽取”,包括现在推荐系统特别关键的“召回”、“排序”技术。

官网显示,这套推荐算法服务可以支持私有化部署,那意味着即使 TikTok 是第三方公司的产品,也可以使用字节跳动的算法服务,然后基于海外用户和内容数据来训练特有的推荐模型。

TikTok 能利用推荐算法大放异彩还有一个原因,就是短视频产品的天生优势:获得用户反馈的路径短。

现在的推荐算法模型建设,对数据的要求是多、快、准。尤其是流式模型训练体系,能够通过及时捕获用户不断变化的实时兴趣来提升推荐系统性能和效果。

相比电商、文字资讯以及长视频平台,TikTok 这类短视频产品,所见即所得的展现,将用户反馈从几分钟、几十分钟缩短到了 10 秒乃至几秒。

TikTok 在公开算法机制的博文中就曾写过:“用户的每一次新的互动,都能帮助系统了解用户的兴趣并推荐相关内容。”

因此,在相同时间内,短视频产品能够获得其他类产品几倍、几十倍乃至几百倍的反馈数据。推荐算法可以根据即时反馈的数据,实时对模型进行训练,并将模型几乎实时应用于用户。

最后

推荐系统的三大利器是算法、数据和模型。TikTok 要想在全球各个地区发展,缺一不可。

TikTok 的出售,目前看来不可避免。任何一家公司收购 TikTok,相信对这三大利器都不会轻易松口。

其中,算法就是个方法论,不包含数据。

担心 TikTok 卖掉抖音数据的也大可不必。抖音和 TikTok 作为国内外两款短视频产品,用户与内容不互通,且面对的用户人群不同,模型的复用不仅没有正向收益,反而可能干扰推荐系统的精确性。

公司名称:济宁万和超声电子设备有限公司
主营产品:超声清洗设备,超声提取设备,无损检测仪器