首页 > 科技 > 业界 > 正文

孙国政:超大规模用户数据挖掘和推荐算法进展
2012-09-08 10:13:49   来源:和讯   评论:0 点击:








  9月8日—9日,中国软件开发者大会在北京国家会议中心举行,本届大会邀请了众多国内IT技术领军人物针对软件应用与开发等热门话题进行深入探讨。和讯科技对本次大会进行了全程报道。腾讯首席科学家孙国政发表主题演讲。
  
  
  腾讯首席科学家孙国政表示,大数据现在很重要,如果现在开始数据每年能够在未来10年中有50倍增长量,那么在第三年,世界五百强每个公司都有一个新的计划就是怎么来收集大数据。
  
  同时,孙国政认为,现在这个世界是一个互联网时代,也可以说是一个大数据时代。
  
  以下为腾讯首席科学家孙国政演讲实录:
  
  孙国政:大家好,我来自腾讯公司,我今天演讲的题目是超大规模用户数据挖掘和推荐算法最新进展,并且从KDD—CUP2012谈起。
  
  刚才讲到国际会议好多高手都参加,现在这个世界是一个互联网时代,也可以说是一个大数据时代。比如说我们现在每天能出现2.5quintilion的数据,这就给大家一个挑战,这些数据怎么办?如果现在开始每年能够在将来10年中有50倍数据增长量,在第三年,现在世界五百强每个公司都有一个新的计划就是怎么来收集大数据,可见大数据现在很重要。究竟大数据问题是个烦恼还是商机,这是给所有公司和开发者的一个重要问题。我们现在所看到的好多公司一些管理层把大数据都当成烦恼,怎么来处理?其实它孕育了很多商机,比如现在根据美国健康总署,他们估计如果把现在数据都用好了,他们相当于每年收入300万美元,这相当于大数据处理好了有很大商机。
  
  现在我们面临的挑战一个方面是大数据能够看的着能够存储能够处理,更重要的是大数据怎么为我们造福,现在就有一个怎么发展数据为用户、为广大网民服务的问题。在这样的情况下,就出现了KDD—CUP的比赛,今年KDD—CUP选的题目有两个,一个是根据腾讯微博数据,你推荐一个名人收不收听,收听了说明你感兴趣,我们就给你所有数据让你算一下用户收听这个人的机率。第二个是搜搜商业搜索的数据,每个搜索引擎都有些广告推荐,有些广告对大家很有用,就会点击。所以我们就是计算一下给个广告给用户被点击机率有多大,我们今年都有很大的增加。比如说Track1,它出现了一个收听一个人,有电极就是感兴趣,我们给的数据是分两个,一个是微博用户,另外一个是名人。用户有很多数据,包括年龄、性别等等词语来描述,还有用户在上面的动作,比如回复评论等等,还有一个是他们之间什么关系,谁收听谁这个数据。还有一个是每个人根据他过去的博文抽出一些关健词,也给用户提供。还有一个是每个推荐人属于哪个方面的,我们把这个人推荐给一个用户,算算被点击的的机率有多大。我们的数据是有50天的记录,包括用户的描述等等。数不是怎么分布的呢?横轴是假如推荐的话有多少人多大机率收听。被收听多的人基本比较少,推荐人是蓝色的、绿色是用户,被收听超过50%的基本没有,大部分是收听率很少。假如说我和被收听人有关系的话,有多少路径能通过中间人达到。比如说我的偶像是他,偶像的偶像是他,诸如此类,中间通过的路径越多被收听机率越大。
  
  我们最终怎么衡量比赛结果?我们有一个MAP,公式我就不再详述了。
  
  另外有Track2,我们每个Session是用户、广告、ads都给了,还有姓名、年龄、广告等等都给了,因为参加人大部分都不懂中文,所以我们把中文部分用个数码来表示,另外为了保护用户隐私性,也用数码来表示,究竟什么意思不知道,所以在这里懂中文的没啥好处。点击用户记录数据很大,纵轴是数目,横轴是展现的次数,如果展现越多的话大约点击越少。它的衡量标准我们用AUC,我们基本采用标准方式来衡量。
  
  KDD—CUP基本有三个特点,第一数据比往年量大,直接来自真实产品运营日志,没有经过任何改变。第二参加人数与往年比也是最多的,traca1三千多人,traca2五千多人。第三数据集非常复杂,参赛者需要自己进行处理,形成缄默所需的特征变量,且变量的最终数目还取决于参赛者处理方法,是没有标准答案的。
  
  KDD—CUP大赛结束之后评了三个得奖团队,通过分析他们的结果,有些东西值得跟大家分享。首先介绍一下比赛数据特点,数据稀疏性是现在所有大用户数据的一个问题,矩阵好多点都是空的,只有几个点才有数据,虽然很多但是在矩阵上是很稀疏。另外有很多数据需要自己清理,你自己决定要不要这些数据,数据很复杂。另外也有严重的冷启动问题,我们大家知道通常根据以往大家行为看你的兴趣来推断你下面对什么感兴趣,但是有可能我们在这里所看的用户,有77%的用户做训练的数据里没看到,他是新用户,他们没有行为历史,这对冷启动是一个大的挑战。另外数据也不平衡,大部分没有收听,90%以上的都是没收听。后来我们把数据公布之后,每天可以上传东西,大家来排宝,我们还提供了一个简单的算法放在那儿,一开始没人超过,但是过了几天好的结果都排在前面了。在数据处理上是一个很大的特点,凡是能够得到优胜的大部分对数据的理解是很到位的,比如说有些数据推荐其实就是没收听的并不等于用户不喜欢它,因为你的前后时间太短了,他们分析了这些就去除了很多不需要的数据,另外把数据分类、噪音去除,这样一处理数据精简了很多。
  
  这是一个数据处理图,这个是很不成比例的,他们用一对对来比较,如果对不成比例就不好做。另外一个成功特点,大家都用matrixfoctorizationmodeling,这是近几年来做数据处理一个通用的办法,解决Sparsity问题的有效算法。这个矩阵很稀疏,他可以分成两个矩阵相乘,我在这里没有时间仔细结束了,大致体会是参数减少的工作,没有这个工作数据稀疏性无法解决。成功算法还有一个特点是很好地解决了冷启动的问题,比如说把用户ID的年龄、性别分类,中山大学这方面做的比较好,他们通过这个关系来通过词的关系挖掘用户兴趣,这种对数据的理解很好地解决了冷启动的问题。另外他们都成功解决了Timedependence的问题,今年我们比赛跟时间有关系,我们都有一个时间窗几月几日几点几分推荐的,下一个时段他会不会火,下一部分发生什么新闻事件,通常我们是没有把时间因素加引来,现在就需要把时间因素加进来。这个是一个德国人在Track1得了的一名,他在把时间分成不同的Solutions,具体来说两种方法,一种是Timeowaremodeling,你在推荐的时候除了其他算法,再加一个跟时间有关系的阈值,这种阈值参数是通过学习出来的,这就使得解决时间问题得到成功。再一个做法是用Seruentialfeatures,这跟时间有关,这个Solutions有多长,把跟时间有关系的词都放进去发现非常有用,我们最后衡量MAP增加5.1%,这是很大的增长。
  
  还有一个成功的特点是用Diversemodels,这一点是台大得了第一名,各种方式,千奇百怪的方法都试了,把推荐当成ranking、当成classification、regression等等方法,这样每种解决方法都有结果了,最后合并到一块儿叫Ensembleleaming,这也是许多参赛者在应用上的一个成功的特点。
  
  Tarck1第二名和track2第三名,两个都得奖,但是他不懂中文,他说我不管什么问题我用统一办法处理,叫PredictionwithfactorizationMachines,本来是非常稀疏的二维矩阵被分解了,他这个好在把整个过程是统一的,这里边对用户推荐的东西都是线性的,他引用了secondorder。不管是什么factorization都用0和1表示出来,整个都变成二进制,这一点非常有意思。我们大家都是数据挖掘的高手,KDD—CUP的我们两个第一名都是中国的,一个台湾的一个中国大陆的。
  
  现在数据用途从广告搜索、娱乐、内容等等都要服务用户,所以推荐技术应运而生,但是推荐系统有几个要关注的问题。第一个是Contextaware的处理,Context包括时间、地点、涉及公司和用户的情绪、属性、社交网络等等属性,这个问题是我们要很好研究的课题,现在微博推荐也是这样,就是不同场景下收听率是不一样的。再一个就是Heteragenity,有不同形式不同渠道的,你怎么统一到一块儿。另外你推荐应该跟它的内容,比如你了解不了解这个人的背景等等。第三个你要做推荐必须以用户为中心,最重要的是用户接不接受,你别推荐了半天人家不接受,那也没用啊。在这里有很多算法来研究,我们怎么能让用户感到满意,这样界面交互很重要,你显示不好人家不接受,或者写的词跟内容不搭界人家也不接受。这每一篇都代表了一篇文章,基本想解决冷启动问题就是把用户相关其他信息引进来。现在推荐都跟社区相关,基于社交网络和用户可信度的跟随领导的模型聚类,这个也变成当今所研究的一个问题。再一个是Knowledge—based,你了解的东西你才推荐的清楚,你不了解的东西就推荐不好,所以推荐库里面有什么、喜欢什么、新颖的东西是什么等等,这个弄好了才能做好推荐。再一个是Evaluation,你推荐是全部该推荐的都推荐了吗?推荐的是不是有互相重复的?重复了第二次人家就不喜欢了,根据推荐的东西之间的关系有关,这方面Evaluation就变得更复杂一些,你推荐的东西必须有吸引性,人家才容易接收,所以系统引进了多因素,有可能推荐不是一次,而是通过对话,这样推荐才更有目的性。如果不是表示的很清楚,推荐效率就不大。
  
  总之在推荐方面有很多挑战,我总结了这几点,主动对健不光是推荐什么东西,怎么推荐也很重要,另外隐私保护性也很重要,每个人都有个人行为,你每次推荐都是个性化的,怎么个性化又怎么保护隐私这是一个对立的问题,在移动互联网下怎么推荐这对我们提出很多挑战。
  
  最后我把这几个得奖的人的数据公布一下,也谢谢大家。
  
  

相关热词搜索:孙国政 超大规模 用户数

上一篇:你所不了解的谷歌:变成 “生活” 的同义词
下一篇:消息称苹果发布iPhone 5同时升级iMac台式机

分享到: 收藏
评论排行