谁也不知道那天顾诚最后和张一鸣说了些啥。
只知道从那天起,yy网络科技里那些略有心机的络科技的分布式编译数据中心也架构完毕,算是为未来的云计算实践了第一颗种子。
叶芷秋和她的运维团队,在九月份就被借调到了阿狸巴巴,为阿狸云的布局提供技术支持。
而那天被顾诚留下来单独面谈的张一鸣,在完成分布式编译架构的“小目标”之后,就被单独关照抽调了出来,加入到了一个顾诚直属的神秘项目组中。
在新项目组稍微干了几天,张一鸣就觉得成就感爆棚,浑身都是干劲。
这个项目,叫做“yy智能搜索推送”。
看上去,带了搜索两个字,似乎跟百度家的业务有点重合,但是深入进去仔细研究,就知道完全不是一回事。
百度的搜索,是对客观题比较友好,而对主观题并不友好的。比如一个人如果百度“甲钴胺片治什么病”这种客观题,度娘马上可以给出答案(没有莆田系的关键词干扰的话),但是如果百度一下“05年最好听的歌”这种问题,度娘就爱莫能助了,只能给出今年最热搜的歌名,但搜索者喜不喜欢就不知道了。
顾诚给张一鸣画饼的这个项目,是个性化的智能推送:通过分析用户的内容产品消费习惯大数据,大致推算出用户的爱好。一旦用户搜索某些内容关键词,就把最符合用户审美习惯的内容优先排序在搜索结果的最前面。
最终的结果,就是“一千个人眼中有一千个哈姆雷特”,每个人搜索同一个关键词,得到的结果都不一样。
这事儿看着很美,不过没个两三年的苦功,是不可能做出成绩来的。
一方面,用户的喜好画像非常艰难,需要多年的深度学习型人工智能算法的打磨、砥砺。
另一方面,还要考虑用户看同类东西过多之后会不会形成“信息孤岛”,看多了会不会腻,会不会因为“重复/旧闻”而抵触,从而需要调整外部扰动的频次。
最后,处理如此海量的数据,所需要的云计算资源目前也不够。在计算资源变充分之前,“一千个人眼中有一千个哈姆雷特”是不现实的,只能先从“一千个人眼中有十个/一百个哈姆雷特”这种角度努力。
通过分析用户的行为数据,把用户每千人、百人……乃至最后数人归并到一个用户组里,默认同一组里的人兴趣爱好完全相同,然后渐渐深入……
这个项目顾诚定下的指标是2008年初步出成果,可见其难度了。
而且,yy网络科技会在这个项目中每年投注入数亿美元的科研经费——顾诚说了,从今年开始,他会拨出《魔兽世界》50%的运营毛利,来补贴这个内容分发算法的科研。
别觉得这点钱多,平行时空的2010年之后,扎克伯格的facebook在这方面(信息feed流领域)花的科研经费只会比这个价码更多。
喜欢被成就感和友人的羡慕所推着走的张一鸣,只能是破天荒头一遭地不断自己给自己找一个个小目标,让自己能够有成就感一点。
……
张一鸣进入新项目组已经有一个月。
在这里,他认识了无数的技术大牛,包括好几个杰夫辛顿教授带的深度学习算法博士生,还有曾经给人人网做图片搜索、人脸识别的项目组成员。