知乎李大海:我们如何用AI技术打造智能社区
2018/4/28 9:12:39
下面我从技术的角度简单去讲讲我们的瓦力机器人怎么做的。这边以答非所问作为例子来简单的讲一讲。我们最早解决这个问题的时候采用的是随机森林的模型。什么是随机森林呢?简单的来讲,随机森林就是用随机的机制去产生很多分类数组成的森林。它的分类数就是把这个样本放到每个数里去分类。举个例子,就是知乎来讨论一个问题,知乎的宠物是狗还是狐。这样就让每个树自己投票。在完成这个模型以后,我们取得了还不错的一个效果,它的准确率能够达到97%,是一个非常高的准确率。但是有两个问题,第一个,它的召回率不高,只有58%,不到60%。这个召回率意味着什么呢,意味着我们会错过坏人,就把一些答非所问的回答放到线上去了。这样的话这样的回答给用户带来不好的体验,所以召回率是我们很在意的东西。另外,这个模型会用到用户的行为统计特征,也就是说,就是需要去看有多少用户对这个进行了点击回答或者点击举报的特征。这个特征有什么问题,用了这个特征,如果对一个新的回答做分类判断是不是答非所问的时候必须放到线上观察一段时间,看看线上对它的点击量反对或者举报。这就出问题了,因为它上线了。如果真的是一个答非所问的话,看到这个回答的用户他的体验其实就已经受到了伤害,这个时间差是存在的。我们就开发了一个模型,这个模型是基于卵生模型的思路,这个思路是去提升网络结构的表达能力。同时对特征进行选取的时候也做了很多仔细的考虑,去避免使用前面所说的用户行为的统计特征。最后的结果是这样,我们在召回率上有了一个非常大的提升,从60%提升到80%。同时任何一个回答只要发出来,很快就能够被分类。是还是不是一个答非所问。当然它也有缺点,它的准确率下降了,但是在这个场景我们可以结合其他的业务策略来弥补这个差距。所以最后我们就把新的模型上线了,去替代了老的模型。
我们算法团队在这个月发表了三篇文章,在知乎专栏上比较详细的阐述了知乎在瓦力机器人的工作,其中包括了这部分的工作。大家感兴趣的话可以上知乎专栏看一看。
我这里还想再跟大家同步一下,知乎在阴阳怪气这个领域的识别的一些实践。这个工作还没有做完,但是我特别想跟大家同步,因为这是一个非常难的问题,也非常有意思。阴阳怪气就是反讽。我们处理的思路,首先还是要基于深层语义理解,也就是语义分析这个工作。但是这个是不够的。因为从我们的实践来看,往往一句话,同一句话如果是两个好朋友之间发生的话,它有可能是插科打诨,打情骂俏。但是如果是两个陌生人之间一定是有敌意或者不友善的。所以基于这样的思考我们会从两个方向去综合判断。反讽这个问题之所以要跟大家分享,是因为它是情感分析领域的前沿问题,它很难。因为反讽是一种完全正面的词语去表达负面的意思,是一个很高级的修辞手法,机器人很难明白的。像谢尔顿作为物理学家,他的智商在全人类排名前10,他也常常听不懂别人对他的讽刺。
在训练中我们会把内容本身的特征尽可能的feed到模型中去,包括像文本特征,一些数值特征,还有像反讽词表,以及一些表现符特征等等。但是不会把用户统计特征放进去,这个理由和前面是一样的。我们使用的网络拓扑模型使用的CNN和LSTL的结合。最关键的其实是最后一部分,我们在分类层是用知乎层大量一致的语料产生标准数据,这就是我前面讲的用户行为。举个例子,简单的说,如果一个评论有很多好的用户,他们都进行了反对,可能我们认为这就是一个负向的。如果另外一个评论有很多用户点了赞同,它可能就是正向的。基于这个我们可以构建大量的一个标注数据。这样一个方案我们现在还在开发过程中,有结果后我们会发布到知乎专栏上,大家也可以关注一下。当然这个问题比较难,可能我们还要解决很多细节问题,时间可能会比较久。但是没有关系,我们相信知乎通过这种庞大的高质量用户行为的学习和分析,一定在语义和用户关系这两个层面上一个更深的建模和理解。能够像在反讽前沿领域的突破,任何一个突破对中文互联网,甚至全球互联网讨论环境中都应该有非常正面的作用。
以上是我关于AI算法和人文价值的一些分享。一个开放包容包括氛围是很重要的,它是孕育文化上百花齐放状态的一个非常非常重要的土壤。当然知乎作为一家技术公司我们不仅仅把AI用在了这个领域,事实上AI技术已经广泛应用在知乎的内容生产,流通,消费等等环节。我们接下来的计划是用AI,人机结合去打造一个智能社区。什么是我们所说的智能社区呢,我们坚信每个人脑子里的知识、经验、见解都是另外一群人非常感兴趣和想知道的。所以知乎长久以来所做的一切都是为了建立这种前所未有的连接,满足彼此的需求。这也是知乎的初心和长久的愿景。我们相信在不远的未来每个知乎用户,上知乎后都能很快找到他感兴趣的人和内容。他的问题能够快速的被推到能回答和有意愿回答的人意愿满足。他也能发现让自己拍案叫好的问题,然后分享出知道自己最懂的信息,获得让自己愉悦和满足的认可,并且遇到有共鸣的人去产生更深刻的交流、碰撞的化学反应。我们将以前所未有的效率建立这样思维的连接,让每一个个体脑袋里的警世通言见解都能够被分享,被筛选,被转化,被转变成这个时代的知识。知识的生产方式和迭代效率在这样的连接之下就会发生质的改变,这就是我们认为的智能社区。
在这边这样一个智能社区的过程中我们会遇到什么样的挑战呢,我们有很好的数据,我们的问题也都很明确,我们的挑战其实主要是在人上。相比于我们要解决的问题来说,我们的团队,我们团队很不错,但是相比于这些问题我们的人还是比较少的,所以我们希望业界厉害的人加入我们,一起把知乎创建成为一个具有人文价值的一个智能社区。谢谢大家。(完)