阿里开发AI谣言粉碎机谣言识别准确率达81%

原标题：阿里开发AI谣言粉碎机谣言识别准确率达81%

达摩院NLP团队成员李泉志

阿里开发AI谣言粉碎机谣言识别准确率达81%

　　昨天，一篇《为拯救爸妈朋友圈，达摩院造了“谣言粉碎机”》的文章，在朋友圈刷屏，引来一片鼓掌叫好：“这下终于不用费劲劝导爸妈了！”

　　文章说的是，阿里巴巴达摩院的科学家，造了一个谣言粉碎机，这是一个算法模型，可以识别真假新闻，未来也能应用在各大领域。

　　这是怎样一种算法？准确率高吗？真的可以终结谣言？记者联系到了正在大洋彼岸的“谣言粉碎机”的创造者李泉志。

　　“粉碎机”的前生功能

　　是为记者提供可靠线索

　　《速转！科学家发现：一味中药48小时可杀死60%癌细胞!》《晚上喝白开水的朋友，再不看就晚了！》《专家说了，这样东西千万别吃！》……

　　你有没有收到过父母发来的这些“关怀”？又有多少次是抱着“算了算了，你开心就好”的心态结束话题？

　　“不能保证百分之百准确，但基本可以判断是否为谣言。”李泉志，达摩院NLP团队的核心成员之一，毕业于清华大学，后在美国获得自然语言理解方向的博士学位，目前在达摩院的西雅图办公室工作。

　　在加入达摩院前，他曾是路透社重要的“情报官”：通过机器筛选成千上万的网络信息，为数千位一线记者提供可靠线索。

　　“AI谣言粉碎机”就是借助自然语言实现的。在刚刚结束的SemEval（自然语言处理领域的国际权威比赛，由国际计算语言学学会举办）全球语义测试中，“AI谣言粉碎机”创造了假新闻识别准确率的新纪录，达到了前所未有的81%。

　　判断一个新闻真假

　　要分三个步骤

　　“AI谣言粉碎机”要怎么去判断是否为谣言呢？李泉志说，分三步——

　　首先，该模型会找到最初的信息源，分析用户画像，包括：专业领域，此前传播或转发过什么，是个人还是机构，注册时间，活跃规律等，来判断发布者是否“可靠”。最后根据不同态度的人群比例、各自的信誉度等信息，计算出此新闻的可信度。

　　第二步，寻找网上所有的信息源，看看链接的域名，是否来自可信网站，比如新华社、政府医药管理局等。

　　第三步，将正文里关键的论证提炼为知识点，与知识图谱里的权威知识库做匹配验证。如果毫无联系、自相矛盾，减分。

　　李泉志解释，“AI谣言粉碎机”会考虑一部分人类的想法，更多的则是 AI的运用。人工智能有很多人类比不了的地方，比如当一个流言在社交网站上传播很快的时候，我们很难去判断真假，不知道谁接收到了，是出于什么原因转发，不同的人对此的评价是什么，而这些AI可以做到。“假如来一个流言，人可以通过网站去查证，但是AI可以快速把科学研究、新闻拉出来，加上后台知识库的对比，做一个验证。人脑中有基本判断，但是没有大型的知识库。”李泉志说。

　　就拿“AI谣言粉碎机”的训练样本来说，就要分至少两个层面：首先拿底层的2亿条信息，几百万条新闻，训练语言样本；再将模型进行谣言的真实性训练。“是一个复杂且费时的过程。”李泉志表示。

　　谁制造谣言，论文是否抄袭

　　未来粉碎机还有更多功能

　　其实，要建这样一个数据模型，并不容易。李泉志坦言，他在前一家公司就开始研究，到如今，也还需继续完善。他们有一个小团队专门在研究这一技术，因为，总体来说这不是一个单独能列出来的技术，是自然语言所有技术的综合。

　　目前，该模型也并未应用于阿里巴巴的任何业务中，李泉志坦言，数据模型需要不断被“训练”，也需要得到社会的认同，而这些，都不是短时间内能解决的。

　　可以想象的是，“AI谣言粉碎机”未来将被应用的多个场合。

　　比如，可以识别论文是否为抄袭，用技术从个人的写作风格、方法论、主题等多维度去判断是否为抄袭。过去有人说某年轻作家后期的作品由人代笔，以后用AI就能分析得出结论。

　　另一方面，可以协助警方找到真正谣言的制造者。通过AI去追踪传播路径，从传播路径中，将传播分解，可以发现规律，比如传播了哪些用户，用户是什么反应，是简单的转发，还是赞成、反对，还是进行了二次加工？