Facebook开放源码的NLP处理模型中,能检索文档来回答提问

原创 树深时见鹿 4 252

  Facebook和AI公司拥抱今天面临开放源码生成人工智能检索模型的增强(布),是一种自然语言处理模型,可以发现并解释上下文信息来完成一系列任务。

  破布可以通过动态更改或补充其内部知识,使研究人员能够控制模型掌握的内容研究人员没有接受再培训的计算能力可以获得最先进的成果。

  从今天开始,破布一样拥抱图书馆面对转换器组件提供,和新的数据库集成,提供索引的破布,隐性知识。

  抹布后期整合的知识“融合”

  开创性工作领域的自然语言理解产生了一个普遍的模式,尽管这些模型通常缺陷,但可以提升。到目前为止,大多数的模型已经应用于没有知识背景可以生成解决方案的任务,比如情绪分析这样的任务。

  相比之下,破布使用输入数据从数据库中检索相关文件如维基百科。例如,给出一个“地球上第一个哺乳动物是什么时候出现吗?”问题,破布可能会提供一个“哺乳动物”,地球的“历史”、“进化”的哺乳动物如文学作为输入连接上下文,然后输入模型生成输出文本。

  根据Facebook、破布和一种“融合”后期的知识集成检索到的文档,这意味着它在聚合前最终预测评分的文档问题预测答案。当它可以访问文档包含答案的线索,如果答案不是逐字,破布性能将进一步得到改善。破布,在某些情况下,甚至产生答案,而这些答案并不包含在任何检索文档。

  抹布擅长知识密集型自然语言问题

  Facebook说,当如包含问题从谷歌搜索用户NaturalQuestions开放领域的数据集,如基准、破布显示,在找不到答案的情况下生成正确答案的技巧。

  抹布也擅长知识密集型自然语言问题,通过创建Jeop Facebook阿迪激励问题进行了探索。与其他类似的模型相比,破布的问题,多元化和更具体,更真实。这可能是因为破布得到不同的来自多个来源的信息,产生不同的答案。

  破布研究经理塞巴斯蒂安·里德尔说,尽管在Facebook上破布在生产中不使用,但其背后的团队积极的迭代,以减少潜在的偏见。他们将文档的训练数据集限制在维基百科上,他们认为维基百科比今天的许多安全网络爬虫的语言模型。

  破布的最大优点:灵活性

  研究人员正在探索抹布一个版本,这个版本可以最大程度减少残余风险,以达到一致的输出安全程度。他们正在研究如何延长破布,使其更多的渠道,使其使用更加隐性知识在同一时间。

  塞巴斯蒂安·里德尔说:“破布真正的优势在于它的灵活性,改变一个训练有素的语言模型你提前知道的,需要使用培训整个模型的新文档。通过破布,我们的知识可以通过交换来检索文档来控制它知道的内容。我们NaturalQuestions用抹布,CuratedTrec WebQuestions获得很好的结果,显示可用于生成而不是提取读者实现最新的机器可读的性能。”

  Facebook认为破布具有广阔的潜力,它声称将使研究人员能够使用只有几行代码可以部署解决方案知识密集型任务。

  Facebook声称,“破布绕过培训步骤允许NLP模型,访问,并提取最新的信息,然后使用发电机的输出。我们预测未来知识密集型任务的研究潜力,这些任务就像今天的情绪分析这样的轻量级的知识任务是容易理解。”

参与用户

打赏积分

理由

评论