来解决另一个相似的问题

2018-06-12 13:43| 发布者: | 查看: |

  秒速赛车平台原标题:采用通用语言模型的最新文本分类介绍 雷锋网按:本文为雷锋字幕组编译的技术博客,原标题 Int

  这篇文章向零基础同学介绍我们最新的论文,和以前的方法相比,该论文展示了如何采用更高的精度和更少的数据自动地进行文档分类。我们将使用简单的方式解释几种方法:自然语言处理;文本分类;迁移学习;语言模型以及如何将这些方法有机结合。如果你已经对自然语言处理和深度学习很熟悉,那么你可以直接跳转到自然语言分类网页获取更多的技术链接。

  现在,我们发布了「面向文本分类的通用语言模型微调」的论文(以下简称为ULMFiT:),预训练的模型和完整的 Python 源代码。在 2018 年计算语言协会年会上,该论文得到了行业内的评议并受邀演讲。相关的链接,包括对于该方法深入探讨的视频,所有用到的 Python 模块,预训练的模型以及训练你自己模型的脚本,请参考我们的 NLP 分类页面()。

  与之前的文本分类方法相比,该方法有着明显的提升,所有的代码和预训练模型允许任何人利用这种新方法更好的解决如下问题:

  那么,这项新技术究竟做了什么呢?首先,让我们想浏览一下论文的概要部分,看看它说了什么,然后在文章的其他部分,我们逐步解析和学习它的准确含义:

  迁移学习以及对计算机视觉产生了极大的影响,但是现有的自然语言处理方法仍然要求从头开始特定任务的修改和训练。我们提出了一种有效的迁移学习算法可以应用于任意的自然语言处理任务,并且引入对微调语言模型至关重要的方法。我们的方法在六种分类任务上优势明显,可以在大多数数据集上将错误率降低 18-24%。此外,这种方法仅仅使用 100 个有标签的样本,实现的性能可以媲美从头开始训练 100 倍以上数据达到的性能。

  自然语言处理(NLP)是计算机科学和人工智能的一个领域,它指的是使用计算机来处理自然语言。自然语言是指我们每天都在交流使用的语言,比如英语或者中文,而不是专业语言,比如计算机代码或者音乐符号。自然语言处理应用广泛,比如搜索,个人助手,提取总结,等等。总体而言,自然语言处理具有挑战性,因为我们在写代码的时候使用的语言并不适合自然语言的细微差别和灵活性。你可能遇到这些有限的场景而感到尴尬,比如尝试和自动电话应答系统交流,或者和像 Siri 这样能力有限的早期的对话机器人。

  在过去的几年,我们已经看到了深度学习大举进入以前计算机鲜有成就的领域。深度学习不是要求程序员定义好的一组固定规则,而是使用神经网络直接从数据中学习大量的非线性关系。最值得注意的是深度学习在计算机视觉上的成功,例如 ImageNet 竞赛上图像分类的快速发展。

  正如这篇的纽约时代杂志文章广泛讨论的,在自然语言处理领域,深度学习也有一些成功,例如自动翻译。成功的自然语言处理任务有一个共同点就是使用大量的有标签数据可用于模型训练。但是,到目前为止,这些应用仅限于那些能够收集和标记庞大数据集并且能够拥有长时间在计算机集群上处理的机构。

  奇怪的是,在分类这个领域,深度学习在自然语言处理仍然面临很大挑战,而在这个领域深度学习在计算机视觉却成绩斐然。这是指将事物(例如图片或文档)分组(例如猫 vs 狗,或正面 vs 负面,等等)的问题。大量现实世界中的问题主要是分类问题,这就是为什么例如深度学习在 ImageNet 上的成功导致了许多的商业应用。在自然语言处理上,当前的方法能够很好的识别,比如,当一部电影的评论是证明或者负面的,这就是一个情感分析的问题。然而,一旦事物变得模糊,模型就会混乱,因为通常没有足够的标记数据可供学习。

  我们的目标是解决以下两个问题:(1)在没有大量数据或者算力的情形下解决 NLP 问题(2)使得 NLP 分类问题更容易。事实证明,我们两个(Jeremy 和 Sebastian)从事于能够解决这些问题的领域——迁移学习。迁移学习指的是,基于一个已经训练好的针对某一特定问题的模型(例如基于 Imagenet 的图片分类模型),来解决另一个相似的问题。一种常见的迁移学习方法是对原模型进行微调(例如把 CT 扫描结果分类为癌变的和没有癌变的——这是 Jeremy 实现的一个迁移学习应用,他据此创建了 Enlitic 公司)。因为微调后的模型不需要从头开始训练,较不使用迁移学习的模型而。

<
>
相关文章
 
QQ在线咨询
售前咨询热线
400-800-8888
售后服务热线
400-800-8888
返回顶部