自然语言处理:如何让它为你的业务工作以及为什么

通过戴安娜拉莫斯b| 2018年5月4日

自然语言处理机器能够理解人类日常语言的概念可能并不为人所熟悉,但长期以来,这个概念一直激发着我们的想象力。

还记得2001年:太空漫游?在斯坦利·库布里克(Stanley Kubrick) 1968年的科幻经典作品中,安装在宇宙飞船上的一台名为HAL 9000的有感知能力的电脑失控,试图谋杀船上的两名宇航员。50年前,HAL是如此令人毛骨悚然,因为他是一个说话和行为令人不安的机器,就像一个令人难以置信的冷血人类恶棍。要做到这一点,他必须使用自然语言处理。

幸运的是,在今天的市场上,自然语言处理的许多良性应用正在激增。在本指南中,我们将解释关键的自然语言处理概念,自然语言处理如何发展,以及您和您的业务如何开始运行。此外,我们还提供了有用的起点、实际使用的自然语言处理示例和其他资源。欧宝体育app官方888

什么是自然语言处理?

自然语言处理是计算机科学的一个领域,是我们所说的人工智能的组成部分。自然语言是人们在现实生活中通过语音和文本进行交流的方式。这包括从标志到即时消息和语音对话的所有内容。自然语言是不一致的、混乱的、高度可变的。计算机是为处理高度标准化和统一的数据而设计的,因此,最初,它们无法分析自然语言。自然语言处理旨在改变这种状况。该领域是机器语言和人类语言的融合,它寻求使计算机能够有效地处理以自然语言呈现的大量数据,至少和人类一样快。

自然语言处理应用程序可以消化从法律文件到医学研究的大量文本。它利用计算能力以对我们有用的方式从人类语言中获取意义。开发人员可以构建总结、翻译、识别语音、确定对象如何命名、确定对象之间的关系,甚至分析我们对事物的感受的系统。

虽然消费者和政府对数据隐私问题越来越敏感,但也有一些有益的发展即将出现,比如自然语言处理应用程序可以监控语音和沟通模式,以寻找心理健康恶化的迹象。

有了能够理解、解释和操纵人类语言的计算机,人们将有一天能够通过与计算系统的无缝交互来扩展自己的知识处理能力——但这仍然是一段路要走。目前,自然语言处理的应用范围更窄,比如帮助你更直观地使用手机,从文本和音频等非结构化数据中获取见解。非结构化数据通常包含大量文本,并且没有以预定义的方式组织。例子包括社交媒体数据、电子邮件、音频和视频。

为什么需要自然语言处理?

自然语言处理旨在释放大量未开发的非结构化数据潜力。根据许多估计,组织每天处理的数据中约有80%是非结构化的。根据IDC的一项分析,我们收集可用数据的速度正在爆炸式增长,预计到2025年我们将拥有163泽字节的数据,是2016年的10倍。

因此,根据2017年的一份报告,自然语言处理软件市场预计到2025年将从2016年的1.36亿美元增长到54亿美元也就不足为奇了报告Tractica。在同一时期,自然语言处理软件、硬件和服务的总市场机会预计将增长到223亿美元。

人类要处理大量的文本数据。虽然我们不能很快地处理它,但在很长一段时间里,我们比计算机做得好得多,而计算机根本做不到这一点。那么,如果我们正在建造能够比我们更大量地分析语言编码数据而不会感到疲倦的机器,这意味着什么呢?

首先,我们将极大地扩展我们的潜力,以理解我们已经产生并将继续产生的非结构化数据医学的历史推特帖子。考虑到庞大的数据量,自动化语言处理将是分析这些数据流的关键一步。

当然,构建能够理解“真实”语言的自然语言处理是一项艰巨的任务。每种语言在语法、术语、俗语、缩写、口音和方言方面都有细微的意义差别和惊人的差异。口语面临着咕哝、发音错误和口齿不清等挑战,因此自然语言处理也必须能够理解语法和语义。

自然语言处理用例

自然语言处理可以以一种对下游应用程序有用的方式有效地构建数据。通过这种方式,它不仅对非专业计算人员,而且对整个非程序员来说都是一个非常宝贵的工具。这两个群体现在都能够以他们以前缺乏编程技能所无法做到的方式与计算机交互。

自然语言处理的潜在应用范围很广,在许多行业中都很重要。自然语言处理可用于将大块文本(甚至整个文档)总结为易于理解的部分,以便生成用于优化搜索结果和创建自动翻译的关键字标签。

对于大多数应用程序,自然语言处理从一组核心功能,包括:

  • 将单词缩略为词根形式的能力,将单词标记为特定的词性(例如,确定一个单词是名词还是动词)。

  • 文本分类(确定输入是作为语句还是问题,如果是后者,是什么类型的问题)

  • 语音识别(从语音创建文本)

  • 语言建模(基于概率预测单词序列中的下一个单词)

  • 命名实体识别或NER(将名称与特定对象匹配),并标识所提取实体的类型

  • 关系检测和提取(确定对象如何相关)

  • 事件提取(识别和收集关于特定事件的知识)

  • 文本聚类(聚类分析在文本文档中的应用)。反过来,聚类分析是基于相似特征对对象进行分组,用于组织文档和加快信息检索。

围绕自然语言处理构建的应用程序包括聊天机器人,这些程序可以与人类用户进行对话。例如,聊天机器人可以部署在客户服务、社交媒体监控(创建人们谈论内容的快照)和机器学习驱动的RSS阅读器中,后者超越了传统的RSS新闻聚合,包括摘要和主题提取等功能。

其他更简单的应用包括转录和由语义搜索驱动的改进搜索,语义搜索是一种不仅根据关键字,而且根据搜索者的感知意图和上下文识别结果的技术。自然语言处理可以对电子邮件进行分类,以帮助组织收件箱并过滤垃圾邮件。它还支持提高我们自己的沟通技巧的功能,比如预测打字、拼写和语法检查。虚拟数字助理也依靠自然语言处理来与人类互动、回答问题和执行任务。

如果有文本可以处理,更高级的自然语言处理应用程序可以做一些令人印象深刻的事情,比如识别情绪和监控实体的声誉,这样组织就可以跟踪关于自己的数字话题。

在医学领域,自然语言处理可以通过阅读医生的病历,在已知或鲜为人知的疾病中寻找相似的症状,从而加快诊断速度。在投资方面,它可以比人类投资者更快地处理大量的市场情报,而人类投资者消费信息的能力更有限。对于跨多个法律管辖区运营的组织,它可以简化确保法规遵从性的复杂任务。对于寻求开放式客户反馈的组织,它可以自动读取客户响应并提供简洁、可操作的反馈。

对于广告商来说,自然语言处理提供了基于网络内容部署更具体、更相关的广告的能力。对于内容创建者和发布者来说,它可以自动完成生成图片字幕的棘手任务。它甚至可以作为一种导航仪和车内DJ,让驾驶变得更加愉快。

医疗保健中的自然语言处理

医疗保健是自然语言处理应用程序产生最大兴趣的一个领域。其用途包括减轻医生的工作量(填写文书工作),以及通过从表格和医生笔记中提取数据来提供见解。

医疗保健提供者尤其渴望使用自然语言处理来简化繁琐的文档处理过程,尽管主要关注的是保持准确性。在医学领域,对于自然语言处理系统来说,没有比人类的准确性更低的东西是可以接受的,而且在某些情况下,自然语言处理系统会混淆他们所读或听到的内容,有时是由于使用俗语的结果。

通过从患者健康记录中提取信息,人工智能可以做一些事情,比如监测患者的感染迹象。然而,一些人认为,与其他维护电子健康记录的方法相比,使用自然语言处理还有一个额外的优势:它能够围绕单个患者的医疗记录创建一个叙事,这是传统结构化数据无法比拟的。例如,自然语言处理可以帮助捕捉和识别与患者健康相互作用的一些社会因素和个人复杂性,例如标记可能表明患者难以坚持药物治疗方案的短语。

此外,自然语言处理还可以加快患者信息的检索速度。对于无纸化医院来说,通过与配备自然语言处理的人工智能系统对话来访问信息的能力可以简化和加快数据检索。

IBM的沃森是人工智能和自然语言处理在医疗保健领域最著名的例子。沃森具有阅读和提炼医学文献的能力,已经被用于识别有充血性心力衰竭风险的患者。沃森最有希望的用途之一是与纪念斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)进行的一项长达数年的项目,该项目旨在训练沃森分析患者数据,挖掘癌症治疗的医学文献,并为肿瘤学家提出一套基于证据的治疗建议。结果,一个名为“肿瘤沃森”(Watson for Oncology)的认知计算系统被证明始终符合肿瘤学家自己的建议。

自然语言处理是如何工作的?

那么,自然语言处理在解析复杂语言时是如何发挥其魔力的呢?自然语言处理包括两个主要领域:自然语言理解(NLU),这是计算机为它接收到的语言赋予意义的过程,以及自然语言生成(NLG),将信息以文本或语音的形式从计算机语言转换为人类语言的过程。

自然语言处理系统包括许多任务。这些任务可以分为四类,尽管有些任务跨越了多个类别:

  • 语法任务:与一门语言中句子的语法结构有关的任务。

  • 语义任务运用逻辑和语言学来确定意义的任务。

  • 话语的任务:采用语篇的语言学定义的任务,语篇涉及比一个句子更长的单位。

  • 演讲的任务:专门处理音频格式语言的任务。

下面是对这四个类别的更深入的讨论。

  • 语法语法任务包括词元化(根据一个词的意思来确定它的字典形式)和形态学分割(将单词分成语素并进行分类)。它还包括单词分割,将文本分成单独的单词,词性标注,它建立了词性,解析,用于识别句子在语法上的组织方式句子打破,它只是确定句子的开始和结束位置。此外,术语提取从文本中提取术语,和阻止是一种类似于词根化的过程,试图将单词缩减为基本形式(词根)。

  • 语义:语义任务包括词汇语义它决定了单词在上下文中的计算意义,机器翻译,它的功能和谷歌Translate一样,将文本从一种语言翻译成另一种语言命名实体识别,它将对象映射到专有名称。自然语言理解和自然语言生成是一对孪生任务,它们分别将人类语言转换为计算机可理解的格式和从计算机可理解的格式转换为人类语言。光学字符识别(OCR)将打印文本的图像转换成计算机可读的格式。问题回答顾名思义:决定人类语言问题的答案。情绪分析我们之前提到过的,评估情绪。语义任务中还包括词义消歧它决定了一个有多种可能含义的单词的预期意思,关系抽取,它建立对象之间的关系,识别文本蕴涵,研究文本片段如何影响彼此的真实性或否定性主题分类,它将文本分解为主题片段。

  • 话语:论述任务包括话语分析它建立了句子在更大的文本块中相互参照所扮演的角色,算法,它决定哪些单词(或“提及”)指的是相同的对象,以及自动摘要

  • 演讲语音任务包括两个相反的过程语音识别语音合成,分别将语音转换为文本和从文本转换为语音;前者对于自然语言处理系统来说更具挑战性。语音识别包括一个子任务,称为语音分割它将语音分成一系列可理解的单词。

如果您对进一步的细节感兴趣,本指南包含的代码十大常见的自然语言处理任务。对于希望实现文本处理元素的程序员,以下是用于自然语言处理任务的开源工具:

  • 自然语言工具包(NLTK):它为分类、标记化、词干提取、标记、解析和语义推理等任务提供了文本处理库。

  • 斯坦福大学的CoreNLP套件:它执行词性标记、命名实体识别、解析、共同引用解析和情感分析等。该系统从一开始就被设计成可以处理多种语言,克服了不同语法和句法的障碍。

  • Apache OpenNLP它还可以进行标记化、句子分割、词性标记、命名实体提取、分块、解析、语言检测和共同引用解析。

  • 来自马萨诸塞大学阿姆赫斯特分校,这是一套更高级的工具,用于文档分类、聚类分析、主题建模和信息提取。

自然语言处理中的挑战

自然语言处理仍在不断成熟。事实证明,语音识别是最难准确完成的任务,因为人类往往说话不完美,单词相互混淆,含糊不清,无视语法——这还没有开始讨论口音等混淆因素。当然,所有这些因素都会影响计算机的自然语言理解能力。

然而,即使在基于文本的交流中,与自然语言处理系统的交互也可能令人沮丧。人工智能的自然语言处理能力在广告和精心策划的演示中看起来很棒——还记得马克·扎克伯格对贾维斯的病毒式介绍吗?但是,它们在现实世界中并不令人印象深刻。例如,Facebook去年报告称,在其Messenger平台上部署的名为M的虚拟助手,在没有人工干预的情况下,只能完成不到三分之一的用户请求。它的一个缺点是不能完全理解自然语言的细微差别。Facebook在2018年初表示,它将停止使用M。

自然语言理解的部分问题在于,预期的意思很难推断出来。上下文意识是人类的第二天性,对于试图理解人类的机器来说,这可能是一个不可逾越的障碍。当我们与其他人交谈时,歧义很少是一个问题,但它会削弱我们与机器交流的努力。

如何将自然语言处理整合到您的业务中

您可能渴望在业务中利用自然语言技术。然而,在你开始之前,做一个现实的检查,确保你的组织已经准备好了。引入这种新技术需要愿意接受变化的文化、处理工作流中断的能力,以及管理新IT计划的资源(时间、人员和金钱)。欧宝体育app官方888

您还需要非常清楚地了解如何部署自然语言处理系统。从目标明确的应用程序开始,企业通常会取得最大的成功。一旦你解决了任何问题,你就可以在成功的基础上扩展到其他领域。

Infographic-of-Natural-Language-Processing-Applications-c

以下是一些流行的起点:

  • 客户服务聊天机器人可以通过回答日常问题和处理简单的请求来增加你的客户服务能力。它们可以帮助提高客户服务的质量,使座席能够专注于更复杂的需求。聊天机器人的优势在于能够全天候工作。他们也很省钱,而且从不发脾气。聊天机器人在提供单一类型产品或服务的企业中表现最好,比如航空公司或花店。ob欧宝娱乐app手机下载然而,缺点是,它们有局限性,可能会让客户感到沮丧,尤其是那些非常情绪化或有微妙问题的客户。因此,你不应该期望聊天机器人取代人类。

    聊天机器人也可以部署在内部,以回答问题和执行任务。这使得没有编程经验的用户可以使用具有自助服务的组织系统,它从许多来源(如关系数据库、RESTful api和搜索引擎结果)获取答案。

  • 情绪分析情感分析使用自然语言处理来提供关于人们感受的结构化、可量化的数据。它通常通过结合对客户电子邮件等内容的语音分析,以及监控有关企业的社交媒体帖子,来搜索情感内容。这一操作自动化并加速了客户反馈收集和分析的过程,这使得品牌经理能够对客户意见的起起落落做出更快的反应。

    通过这种方式使用自然语言处理,管理人员可以有效地跟踪客户拓展工作的影响。但也许情感分析最引人注目的方面是,它不仅能够看到人们对你的品牌的看法,还能看到他们对你的竞争对手的看法。

  • 信息提取:使用自然语言处理系统提取信息,可以快速收集和整理相关信息。文本挖掘使用算法在非结构化文本中发现有意义的信息、趋势和模式。具体任务包括实体提取、事实提取、关系提取、文本分类和聚类。(聚类是通过查找彼此相似或相关的文档来组织文档集合的技术。)

    信息提取可以改进业务决策制定,因为它使人工无法访问的大量信息变得可访问和可分析。在以速度为关键的商业交易中——比如股票交易决策——可以消化的信息的广度和深度的增加构成了一个巨大的优势。

    信息提取也是情感分析的一部分。

  • 语义搜索最后一个应用涉及现场语义搜索,这是一种由自然语言处理技术驱动的智能在线搜索。与基于关键字匹配生成搜索结果的关键字搜索不同,语义搜索能够识别搜索查询的实际含义。

    这种功能可以生成更相关的结果,逐渐消除用户不感兴趣的结果,并减轻拼写错误的影响。它可以帮助客户找到更有价值的问题答案,并减少他们在没有找到他们想要的东西的情况下离开网站的可能性。搜索结果也是一个有价值的数据来源:除其他外,它们可以告诉您客户在寻找什么以及他们为什么要寻找它。然后,这些数据可以用于个性化现场体验,也许可以根据客户搜索和浏览习惯提供产品推荐。ob欧宝娱乐app手机下载

    语义搜索与语音识别相结合,对零售公司来说是非常强大的。这就是亚马逊的语音控制智能音箱Echo所做的。2016年,购买Echo的人的支出增加了10%研究NPD Group发现。

自然语言处理的历史

自然语言处理的概念实际上有几百年的历史。哲学家笛卡尔提出了一种机器翻译,可以将不同语言之间的单词联系起来。然而,直到20世纪30年代中期,第一批翻译机器的专利才被记录下来。其中一台机器是由乔治·阿特鲁尼设计的,它只是一部自动字典。另一种是由彼得·特罗扬斯基(Peter troyanski)发明的,也延伸到了对语言的语法理解。

1950年,当艾伦·图灵发表了他著名的《计算机器与智能》时,自然语言处理的现代形式的想法出现了。图灵的文章提出了后来被称为图灵测试一种方法,用来判断计算机程序是否能够成功地模仿人类进行对话,从而使人无法分辨自己是在与人还是机器交谈。

1954年,所谓的“乔治城实验”是IBM和乔治城大学进行的具有里程碑意义的机器翻译演示。这项工作包括将60个句子从俄语翻译成英语。但是,这些句子本身是经过精心挑选的,并不构成实际讲话的代表性样本,因此,兴奋是不成熟的。

其他似乎在有限条件下运行良好的自然语言处理进展包括:丹尼尔·博布罗(Daniel Bobrow) 1964年的STUDENT程序,它可以解决简单的代数单词问题;20世纪60年代中期,约瑟夫·魏曾鲍姆(Joseph Weizenbaum)设计了ELIZA程序,具有讽刺意味的是,它的设计目的是展示人机“对话”的肤浅;以及20世纪60年代末,特里·温诺格拉德(Terry Winograd)设计的SHRDLU计算机程序,它促进了对虚拟方块世界的操纵。20世纪70年代出现了流行的聊天机器人(现在被称为聊天机器人),因为程序员开始编写“概念本体论”,将现实世界的数据转换为计算机可以理解的结构化形式。其中包括罗杰·尚克的《玛吉》(1975)。罗洛·卡彭特(Rollo Carpenter)的Jabberwacky是在上世纪八九十年代开发的,是一款有趣的聊天机器人。

对自然语言处理历史的讨论,如果不提到影响其发展的关键人物,就不完整。

  • IBM首席研究员大卫·费鲁奇(David Ferrucci)带领一组研究人员和工程师开发了沃森计算系统危险!在2011年。

  • 丹·朱拉夫斯基是《语音和语言处理:自然语言处理、语音识别和计算语言学导论他还开发了第一个用于自然语言处理的自动系统。这个系统叫做语义角色标注

  • Victor Yngve是一位对机器翻译充满热情的物理学家,他创造了第一个用于文本处理的主要编程语言,称为COMIT。

  • 威廉·亚伦·伍兹为美国宇航局载人航天中心建造了最早的问答系统之一,在那里它回答了有关阿波罗11号月球岩石的问题。

  • Stephen Wolfram开发了著名的基于自然语言处理的计算知识引擎Wolfram Alpha。

什么是人工智能中的自然语言处理?

人工智能(AI)是斯坦福大学研究员约翰·麦卡锡于1956年创造的一个术语。人工智能描述的是能够像人类一样思考和学习的计算系统。人工智能研究人员试图建立能够复制人类思维过程和行为的系统。

机器学习是人工智能的一部分,机器学习算法在20世纪80年代末彻底改变了自然语言处理。在机器学习中,计算机使用统计方法通过接触新的或不同的数据而无需直接编程来自己“学习”。在机器学习之前,自然语言处理系统是基于人们费力定义的规则。但是,处理能力的提高和有影响力的语言学家诺姆·乔姆斯基(Noam Chomsky)理论的衰落为更智能的机器铺平了道路。乔姆斯基不赞成在大量真实文本样本中研究语言的机器学习方法。

早期的机器学习算法使用决策树,这确实导致了以前手工编写的同样类型的困难的if-then规则。但是,该领域转向了使用隐马尔可夫模型等技术的统计建模,隐马尔可夫模型是一种统计模型,通过执行数学计算来确定你所说的话,将语音转换为文本。这使得系统能够更好地理解自然形式的语言。随着统计模型变得更加先进,机器翻译的早期成功激增,这在很大程度上要归功于IBM。

与手写编码和机器学习的早期迭代创建的硬if-then规则相比,这些统计技术允许基于概率的软决策,因此表达了多个可能答案的相对确定性。

这些技术依赖于从大量现实世界文本中推断语法和句法,例如加拿大议会和欧盟以多种官方语言生成的文件。

最近的事态发展倾向于semi-supervised无监督学习技术——也就是说,部分或完全使用未注释的数据集,而不是那些已经指出所需答案的数据集。大量可分析信息的可用性为这些技术提供了便利——这种现象被称为大数据——以及增强的计算能力。深度学习特别是技术在自然语言处理任务中取得了有希望的结果。深度学习是机器学习的一个分支,其中算法是按照人类大脑的结构设计的。这些算法被称为人工神经网络

其他方法包括强化学习它赋予机器交流的能力,使它们能够创造自己的语言,并将它们置于必须实现最有效合作追求的目标的“世界”中。为了实现这种方法,智能代理(自主人工智能实体)开发了基础语言。一个基于语言我们对一个词的理解来源于我们与物质世界的互动。(这与字典相反,字典根据其他单词来定义单词。)

自然语言处理的四种方法

斯坦福大学的自然语言处理专家Percy Liang说,自然语言处理有四种主要方法:分布式、基于框架、模型理论和交互式学习。

为了比较这四种方法,理解语言分析的三个层次是有帮助的:

  • 语法这是关于文本的语法结构。

  • 语义这涉及到文本应该是什么意思。

  • 语用学这与文章的目的有关。

以下是四种主要方法的描述:

  • 分配方法这些方法包括你在机器学习中看到的大规模统计策略。它们依赖于将内容转换为词向量,并在词性标记、依赖解析和语义相关性等任务上表现出色。(语义相似度指的是不需要理解单词的意思,只需要理解单词之间的关系的任务。)虽然分布式方法足够灵活,可以广泛应用于不同类型和长度的文本,但它们在理解语义和语用方面很弱。

  • 不定位的方法这些涉及到框架的使用,这是一种结构,代表了认知科学家马文·明斯基所说的“刻板的情况。”关于框架的一个简单例子便是来自谋杀悬疑棋盘游戏《Clue》的指控,即你指控一个特定角色在特定房间使用特定凶器进行谋杀。每一项指控,每一项框架-你有凶手,凶器和谋杀地点。不管指控的语法措辞如何,它在语义上都符合相同的框架,因为它传达了相同的信息。然而,框架需要监督,在某些领域,框架必须由专家创建。此外,由于框架只详细说明了具体情况,因此无法分析框架参数之外的信息,因此基于框架的方法可能是不完整的。

  • Model-Theoretical出路年代它们结合了语言学中的两个概念:模型理论,即句子指的是现实世界组合性也就是说,你可以把一个句子中不同部分的意思结合起来,推断出整个句子的意思。梁说,这种方法就像把语言当作计算机程序来使用。例如,要回答“哪一款是汽车制造商XYZ生产的最便宜的车型?”,则必须识别模型和汽车制造商XYZ的概念,并且必须创建一个搜索,并填充由汽车制造商XYZ创建的所有模型。得到的对象列表必须按价格排序,并返回最便宜的模型作为答案。模型理论方法所需的监督量从重到轻不等。这些方法具有很强的语义,可以表示完整的真实世界,并具有端到端处理的特点。然而,由于它们的特性必须手工设计,这些方法在范围上是有限的,需要的用例也很狭窄。

  • 互动式学习方法这些方法在教导自然语言处理系统通过与人类的互动来理解语言方面有着令人兴奋的前景。要做到这一点,一个人指示计算机使用语法一致的指令来执行特定的简单任务。然后,这个人告诉计算机执行每条指令的结果应该是什么。例如,梁创造了一个现代版本的Terry Winograd的SHRDLU,称为SHRDLRN,它涉及到一个由乐高风格的彩色方块填充的世界,计算机必须根据用户指令操纵这些方块以达到特定的最终状态。经过足够的练习,计算机可以学会将单词与颜色或位置联系起来——这可以在任何语言中完成,只要使用一致的句法形式。

如果你对自然语言处理的广泛讨论感兴趣,你可以观看Percy Liang长达91分钟的完整演讲在这里

b谷歌对自然语言处理的影响

谷歌是自然语言处理领域的领导者,它对这些技术的使用显示了它们的影响有多深远。谷歌的研究重点是大规模、跨语言和领域的广泛应用算法。b谷歌在其许多核心技术和服务中部署了自然语言处理,包括其搜索、翻译功能和广告。

让我们以b谷歌著名的搜索引擎为例。该公司应用自然语言处理来评估大量的在线内容。谷歌希望在你搜索某件东西时,首先给你最有帮助的资源,所以它的自然语言处理系统的发现会影响一个网页在谷歌返回的搜索结果中的排名。

具体来说,b谷歌的自然语言处理系统会分析文章的语法并查看其结构,包括句子的结构以及名词、动词和其他词性的使用。它评估内容是否合乎语法,作者是否正确使用语言。系统还会评估内容适合哪些受众(例如,科学家或小学生)。使用实体识别,自然语言处理使谷歌的系统能够理解图像和视频内部的内容。

这些技术分析内容中的情绪,比如评论是积极的还是消极的,以及这些情绪的强烈程度。他们观察内容,以确定它是否有情感影响,以及人们对它的反应。自然语言处理帮助谷歌分析为什么一篇关于一只小狗救了一个孩子的博客文章对读者如此有影响力。

谷歌的自然语言处理系统建立在语法和语义算法之上。句法算法执行词性标注、形态分割和解析等任务。语义算法执行命名实体识别和共同引用解析,即查找文本中引用同一实体的每个表达式的任务。该公司表示,它“专注于利用大量未标记数据的高效算法”,事实也确实如此“对可扩展性好、能在高度分布式环境中高效运行的算法感兴趣。”

自然语言处理的未来

自然语言处理还有很长的路要走,但它是一个深入研究的领域,因为它对让人工智能更容易被人们使用至关重要。自然语言处理可以帮助我们改善我们可能认为的用户体验-与人工智能系统沟通是多么容易和直观。自然语言处理在这里起着重要作用。如果人工智能系统能像人类一样理解你——包括不会被语言中的技术缺陷难倒——它们就会变得容易处理得多。反过来,这种能力将使我们更愿意使用人工智能并与之互动,并将加速人工智能技术的扩散。

随着我们在自然语言处理方面取得进展,未来可能会出现以下情况:

  • 更好的客户服务聊天机器人速度更快、功能更强大的机器人将处理更多的任务,并与客户更无缝地互动。随着聊天机器人越来越了解客户的情绪状态和需求,它们对企业的价值将越来越大。

  • 更自然的用户界面技术人员的目标是让我们能够使用具有隐形用户界面的机器。这意味着我们会感觉自己是在直接与这些系统互动,而不是发出命令或按下按钮。这些系统将利用自然语言处理来理解我们所说或所写的内容,无论我们如何表达或在做什么。

  • 更强调自然语言生成到目前为止,系统主要集中在理解我们的日常语言。但随着自然语言处理变得越来越复杂,重点将转向制造能够更自然地与我们交流的系统。

  • 更深的理解尽管在自然语言处理方面取得了进步,但在很多时候,它仍然存在令人痛苦的不足。b谷歌翻译应用的用户经常被它提供的扭曲和不自然的翻译难住或逗乐。这是因为自然语言处理不包含人类对语言的深刻理解和微妙之处,很大程度上是因为一个人的感知是由与现实世界的三维互动塑造的,而不是算法。这是自然语言处理研究人员的伟大前沿之一。

  • 效率艾滋病虽然这个前景很长,但自然语言处理将继续提高我们在医疗诊断辅助、虚拟健康助理以及与物联网(IoT)连接的设备交互等方面的效率。

自然语言处理领域令人兴奋的创业公司

初创公司在自然语言技术方面做了很多令人兴奋的工作。以下是目前这一领域的一些有趣玩家:

  • Klevu:它提供了一个自然语言处理的电子商务网站搜索工具,具有学习能力。Klevu适用于中小型网络商店,并被全球数千家在线商店使用。

  • EnglishCentral这是一个在线英语学习平台,提供所谓的英语会话解决方案,教用户如何在上下文中使用英语单词。

  • Yummly:这是一个具有语义菜谱搜索功能的应用程序和网站,允许用户根据配料、饮食、营养价值、价格、烹饪、时间、味道和过敏进行搜索。它还能了解用户的好恶。

  • Vurb这是一家社交活动搜索引擎、推荐生成器和社交网络,于2016年被Snapchat以2亿美元收购。

  • 了解发动机该公司创建了具有自然语言处理能力的智能搜索助手,使数据在整个组织中广泛访问。

  • MindMeld:这是一个用于构建跨应用程序和设备工作的智能会话接口的平台。它被用来驱动语音和聊天助手。该公司是自然语言处理领域公认的领导者。

  • Desti这是一款智能旅行计划软件,允许用户在没有复杂搜索界面的情况下规划行程。由于Desti是由自然语言处理驱动的,它的用户除了可以使用日期和价格以外,还可以使用多种条件进行搜索。

  • MarketMuse:一个数字营销平台,它通过检查主题相关性,识别次等内容和识别尚未覆盖的主题来帮助创建高质量的内容。

  • Kngine:这是一个简单的问答引擎,旨在为问题提供直接的答案。

  • Agolo:这是一个内容总结器,比人类更快,范围更广。这是为了促进战略决策。

  • AddStructure:它提供了一种语义产品搜索技术,旨在以会话形式理解ob欧宝娱乐app手机下载搜索标准。

  • NetBase:这是一个提供实时洞察的社交媒体分析工具。NetBase衡量客户情绪并监控品牌声誉。

  • Inbenta它提供了许多基于自然语言处理的客户服务解决方案,包括聊天机器人和智能搜索功能。

免费和有用的自然语言处理资源欧宝体育app官方888

如果你想学习更多关于自然语言处理的知识,有很多可用的资源,其中一些是免费的或低成本的。欧宝体育app官方888这些包括以下课程、讲座、平台、幻灯片和书籍:

用Smartsheet发现自然语言处理的力量

通过设计一个灵活的平台来满足你的团队的需求,并随着需求的变化而适应,从而使你的员工能够超越自己。

Smartsheet平台可以轻松地从任何地方计划、捕获、管理和报告工作,帮助您的团队更有效地完成更多工作。报告关键指标,并通过汇总报告、仪表板和自动工作流实时了解工作情况,以保持团队的联系和信息。

当团队对要完成的工作有了清晰的认识时,就不知道他们在同样的时间内能完成多少工作。今天就免费试用Smartsheet吧。

了解为什么超过90%的财富100强公司信任Smartsheet来完成工作。

免费试用Smartsheet 获得一个免费的Smartsheet演示