人工智能基础版课件识文断字：理解文本.pptx

资源描述

《人工智能基础版课件识文断字：理解文本.pptx》由会员分享，可在线阅读，更多相关《人工智能基础版课件识文断字：理解文本.pptx（19页珍藏版）》请在三一办公上搜索。

1、识文断字：理解文本,识文断字：理解文本,识文断字：理解文本,识文断字：理解文本CONTENTS1文本分析任务的特点2文本,/01,文本分析任务的特点,/01文本分析任务的特点,4,文本分析任务的特点,文本数据通常不会包含额外的标注信息，例如，我们在社交网络-上发布了一-条消息:“我在学校学习了人工智能课程”这句话是围绕“学习”或“人工智能”等主题展开的，但我们在发布这条消息时并不会特意将这些主题标记上去。如果我们希望对该社交网络上的所有消息进行分析，那么能获取到的信息通常就只有消息本体，而没有任何额外的标记。,多主题特点,401隐性主题文本分析任务的特点文本数据通常不会包含额外的标,5,文本分

2、析任务的特点,能否通过人工标注的方式获得关于文本主题的信息呢？这通常不太可能。文本数据的规模通常远大于视频、图像等多媒体信息。新浪微博 2017 年第二季度的公开数据显示，网站每天都会发送 1.65 亿条微博。对于如此规模的数据，人工标注的代价过于高昂。,502规模庞大文本分析任务的特点能否通过人工标注的方式获得关,6,文本分析任务的特点,既然是无监督学习的任务，那么能否用 K 均值算法对文本数据进行聚类，从而提取出潜在的主题呢？这听起来是可行的，但却忽略了文本数据具有“多主题”的特点。K 均值算法会将一个样本划归为一个个特定的类别，而一段文本通常可能围绕多个主题展开。例如，一篇关于“推动中小

3、学人工智能教育”的新闻至少会围绕“人工智能”和“中小学教育”两个主题展开，我们将其划归为任一单一主题都是不对的。,603主题不唯一文本分析任务的特点既然是无监督学习的任务，那,/02,文本模型,/02文本模型,8,文本模型概述,词袋模型（BOW）是用于描述文本的一个简单数学模型，是一种使用机器学习算法，从文本中提取特征的方法。词袋（Bag-of-words）是描述文档中单词出现的文本的一种表示形式。它涉及两件方面：1.已知词汇的集合。2.测试已知单词的存在。,词频图,8文本模型概述词袋模型（BOW）是用于描述文本的一个简单数,9,文本模型概述,创建词袋的步骤：收集数据：以下是双城记一书中的

4、前几行文字：“It was the best of times，it was the worst of times，it was the age of wisdom，it was the age of foolishness，”我们将每一行文字视为一个单独的“文档”，将这 4 行文字视为整个文档。设计词汇：现在可以列出我们的模型词汇表中的所有单词“it”“was”the”“best”“of”“times”“worst”“age”“wisdom”“foolishness”，这是一个由包括 24 个词组成的语料库中的 10 个词汇。,9文本模型概述创建词袋的步骤：,10,文本模型概述,创建文档：

5、接下来要在每个文档中记录单词。其目的是将自由文本的每个文档转换为一个文本向量，这样我们就可以将其用作机器学习模型的输入或输出。因为我们知道词汇有 10 个，所以可以使用固定长度为 10 的文档来表示向量中的每一个单词的位置。最简单的设计方法是将单词的存在标记为布尔值，0 表示缺席，1 表示存在。使用我们设计的词汇表中列出的任意顺序排列，以第一个文档（“It was the best of times”）为例，并将其转换为二进制向量。该文件的评分如下所示：“it”= 1，“was”= 1，“the”= 1，“best”= 1，“of”= 1，“times”= 1，“worst”= 0，“age”

6、= 0，“wisdom”= 0，“foolishness”= 0，作为二进制向量,10文本模型概述创建文档：,11,文本模型概述,稀疏向量在建模时需要更多的内存和计算资源，大量的位置或维度使建模过程使用传统算法非常具有挑战性。,还有一种更复杂的方法是创建分组单词的词汇表。在这种方法中，每个单词或标记被称为“gram”。创建两个词对的词汇又被称为二元模型（bigarm）。值得注意的是，只有出现在语料库中的“bigarm”才能被称为二元模型。一个N-gram 是一个 N 符号的单词序列：一个 2-gram（常称为二进制）是一个两个字的序列，如“please turn”“turn your”或“yo

7、ur homework”；一个 3-gram（常称为三元组）是一个三个字的序列，如“ please turn your”或“ turn your homework”。,11词汇随着词汇量的增加，文档的向量表示也将随之增加。在前面,12,词的统计,散列词（WordHashing）：可以在词汇表中使用已知单词的散列表示，这解决了对大型文本语料库来说非常大的问题，因为我们可以选择散列空间的大小，也可以完成文档的向量表示TF-IDF：一种方法是通过在所有文档中单词出现的频率来重新调整单词出现的频率，以避免给所有文档中频繁出现的单词（如 the）的分数带来坏的影响。这种统计方法称为术语频率逆文档频率方法

8、，简称为 TF-IDF，其中术语频率是本文档中单词频率的得分，而逆文档频率是在文档中罕见单词的得分。,12词的统计散列词（WordHashing）：可以在词汇表中,13,主题模型,13主题模型（topic model）是描述语料库及其潜在主,14,主题模型,14主题模型（topic model）是描述语料库及其潜在主,15,主题模型,15主题模型（topic model）是描述语料库及其潜在主,/03,文本分析任务的应用,/03文本分析任务的应用,17,文本分析任务的应用,17在商业实践中，基于大数据的文本分析被广泛应用于各行各业，,18,文本分析任务的应用,18举例来说，某个 APP 的用户满意度一段时间内上升不少，,第五讲结束,第五讲结束,

展开阅读全文