知识产权出版社自动数据加工方法与技术研究王维.ppt

上传人:sccc 文档编号:5994984 上传时间:2023-09-12 格式:PPT 页数:25 大小:643.02KB
返回 下载 相关 举报
知识产权出版社自动数据加工方法与技术研究王维.ppt_第1页
第1页 / 共25页
知识产权出版社自动数据加工方法与技术研究王维.ppt_第2页
第2页 / 共25页
知识产权出版社自动数据加工方法与技术研究王维.ppt_第3页
第3页 / 共25页
知识产权出版社自动数据加工方法与技术研究王维.ppt_第4页
第4页 / 共25页
知识产权出版社自动数据加工方法与技术研究王维.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《知识产权出版社自动数据加工方法与技术研究王维.ppt》由会员分享,可在线阅读,更多相关《知识产权出版社自动数据加工方法与技术研究王维.ppt(25页珍藏版)》请在三一办公上搜索。

1、知识产权出版社汇报人:王维,自动数据加工方法与技术研究,课题的提出理论依据自动摘要抽取自动关键词标引模板自动分类相关短语词典总结和展望,报告提纲,一、课题的提出,专利数据每年大规模的递增我局的信息化建设中,专利数据加工是一项十分重要的工作人工处理无论从成本还是效率上都无法满足要求,必由之路,自动化加工方法,二、理论依据,自然语言理解自然语言理解是计算机科学领域与人工智能领域中的一个重要方向。简单的讲,它就是研究如何才能使计算机理解人类的语言,研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言理解是一门融语言学、计算机科学、数学于一体的学科,自然语言理解技术在专利信息服务中的应用

2、方向,自然语言理解技术,机器翻译,信息检索,专利分析,数据加工,中翻外,外翻中,语义检索,相似性检索,自动聚类,智能预警,自动分类,自动标引,跨语言检索,相关概念联想,自动摘要,三、本课题主要研究内容,自动摘要提取:给定一篇专利文本,从该文本中自动提取出该篇文本的摘要。自动关键词标引:给定一篇专利文本,从该文本中提取出最能够表达该文本意义的若干个关键词。自动分类训练:即专利分类模板训练。根据给定的分类(例如IPC分类)训练语料,训练统计语料中的分类文本特征生成专利分类模板。相关短语词典:给定一批短语,根据专利背景库以及给定的短语、生成与每一个给定短语最相关的短语组,并按照一定的格式生成相关短语

3、词典。,每期原始数据,模板分类等自动化分类组件,自动摘要等自动化标引组件,人工校对,人工校对,反馈,反馈,四、自动摘要提取及其应用,词频 词的权值句法结构句的权值篇章位置线索词,片段去重算法,输出参数设置,具体步骤:分析篇章结构分词和统计计算词在句子中的权值计算句子的权值按权值排序片段去重分析平滑处理输出参数限制输出,五、自动关键词标引及其应用,规则与统计相结合词语位置出现频率分布情况词语的类型最后打分,训练阶段:对文本进行分词和词性标注使用特征提取技术,抽取有用的文本特征根据提取的文本特征得到统计分类规则将分类规则转换成分类模板分类阶段:对文本进行分词和词性标注使用特征提取技术,抽取有用的文

4、本特征将提取的文本特征表示成文本向量将文本向量送入分类器,计算文本向量与分类模板之间的距离,确定该文本的类别,六、分类训练及其应用,七、相关短语检索和词典,目的:获得词之间的关联关系,使检索更加准确途径:1 从用户检索词中挖掘2 从专利文本中挖掘,洗手液,香皂,洗衣液,洗涤用品,基本步骤:对大量专利文本进行预处理自动抽取出关键词(短语)当外界输入一个短语A时,根据语义词典、语法结构、共现概率、同义词词典等找出与其最相关的短语A1、A2、A3(A:A1 A2 A3)即成为相关短语词典中的一条记录,八、存在的不足及展望,综上所述,本课题主要研究了的自动摘要提取、自动关键词标引、分类模板训练、自动相关短语词典四方面的方法和技术,且目前均已步入实用阶段。实践证明这些自动化的专利数据加工方法与技术大大减轻了人的工作量,明显的提高了工作效率,具有非常重要的意义。然而在目前,人们对自然语言的研究刚刚起步,人类语言的多样性和复杂性使得计算机自动处理的结果与人工加工的结果有不小的差距,很多问题有待改善,尤其是对于自动摘要和自动分类系统来讲。不过我们乐观的看到,随着研究的继续深入和各方面投入的增大,自然语言处理在一些专业领域,尤其是像专利这类格式比较统一的文本,必定会取得重大成功,产生出更准确、更高效的自动化数据加工方法与技术。让我们拭目以待。,谢 谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号