海量非结构化信息智能化处理ppt课件.pptx

上传人:牧羊曲112 文档编号:2125545 上传时间:2023-01-14 格式:PPTX 页数:54 大小:5.71MB
返回 下载 相关 举报
海量非结构化信息智能化处理ppt课件.pptx_第1页
第1页 / 共54页
海量非结构化信息智能化处理ppt课件.pptx_第2页
第2页 / 共54页
海量非结构化信息智能化处理ppt课件.pptx_第3页
第3页 / 共54页
海量非结构化信息智能化处理ppt课件.pptx_第4页
第4页 / 共54页
海量非结构化信息智能化处理ppt课件.pptx_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《海量非结构化信息智能化处理ppt课件.pptx》由会员分享,可在线阅读,更多相关《海量非结构化信息智能化处理ppt课件.pptx(54页珍藏版)》请在三一办公上搜索。

1、海量非结构化信息智能化处理,施水才北京拓尔思信息技术股份有限公司总裁2019年1月6日 北京,中国非结构化数据管理高峰论坛(CUDMS 2019),提要,大数据管理的新挑战海量非结构化信息智能化处理的关键技术和典型应用中国非结构化信息处理软件的市场概况TRS 非结构化数据管理和智能化处理系统TRS 海量非结构化信息智能化处理成功案例,一、大数据管理的新挑战,一、大数据管理的新挑战,从互联网服务到企业信息化从各取所需到集成和融合统一建模从管理数据到理解和分析内容,大数据管理的新挑战-从互联网服务到企业信息化,互联网服务,企业计算,新一代企业计算,推动了数据分析及非结构化信息管理的技术突破Hado

2、op架构提供了巨大的可扩展性和灵活性优势朝云服务方向发展,但是并不适合很多企业计算环境对非结构化信息本身的理解非常有限,成本可维护性对业务的支持内/外 一体化,封闭的数据库世界有限的非结构化数据管理能力缺乏低成本可扩展性,在企业级计算中部署大数据管理技术是一种趋势,但仍需时日,一体机和通用平台之争,大数据管理的新挑战-从各取所需到集成和融合统一建模,目前解决结构化数据和非结构化数据统一处理的方法的机制并不完善,缺乏形式化支持,文件系统,SQL,NoSQL,X?,SQL 的传统主导地位互联网企业的反SQL文化未来的企业级平台是否能统一?,IBM,Oracle,Microsoft 都在致力解决这个

3、问题,大数据管理的新挑战-从管理数据到理解和分析内容,虽然大数据是一个重大问题,Gartner分析师表示,真正的问题是让大数据更有意义目前海量数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等,目前所有大数据管理的解决方案没有解决语义计算的基本问题:理解内容,二、海量非结构化信息智能化处理的关键技术和典型应用,海量非结构化信息智能化处理关键技术,分类和聚类,信息抽取,基于语义的检索,关联关系挖掘,情

4、感计算,可视化展现,跨媒体融合,多媒体内容理解,个性化推荐,语义智能计算,短语级的语义计算相似短语、相关短语的计算实体、要素间的关联关系挖掘实体的情感分析词语级的聚类分析。例:标签聚类短语级的比对分析等。例:姓名、出生日期、学历、地址、单位名称等篇章级的语义计算同语种、跨语种的相似文本计算(例:文章转载报道、文章消重等)文本自动分类、文本的聚类分析句子、篇章级的情感分析篇章级变异信息的识别与比对(例如:篡改),自动分类,关键点统计与规则相结合的混合分类引擎分类体系的科学化基于中文新闻信息分类体系的分类模板构造支持多语言混合分类难点针对差异化对象数据,模板参数的合理化设置分类模板的反馈学习机制提

5、供较实用的分类可信度评价指标,供应用参考,关键词标引与自动摘要技术,关键点基于位置、频度和背景词库等多维度的标引和摘要引擎行业词典支持词性、短语类型、长度、特殊符号标识基于关键句的权值运算与筛选的摘要策略关键词驱动的偏重摘要难点基于语义的隐含标引,命名实体识别,关键点实体识别算法+工程应用行业知识库支撑基于行业应用场景的实体识别机制(公文、案件、物品等)难点绰号、网名、小名、笔名、艺名、指标名称 同名排歧人物多重社会角色分析,实体关系的抽取,关键点语境、上下文关系分析关系引擎构建面向行业的主题词典角色关系词典与RDBMS结合的联动挖掘难点类属关系识别(粮食:大豆)隐含关系发现(股东关系)关系链

6、深度、广度挖掘基于图论的可视化关联展示,信息抽取实例,人物关系挖掘实例,自动过滤与自动消重,关键点垃圾广告信息的识别(群发)转载文章相似度比对技术不同阈值的相似文章聚合变异信息的识别与比对(篡改)难点千万级数据消重的亚秒级响应机制违规非法内容的判定与识别跨语言的新闻信息转载识别,话题检测与追踪技术,关键点海量信息片段的聚合机制话题相关度运算难点基于遗忘因子机制的话题演化跟踪敏感话题的及时发现,情感分析,关键点主观情感色彩语句、要素识别倾向性语义模型库的构建语义倾向性词典的倾向强度划分情感持有者、情感极性与情感对象的关联判定难点复句的句法逻辑与情感词汇的潜在情感极性判断(并列复句、转折复句、条件

7、复句、递进复句等)语气、语境与情感词汇融合的情感分析(否定句、感叹句、疑问句),多媒体标注和检索,图像检索音频识别、分类和检索视频摘要、字母提取跨媒体检索,20,大规模挖掘的技术趋势,分布式大规模挖掘,解决性能问题动态样本学习,不断优化语义规则和统计模型,确保精度的稳定和持续提高,海量非结构化信息智能化处理典型应用,企业搜索,知识管理,搜索引擎,内容管理,舆情分析,社交网络,电子商务,三、中国非结构化中文信息智能应用软件市场概况,研究范围,中文信息智能应用是指用计算机对中文信息进行智能分类、存储、搜索、发布、监测等处理和应用。非结构化中文信息智能应用对象为非结构化的中文文字信息,不包括音频、视

8、频和图像,非结构化中文信息智能应用软件市场包括中文企业搜索软件、基于垂直搜索的应用软件、内容管理软件和知识管理软件等,2019年中国非结构化中文信息智能应用软件市场细分产品规模与结构,数据来源:赛迪顾问 2019,12,20192019年中国非结构化中文信息智能应用软件市场细分产品规模预测,2019年,中国非结构化中文信息智能应用软件市场规模将达到46.46亿元,年均复合增长率为25.8%数据来源:赛迪顾问 2019,12,2019年中国非结构化中文信息智能应用软件市场主力厂商份额结构,1、国际厂商仍然占据主要地位2、拓尔思为国内厂商第一名3、市场仍然分散,未来有较大空间,四、TRS 非结构化

9、数据管理和智能化处理系统,拓尔思 VS 非结构化信息处理,拓尔思信息技术股份有限公司是中国资本市场上唯一的以非结构化信息处理为核心业务的上市公司(300229),是中国非结构化信息处理领域的领导者,核心技术包括企业搜索引擎、垂直搜索引擎、内容管理、信息智能挖掘分析、舆情分析技术等公司自主研发的TRS系列产品已被国内外3000多家企业级机构客户广泛使用,覆盖了众多国家部委和地方政府部门、国内主要新闻媒体、大型企业集团等,TRS 非结构化数据处理技术路线图,基于SQL-效率低,基于文件系统的专用数据库-高效,对结构化数据支持不足,SQL+专用数据库-复杂检索引擎-内容管理(CM),SQL+NoSQ

10、L(Hadoop/Hbase)+多引擎+云服务平台,1993,19932000,20192019,2019,TRS 非结构化信息处理的定位,不仅满足数据管理的要求,理解内容、发现内容的价值是TRS的研发重点自然语言理解多媒体内容理解跨媒体和跨语言搜索和互联网单一应用相比,重视信息内容的全生命周期管理云服务和软件系统并举互联网服务的弹性企业信息系统的可实施性和可维护性,实现核高基成果的产品化和应用,是核高基“非结构化数据管理系统”清华课题组参与单位负责LaUD 的产品化和应用推广,五、TRS 海量非结构化信息智能化处理成功案例,案例名称,新华社多媒体数据库国家知识产权局专利检索服务系统某部*智能

11、搜索和挖掘系统海尔全球网站群(企业内容管理)TRS舆情云服务系统,政府,企业,安全,互联网,新华社多媒体数据库系统,是新华社的核心业务支撑,典型的非结构化数据管理应用场景,持续IT投资已经超过6亿人民币以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿及中文繁体在内的 6个文种,数据量超PB最早采用文件系统,后来改为Oracle,效率很低,再改为Oracle+TRS,持续服务至今从大型机改为PC服务器集群有采用云计算技术的计划,1.5亿条原创新闻资讯,26000小时权威原创视频,700

12、万张图片,27000家注册用户,8000多种资源分类,PB级数据量,多语种数据,新华社多媒体数据库数据流转图,新华社多媒体库的技术特点,非结构化数据和结构化数据统一管理TRS多语言检索引擎全面采用TRS文本挖掘技术良好的集群扩展能力索引服务器读写分离,国家知识产权局专利检索服务系统,2019年专利局引进了欧洲EPOQUE系统,基于大型机的专利检索系统,每年的系统维护费用就达数千万元2019年开始建设自主可控可持续发展的专利检索和服务系统,采用大量的PC服务器典型的非结构化/半结构化数据应用场景目前公共检索和审查员检索系统全部使用TRS检索引擎,专利检索系统的需求特点,数据多样性结构化、半结构化

13、和非结构化数据的结合申请人、申请号、名称等著录项很多;权利要求书、说明书等全文数据规模大各库数据结构差异大查询要求高严格的查全和查准要求基于领域知识的智能检索结构化和非结构化信息联合查询相关专利推荐,专利检索与服务系统的数据种类与规模,6亿多条专利记录,多渠道异构资源整合,100%查全率,1秒响应时间,700-1000并发,724稳定可靠,1万注册用户,专利检索引擎数据流转图,专利检索与服务系统-外观图像检索,专利图像外观检索,局部检索形状检索纹理检索不变性特征检索草图检索数据分类数据聚类基于相关反馈的检索跨语言检索,600万幅专利图片查询性能从原来的分钟级提高到秒级索引性能从原来的天级提高到

14、现在的小时级,某部*智能搜索和挖掘系统,系统特点:巨大的数据量多样性数据数据极快速增长系统现状已经部署数千台服务器,满足了业务需求挑战性能和可扩展性整合和调度,目前部署TRS 系统2000多套,正在改进系统架构,增强分布式存贮、管理和查询挖掘性能,*全球网站群(企业内容管理),企业内容管理的发展趋势互联网品牌宣传交互平台互联网营销中心互联网电子商务运营体系*的实践原来采用IBM咨询、产品、服务整体解决方案成本高、性能差2019年全部改为TRS产品和应用解决方案,内容管理、Web 2.0、电子商务、数据挖掘,TRS 舆情云服务系统,新闻:日均50万条 论坛:日均120万条(包括跟帖)博客:日均5

15、万条 微博:日均5000万条 国外:日均25万条,事前,事中,事后,一套基于云计算平台的包括社交网络在内的网络舆情采集、搜索、智能分析、导控处理的舆情云服务系统,TRS 舆情云服务系统技术架构,MySQLHbaseHadoopTRS 检索引擎TRS 挖掘引擎,TRS舆情云服务政府版,TRS舆情云服务企业版,总结,非结构化数据管理具有广阔的市场空间结构化数据和非结构化数据管理需要高效集成和融合对非结构化数据而言,不但要管理数据,更要理解内容,通过语义计算实现内容的增值互联网大数据解决方案在满足企业计算方面仍要解决一系列成本、性能、维护、业务支持等关键问题,谢谢!请批评指正联系方式:shi.shuicaitrs微博:weibo/shuicai,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号