《网络多媒体素材加工.ppt》由会员分享,可在线阅读,更多相关《网络多媒体素材加工.ppt(27页珍藏版)》请在三一办公上搜索。
1、第2章 文字素材采集与处理,网络多媒体素材加工,第2章 文字素材采集与处理,2.1 文字素材基础2.2 使用OCR工具软件转换图像文字2.3 语音识别与手写输入技术2.4 文字素材采集实训,2.1 文字素材基础,2.1.1 文字素材采集与编辑2.1.2 文字编辑常用工具软件2.1.3 常用文本文件格式及其转换,2.1.1 文字素材采集与编辑,一般根据文字素材在计算机中的存储和显示方式不同,可将文字素材分为文本文字素材和图像文字素材两类。文本文字是指以文本文件格式存在的文字素材,如TXT、DOC等格式的文本文字;图像文字是指以图像文件格式存在的文字素材,如BMP、TIF等格式的文件。,图2-1
2、文本文字 图2-2 图像文字,1文本文字与图像文字,2文字素材的采集,键盘输入:通过键盘,可以将中文字、英文字母、数字、标点符号等输入到计算机中。扫描输入:通过扫描仪将纸上的文字转换为计算机可处理的信息,一般用于大量文字的快速录入。语音输入:语音输入设备向计算机输入信息的过程,包括命令控制和听写两个功能。手写输入:用书写笔在与计算机相连的书写板上写字,用压敏或电磁感应等方式将笔在运动中的坐标输入计算机,识别软件根据采集到的笔迹之间的位置关系和时间关系信息来识别所写的文字,并把结果显示在屏幕上。,2.1.2 文字编辑常用工具软件,Windows 操作系统自带的编辑工具(记事本、写字板)Micro
3、soft WordWPS Office 金山文字2003,2.1.3 常用文本文件格式及其转换,1常用文本文件格式2DOC文件与PDF文件的格式转换3DOC文件格式与CAJ文件格式间的相互转换,1常用文本文件格式,TXT格式:TXT是一种纯文本格式文件,可由记事本处理创建。CSV格式:CSV(Comma Separated Values)文件格式也是一种纯文本文件,常用于不同应用程序之间交换数据,它可以被任何文本编辑器调用、编辑、修改。,1常用文本文件格式,DOC格式:一种通用的PC格式化文本文件格式,由Microsoft Word或WordPerfect for Windows创建,可以包含
4、更多的内容,建立超链接等,表现力强、操作简便。RTF格式:RTF(Rich Text Format)格式是微软公司的写字板采用的标准格式。,1常用文本文件格式,WPS格式:WPS文件是作为目前国内唯一较成熟的拥有完全自主知识产权的办公系统软件WPS Office 生成的文本文件格式。PDF格式:PDF(Portable Document Format便携式文档格式)文件格式是Adobe公司开发的电子读物文件格式。CAJ格式:CAJ文件是中国学术期刊全文数据库的专用格式,由中国学术期刊(光盘版)电子杂志社开发制作。,2DOC文件与PDF文件的格式转换,(1)DOC格式文件转换为PDF格式文件将D
5、OC格式转换为PDF格式比较容易,如果系统完全安装Adobe Acrobat 7.0 Professional,就可以通过下列方式进行转换:使用“快捷菜单”进行转换利用Acrobat PDF Maker利用Acrobat PDF打印机转换,使用“快捷菜单”进行转换,图2-3 快捷菜单 图2-4 Save Adobe File As对话框,利用Acrobat PDF Maker,图2-5 Acrobat PDF Maker菜单栏 图2-6 Adobe PDF菜单,利用Acrobat PDF打印机转换,图2-7 Acrobat PDF打印机 图2-8 选择Acrobat PDF打印机,(2)PDF
6、文件转换为DOC格式文件,直接从PDF文件复制文本到DOC文件利用Adobe Acrobat自身转换功能借助格式转换工具软件(ScanSoft软件)图像形式PDF文件的转换利用CAJViewer的OCR功能,直接从PDF文件复制文本到DOC文件,图2-9 从PDF文件复制文本到DOC文件,利用Adobe Acrobat自身转换功能,Adobe Acrobat提供了PDF格式向DOC格式的转换功能。执行【文件】【另存为】命令,在对话框中选择【保存类型】为Microsoft Word文档,单击【保存】。,借助格式转换工具软件,PDF向DOC格式转换的工具软件比较多,其中ScanSoft PDF C
7、onverter for Microsoft Word是由ScanSoft公司与微软共同开发的一个全新的Office 2003 插件。该插件可以通过Word直接将PDF文档转换为Word文档,并且完全保留原来的格式和版面设计。,图像形式PDF文件的转换,对于图像形式的PDF文件(从图像文件转换形成的PDF文件),可以将PDF文件打印到Microsoft Office 2003的Microsoft Office Document Image Writer打印机,生成一个MDI文件。用Microsoft Office Document Image打开此文件,执行【工具】【使用OCR识别文本】命令,
8、进行文字识别。识别完成后,执行【工具】【将文本发送到word】命令,把整个PDF文件识别输出到word文件中。,利用CAJViewer的OCR功能,图2-11 利用CAJViewer的OCR功能转换,3DOC文件格式与CAJ文件格式间的相互转换,(1)CAJ格式文件转换为DOC格式文件局部文本文字的识别转换借助Microsoft Office Document Image Writer打印机进行文件识别 全文间接转换(2)DOC格式文件转换为CAJ格式文件,局部文本文字的识别转换,图2-14 从CAJViewer 6.0直接复制文本,借助Microsoft Office Document Image Writer打印机进行文件识别,图2-15 设置打印机,全文间接转换,CAJViewer不支持直接将全文另存为DOC格式文件,但支持将全文另存为TXT格式文件,事实上达到间接转换为DOC的目的。一般地,对于以文本文字为主的CAJ文件可以采用通过TXT间接转换为DOC的方式。,(2)DOC格式文件转换为CAJ格式文件,中国学术期刊(光盘版)电子杂志社基于统一文件格式的需要,利用TPI系统提供的通用文档转换工具CAJWriter,可以将DOC、PDF、HTML、WPS、TXT、PPT等文件格式直接转换成CAJ格式的电子书。,谢谢!,