《XML编程开发教程.docx》由会员分享,可在线阅读,更多相关《XML编程开发教程.docx(31页珍藏版)》请在三一办公上搜索。
1、第一章XML与DTDXML 的产生:XML 的全称是 Extensible Markup Language,意思是可扩展的标记语言,它是标准通用 标记语言(Standard Generalized Markup Language, SGML)的一个子集。在80年代早期, IBM提出在各文档之间共享一些相似的属性.例如字 体大小和版面。IBM设计了一种文档系统,通过在文 档中添加标记,来标识文档中的各种元素,IBM把这 种标识语言称作通用标记语言(Generalized Markup Language),即GML。经过若干年的发展, 1984年国际标准化组织(ISO)开始对此提案进行讨 论,并于
2、1986年正式发布了为生成标准化文档而定 义的标记语言标准(ISO 8879),称为新的语言SGML, 即标准通用标记语言。SGML功能非常强大,是可以 定义标记语言的元语言。W3C介绍:W3C是万维网联盟(World Wide Web Consortium)英文的缩写,它成立于1994年10月,以 开放论坛的方式来促进开发互通技术(包括规格、指南、软件和工具),开发网络的全部潜 能。万维网联盟(W3C)从1994年成立以来,已发布了 90多份Web技术规范,领导着Web 技术向前发展。W3C认为自身不是官方组织,因此将它正式发布的规范称为推荐(建议) 标准,意思是进一步标准化的建议,但是由于
3、该组织自身的权威性往往成为事实上的标准。 一项技术要成为W3C的推荐标准,需要7个步骤:1. W3C 收到提交(Receives a Submission) 2.W3C 发布注释(Publishes a Note) 3.W3C 成立工作 组(Creates a Working Group) 4.W3C 发布工作草案(Publishes a Working Draft) 5.W3C 发布候 选推荐标准(Publishes a Candidate Recommendation) 6.W3C 发布提议的推荐标准(Publishes aProposed Recommendation) 7.W3C 发布
4、推荐标准(Publishes a Recommendation)关于XML的问题:XML是HTML的扩展吗?HTML的全称是 Hypertext Markup Language (超文本标记语言),而 XML的全称是 (Extensible Markup Language)可扩展的标记语言,这很容易让人联想到XML是通过增加新 标记来扩展HTML的一种标记语言。实际上HTML和XML在标记语言中处于不同的层次。 这是一个欢迎的例子标题这是一个欢迎的例子/标题内容你好!欢迎你! /内容你好!欢迎你! /欢迎词提示:XML在设计之初,就考虑到了国际化的问题,同HTML4.01 一样,XML也是基于
5、ISO/IEC 10646字符集标准中定义的通用字符集(Universal Character Set.UCS)。SGML、HTML和XML之间的关系:SGML、HTML和XML之间是什么关系?SGML是一种在Web发明前就早已存在的使用标记来描述文档资料的通用语言,它是 一种定义标记语言的元语言。HTML和XML都是从SGML发展而来的标记语言,因此, 它们有一些共同点,如相似的语法和标记的使用。不过HTML是在SGML定义下的一个描 述性的语言,只是SGML的一个应用,其DTD作为标准被固定下来,而XML是SGML的 一个简化版本,是SGML的一个子集,严格意义上来说,XML仍然是SGML
6、。HTML不能 用来定义新的应用,而XML可以,例如RDF和CDF那是使用XML定义的应用.事实上。 XML和SGML是兼容的.但又没有SGML那么复杂,它是设计用于有限带宽的网络,如 Internet. XML规范的制定者之一 Tim Bray说,XML的设计出发点是取SGML的优点,去 除复杂的部分,使其保持轻巧,可以在可。6上工作。HTML、SGML和XML将继续使用于 适合的地方,它们中的任何一个都不会使其它一个废弃。对于像新闻、网络日记、论坛留言 等大部分短期的数据,HTML仍是在Web上快速出版数据的最简单的方法。如果数据要长 期使用,并且需要更多的一些结构,我们更推荐使用XML。
7、不同于HTML和XML,SGML 可能永远不会在Internet上被广泛接受,因为它们不是为某个网络协议而设计,也从来没有 为某个网络协议的需求而优化过。对于高端的、复杂结构的出版应用,SGML将继续应用。XML与HTML的比较:XML将数据与显示分开 静夜思 静夜思 作者:李白床前明月先,疑是地上霜举头望明月,低头思故乡 静夜思 李白 床前明月光疑是地上霜举头望明月 低头思故乡 XML对文档的格式要求更加严格,由于HTML文档格式非常松散,导致了 HTML文档解析 的复杂性,也造成了浏览器兼容的问题,所以XML从一开始,就对文档的格式制定了非常 严格的标准,凡是符合这一标准的XML文档就是格
8、式良好的XML文档(Well-Formed XML Documents)0开始标签必须要有一个结束标签:在HTML文档中,可以直接使用, , 等标签,而不用加结束标签,在XML中,开始标签和结束标签必须配套,也就是必须写成 vp.v/p、vtr.v/tr, . 空元素标签必须被关闭.在HTML文档中,可以使用 , , 等单标签,而在 XML 中,空元素标 签必须被关闭。空元素标签采用斜杠 (/)来关闭,例如:vbr/,vhr/,vimg src=logo.gif” width=197 height=81/所有的标签都区分大小写在HTML文档中,标签是不区分大小写的,和是tr元素的开始标签和结
9、束标签,但是在XML中,vtr和是两个不同的标签,开始标签和结束标签的大小写形式必须一致.所有的标签都必须合理嵌套。在HTML文档中,vbvi.v/bv/i是允许 的,但是在XML中,这是错误的.在XML中,所有的标签都要成对出现,合理嵌套,正 确的形式是:vi.v/b.所有标签的属性值必须用双引号(域单引号(”)括起来。在HTML文档中,属性值可以加引号,也可以不加,例如:vhr color=blue和 都是合法的。在XML文档中,即使是数等字符,也必须加双引号或单引号,例如:vstudentname=zhangsan age=18/。XML的编辑工具:XML有且只能有一个根元素,在HTML
10、中,可以有多个根元素,如下:.v/table vtable.v/table.但是在XML中,有且只能有一个根元素,如下:vtable.v/tableNotepad(Windows 自带)、UltraEdit、XMLSpyXML的文档:每一个XML文档都有一个逻辑和一个物理结构。物理上而言,文档由称为实体(entities )的存储单元组成,实体都具有内容并且都通过实体的 名字进行标识文档实体和外部DTD子集除外)。实体可以是一段文本、一个文件、一个 数据库记录或其他包含数据的项目。一个实体可以引用其它的实体,从而将它们包含在文档 中。文档开始于根(root)”或文档实体(document en
11、tity).格式良好的XML文档形成了一种层 次树结构,而这个树的树根就是文档实体,与其它实体不同,文档实体没有名宇,只是用于 表示文档树的根。XML文档的根元素被称为文档元素(document element),它和在其外部出 现的处理指令、注释等作为文档实体的子节点,而根元素本身和其内部的子元素也是一棵树. 实体可以包含已分析(parsed)的或未分析的(unparsed)数据.已分析的数据由字符组成,其 中一些字符组成字符数据,另一些字符组成标记。已分析的实体(parsed entity)内容被称为 它的替换文本,这个文本被看成是文档整体的一部分.在XML处理器分析XML文档时, 凡是文
12、档中出现引用已分析实体的地方,都将被该实体的内容所替换.未分析的实体(unparsed entity)是一种资源,它的内容可以是也可以不是文本,并且,如果是文本的话,可 以不是XML文本。每一个未分析的实体有一个相关联的用名字标识的记号(notation)o除了 要求XML处理器能向应用程序提供可用的实体和记号的标识符之外,XML对未分析的实 体内容不作任何限限制。已分析的实体以实体引用的方式通过名字来调用:未分析的实体通 过ENTITY或ENTITIES属性中给出的名字来调用.逻辑上而言,文档由声明,元素,注释, 字符引用和处理指令组成,在文档中,所有这些都是通过显式的标记(markup )
13、来指明的.XML 标记(markup)包括开始标签(tag)、结束标签、空元素标签、实体引用、字符引用、注释、CDATA 段定界符、文档类型声明,处理指令、XML声明、文本声明以及任何在文档实体顶层的空 白(即,在文档元素之外,且不在任何其它的标记内部)。其它所有非标记的文本组成文档 的字符数据。XML文档在逻辑上主要由以下五个部分组成。-XML声明-文档类型声明-元素-注释-处理指令。XML 声明:XML文档总是以一个XML声明开始,其中指明所用的XML版本、文 档的编码、文档的独立性信息。其格式如下 一对中括号()中的部分表示是可选信息。版本声明文档编码声明 在XML声明中还可以加上交档编
14、码信息,默认是UTF-8,如果要使用中 文,我们可以在声明中加上encoding=gb2312”,如下所示: 独立文档声明如果我们的文档不依赖于外部文档.在 XML声明中,我们可以通过standalone=yes”来声明这个文档是独立的文档,如要文档依赖于外部文档,可以通过 standalone=no”来声明。完整的 XML 声 明如下所示: XML声明必须位于文档的第一行,前面不能有任何字符。文档类型声明DTD (Document Type Definition).文档类型定义.XML从SGML继承了用于定义语法规则的DTD机制,但DTD本身井不要求遵循XML规 则,几乎所用的XML应用都是
15、使用DTD来定义的。HTML就有一个标准的DTD文件,所 以其组织结构和所有的标签都是固定的.DTD文件也是一个文本文件,通常用dtd作为其 扩展名.通过文档类型声明,指出XML文档所用的DTD.文档类型声明有两种形式.一种 是声明 DTD 在一个外部的文件中,如下:一种是直接在 XML 文档中给出 DTD,如下: !DOCTYPE greeting 兀素:在XML中,元素由开始标签、元素内容和结束标签构成,对于空元素,由空元 素标签构成。每一个元素有一个用名字标识的类型,同时它可以有一个属性说明集,每一个 属性说明有一个名字和一个值。在给元素命名的时候要注意,以xml或其他任何匹配(XTx)
16、(MTm) (L|l)的字符串开头的名字,被保留用于XML规范的当前版本或后续版本 的标准化。此外,在给元素命名时,还要遵守下列规范:1、名称只能以字母、下划线(_)或者冒号(:)开头;2、名称中可以包含字母、数字、下划线以及其它在XML标准中允许的字符;3、名称中不能包含空格;4、名称中尽可能不要使用冒号(:),因为冒号在名称空间中被用于 分隔名称空间前缀和本地部分,空元素带有属性的空元素带有内容的元素这是一个学生的信息 张三 18带有内容和属性的元素 vstudent name=张三 18 提示:“元素”和“标签”这两个词具有不同的含义。元素是指开始标签、结束标签以及两者之间的一切内容,包
17、括属性、文本、注释以及子元素。标签是一对尖括号(V)和两 者之间的内容,包括元素名和所有属性。例如:vfont color=blue”是一个标签,也 是一个标签:而Hello Worldv/fontK0 是一个元素。元素的内容可以包含子元素、字符数据、字符引用和实体引用、CDATA段。子元素本身也是元素,被嵌套在上层元素之内。子元素是相对于父元素而言的,如果子元素 还嵌套了其它元素,那么它同时也是父元素。 vstudentsvstudentvname张三18 .在一个元素的内容中,字符数据可以是不包括任何标记的起始定界符和CDATA段的结束定 界符的任意字符串,也就是说在元素的内容中,字符数据
18、不能有和号(&)和小于号(,在CDATA段中,字符数据可以是不包括CDATA段的结束定界符的任意 字符串。注释:在字符数据中,不能有和号(&)和小于号(),因为未经处理的小于号(。与和号(&)在XML 文本中往往被解释为标记的起始定界符(例外的情况见下面要介绍的CDATA段).在XML中, 提供了 5个预定义的实休引用,分别引用XML文档中的5个特殊字符:小于号()、双引号()、单引号()、和号(&)。这5个特殊字符也可以通过字符引用的方式去引用. 字符引用和预定义实体引用都是以一个和号(&)开始并以一个分号(;)结束.如果用的是宇符 引用,需要在和号(&)之后加上一个井号(#),之后是所需字
19、符的十进制代码或十六进制代码 (ISO/IEC 10646字符集中字符的编码)。如果用的是预定义实体引用,在和号(&)之后写上 宇符的助记符.字符字符引用(十进制代码)字符引用(十六进制代码)预定义实体引用>>>n";""1'''DATA段中包含的都是纯字符数据,在字符数据可以出现的任何地方 cData段主要用于需要将整个文本解释为字符数据而不是标记的,都可以使用CDATA 情况下。CDATA段中C的内容不被XML处理器分析,所以可以在其中包含任意的字符。例如,在XML文档中, 我需要包含Java代码,而Java代码
20、中可能存在着小于号()、双引号()、单引 号()、和号(&)这些特殊字符,这个时候,CDATA段就派上用场了。CDATA段以字符串 ”结束.在XML文档中,注释可以出现在文档中其它标记之外的任何位置,另外,它们 还可以在文档类型声明中语法(grammar)允许的地方出现。XML的注释和HTML的注释类 似,都是以结束。位于之间的数据将被XML处理器忽略。如:!-This is a comment-。注释用于对文档中的内容起一个说明作用。使用注释时,要注意以下五点:1、注释不能出现在XML声明之前,XML声明必须是文档最前面的部分。下面的情况是不允许的:2、 注释不能出现在标记中,下面的例子是非
21、法的vgreetingv!-Begin greet-Hello, world! 3、注释可以包围和隐藏标记,但要注意的是,在注释掉标记之后,要保证剩余的文本仍然 是一个结构完整的 XML 文档。例如:vgreetingv!-vtitleThis is agreeting example-Hello,world!当我们将注释部分去掉的时候,文档结构仍然是完整的:Hello,world!4、字符串”-”(双连字符)不能在注释中出现。下面的例子是非法的。这意味着,我们在注释中书写程序代码的时候,不能出现类似于i-或-i这样的代码。处理指令:5、在XML中,不允许注释以-结尾。下面的例子是非法的。(P
22、rocessing Instructions,简称PIs)允许文档中包含由应用程序来处理的指令。在XML文档中,有可能会包含一些非XML格式的数锯,这些数据XML处理器无法处理, 我们就可以通过处理指令来通知其它应用程序来处理这些数据。处理指令PI)的语法和 XML声明类似,以结束。一个常见的使用样式表单的处理指令如下所示: 在开始标记 ?后 的第一个字符串 xml-stylesheet”叫做处理指令的目标,它必须标识要用到的应用程序,要注意的是对于其它 的非W3C定义的处理指令不能以字符串XML和xml”开头;其余的部分是传递给应用程序 的字符数据。应用程序从处理指令中取得目标和数据,执行要
23、求的动作。处理指令的目标可以是要使用的程序的名字,或者是一个类似于xml-stylesheet这样的很多 程序可以识别的通用标识符。不同的应用程序支持不同的处理指令,对于不认识的处理指令, 大多数应用程序采取忽略的方式进行处理。xml-stylesheet处理指令总是放在XML声明之后, 第一个元素之前。其它的处理指令可以放在除标记的内部和XML声明之前的任何位置。要 注意,虽然XML声明和处理指令的语法形式相似,但XML声明并不是处理指令,XML处 理程序对XML声明和处理指令采取的是不同的处理方式。空白处理:在XML规范中,空白包括空格、制表符和空行。XML处理器总是将文档中不是标记的所有
24、字符都传递给应用程序,一个进行有效性验证的XML处理器会通知应用 程序这些字符中的哪一些组成了出现在元素内容中的空白。在XML文档中,可以在元素中 使用一个特殊的属性xml:space,来通知应用程序保留此元素中的空白。在有效的文档中.这 个属性和其它任何属性一样,在使用时必须声明。xml:space属性必须被声明为Enumerated (枚举)类型,它的值必须是default和preserve”两者之一,也可以两个都取.例如:!ATTLIST poem xml:space (defaultlpreserve) preserve!ATTLIST pre xml:space (preserve)
25、 #FIXED preserve、default表示对此元素使用应用程序的缺省空白处理模式,preserve指示应用程序保留所有 的空白。如果一个元素使用了 xml:space属性,将适用于该元素内容中的所有元素,除非被 另一个xml:space属性的实例所覆盖。行尾处理:XML数据经常以文本的方式保存在计算机文件中,以行来分隔。然而,不同的计算机系统采用的行分隔符是不同的。在XML空白字符中,有两个是标准的ASCII 码行尾控制字符:回车(CR, #xA)和换行(LF, #xD)。Windows平台下,采用#xD#xA的组合 作为行分隔符,而Linux, Unix系统则采用#xA作为行分隔符
26、,在MacOS下,采用#xD作为 行分隔符。为了简化应用程序的工作,XML处理器在解析前,要将所有的两字符序列#xD#xA, 以及单独的#xD字符转换成单个的#xA字符。语言标识:在文档处理中,标识出其内容所使用的自然或人工语言常常是很有用的。可以在文档中插入一个特殊的属性xml:lang,来指出XML文档中任何元素的内容和属性的 值所使用的语言。在有效的文档中,这个属性和其它任何属性一样,在使用时必须声明。xml:lang 属性的值是在 IETF RFC 3066 (Tags for the Identification of Languages)或它的后继版 本中定义的语言标识符,另外,也
27、可以为其指定空字符串。例如:This is English 床前明月光疑是地上霜举头望明月 低头思故乡 属性xml:lang所指定的语言适用于它所在元素的所有属性及元素的内容,除非被该元素内 容中的另一个元素的xml:lang的实例所覆盖。我们可以为一个子元素的xml:lang属性赋一 个空值,来覆盖其父元素上的xml:lang属性设置。在该子元素内,将没有可用的语言信息, 就好像在它自身及其祖先元素(父元素、父元素的父元素等等)上没有指定xml:lang属性 一样。xml:lang的一个简单声明可以采用如下形式:xml:lang NMTOKEN #IMPLIED不过,如果合适的话,也可以给出
28、指定的缺省值。在一本供英国学生使用的法文诗歌 集中,注解(gloss)和笔记(note使用英语,xml:lang属性可以声明如下: 格式良好的XML:如果一个XML文档有且只有一个根元素,符合XML元素的嵌套规则,满足XML规范中定义的所有格式正确性的约束,并且在文档中直接或间接引用 的每一个已分析实休都是格式正确的,我们称这个文档是一个格式良好(well-formed)的XML 文档。为什么格式良好的XML是如此重要呢?主要是因为:1、可以创建没有DTD的XML 文档,便于利用XML文档做数据的交换。2. XML的处理器可以做得很小很快,从而应用 于手持设备,例如:PDA、手机等存储容量较小
29、的设备中。DTD ,在XML文档中引入DTD: DTD (Document Type Definition),文档类型定义。在XML标准中,描述了如何创建DTD,以及如何将它与根据它的规则所编写的XML文档相关 联,并且还定义了 XML处理器应该如何对DTD进行处理。有了 DTD就可以检测XML文 档的结构是否正确。DTD为XML文档的编写者和处理者提供了共同遵循的原则,使得与文 档相关的各种工作有了统一的标准。通过在XML文档中包含文档类型声明,来建立当前文 档和DTD的关联。当进行有效性验证的XML处理器读到该指令时,它获取DTD.并根据其中定义的 规则对文档进行检验。文档类型声明必须位于
30、XML声明之后,且在根元素(文档元素)之 前。不过,在XML声明和文档类型声明之间可以插入注释和处理指令。我们可以直接在 XML文档中定义DTD,也可以通过URI引用外部的DTD文件,或者同时采用这两种方式。!DOCTYPE greeting 文档类型声明由!开始,后面紧跟一个关键字DOCTYPE,然后是文档根元素的名称,接下 来是标记声明块,标记声明块是放在左中括号()和右中括号之间的,由一个或多个标记声 明构成,最后由结束。在DTD中,所有的关键宇都是大写的。不过,在DTD中定义的元 素和属性的大小写是可以任意指定的,但是要注意,因为XML文档是大小写相关的,所以 一旦给一个元素命名,那么
31、在整个文档中要使用相同的大小写.例如:greeting和Greeting 是两个不同的元素名。在XML文档中定义DTD,比较直观,修改也比较方便,而且不用担MXML处理器找不到 DTD,但是它也有一些缺点:(1)在文档中定义DTD会导致文档本身的长度增加,在传输数 据时,即使不需要验证文档的有效性,这些声明也会随着文档一起传输;(2)如果多个XML文档要共用同一个DTD,我们就需要在每一个文档中加入DTD,这是相 当繁琐的。在文档类型声明时,用关键字SYSTEM或PUBLIC来指出外部DTD文件的位置。使用 SYSTEM关键字的声明语法如下:SYSTEM关键字表示文档使用的是私有的DTD文件,
32、“外部DTD文件的URI可以是相对 URI或者绝对URI.相对URI是相对于文档类型声明所在文档的位置。”外部DTD文件的URI 这部分也被称为系统标识符(system identifier).下面是使用一个外部DTT文件的例子:如果位于不同位置的多个XML文档要使用同一个DTD.我们可以使用绝对URI来指明DTD 文件的地址。假定hello.dtd位于http:/www.sunxin.org/xml/dtds/hello.dtd可以在文档类型声 明中使用此 URI: 如果引用DTD的XML文档与DTD文件在同一个Web服务器上,我们也可以使用相对URL: 上面的三种形式都是允许的。使用PUB
33、LIC关键字的声明语法如下: PUBLIC关键宇用于声明公共的DTD,并且这个DTD还有一个 名称,DTD的名称”也称为公共标识符(public identifier).这个DTD可以存放在某个公共的 地方,XML处理程序会根据名称按照某种方式去检索DTD,如果XML处理器不能根据名称 检索到DTD,就会使用”外部DTD文件的URI(系统标识符)来查找该DTD。DTD名称与XML名称略有不同,它们只能包含ASCII字母和数字字符、空格、回车符、 换行符和一些标点符号:-()+,./:=?;!*#$_%公共DTD名称要遵守一些约定。如果一项DTD是ISO标准,它的名称要以字符串ISO开始。如果是
34、一个非ISO的标准组织批准的 DTD,它的名称以加号(+)开始。如果不是标准组织批准的DTD.它的名称以连宇符(-)开始. 这些开始字符或字符串后接双斜杠(/)和DTD所有者的名字,之后是另一个双斜杠和DTD 描述的文档类型,接着又是一个双斜杠后接ISO 639语言标识符,如EN表示英语,ZH表 示中文.在 http:/www.ics.uci.edu/pub/ietf/http/related/iso639.txt处列有完整的 ISO639 标识符。例如我们定义的人力资源DTD可以采用下面的命名:-/xin sun/DTD HR 1.0/ZH连字符(-)表示这个DTD不是由任何标准组织批准的,
35、为xin sun所有,描述的是人力资源管 理,用中文编写。完整的文档类型声明如下:HTML网页的文档类型声明,如下:W3C公布的在Web文档中使用的有效的文档类型声明列表可以在 http:/www.w3.org/QA/2002/04/valid-dtd-list.html 上找到.注意:文档类型声明与文档类型定义不是一个概念,DTD是文档类型定义(Document TypeDefinition)的英文缩写。文档类型声明, !ELEMENT greeting (#PCDATA):这种语法是文档类型定义。文档类型声明可以包含(内部 DTD子集)或引用(外部DTD子集)一个文档类型定义,但文档类型定
36、义从不包含文档类 型声明.在前面我们提到,如果我们的文档不依赖于外部文档,在 XML声明中,可以通过 standalone=yes”来声明这个文档是独立的文档。如果文档依赖于外部文档,可以通过 standalone=no”来声明。当我们使用外部DTD文件时,就需要将属性standalone的值设置为 no。在实际应用中,很少使用standalone属性,它的主要用途是作为XML处理器和其它 应用程序的标志,表示是否需要获取外部内容。如果文档依赖于外部文档,即使我们不使用 standalone属性,XML处理器也能够很好地进行处理。DTD 的结构:DTD的结构一般由元素类型声明、属性表声明、实体
37、声明、记号(notation)声明等构成。一个典型的文档类型定义文件会把将来所要创建的XML文档的元素结构、属 性类型、实体引用等预先进行定义。兀素类型声明不但说明了每个文档中可能存在的元素,给出了元素的名称,而且给出了元素的具体类型。一个XML元素可以为空,也可以只包含字符数据,还可以有若干个 子元素,而这些子元素同时又可以有它们的子元素。元素类型声明采用如下的语法格式: 元素内容说明可以指明五种可能的元素内容形 式:#PCDATA 子元素、混合内容、EMPTY和ANY.关键字 #PCDATA 说明元素包含字符数据。例子: !DOCTYPE hr 人力资源标准当一个元素只包含子元素,而没有字
38、符数据时,则称此元素类型具有元素型内容(element content)。在该类型的元素声明时,通过内容模型来指定在其内容上的约束。内容模型是决 定子元素类型和子元素出现顺序的一种简单语法。利用括号、逗号、竖线、星号、加号、问号的组合,可以说明很复杂的内容模型。我们看下 面的例子:这说明简历中要有名字,接下来是性别和年龄,电话和手机任选一个,可 以填一个家庭住址或者不填,然后是零个或多个兴趣爱好,至少要有一个教育经历,最后是 零个或多个工作经验。内容模型的规则虽然简单,但是可以产生灵活多样的结构。说明元素既可以包含字符数据,也可以包含子元素。混合内容必须被定义零个或多个。例子:!DOCTYPE
39、 employee 员 工信息 张三 在使用混合内容模型时,#PCDATA关键字必须是模型中的第一个选项,不能在模型中使用 逗号、问号和加号。用竖线分隔的#?。俎人和元素的列表是合法的,其它用法都是不合法 的。关键字EMPTY表明该元素既不包含字符数据,也不包含子元素,是一个空元素。如果 在文档中元素本身已经表示了明确的含义,就可以在DTD中用关键字EMPTY来声明空 元素。例如: 表明br是一个没有内容的空元素。关键宇ANY 表明该元素可以包含任何的字符数据和子元素,只要它们不违反XML格式良好的约束就可 以了。例如: 表明employee可以包含任何形式的内容。 在实际使用时,应该尽量避免使用ANY,一个定义明确的DTD,有助于我们理清文档的结构, 更好地理解文档。实体声明:有两种类型的实体:一般实体general entity)和参数实体(parameter entity)0一般实体是在文档内容中使用的实体,而参数实体则是