• 网络学院
  • IT资讯
  • 操作系统
  • 网络技术
  • 软件应用
  • 办公软件
  • 编程技术
  • 网站架设
  • 数据库类
  • 平面设计
  • 多媒体类
  • 游戏资讯
  • 教学论文
  • 认证考试
网页编程必看:XML文法分析
  站点:
  • 首 页
  • 最新软件
  • 文章教程
  • 国内软件
  • 国外软件
  • 绿色软件
  • 源码下载
  • 字体下载
网页编程必看:XML文法分析
软件发布 网页编程必看:XML文法分析
网络软件 系统工具 应用软件 联络聊天 图形图像 多媒体类 行业软件 游戏娱乐 编程开发 安全相关 教育教学 数码软件 绿软下载
热门软件: QQ 瑞星 pplive e话通 木马克星 千千静听 office2000 五笔字根 Photoshop 视频分割
返回文章教程首页 >> 编程技术 >> XML教程 >> 网页编程必看:XML文法分析

网页编程必看:XML文法分析

添加时间: 2006-3-4 7:01:23  作者: XML教程  阅读次数:63   来源: http://www.d9soft.com

       

  在进行XML文法分析之前,首先有必要了解XML语法的基本规则:

  词法特征:1)XML区分大小写,如元素名在打开和关闭标记中应保持大小写一致<mytag>…</mytag>,XML的保留词串应符合大小写要求<?xml …> <!ENTITY>…。

  2)XML保留标记字符为:< > &,保留字符不允许出现在元素名、元素文本、属性名、属性值中,< 用户打开标记,>用于关闭标记,&用于转意,常见的转意为 &lt生成<,&gt生成>,&amp生成&,&apos生成’,&quot生成”

  3)元素名以下划线或字母开始,可包含字母、数字、句点、连字符、下划线、冒号和用于其他语言的扩展字符,元素名中不能有空格符(分格符、跳格符、换行符、回车符),元素名可以由名域前缀。如:<mytag> <dt:mytag> 元素文本可以是除XML保留字符外的字符集合,如<mytag> my money is $2000 </mytag>

  4)属性名的规则同元素名,属性值由单引号或双引号括约其中,可由除XML保留字符以外的字符串组成,如:<mytag myprop=”proper value”>。属性名有xmlns前缀,表明该属性定义了一个名域,如:<mytag xmlns:ns=”http://www.myweb.com/myschema”>

  句法特征:1)XML文档由一个XML说明、多个可选的文档说明、多个可选的XML指令、多个可选的XML注释和一个根元素的数据体组成,此外还可以有嵌入语句中的CDATA段,如:


  <?xml …?> /*XML说明*/
  <!DOCTYPE …> /*XML文档说明*/
  <!-- … --> /*XML注释*/
  <?xml-stylesheet …?> /*XML指令*/
  <root> /*根数据元素*/
  <child>
  …<![CDATA[…]]>
  </child>
  </root>

  2)XML说明由<?xml打开,由?>标关闭,其中包含版本、编码等可选说明,如:<?xml version=”1.0” encoding=”UTF-9”?>
  3)XML文档说明由<!和保留串打开,由>关闭,如:<!DOCTYPE mydoc SYSTEM “mydoc.dtd”>
  4)XML指令由<?和保留串打开,由?>关闭,如:<?xml-stylesheet type=”text/xsl” href=”mystyle.xsl”?>
  5)XML注释由<!――打开,由――>关闭,如:<!--   this is my xml document  -->
  6)XML元素由<元素名>打开,由/>,或</元素名>关闭,元素的打开和关闭标记相互匹配,如<myteg ../>或<mytag>…</myteg>,XML的元素允许嵌套,应此还应保持层次上的匹配,如<myteg><subtag>..</subtag></mytag>。
  7)CDTATA段由<![CDATA[>打开,由]]>关闭,用于使居于其中的语句规避XML解析规则。如:<![CDATA[ select * from mytable where thefield <= ‘100’ ]]>
  根据以上的XML文法特征,可以构造出用于词法分析的正则式和用于句法分析的下推自动机结构。
  XML词法正则式:
  #define digit [1,2,…,9] /*数字字符*/
  #define letter [a,b,…,z,A,B,…,Z] /*字母字符*/
  #define signs [~, ! , @, #, %, ^, &,*,(, ), ?, :, ;, “, ‘, ,, ., /,-, _, +, =, , \] /*符号字符*/
  #define ascii2 [0x80,…,0xFF] /*ASCII chart2 扩展字符*/
  #define space [0x20, \t, \r, \n] /*空格符,跳格符,回车符,换行符*/
  #define reserve [< , >, &] /*XML保留字符*/
  1) 元素名的正则式:
  element_name -> (_ letter ascii2) (ε _ - : . digit letter signs ascii2)*
  2) 元素文本的正则式:
  element_text -> (ε not reserve)*
  3) 属性名的正则式:
  proper_name -> (_ letter ascii2) (ε _ - : . digit letter signs ascii2)*
  4) 属性文本的正则式:
  proper_value -> (ε not reserve)*

  XML句法结构:
  xml_document -> xml_header (ε xml_declare xml_instruct xml_comments)* xml_element
  xml_header -> [<?xml](space)*(proper_token)*(space)* [?>]
  xml_declare -> [<!]reserve_word(space)*(token)*(space)*[>]
  xml_instruct -> [<?]reserve_word(space)* (proper_token)* (space)*[?>]
  xml_comments -> [<!--](ε digit letter signs ascii2 space)*[-- >]
  xml_element -> [<]element_name (space)*( ε proper_token)*(space)*[/>]
  [<]element_name(space)*( ε proper_token)*(space)*[>]
  [ε <![CDATA[ ]element_text[ε ]]>]
  (ε xml_element)*(space)*[</]element_name[>]
  proper_token -> proper_name(space)*[=](space)* [ε <![CDATA[ ] [‘ “]proper_value[‘ “] [ε ]]>]
  reserve_word -> [DOCTYPE ELEMENT NOTATION …]
  token -> (ε not reserve)*

  分析XML文法需要构造一个下推自动机,它的结构定义如下:

  1)STACK_DFA mata_xml_doc = <Q,Σ,σ,q,Γ,T,S >
  Q: {…} /*详见后面的状态集合*/
  Σ: /*指向待解析的XML元素词串*/
  σ: Q×Σ->Q /*状态转移函数,见状态转移列表*/
  q: {NIL_SKIP} /*初始状态*/
  Γ: {NIL_FAILED,NIL_SUCCEED} /*终结状态集合*/
  S:  {Q/*状态*/, N/*DOM节点*/>,<…>} /*下推栈*/
  2)栈顶符集合用于反映当前分析节点的类型:
  T:{NIL/*空*/, TG/*标记*/, NS/*元素*/, IS/*指令*/, DS/*声明*/, CD/*CDATA界段*/,CM/*注释*/}
  3)状态集合反映了分析的某一阶段特征,与栈顶符对应:
  NIL:  NIL_FAILED /*失败*/
  NIL_SKIP /*忽略*/
  NIL_SUCCEED /*成功*/
  CM:  CM_BEGIN /*注释开始*/
  CM_END /*注释结束*/
  TG:  TG_OPEN /*标记打开*/
  TG_INT_CLOSE /*标记中断*/
  TG_PRE_CLOSE /*标记准备关闭*/
  TG_CLOSE /*标记关闭*/
  NS:  NS_NAME_BEGIN /*元素名开始*/
  NS_NAME_END /*元素名结束*/
  NS_KEY_BEGIN /*属性名开始*/
  NS_KEY_END /*属性名结束*/
  NS_ASIGN /*属性赋值*/
  NS_VAL_BEGIN /*属性值开始*/
  NS_VAL_END /*属性值结束*/
  NS_TEXT_BEGIN /*元素文本开始*/
  NS_TEXT_END /*元素文本结束*/
  IS:  IS_OPEN /*指令打开*/
  IS_NAME_BEGIN /*指令名开始*/
  IS_NAME_END /*指令名结束*/
  IS_KEY_BEGIN /*指令键开始*/
  IS_KEY_END /*指令键结束*/
  IS_ASIGN /*赋值符*/
  IS_VAL_BEGIN /*指令值开始*/
  IS_VAL_END /*指令值结束*/
  IS_CLOSE /*指令关闭*/
  DS:  DS_OPEN /*声明打开*/
  DS_SKIP /*越过申明节*/
  DS_CLOSE /*声明关闭*/
  CD:  CD_BEGIN /*CDATA界段开始*/
  CD_END /*CDATA界段结束*/

  4)栈顶动作:PUSH: 将当前节点和状态压入栈
  POP:出栈并恢复当前节点和状态
  NOP:无栈操作

  5)读写头动作:NEXT: 移动至下一字符
  SKIP: 越过转义串或保留名串
  PAUSE: 暂定于当前字符
  STOP:停机于当前字符

  6)状态转移列表:
  说明: space 指符合空格定义的字符
  name 指符合命名定义的字符
  namepre 指符合命名的第一个字符
  token 指除去保留字符外字符
  other 指除去已判断以外的字符
  (状态)输入符(栈操作,状态,读写头动作)
  (NOP,NIL_SKIP,NEXT)/*初始化*/
  (NIL_SKIP)
  space     (NOP,NIL_SKIP,NEXT) /*忽略起始空格*/
  <           (NOP,TG_OPEN,NEXT) /*遇到标记*/
  ‘\0’     (NOP,NIL_SUCCEED,STOP) /*终结符*/
  other (NOP,NIL_FAILED,STOP) /*无效字符*/
  (TG_OPEN)
  !           (NOP,DS_OPEN,NEXT) /*遇到声明符*/
  ?          (NOP,IS_OPEN,NEXT) /*遇到指令符*/
  /           (POP,TG_PRE_CLOSE,NEXT) /*准备关闭标记*/
  namepre (NOP,NS_NAME_BEGIN,PAUSE) /*元素名开始*/
  other     (NOP,NIL_FAILED,STOP) /*非法字符*/
  (DS_OPEN)
  other     (NOP,DS_SKIP,PAUSE) /*忽略声明*/
  (DS_SKIP)
  >          (NOP,DS_CLOSE,PAUSE) /*声明结束*/
  other    (NOP,DS_SKIP,NEXT) /*忽略声明*/
  (DS_CLOSE)
  >         (NOP,TG_CLOSE,PAUSE) /*标记关闭*/
  other   (NOP,NIL_FAILED,STOP) /*非法字符*/
  (CM_BEGIN)
  -           (NOP,CM_END,SKIP) /*注释开始*/
  token    (NOP,CM_BEGIN,NEXT) /*继续注释串*/
  other     (NOP,NIL_FAILED,STOP) /*非法字符*/
  (CM_END)
  >          (NOP,DS_CLOSE,PAUSE) /*注释关闭*/
  other     (NOP,NIL_FAILED,STOP) /*非法字符*/
  (CD_BEGIN)
  ]           (NOP,CD_END,SKIP) /*界段开始*/
  token   (NOP,CD_BEGIN,NEXT) /*继续界段*/
  other    (NOP,NIL_FAILED,STOP) /*非法字符*/
  (CD_END)
  >         (NOP,DS_CLOSE,PAUSE) /*声明关闭*/
  other   (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_OPEN)

  namepre    (NOP,IS_NAME_BEGIN,PAUSE) /*指令名开始*/
  other         (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_NAME_BEGIN)
  space      (NOP,IS_NAME_END,PAUSE) /*指令名结束*/
  ?             (NOP,IS_NAME_END,PAUSE) /*指令名结束*/
  &            (NOP,IS_NAME_BEGIN,SKIP) /*字符转义*/
  name       (NOP,IS_NAME_BEGIN,NEXT) /*继续指令名*/
  other       (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_NAME_END)
  space      (NOP,IS_NAME_END,NEXT) /*忽略空格*/
  ?             (NOP,IS_CLOSE,NEXT) /*标记中断*/
  namepre  (NOP,IS_KEY_BEGIN,PAUSE) /*指令属性名开始*/
  other       (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_KEY_BEGIN)
  space      (NOP,IS_KEY_END,PAUSE) /*属性名结束*/
  =           (NOP,IS_KEY_END,PAUSE) /*属性名结束*/
  &           (NOP,IS_KEY_BEGIN,SKIP) /*字符转义*/
  name      (NOP,IS_KEY_BEGIN,NEXT) /*继续属性名*/
  other      (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_KEY_END)
  space    (NOP,IS_KEY_END,NEXT) /*忽略空格*/
  =           (NOP,IS_ASIGN,NEXT) /*属性赋值符*/
  other     (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_ASIGN)
  space    (NOP,IS_ASIGN,NEXT) /*忽略空格*/
  “          (NOP,IS_VAL_BEGIN,NEXT) /*属性赋值打开*/
  ‘           (NOP,IS_VAL_BEGIN,NEXT) /*属性赋值打开*/
  other     (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_VAL_BEGIN)
  “         (NOP,IS_VAL_END,NEXT) /*属性值结束*/
  ‘         (NOP,IS_VAL_END,NEXT) /*属性值结束*/
  &         (NOP,IS_VAL_BEGIN,SKIP) /*字符转义*/
  token   (NOP,IS_VAL_BEGIN,NEXT) /*继续属性值*/
  other    (NOP,NIL_FAILED,STOP) /*非法字符*/
  (IS_VAL_END)
  space     (NOP,IS_VAL_END,NEXT) /*忽略空格*/
  ?            (NOP,IS_CLOSE,NEXT) /*标记中断*/
  other      (NOP,IS_KEY_BEGIN,PAUSE) /*属性名开始*/
  (IS_CLOSE)
  >          (NOP,TG_CLOSE,NEXT) /*标记关闭*/
  other     (NOP,NIL_FAILED,STOP) /*非法字符*/
  (NS_NAME_BEGIN)
  space    (NOP,NS_NAME_END,PAUSE) /*元素名结束*/
  >          (NOP,NS_NAME_END,PAUSE) /*元素名结束*/
  /            (NOP,NS_NAME_END,PAUSE) /*元素名结束*/
  &           (NOP,NS_NAME_BEGIN,SKIP) /*字符转义*/
  name     (NOP,NS_NAME_BEGIN,NEXT) /*元素名继续*/
  other      (NOP,NIL_FAILED,STOP) /*非法字符*/
  (NS_NAME_END)
  space    (NOP,NS_NAME_END,NEXT) /*忽略空格*/
  >           (NOP,TG_INT_CLOSE,NEXT) /*元素名结束*/
  /            (NOP,TG_PRE_CLOSE,NEXT) /*元素名结束*/
  other      (NOP,NS_KEY_BEGIN,PAUSE) /*属性名开始*/


  (NS_KEY_BEGIN)
  space    (NOP,NS_NAME_END,PAUSE) /*属性名结束*/
  =          (NOP,NS_KEY_END,PAUSE) /*属性赋值符*/
  &          (NOP,NS_KEY_BEGIN,SKIP) /*字符转义*/
  name    (NOP,NS_KEY_BEGIN,NEXT) /*继续属性名*/
  other     (NOP,NIL_FAILED,STOP) /*非法字符*/
  (NS_KEY_END)
  space     (NOP,NS_KEY_END,NEXT) /*忽略空格*/
  =            (NOP,NS_ASIGN,NEXT) /*属性赋值符*/
  other      (NOP,NIL_FAILED,STOP) /*非法字符*/
  (NS_ASIGN)
  space     (NOP,NS_ASIGN,NEXT) /*忽略空格*/
  “           (NOP,NS_VAL_BEGIN,NEXT) /*属性赋值打开*/
  ‘            (NOP,NS_VAL_BEGIN,NEXT) /*属性赋值打开*/
  other      (NOP,NIL_FAILED,STOP) /*非法字符*/
  (NS_VAL_BEGIN)
  “        (NOP,NS_VAL_END,NEXT) /*属性值结束*/
  ‘         (NOP,NS_VAL_END,NEXT) /*属性值结束*/
  &        (NOP,NS_VAL_BEGIN,SKIP) /*字符转义*/
  token (NOP,NS_VAL_BEGIN,NEXT) /*继续属性值*/
  other (NOP,NIL_FAILED,STOP) /*非法字符*/
  (NS_VAL_END)
  space     (NOP,NS_VAL_END,NEXT) /*忽略空格*/
  >           (NOP,TG_INT_CLOSE,NEXT) /*标记中断*/
  other     (NOP,NS_KEY_BEGIN,PAUSE) /*属性名开始*/
  (TG_INT_CLOSE)
  <          (PUSH,TG_OPEN,NEXT) /*标记开始*/
  other      (NOP,NS_TEXT_BEGIN,PAUSE) /*元素文本开始*/
  (NS_TEXT_BEGIN)
  <         (NOP,NS_TEXT_END,PAUSE) /*元素文本结束*/
  &         (NOP,NS_TEXT_BEGIN_BEGIN,SKIP) /*字符转义*/
  token   (NOP,NS_TEXT_BEGIN,NEXT) /*继续元素文本*/
  other    (NOP,NIL_FAILED,STOP) /*非法字符*/
  (NS_TEXT_END)
  <         (PUSH,TG_OPEN,NEXT) /*标记开始*/
  other    (NOP,NIL_FAILED,STOP) /*非法字符*/
  (TG_PRE_CLOSE)
  >         (NOP,TG_CLOSE,PAUSE)/*标记结束*/
  name   (NOP,TG_PRE_CLOSE,NEXT) /*继续关闭标记的元素名*/
  other   (NOP,NIL_FAILED,STOP) /*无效字符*/
  (TG_CLOSE)
  >        (POP,NEXT) /*标记关闭,出栈*/
  other   (NOP,NIL_FAILED,STOP) /*非法字符*/

  对XML声明,本文只做了忽略处理,可以通过增加XML声明的状态和状态转移列表,进而支持XML声明的分析。

 

上下文章:

 

上一篇文章: XML的四种解析器原理及性能比较 下一篇文章: XML中的常见问题 (四)

相关文章:

  • 分析师:雅虎有4个理由接受微软收购搜索业务
  • 轻松消除浏览网页时出现的乱码
  • 从公测内容展示视频分析《永恒之塔》
  • 分析师:别指望Windows 7在2010年前上市
  • Gartner分析师称杨致远表现差 或被伊坎逼宫

相关软件:

  • 双色球大赢家彩票分析软件 V3.07 正式版
  • 聪慧幼儿园营养分析软件 v6.0
  • 中小学成绩统计分析系统 (教委与学校通用企业版) V4.01
  • 网页图片保存能手 8.7
  • 木马分析专家 2008 9.95 Build 1016
  • 木马分析专家个人防火墙 2008 1016

 

快速导航

  • 网络学院
  • 精品汇聚
  • 字体下载
  • 教程下载
  • ASP源码
  • PHP源码
  • Net源码
  • JSP 源码

编程技术分类导航

  • ASP & ASP.NET教程
  • PHP教程
  • JSP教程
  • C/C++教程
  • VB & VB.NET教程
  • VC教程
  • Delphi教程
  • BCB教程
  • VFP教程
  • PB教程
  • JAVA教程
  • XML教程
  • C#教程
  • CGI教程

本类经典文章推荐

  • XML轻松学习手册(6)XML实例解析...
  • XSL简明教程(1)XSL入门
  • XSL简明教程(2)XSL转换
  • XSL简明教程(3)在客户端的实现
  • XSL简明教程(4)在服务器端的实现
  • XSL简明教程(5)XSL的索引
  • XSL简明教程(5)XSL的索引
  • XSL简明教程(6)XSL过滤和查询
  • XSL简明教程(7)XSL 的控制语句
  • XSL简明教程(7)XSL 的控制语句

XML教程阅读排行

  • XML轻松学习手册(6)XML实例解析...
  • XSL简明教程(1)XSL入门
  • 大话XML(1)XML是什么
  • XML轻松学习手册(2)XML快速入门
  • XML轻松学习手册(1)目录
  • XML轻松学习手册(3)XML概念
  • 大话XML(2)XML和HTML的比较1
  • XML轻松学习手册(5)XML语法
  • XSL简明教程(2)XSL转换
  • 大话XML(2)XML和HTML的比较4

编程技术阅读总排行

  • VB入门教程之一
  • Java连接数据库实例
  • VC++之List Box/Check List Box控...
  • 第二章 PowerBuilder 入门之创建新...
  • VC++ List Ctrl控件
  • 第一章 什么是PowerBuilder
  • VC++ Combo Box/Combo Box Ex控件
  • 学C++不得不看的一篇文章
  • VB入门教程之二
  • VC++之Button控件

广告位置

字母检索 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 回到顶部

关于我们 | 版权声明 | 免责条款 | 广告联系 | 软件发布 | 下载帮助 | 下载排行 | 网站地图 | 特别鸣谢 | 友情连接

copyright; 2005-2008 D9soft.com 第九软件网 版权所有