xml详解

xml

发布日期: 2020-07-10

文章字数: 2k

阅读时长: 8 分

阅读次数:

XML

概念：Extensible Markup Language 可扩展标记语言

可扩展：标签都是自定义的
功能
- 存储数据
  1. 配置文件
  2. 在网络中传输
XML和HTML的区别
1. XML的标签是自定义的，html的标签是预定义的
2. xml的语法严格，html语法松散
3. xml是存储数据的，html是展示数据的

语法

基本语法：
- xml第一行必须定义文档声明（必须是第一行，不能有空格）
```
<?xml version='1.0'?>
```
- xml文档中有且只有一个根标签
- 属性值必须使用引号引起来
- 标签必须有结束标签
- xml标签名称区分大小写
组成部分：
1. 文档声明
  1. 格式：
  2. 属性列表：
    - version：版本号（必须写）
    - encoding：编码方式，告知解析引擎当前文档使用的字符集，默认iso-8859-1
    - standalone：是否独立（yes不依赖其他文件/no）
2. 指令（了解）
3. 标签：标签名称自定义
  - 规则：
    - 不能数字和xml开头
4. 属性：
  - id属性值唯一
5. 文本
  1. CDATA区：可以原样输出
```
<![CDATA[原样输出的文本]]>
```

约束：规定XML文档的书写规则

作为框架的使用者：
- 能够在xml中引入约束文档
- 能够简单读懂约束文档
分类：
- DTD：一个简单的约束技术
- Schema：一种复杂的约束技术

DTD:（.dtd）

* .dtd约束文件：
//students是父标签，里面可以包含多个student子标签
    <!ELEMENT students (student+)>
//student标签中，可以包含name,age,sex标签
    <!ELEMENT student(name,age,sex)>
//name标签体的类型是字符串
    <!ELEMENT name(#PCDATA)>
//age标签体的类型是字符串
    <!ELEMENT age(#PCDATA)>
//sex标签体的类型是字符串
    <!ELEMENT sex(#PCDATA)>
//student标签必须（#REQUIRED）有一个number属性，属性类型是id
    <!ATTLIST student number ID #REQUIRED>

```

引入dtd文档到xml文档中
- 内部dtd：将约束规则定义在xml文档中（了解）
- 外部dtd：将约束规则定义在外部dtd文件中
  - 本地：
  - 网络：


* XSD（Schema）(.xsd)

* ```xml
  * .xsd约束文件：
  //students标签，类型为studentsType
  <xsd:element name="students" type="studentsType"/>
  //对studentsType的解析，复杂类型
  <xsd:complexType name="studentsType">
      //按顺序
      <xsd:sequence>
          //student标签，类型为studentType，至少是0个，至多不限
          <xsd:element name="student" type="studentType" minOccurs="0" maxOccurs="unbounded"/>
      </xsd:sequence>
  </xsd:complexType>
  //对studentType的解析，复杂类型
  <xsd:complexType name="studentType">
      <xsd:sequence>
          //name标签，类型为string
          <xsd:element name="name" type="xsd:string"/>
          //age标签，类型为ageType
          <xsd:element name="age" type="ageType" />
          <xsd:element name="sex" type="sexType" />
      </xsd:sequence>
      //student标签中的属性，number，类型为numberType，不可重复
      <xsd:attribute name="number" type="numberType" use="required"/>
  </xsd:complexType>
  //对sexType的解析，简单类型
  <xsd:simpleType name="sexType">
      //约束，类型为string
      <xsd:restriction base="xsd:string">
          //枚举
          <xsd:enumeration value="male"/>
          <xsd:enumeration value="female"/>
      </xsd:restriction>
  </xsd:simpleType>
  //对ageType的解析，简单类型
  <xsd:simpleType name="ageType">
      <xsd:restriction base="xsd:integer">
          //最大最小值限定
          <xsd:minInclusive value="0"/>
          <xsd:maxInclusive value="256"/>
      </xsd:restriction>
  </xsd:simpleType>
  //对numberType的解析，简单类型
  <xsd:simpleType name="numberType">
      <xsd:restriction base="xsd:string">
          //格式为：heima_4个数字
          <xsd:pattern value="heima_\d{4}"/>
      </xsd:restriction>
  </xsd:simpleType>

引入xsd文件的方法：

        * 引入：
                  1.填写xml文档的根元素（<students >）
                  2.引入xsi前缀.  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                  3.引入xsd文件 命名空间.  xsi:schemaLocation="http://www.itcast.cn/xml（给路径起的名字，即命名空间）  student.xsd(这是文件路径)"
                  4.为每一个xsd约束声明一个前缀,作为标识  xmlns="http://www.itcast.cn/xml" （给约束起个名字，以后用的时候哪个语句用哪个约束，直接写名字开头即可）
                  如xmlns:a="http://www.itcast.cn/xml"，不写就是默认
      
              <（1）students   （2）xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                  （4）xmlns="http://www.itcast.cn/xml"
                  （3）xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd">

解析：操作xml文档，将文档中的数据读取到内存中

操作xml文档
1. 解析（读取）：将文档中的数据读取到内存中
2. 写入：将内存中的数据包保存到xml文档中，持久化的存储
解析xml的方式：
1. DOM：将标记语言文档一次性加载进内存，在内存中形成一颗dom树
  - 优点：操作方便，可以对文档进行CRUD的所有操作
  - 缺点：占内存
2. SAX：逐行读取，基于事件驱动的。
  - 优点：不占内存。
  - 缺点：只能读取，不能增删改
xml常见的解析器：
1. JAXP：sun公司提供的解析器，支持dom和sax两种思想
2. DOM4J：一款非常优秀的解析器
3. Jsoup：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据
4. PULL：Android操作系统内置的解析器，sax方式的。

Jsoup解析器详解

步骤：

导入jar包：jsoup-1.11.2.jar

获取Document对象

Jsoup.pasrse(文件,"字符集")
注意：
文件可以通过 类名.class.getClassLoader().getAsResource("student.xml")来获取

获取对应的标签Element对象

Elements 指的是集合，可以通过集合的方式get(索引)来获取对象

获取数据
```
element.text()获取文本数据
```

对象的使用：
1. Jsoup：工具类，可以解析html或xml文档，返回Document

parse：解析html或xml文档，返回Document

                       * parse(File in, String charsetName)：解析xml或html文件的。
                    * parse(String html)：解析xml或html字符串
                    * parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象

Document：文档对象，代表内存中的dom树

获取Element对象

                  * getElementById(String id)：根据id属性值获取唯一的element对象
                * getElementsByTag(String tagName)：根据标签名称获取元素对象集合
                * getElementsByAttribute(String key)：根据属性名称获取元素对象集合
                * getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

Elements：元素Element对象的集合。可以当做 ArrayList来使用,get(索引)
Element：元素对象

获取子元素对象

                            * getElementById(String id)：根据id属性值获取唯一的element对象
                     * getElementsByTag(String tagName)：根据标签名称获取元素对象集合
                   * getElementsByAttribute(String key)：根据属性名称获取元素对象集合
                   * getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
  
            2. 获取属性值

                * String attr(String key)：根据属性名称获取属性值
            3. 获取文本内容
                * String text():获取纯文本内容
                * String html():获取标签体内所有内容的字符串表示形式(包括子标签的标签和文本内容)

Node：节点对象

是Document和Element的父类

快捷查询方式
- selector：选择器

使用的方法：Elements select(String cssQuery)

        * 语法：参考API文档里Selector类中定义的语法

    如：获取有number属性值为heima_0001的student标签中的age子标签
  Elements eles = document.select("student[number='heima_0001'] age")

xpath：XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言

使用Jsoup的Xpath需要额外==导入jar包==：JsoupXpath-0.3.2.jar
- 查询w3cshool参考手册，使用xpath的语法完成查询

//1.获取student.xml的path

            String path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();
              //2.获取Document对象
              Document document = Jsoup.parse(new File(path), "utf-8");
    

            //3.根据document对象，创建JXDocument对象
              JXDocument jxDocument = new JXDocument(document);
      
              //4.结合xpath语法查询
            //4.1查询所有student标签
              List<JXNode> jxNodes = jxDocument.selN("//student");
              for (JXNode jxNode : jxNodes) {
                  System.out.println(jxNode);
              }
      
              System.out.println("--------------------");
      
              //4.2查询所有student标签下的name标签
              List<JXNode> jxNodes2 = jxDocument.selN("//student/name");
              for (JXNode jxNode : jxNodes2) {
                  System.out.println(jxNode);
              }
      
              System.out.println("--------------------");
      
              //4.3查询student标签下带有id属性的name标签
              List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id]");
              for (JXNode jxNode : jxNodes3) {
                  System.out.println(jxNode);
              }
              System.out.println("--------------------");
              //4.4查询student标签下带有id属性的name标签 并且id属性值为itcast
      
              List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@id='itcast']");
              for (JXNode jxNode : jxNodes4) {
                  System.out.println(jxNode);
              }

小苏

https://fenghen0918@github.io/2020/07/10/qian-duan/xml/