技术教程

Java DOM解析如何获取CDATA块内容

作者:星降2026-01-13 00:00:00

Java DOM解析时CDATA节点被忽略是因为DOM将CDATA视为独立节点而非文本值，需显式遍历子节点并识别Node.CDATA_SECTION_NODE类型，调用getNodeValue()获取内容。

Java DOM解析时CDATA节点被忽略或返回空字符串

DOM默认把CDATASection当作Text节点处理，但若没显式调用getTextContent()或遍历到该节点，内容就会“消失”。常见现象是：XML里明明写了alert(1)]]>，用getNodeValue()却得到null，用getTextContent()又混入了其他文本。

必须用`getElementsByTagName()`配合`getChildNodes()`逐层定位CDATA节点

DOM不会自动把CDATA内容“提升”到父元素的文本值里。得先拿到目标元素，再遍历其子节点，识别出Node.CDATA_SECTION_NODE类型：

Element element = (Element) doc.getElementsByTagName("content").item(0);
NodeList children = element.getChildNodes();
for (int i = 0; i < children.getLength(); i++) {
    Node child = children.item(i);
    if (child.getNodeType() == Node.CDATA_SECTION_NODE) {
        String cdataText = child.getNodeValue(); // ✅ 正确获取
        System.out.println(cdataText); // 输出：
        break;
    }
}

getNodeValue()对CDATA节点有效，对Element节点返回null
getTextContent()会拼接所有Text/CDATA子节点，不适合只想取纯CDATA内容的场景
注意：某些XML解析器（如Xerces）在DocumentBuilderFactory.setIgnoringElementContentWhitespace(true)下可能跳过空白Text节点，但CDATA不受影响

用`getFeature("cdata-sections", "1.0")`确认解析器支持CDATA

极少数老解析器或自定义DocumentBuilder可能禁用CDATA支持，导致CDATA被转为普通Text节点：

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setNamespaceAware(true);
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse(new InputSource(xmlStream));

// 检查是否启用CDATA支持（非强制，但可提前预警）
boolean supportsCData = doc.getImplementation().hasFeature("cdata-sections", "1.0");
if (!supportsCData) {
    System.err.println("警告：当前DOM实现未启用CDATA节点支持");
}