通过混淆命名空间绕过DOMPurify实现XSS

admin

0
文章

0
评论

2023-11-29 20:44:56 AnQuanKeInfo 来源：ZONE.CI 全球网 0 阅读模式

0x00 前言

在本文中，我将与大家分享如何绕过DOMPurify。DOMPurify是一款常用的HTML过滤库，可以处理（来自用户的）不受信任的HTML片段，删除可能导致XSS的所有元素及属性。

简而言之，最终的绕过方法如下：

<form>
<math><mtext>
</form><form>
<mglyph>
<style></math><img src onerror=alert(1)>

以上代码没有任何冗余元素。为了理解具体的绕过原理，我们需要了解一下HTML规范中的一些有趣功能。

0x01 DOMPurify用法

我们先从基础开始，看一下DOMPurify的通常用法。假设我们在htmlMarkup中包含一段不可信的HTML，并且需要将其赋值给某个div，此时我们可以使用DOMPurify来过滤这段内容，赋值给div：

div.innerHTML = DOMPurify.sanitize(htmlMarkup)

在解析、序列化HTML以及处理DOM树时，这行代码背后实际上会执行如下操作：

1、htmlMarkup被解析成DOM树；

2、DOMPurify过滤DOM树（简而言之，这个过程中DOMPurify会遍历DOM树中的所有元素以及属性，删除不在允许列表中的所有节点）；

3、DOM树被序列化回HTML内容；

4、赋值给innerHTML后，浏览器会再次解析HTML内容；

5、经过解析的DOM树会被附加到文档的DOM树中。

来看个简单例子。假设我们初始的内容的A<img src=1 onerror=alert(1)>B。在第1个步骤中，该片段会被解析成如下树结构：

随后，经过DOMPurify过滤后，得到如下DOM树：

序列化后的结果为：

A<img src="1">B

这也是DOMPurify.sanitize的返回结果。随后这段内容会由浏览器再次解析，赋值给innerHTML：

DOM树与DOMPurify处理的DOM树一致，随后会被附加到目标文档中。

因此，以上过程可以按顺序简单总结成：解析->序列化->解析。大家从直觉上会认为DOM树经过序列化、再次解析后，应该会返回初始的DOM树，但事实并非如此。在HTML规范中，关于序列化HTML片段方面有如下警告信息：

这种算法（序列化HTML）的输出结果如果交给HTML解析器进行解析时，则可能不会返回原始的树结构。HTML解析器本身也有可能输出经过序列化、重解析操作后无法复原的树结构，虽然这种情况下通常不符合要求。

这里要划重点的是，这种序列化、重新解析的往复操作并不一定能返回原始的DOM树（这也是造成mutation XSS（突变型XSS）的根源）。通常情况下，这类情况由某些解析器、序列化器的错误而导致，但有两种情况比较特殊，符合上述警告信息所描述的场景。

0x02 嵌套FORM元素

其中有种场景与FORM元素有关。这是HTML中非常特殊的一个元素，该元素无法嵌套到自身中。在HTML规范中，明确说明FORM元素不可以是某个FORM元素的后继：

我们可以使用如下标记语言，通过各种浏览器来验证：

<form id=form1>
INSIDE_FORM1
<form id=form2>
INSIDE_FORM2

这个片段会生成如下DOM树：

第2个form在DOM树中会被完全忽略，就像从来没存在过一样。

接下来是比较有趣的部分。如果我们继续阅读HTML规范，会发现其中给出了一个示例，通过较不规范以及错误嵌套的标记成功创建了一个嵌套式表单。如下所示（直接摘抄自规范文档）：

<form id="outer"><div></form><form id="inner"><input>

结果会生成如下DOM树，其中包含一个嵌套式表单元素：

这并不是特定浏览器的bug，直接来自于HTML规范，在解析HTML的算法中也有描述。通常的原理为：

1、当我们打开<form>标签时，浏览器需要使用表单元素指针（标准中就是这么称呼）来记录该标签已被打开。如果该指针不为null，那么form元素就无法被创建。

2、当我们结束<form>标签时，表单元素指针始终会设置为null。

因此，回到这个片段：

<form id="outer"><div></form><form id="inner"><input>

首先，表单元素指针会指向id="outer"的元素，然后开始解析div，碰到</form>结束标签后，表单元素指针会被设置为null。由于指针为null，因此id="inner"的下一个表单可以被创建。由于目前我们位于div内，因此可以成功创建一个嵌套式form。

现在，如果我们尝试序列化生成的DOM树，会得到如下标记语言：

<form id="outer"><div><form id="inner"><input></form></div></form>

需要注意的是，这次其中并没有包含任何错误嵌套的标记。当这个片段再次被解析时，会创建如下DOM树：

以上可以表明，经过序列化、重解析后，我们并不一定能返回原始的DOM树。更有趣的是，这是符合标准的一种突变情况。

当我发现到这一点后，意识到有可能滥用这种特性来绕过HTML过滤器。经过长时间思索后，我偶然发现了在HTML规范中存在另一个异常点。在继续讨论这个问题前，我们先来聊聊HTML规范中我最喜欢的一个潘多拉魔盒：外部内容（foreign content）。

0x03 外部内容

外部内容就像一把瑞士军刀，可以用来破坏解析器及过滤器。我之前曾在DOMPurify的绕过方式以及Ruby过滤库的绕过方式中用过这种方法。

HTML解析器可以使用3个命名空间元素来创建DOM树：

HTML命名空间（http://www.w3.org/1999/xhtml）
SVG命名空间（http://www.w3.org/2000/svg）
MathML命名空间（http://www.w3.org/1998/Math/MathML）

默认情况下，所有元素都位于HTML命名空间中。然而，如果解析器遇到了<svg>或者<math>元素，就会“切换到”SVG以及MathML命名空间。这些命名空间都会产生外部内容。

在外部内容中，标记语言的解析过程与普通的HTML不一样。在解析<style>元素时能更清晰地看到这种不同点。在HTML命名空间中，<style>只能包含文本，没有后继，并且HTML实体不会被解码。而在外部内容中并非如此：外部内容的<style>可以包含子元素，实体也会被解码。

考虑如下标记语言：

<style><a>ABC</style><svg><style><a>ABC

会被解析成如下DOM树：

备注：从现在开始，本文中DOM树内的所有元素都将包含一个命名空间。因此，html style表示HTML命名空间中有个style元素，而svg style表示SVG命名空间中有个<style>元素。

生成的DOM树也验证了我的分析：html style只包含文本内容，而svg style在会像普通元素一样被解析。

继续分析，我们很自然就会猜想：如果我们位于<svg>或者<math>中，那么所有元素也会位于非HTML命名空间中，然而事实并非如此。HTML标准中包含名为MathML text integration point（MathML文本集成点）以及HTML integration point（HTML集成点）的元素，这些元素的子元素都具有HTML命名空间（但某些情况除外，下面我会列出来）。

考虑如下示例：

<style></style>
<mtext><style></style>

以上内容会被解析成如下DOM树：

请注意观察，在MathML命名空间中，style元素是math的直接子元素，而mtext中的style元素则处于HTML命名空间中。这是因为mtext属于MathML文本集成点，因此解析器会切换命名空间。

MathML文本集成点包括：

math mi
math mo
math mn
math ms

HTML集成点包括：

math annotation-xml，如果其包含encoding属性，并且属性值等于text/html或者application/xhtml+xml
svg foreignObject
svg desc
svg title最后

我曾经坚信MathML文本集成点或者HTML集成点的所有子元素默认情况下都具有HTML命名空间，事实狠狠打了我的脸。HTML规范指出，默认情况下，MathML文本集成点的子元素都位于HTML命名空间中，但有两种情况除外：mglyph以及malignmark。只有当这两者是MathML文本集成点的直接子元素时才会触发例外情况。

来考虑如下标记语言：

<mtext>
<mglyph></mglyph>
<a><mglyph>

请注意，mglyph为mtext的直接子元素，位于MathML命名空间中，而另一个mglyph则为html的子元素，位于HTML命名空间中。

假设我们面对的是一个“当前元素”，想确定其命名空间。此时我已经制定了一些经验法则：

1、当前元素位于其父元素的命名空间中，除非满足如下条件。

2、如果当前元素为<svg>或者<math>，并且其父元素位于HTML命名空间中，那么当前元素则位于SVG或者MathML命名空间中。

3、如果父元素或者当前元素为HTML集成点，那么除非当前元素为<svg>或者<math>，否则将位于HTML命名空间中。

4、如果父元素或者当前元素为MathML集成点，那么除非当前元素为<svg>、<math>、<mglyph>或者<malignmark>，否则将位于HTML命名空间中。

5、如果当前元素为<b>、<big>、<blockquote>、<body>、<br>、<center>、<code>、<dd>、<div>、<dl>、<dt>、<em>、<embed>、<h1>、<h2>、<h3>、<h4>、<h5>、<h6>、<head>、<hr>、<i>、<img>、<li>、<listing>、<menu>、<meta>、<nobr>、<ol>、<p>、<pre>、<ruby>、<s>、<small>、<span>、<strong>、<strike>、<sub>、<sup>、<table>、<tt>、<u>、<ul>、<var>或者<font>，并且定义了color、face或者size属性，那么栈上的所有元素都会被闭合，直至碰到MathML文本集成点、HTML集成点或者HTML命名空间中的元素为止。然后，当前元素也会位于HTML命名空间中。

当我在HTML规范中找到mglyph这个瑰宝时，马上就意识到这是滥用html form突变来绕过过滤器的绝佳方法。

0x04 绕过DOMPurify

现在让我们回到绕过DOMPurify的payload上来：

<form><math><mtext></form><form><mglyph><style></math><img src onerror=alert(1)>

这个payload用到了错误嵌套的html form元素，也包含mglyph元素，会生成如下DOM树：

这个DOM树人畜无害，所有元素都位于DOMPurify的允许列表中。要注意的是，mglyph位于HTML命名空间中，而看上去像是XSS的payload则是html style中的一个文本。由于这里有个嵌套html form，因此在重解析时会出现突变。

因此这里DOMPurify不会执行任何操作，会返回经过序列化的HTML：

<form><math><mtext><form><mglyph><style></math><img src onerror=alert(1)></style></mglyph></form></mtext></math></form>

这个片段包含嵌套form标签，因此当被赋值给innerHTML时，会被解析成如下DOM树：

因此现在第二个html form没有被创建，mglyph为mtext的直接子元素，意味着其位于MathML命名空间中。因此，style同样位于MathML命名空间中，其内容也不会被当成文本来解析。随后，</math>会闭合<math>元素，现在img会在HTML命名空间中创建，导致XSS。

0x05 总结

总结一下，这种绕过方式主要结合了以下几点：

1、DOMPurify的典型使用场景导致HTML标记语言被解析两次。

2、HTML规范中包含特殊情况，可以用来创建嵌套form元素。然而在重新解析时，第二个form会被忽略。

3、mglyph以及malignmark是HTML标准中的特殊元素。如果这两者为MathML文本集成点的直接子元素，那么即使其他标签默认情况下位于HTML命名空间中，这两者也将处于MathML命名空间中。

4、结合上述几点，我们可以创建一段标记语言，其中包含2个form元素以及初始位于HTML命名空间的mglyph元素，在重新解析时，后者将位于MathML命名空间中，使后续的style标签采用不同方式解析，导致XSS。

当Cure53针对我的绕过方式进行更新后，大家又找到了另一种绕过方式：

大家可以研究下为什么这个payload能行之有效。我提示一下：其原理与我在本文中找到的bug一样。

这种绕过方式也让我意识到，如下模式很容易造成XSS突变：

div.innerHTML = DOMPurify.sanitize(html)

这由整体的设计思路所决定，因此找到另一个例子也只是时间问题。这里我强烈建议大家在使用DOMPurify时，传入RETURN_DOM或者RETURN_DOM_FRAGMENT选项，这样就不会执行序列化、再解析的过程。

本站原创文章转载请注明文章出处及链接，谢谢合作！

ZONE.CI 全球网 | 安全领域涉猎者-乌云独行地带

ZONE.CI 全球网

安全领域涉猎者-乌云独行地带

ZONE.CI 全球网

Plugins

WordPress

Web前端

设计资源

通过混淆命名空间绕过DOMPurify实现XSS

0x00 前言

0x01 DOMPurify用法

0x02 嵌套FORM元素

0x03 外部内容

0x04 绕过DOMPurify

0x05 总结

Miracle Software Systems 翻车，泄露 1100 万条企业聊天记录

暗影袭来：利用人工智能工具进行犯罪活动的讨论正在激增

SystemBC：屏蔽流量检测实现隐蔽攻击

天翼智库：2024年数据安全十大发展趋势

2024年暗网威胁分析及发展预测

入围《CCSIP 2023中国网络安全行业全景册》36个细分领域，知道创宇实力再获权威认可！

英国大型化妆品制造商Lush遭遇黑客攻击：大量敏感数据被盗

勒索200万美元：美国运输巨头KCATA遭遇美杜莎网络攻击

针对中文用户：FakeAPP成为传播远程访问木马的新载体

土耳其黑客组织 MeshSec 攻击以色列最大的电影院

ZONE.CI 全球网