问题保留原始doctype和声明lxml.etree解析的xml

我正在使用python的lxml，我正在尝试读取xml文档，修改并将其写回，但原始doctype和xml声明消失了。我想知道是否有一种简单的方法可以通过lxml或其他解决方案将其放回去？

11743

2017-10-19 02:21

起源

你读过了吗？文件为了 tostring 方法？我以为它会自动保留DOCTYPE。 - John Keyes

您可以使用tostring添加doctype和声明，但我需要先解析信息。 lxml似乎不保留doctype或声明开头 - incognito2

答案:

以下将包括DOCTYPE和XML声明：

from lxml import etree
from StringIO import StringIO

tree = etree.parse(StringIO('''<?xml version="1.0" encoding="iso-8859-1"?>
 <!DOCTYPE root SYSTEM "test" [ <!ENTITY tasty "eggs"> ]>
  <root>
   <a>&tasty;</a>
 </root>
'''))

docinfo = tree.docinfo
print etree.tostring(tree, xml_declaration=True, encoding=docinfo.encoding)

注意， tostring 不保留 DOCTYPE 如果你创建一个 Element （例如使用 fromstring），它只适用于使用XML处理XML parse。

更新： 正如所指出的那样 J.F.塞巴斯蒂安我的断言 fromstring 不是真的。

这里有一些代码来突出它们之间的区别 Element 和 ElementTree 系列化：

from lxml import etree
from StringIO import StringIO

xml_str = '''<?xml version="1.0" encoding="iso-8859-1"?>
 <!DOCTYPE root SYSTEM "test" [ <!ENTITY tasty "eggs"> ]>
  <root>
   <a>&tasty;</a>
 </root>
'''

# get the ElementTree using parse
parse_tree = etree.parse(StringIO(xml_str))
encoding = parse_tree.docinfo.encoding
result = etree.tostring(parse_tree, xml_declaration=True, encoding=encoding)
print "%s\nparse ElementTree:\n%s\n" % ('-'*20, result)

# get the ElementTree using fromstring
fromstring_tree = etree.fromstring(xml_str).getroottree()
encoding = fromstring_tree.docinfo.encoding
result = etree.tostring(fromstring_tree, xml_declaration=True, encoding=encoding)
print "%s\nfromstring ElementTree:\n%s\n" % ('-'*20, result)

# DOCTYPE is lost, and no access to encoding
fromstring_element = etree.fromstring(xml_str)
result = etree.tostring(fromstring_element, xml_declaration=True)
print "%s\nfromstring Element:\n%s\n" % ('-'*20, result)

输出是：

--------------------
parse ElementTree:
<?xml version='1.0' encoding='iso-8859-1'?>
<!DOCTYPE root SYSTEM "test" [
<!ENTITY tasty "eggs">
]>
<root>
   <a>eggs</a>
 </root>

--------------------
fromstring ElementTree:
<?xml version='1.0' encoding='iso-8859-1'?>
<!DOCTYPE root SYSTEM "test" [
<!ENTITY tasty "eggs">
]>
<root>
   <a>eggs</a>
 </root>

--------------------
fromstring Element:
<?xml version='1.0' encoding='ASCII'?>
<root>
   <a>eggs</a>
 </root>

2017-10-19 03:14

您还可以使用保留DOCTYPE和XML声明 fromstring()：

import sys
from StringIO import StringIO
from lxml import etree

xml = r'''<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en">
 <head>
 <title>example</title>
 </head>
 <body>
 <p>This is an example</p>
 </body>
</html>'''

tree = etree.fromstring(xml).getroottree() # or etree.parse(file)
tree.write(sys.stdout, xml_declaration=True, encoding=tree.docinfo.encoding)

产量

<?xml version='1.0' encoding='UTF-8'?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
 <head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
 <title>example</title>
 </head>
 <body>
 <p>This is an example</p>
 </body>
</html>

请注意，xml声明（具有正确的编码）和doctype存在。它甚至（可能不正确）使用 ' 代替 " 在xml声明中并添加 Content-Type 到了 <head>。

为了 @John Keyes的示例输入它会产生与之相同的结果 etree.tostring() 在答案中。

2017-10-19 03:43

问题 保留原始doctype和声明lxml.etree解析的xml

答案:

产量

热门问题

问题保留原始doctype和声明lxml.etree解析的xml