问题我如何懒惰地解析Clojure中的大型XHTML文件？

我有一个有效的XHTML文件（100兆字节的数据）和一个大表。第一个是列（用于数据库），所有其他tr是数据。它是整个文档中唯一的表，它在结构html-> body-> div-> table中。

我如何在Clojure中解析它的懒惰方式？

我知道 data.xml中但因为我是Clj初学者，所以我很难让它发挥作用。特别是因为REPL在处理如此大的文件时非常慢。

8674

2018-01-15 08:22

起源

也可以看看 stackoverflow.com/questions/9939844/huge-xml-in-clojure - Korny

答案:

data.xml docs说它创建了一个文档的懒树：解析。我在当地检查过，这似乎是真的：

; Load libs
(require '[clojure.data.xml :as xml])
(require '[clojure.java.io :as io])

; standard.xml is 100MB xml file from here http://www.xml-benchmark.org/downloads.html
(def xml-tree (xml/parse (io/reader "standard.xml")))
(:tag xml-tree) => :site

(def child (first (:content xml-tree)))
(:tag child) => :regions

(dorun (:content xml-tree)) => REPL hangs for ~30 seconds on my computer because it tries to parse whole file

15

2018-01-15 08:39

+1为 xml-benchmark.org/downloads.html。很好找。 - webnoob

使用xml / parse结果的一种惯用方法是使用zip / xml-zip以及data.zip中定义的特定于XML的zip过滤器 - 谷歌“Clojure xml zip”用于一些过时的教程。 - Alex

热门问题

不使用eval / new函数的JavaScript模板库当涉及内部类时，Java继承如何工作 .NET Windows服务的奇怪问题在.ipa或.app下查找App ID 快速入门XSLT参考[关闭] 如何找出Android应用程序中未使用的资源 Ruby中并发的同步方法[重复] 将std :: chrono :: system_clock :: time_point转换为struct timeval并返回 Google Drive API V3（javascript）更新文件内容 Bootstrap 3.0 - 将元素推到底部受密码保护的.NET ClickOnce部署？如何用postgresql安装wordpress coq Set或Type如何成为命题硒滚动元素进入（中心）视图在Spring Transaction JUnit测试中自动装配Hibernate会话的正确方法 Git的Dockerfile策略如何在FOS_PICKFOLDER中使用IFileDialog，同时仍在对话框中显示文件名在Firefox扩展中复制Google Chrome浏览器操作弹出效果 CakePHP找到MAX 芹菜 - 完成任务的召唤功能从使用fmemopen创建的流中读取宽字符 .NET是否为每个程序集创建一个字符串实习池？ DefaultModelBinder不绑定嵌套模型 Navigator.MediaDevices.getUserMedia（）使用了哪些相机通信标准？选择命名空间名称时应该知道什么？ cout Swagger Codegen CLI Java客户端 - 如何正确使用它一个很好的哈希函数用于采访整数，字符串？ Maven 3 ciManagement配置的目的是什么？如何通过语言文化获取代码页？