我正在努力找出实现以下目标的最佳方法:
- 每天从第三方网站下载大型XML(1GB)文件
- 将该XML文件转换为我服务器上的关系数据库
- 添加搜索数据库的功能
对于第一部分,这是需要手动完成的事情,还是可以用cron完成?
与XML和关系数据库相关的大多数问题和答案都是指Python或PHP。这可以用javascript / nodejs完成吗?
如果这个问题更适合不同的StackExchange论坛,请告诉我,我会把它移到那里。
下面是xml代码的示例:
<case-file>
<serial-number>123456789</serial-number>
<transaction-date>20150101</transaction-date>
<case-file-header>
<filing-date>20140101</filing-date>
</case-file-header>
<case-file-statements>
<case-file-statement>
<code>AQ123</code>
<text>Case file statement text</text>
</case-file-statement>
<case-file-statement>
<code>BC345</code>
<text>Case file statement text</text>
</case-file-statement>
</case-file-statements>
<classifications>
<classification>
<international-code-total-no>1</international-code-total-no>
<primary-code>025</primary-code>
</classification>
</classifications>
</case-file>
以下是有关如何使用这些文件的更多信息:
所有XML文件都采用相同的格式。每条记录中可能有几十个元素。这些文件每天由第三方更新(并在第三方网站上以压缩文件的形式提供)。每天的文件代表新的案例文件以及更新的案例文件。
目标是允许用户在页面上(或在生成的pdf / excel文件中)搜索信息并组织这些搜索结果。例如,用户可能希望查看包含特定单词的所有案例文件 <text>
元件。或者用户可能希望查看包含主代码025的所有案例文件(<primary-code>
元素)并且在特定日期之后提交(<filing-date>
元件)。
输入数据库的唯一数据来自XML文件 - 用户不会将任何自己的信息添加到数据库中。