我期待在PHP中实现一个简单的正向索引器。是的,我确实理解PHP不是最好的工具,但无论如何我都想做。它背后的基本原理很简单:我想要一个,在PHP中。
让我们做一些基本的假设:
整个Interweb由 大约五千个HTML和/或 纯文本文件。每个文档都驻留在特定域中 (UID)。在我们想象中的洞穴间Interweb中没有其他专有/神秘的格式。
我们真棒的基于PHP的前向索引算法的结果应该是:
UID1 - > index.html - > helen,她,是,冠军,有雀斑
UID1 - > foo.html - >鸡,农民,去,回家,吃,羊
UID2 - > blah.html - > next,week,on,badgerwatch
UID2 - > gah.txt - > one,one和one,is,not,numberwang
理想情况下,我希望看到解决方案,即使在最基本的时候,也会考虑标记化/字边界消歧/词性标注的概念。 当然,我确实意识到这是一厢情愿的想法,因此将通过以下方式谦虚地解析所述虚构文档的任何有价值的尝试:
- 提取文档中的真实文本内容 作为订单中的单词列表 他们被呈现。
- 一直以来,无视任何垃圾
如
<script>
和<html>
用于计算UID列表(可以是例如域)的标签,后跟文档名称(域内的资源),最后是该文档的单词列表。我确实认识到HTML标签在文档中文本的语义位置中起着重要作用,但在此阶段我 不管。 - 请记住可以构建列表的解决方案 在阅读文档时的单词 那个需要的人比较凉爽 首先阅读整个文档。
在这个阶段,我不关心存储的数量或方法。即使是一套基本的“印刷”陈述也足够了。
在此先感谢,希望这很清楚。