由于大型Web应用程序的出现,搜索数据(以及快速准确地执行此操作)一直是Web应用程序中最重要的问题之一。有一段时间,我一直在使用 Lucene.NET,这是一个C#端口 Lucene项目。
我也使用PHP工作 Zend Framework的Lucene API,这让我想到了我的问题。大多数时候,为了提供良好的索引,我们需要执行一些NLP工具 符号化, lemmatizing还有更多,问题是:
你知道使用PHP的任何好的NLP编程框架/工具集吗?
PS:我非常了解Lucene的Zend API,但正确索引数据不仅仅是存储和依赖Lucene,还需要执行一些额外的任务,如上所述。
我建议你看看 Solr的,这是Lucene的最佳实践实现。 Solr使用基于REST的API也非常好 PHP客户端。这将允许您利用Lucene的强大功能,而无需执行任何低级编程来获得您想要的NLP功率。此外,您可能希望获取Solr的主干版本,因为NLP开发现在非常活跃,并且每天都会添加新功能。
Zend有一个完整的lucene端口到PHP。查看文档 这里。
- Lucene有 断词
- Lucene有一个 搬运工
- Lucene有 雪球
- Lucene可以配合 共发现
我建议你看看 Solr的,这是Lucene的最佳实践实现。 Solr使用基于REST的API也非常好 PHP客户端。这将允许您利用Lucene的强大功能,而无需执行任何低级编程来获得您想要的NLP功率。此外,您可能希望获取Solr的主干版本,因为NLP开发现在非常活跃,并且每天都会添加新功能。
Zend有一个完整的lucene端口到PHP。查看文档 这里。
- Lucene有 断词
- Lucene有一个 搬运工
- Lucene有 雪球
- Lucene可以配合 共发现
好像你正在寻找几个月后我用Google搜索的东西:D ...我正在运行一个基于php / zend的项目与Solr(通过php-solr-client lib),到目前为止我还没有找到任何东西php for advanced NLP。对于基本的东西,正如大家所提到的,你可以逃脱Solr(词干,标记云/短语标签云,标记化等),并且有一些基本但有用的文本处理php库(没有什么花哨的真的,更好的依赖关于Solr本身)...但是如果你正在寻找更多的算法/语义/情感NLP分析我建议你从PHP移动一点并进入Java,因为有更多的库可以帮助你在这个领域(如OpenNLP) )。
如果你想要的东西是你想要的东西,你可能想看看Mahout:
http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3/