问题比较英语句子相似度的算法

我有一系列句子，我需要分析它们，看看它们有多相似。

有没有建立的算法来做到这一点？

我很在乎：

包含相同的单词（暂时忽略拐点）
以相似的顺序包含相同的单词

我之前使用Levenshtein距离和n-gram进行拼写，虽然我不完全相信这些是否符合我的目的。

天真地说，“我不关心拼写差异，拼写错误可以被视为不同的词语”，尽管考虑到这一点可能会很好。

也许在空间分割句子和上述（或其他）算法之一的混合可能是一个起点

有哪些选择？任何建议？

谢谢！

8874

2017-07-15 08:37

起源

答案:

这张纸比较几个句子相似性度量。也许您可以按原样使用其中一个，或根据您的需要进行修改。

除此以外 句子相似性度量 谷歌是一个很好的关键术语。

13

2017-07-15 09:45

hmmmmmmmm 杀死比尔胡须中风。谢谢！ - Andrew Bullock

@Andrew其实我只是用谷歌搜索，因为这个问题引起了我的兴趣:)我不熟悉这个话题......我明白你的问题可能出在技术细节上，这篇论文大多被忽略了（让拼写错误-resitant，inflexions等，好的英语单词几乎没有变形） - Szabolcs

答案:

这张纸比较几个句子相似性度量。也许您可以按原样使用其中一个，或根据您的需要进行修改。

除此以外 句子相似性度量 谷歌是一个很好的关键术语。

13

2017-07-15 09:45

hmmmmmmmm 杀死比尔胡须中风。谢谢！ - Andrew Bullock

@Andrew其实我只是用谷歌搜索，因为这个问题引起了我的兴趣:)我不熟悉这个话题......我明白你的问题可能出在技术细节上，这篇论文大多被忽略了（让拼写错误-resitant，inflexions等，好的英语单词几乎没有变形） - Szabolcs

要忽略变形，您应该研究词干算法： http://en.wikipedia.org/wiki/Porter_stemmer

他们将单词缩减为根形式。

0

2018-04-27 09:07

热门问题

不使用eval / new函数的JavaScript模板库当涉及内部类时，Java继承如何工作 .NET Windows服务的奇怪问题在.ipa或.app下查找App ID 快速入门XSLT参考[关闭] 如何找出Android应用程序中未使用的资源 Ruby中并发的同步方法[重复] 将std :: chrono :: system_clock :: time_point转换为struct timeval并返回 Google Drive API V3（javascript）更新文件内容 Bootstrap 3.0 - 将元素推到底部受密码保护的.NET ClickOnce部署？如何用postgresql安装wordpress coq Set或Type如何成为命题硒滚动元素进入（中心）视图在Spring Transaction JUnit测试中自动装配Hibernate会话的正确方法 Git的Dockerfile策略如何在FOS_PICKFOLDER中使用IFileDialog，同时仍在对话框中显示文件名在Firefox扩展中复制Google Chrome浏览器操作弹出效果 CakePHP找到MAX 芹菜 - 完成任务的召唤功能从使用fmemopen创建的流中读取宽字符 .NET是否为每个程序集创建一个字符串实习池？ DefaultModelBinder不绑定嵌套模型 Navigator.MediaDevices.getUserMedia（）使用了哪些相机通信标准？选择命名空间名称时应该知道什么？ cout Swagger Codegen CLI Java客户端 - 如何正确使用它一个很好的哈希函数用于采访整数，字符串？ Maven 3 ciManagement配置的目的是什么？如何通过语言文化获取代码页？