问题 比较英语句子相似度的算法


我有一系列句子,我需要分析它们,看看它们有多相似。

有没有建立的算法来做到这一点?

我很在乎:

  • 包含相同的单词(暂时忽略拐点)
  • 以相似的顺序包含相同的单词

我之前使用Levenshtein距离和n-gram进行拼写,虽然我不完全相信这些是否符合我的目的。

天真地说,“我不关心拼写差异,拼写错误可以被视为不同的词语”,尽管考虑到这一点可能会很好。

也许在空间分割句子和上述(或其他)算法之一的混合可能是一个起点

有哪些选择?任何建议?

谢谢!


8874
2017-07-15 08:37


起源



答案:


这张纸 比较几个句子相似性度量。也许您可以按原样使用其中一个,或根据您的需要进行修改。

除此以外 句子相似性度量 谷歌是一个很好的关键术语。


13
2017-07-15 09:45



hmmmmmmmm 杀死比尔胡须中风。谢谢! - Andrew Bullock
@Andrew其实我只是用谷歌搜索,因为这个问题引起了我的兴趣:)我不熟悉这个话题......我明白你的问题可能出在技术细节上,这篇论文大多被忽略了(让拼写错误-resitant,inflexions等,好的英语单词几乎没有变形) - Szabolcs


答案:


这张纸 比较几个句子相似性度量。也许您可以按原样使用其中一个,或根据您的需要进行修改。

除此以外 句子相似性度量 谷歌是一个很好的关键术语。


13
2017-07-15 09:45



hmmmmmmmm 杀死比尔胡须中风。谢谢! - Andrew Bullock
@Andrew其实我只是用谷歌搜索,因为这个问题引起了我的兴趣:)我不熟悉这个话题......我明白你的问题可能出在技术细节上,这篇论文大多被忽略了(让拼写错误-resitant,inflexions等,好的英语单词几乎没有变形) - Szabolcs


要忽略变形,您应该研究词干算法: http://en.wikipedia.org/wiki/Porter_stemmer

他们将单词缩减为根形式。


0
2018-04-27 09:07