在自然语言处理的哪个研究领域下缩写检测来了吗?寻找学习缩写检测的来源。我考虑过Semantics,它基本上检测同义词。所以我认为我可能会做多字词语义来检测“nlp”和“自然语言处理”是相似的。但我找不到做多字词语的解决方案。
注意: 我知道这个问题很容易投票,但试着理解我的问题。我已经挣扎了几个月了,任何帮助都非常感激......
谢谢
在自然语言处理的哪个研究领域下缩写检测来了吗?寻找学习缩写检测的来源。我考虑过Semantics,它基本上检测同义词。所以我认为我可能会做多字词语义来检测“nlp”和“自然语言处理”是相似的。但我找不到做多字词语的解决方案。
注意: 我知道这个问题很容易投票,但试着理解我的问题。我已经挣扎了几个月了,任何帮助都非常感激......
谢谢
(自动)缩写的检测也是一般的主要子问题和句子分割和标记化过程的任务,即:从缩写附加的标点符号中消除句子结尾的歧义。 已经应用统计方法(NLP)来成功地检测和提取它们,主要是以(半)监督的方式。例如。 PUNKT系统,实际上是为句子边界检测而开发的, 能够高精度地检测缩写, 基于这样的假设:一旦确定了缩写,就可以消除确定句子边界的大量歧义 (Kiss等人。 2006年。 无监督多语种句 边界检测)。
现在,在尝试修改PUNKT系统或类似系统之前,我只是试图给出一个方向。基于NLP的abbr。检测。例如,上述系统应用技术来测量令牌对之间的搭配强度,其可以是两个单词,但也可以是单词和一些标点符号,被视为令牌。这一切都基于频率和概率,尽管传统搭配分析的结果确实允许进行语义研究。
谢谢所有帮助过我的人,我想我自己找到了答案。我相信它,因为它来自发明雅虎缩写扩展算法的人的研究论文。它也显示出人工智能的迹象。再次,谢谢你们。
对于和我在同一条船上的其他人,这是解决方案:
您可以从简单的基于规则的解决方案开始,例如寻找像“自然语言处理(NLP)”这样的模式。我希望给定一个足够大的语料库,这可能会有很长的路要走。如果你包括维基百科的转储......