我正在寻找一种方法,在过去,现在和将来的时间里都有一个英文文本计数动词短语。现在我正在使用 NLTK,做一个POS(词性)标记,然后计数说'VBD'来过去时态。这虽然不够准确,所以我想我需要更进一步使用分块,然后分析VP块以获取特定的时态模式。有什么存在的吗?任何进一步的阅读可能会有所帮助?该 NLTK书 主要集中在NP-chunk上,我可以找到关于VP-chunks的很少信息。
我正在寻找一种方法,在过去,现在和将来的时间里都有一个英文文本计数动词短语。现在我正在使用 NLTK,做一个POS(词性)标记,然后计数说'VBD'来过去时态。这虽然不够准确,所以我想我需要更进一步使用分块,然后分析VP块以获取特定的时态模式。有什么存在的吗?任何进一步的阅读可能会有所帮助?该 NLTK书 主要集中在NP-chunk上,我可以找到关于VP-chunks的很少信息。
确切的答案取决于你打算使用哪个chunker,但列表推导会带你走很长的路。这可以使用不存在的块来获取动词短语的数量。
len([phrase for phrase in nltk.Chunker(sentence) if phrase[1] == 'VP'])
您可以采用更细粒度的方法来检测时态数。