我没有正式的自然语言处理背景,想知道来自NLP方面的人是否可以对此有所了解。我正在玩弄 NLTK 库和我专门研究了这个包提供的停用词功能:
在[80]中: nltk.corpus.stopwords.words( '英语')
出[80]:
['我','我','我', '我自己','我们','我们的','我们的', '我们','你','你', '你','你自己','你自己', '他','他','他的','他自己', '她','她','她','她自己', '它','它','本身','它们', '他们','他们','他们', '自己','什么','哪个', '谁','谁','这','那', '这些','那些','我','是', '是','是','是','是', '一直','正在','有','有', '有','有','做','做', '做','做','做','做','', '和','但','如果','或', '因为','作为','直到','而', 'of','at','by','for','with', 'about','against','between', '进入','通过','期间', '之前','之后','上方', '下','到','从','上', 'down','in','out','on','off', 'over','under','再次', '进一步','然后','一次','这里', '那里','什么时候','哪里','为什么', '怎么','全','任何','两者', '每个','很少','更多','最', '其他','某些','这样','不', '不','不','只','拥有', '相同','如此','比','也', '非常','s','t','可以','会', 'just','don','should','now']
我不明白的是,为什么“不”这个词出现?是不是有必要确定句子里面的情绪?例如,这样的句子:
我不确定问题是什么。
一旦停用词,完全不同 not
被删除将句子的含义改为相反的(I am sure what the problem is
)。如果是这种情况,那么在不使用这些停用词时我是否缺少一套规则?