问题 为什么这些词被视为停用词?


我没有正式的自然语言处理背景,想知道来自NLP方面的人是否可以对此有所了解。我正在玩弄 NLTK 库和我专门研究了这个包提供的停用词功能:

在[80]中:   nltk.corpus.stopwords.words( '英语')

出[80]:

['我','我','我',   '我自己','我们','我们的','我们的',   '我们','你','你',   '你','你自己','你自己',   '他','他','他的','他自己',   '她','她','她','她自己',   '它','它','本身','它们',   '他们','他们','他们',   '自己','什么','哪个',   '谁','谁','这','那',   '这些','那些','我','是',   '是','是','是','是',   '一直','正在','有','有',   '有','有','做','做',   '做','做','做','做','',   '和','但','如果','或',   '因为','作为','直到','而',   'of','at','by','for','with',   'about','against','between',   '进入','通过','期间',   '之前','之后','上方',   '下','到','从','上',   'down','in','out','on','off',   'over','under','再次',   '进一步','然后','一次','这里',   '那里','什么时候','哪里','为什么',   '怎么','全','任何','两者',   '每个','很少','更多','最',   '其他','某些','这样','不',   '不','不','只','拥有',   '相同','如此','比','也',   '非常','s','t','可以','会',   'just','don','should','now']

我不明白的是,为什么“不”这个词出现?是不是有必要确定句子里面的情绪?例如,这样的句子:

我不确定问题是什么。

一旦停用词,完全不同 not 被删除将句子的含义改为相反的(I am sure what the problem is)。如果是这种情况,那么在不使用这些停用词时我是否缺少一套规则?


3541
2018-06-26 03:55


起源

情感分析需要一种不同的预处理方法,比如文档分类和其他核心NLP任务。例如,在文档分类中,你会在早期丢弃标点符号,而在情绪分析中包括 ! 和 ? 在您的功能集中可能会改善您的结果。 - Fred Foo


答案:


的概念 停止单词列表 没有普遍意义,取决于你想做什么。如果你有一个任务,你需要了解一个短语的极性,情绪或类似特征,如果你的方法依赖于检测否定(如你的例子),显然你不应该删除“不”作为一个停止词(请注意,您可能仍希望删除其他非常常见的不相关的单词,这些单词将构成您的新单词列表。

但是,要回答你的问题,大多数情绪分析方法都非常肤浅。他们寻找充满情感/情感的词语,并且 - 大部分时间 - 他们不会尝试对句子进行深入分析。

作为另一个你想要保留停止词的例子:如果你试图根据他们的作者(作者属性)或者执行测针学来对文档进行分类,你应该保留这些功能词,因为它们表征了很大一部分。风格和话语。

然而,对于许多其他类型的分析(例如,文字空间模型,文档相似性,搜索等),删除非常常见的功能性单词在计算上(您处理较少的单词)和在某些情况下实际上是有意义的(您甚至可以获得更好的结果)删除了停用词)。如果我试图理解经常使用特定单词的上下文,我希望看到 内容 单词,而不是 实用 话。


16
2018-06-26 04:11



+1这是一个很好的答案。谢谢。我正在做某种情绪分析,你说的话对我来说很有意义。感谢您的时间。 - Legend
不用谢。我对句子/短语级别的情绪分析不太熟悉,但如果这就是你想要的,那么这可能是一个起点: mitpressjournals.org/doi/pdf/10.1162/coli.08-012-R1-06-90 - Ruggiero Spearman
刚刚发布了另一个问题: stackoverflow.com/questions/6482152/... 万一你对这个话题有一些额外的想法:)再次感谢你。 - Legend