我想知道Keras中激活层和密集层之间的区别是什么。
由于激活层似乎是一个完全连接的层,而Dense有一个参数来传递激活函数,最佳做法是什么?
让我们想象一个像这样的虚构网络: 输入 - >密集 - >丢失 - >最终层 最终层应该是:密集(激活= softmax)或激活(softmax)? 什么是最干净的,为什么?
感谢大家!
我想知道Keras中激活层和密集层之间的区别是什么。
由于激活层似乎是一个完全连接的层,而Dense有一个参数来传递激活函数,最佳做法是什么?
让我们想象一个像这样的虚构网络: 输入 - >密集 - >丢失 - >最终层 最终层应该是:密集(激活= softmax)或激活(softmax)? 什么是最干净的,为什么?
感谢大家!
运用 Dense(activation=softmax)
在计算上等同于第一次添加 Dense
然后添加 Activation(softmax)
。但是,第二种方法有一个优点 - 您可以从这样定义的模型中检索最后一层(激活之前)的输出。在第一种方法中 - 这是不可能的。
运用 Dense(activation=softmax)
在计算上等同于第一次添加 Dense
然后添加 Activation(softmax)
。但是,第二种方法有一个优点 - 您可以从这样定义的模型中检索最后一层(激活之前)的输出。在第一种方法中 - 这是不可能的。