一个简单的问题
我尝试制作一个错误图,如Field的“使用R发现统计数据”第532页所示。
代码可以在这里找到 http://www.sagepub.com/dsur/study/DSUR%20R%20Script%20Files/Chapter%2012%20DSUR%20GLM3.R :
line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender))
line + stat_summary(fun.y = mean, geom = "point") +
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) +
stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) +
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")
我制作了相同的图表;我的y轴变量只有4个点(它是一个离散的刻度,1-4),现在y轴有点1.5,2,2.5,其中线条变化。
问题是:这些点和图表描述了什么?
我认为重要的是 stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2)
他们对该组和那个级别(x轴)的观察数量是多少?他们是频率吗?或者,它们的比例是多少?
我找到了这个 http://docs.ggplot2.org/0.9.3/stat_summary.html 但它没有帮助我
谢谢
这是ggplot2 书 在第83页说 mean_cl_boot()
Function Hmisc original Middle Range
mean_cl_boot() smean.cl.boot() Mean Standard error from bootstrap
我认为这是 smean.cl.boot()
来自Hmisc包但重命名为 mean.cl.boot()
在ggplot2中。
和 这里 是来自Hmisc包的原始函数的定义:
smean.cl.boot
是一个非常快速的基本非参数自举的实现,用于获得总体均值的置信限,而不假设正态性
我使用你的代码重现了图形,我得到的字段基本上与Field的书“使用R发现统计数据”,图12.12,第532页所示,除了x轴上变量的排序。 y轴显示连续变量,日期的平均吸引力(%)。正如你所指出的那样,使用stat_summary()函数和mean_cl_boot参数创建的95%置信区间是使用Hmisc中的smean.cl.boot()函数的自举置信区间,正如上面另一位评论者指出的那样。该功能在Hmisc的第262页进行了描述 文件。 ggplot2 有关mean_cl_boot的文档 稀疏,并遵循Hmisc包中的描述。
请注意,ggplot2中mean_cl_boot的参数与Hmisc包中smean.cl.boot函数中的参数相同。您可以使用conf.int参数和使用B参数的bootstrap样本数来更改默认值.95所需的置信度。例如,这里是用于创建具有99%置信区间和5000个引导样本的相同图的代码:
line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender))
line + stat_summary(fun.y = mean, geom = "point") +
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) +
stat_summary(fun.data = mean_cl_boot, conf.int = .99, B = 5000, geom = "errorbar", width = 0.2) +
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")