问题 使用变量而不是数据集名称将数据集加载到带有data()的R中


我正在尝试使用data()函数将数据集加载到R中。我使用数据集名称时工作正常(例如 data(Titanic) 要么 data("Titanic"))。对我来说不起作用的是使用变量而不是名称来加载数据集。例如:

# This works fine:
> data(Titanic)

# This works fine as well:
> data("Titanic")

# This doesn't work:
> myvar <- Titanic
> data(myvar)
**Warning message:
In data(myvar) : data set ‘myvar’ not found**

为什么R要查找名为“myvar”的数据集,因为它没有被引用? 由于这是默认行为,是否有办法加载存储在变量中的数据集?

为了记录,我要做的是创建一个使用“arules”包并使用Apriori挖掘关联规则的函数。因此,我需要将数据集作为参数传递给该函数。

myfun <- function(mydataset) {
    data(mydataset)    # doesn't work (data set 'mydataset' not found)
    rules <- apriori(mydataset)
}

编辑  - sessionInfo()的输出:

> sessionInfo()
R version 3.0.0 (2013-04-03)
Platform: i386-w64-mingw32/i386 (32-bit)

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252   
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] arules_1.0-14   Matrix_1.0-12   lattice_0.20-15 RPostgreSQL_0.4 DBI_0.2-7      

loaded via a namespace (and not attached):
[1] grid_3.0.0  tools_3.0.0

我得到的实际错误(例如,使用样本数据集“xyz”):

xyz <- data.frame(c(1,2,3))
data(list=xyz)
Warning messages:
1: In grep(name, files, fixed = TRUE) :
  argument 'pattern' has length > 1 and only the first element will be used
2: In grep(name, files, fixed = TRUE) :
  argument 'pattern' has length > 1 and only the first element will be used
3: In if (name %in% names(rds)) { :
  the condition has length > 1 and only the first element will be used
4: In grep(name, files, fixed = TRUE) :
  argument 'pattern' has length > 1 and only the first element will be used
5: In if (name %in% names(rds)) { :
  the condition has length > 1 and only the first element will be used
6: In grep(name, files, fixed = TRUE) :
  argument 'pattern' has length > 1 and only the first element will be used

...

...

32: In data(list = xyz) :
  c("data set ‘1’ not found", "data set ‘2’ not found", "data set ‘3’ not found")

9302
2017-11-11 18:01


起源

请注意,因为您已经认识到了这一点 data("Titanic") 要么 data(Titanic) 那么工作应该不会太令人惊讶 data(myvar) 尝试加载名为“myvar”的数据集。 - Dason
你能添加输出吗? sessionInfo()。其他解决方案有效,所以我想知道你为什么会遇到错误。你所接受的“接受”的解决方案远非理想...... - Dason


答案:


使用 list 论据。看到 ?data

data(list=myvar)

你也需要 myvar 成为一个字符串。

myvar <- "Titanic"

注意 myvar <- Titanic 只有工作(我认为),因为泰坦尼克数据集的延迟加载。包中的大多数数据集都是以这种方式加载的,但对于其他类型的数据集,您仍然需要使用 data 命令。


12
2017-11-11 18:05



尝试数据(list = myvar),但它产生32个类别的警告“In data(list = myvar):数据集'0'未找到”。尝试将另一个arules数据集(“Groceries”)存储到myvar中,并且根本没有加载。 (“as.character.default(pattern)中的错误:没有将此S4类强制转换为向量的方法”)。也许我需要在data()中指定更多参数,除了list = myvar? - pazof
@DWin看到了你的问题;你需要 myvar 成为一个字符串。 - Aaron
对不起,我迟到了。也不起作用:(它一直产生32个警告。奇怪的是,它为我尝试的每个数据集产生32个警告 - 即使是10个事务左右的小数据集。是否真的需要在之前执行data()函数运行apriori?我的意思是,如果我直接运行apriori()函数,而不先运行data(),结果会出错还是什么? - pazof


将变量用作字符。否则你将处理“泰坦尼克号”的内容而不是它的名字。您可能还需要使用get才能将字符值转换为对象名称。

myvar <- 'Titanic'

myfun <- function(mydataset) {
    data(list=mydataset)   
    str(get(mydataset))
}

myfun(myvar)

4
2017-11-11 18:32



对不起,我迟到了。也不起作用:(它一直产生32个警告。奇怪的是,它为我尝试的每个数据集产生32个警告 - 即使是10个事务左右的小数据集。是否真的需要在之前执行data()函数运行apriori?我的意思是,如果我直接运行apriori()函数,而不先运行data(),结果会出错还是什么? - pazof


如果已加载包,则可以使用get()函数将数据集分配给局部变量:

data_object = get(myvar, asNamespace('<package_name>'))

或者干脆:

data_object = get(myvar)

0
2018-03-29 13:34





我正在回答我自己的问题,但我终于找到了解决方案。引用R帮助:

“在所有当前加载的包中搜索数据集,然后在当前工作目录的'data'目录(如果有的话)中搜索。”

因此,所有人必须做的是将数据集写入文件并将其放入名为“data”的目录中并放在工作目录中。

> write.table(mydataset,file="dataset.csv",sep=",",quote=TRUE,row.names=FALSE)  # I intend to create a csv file, so I use 'sep=","' to separate the entries by a comma, 'quote=TRUE' to quote all the entries, and 'row.names=F to prevent the creation of an extra column containing the row names (which is the default behavior of write.table() )

# Now place the dataset into a "data" directory (either via R or via the operating system, doesn't make any difference):
> dir.create("data")  # create the directory
> file.rename(from="dataset.csv",to="data/dataset.csv")  # move the file

# Now we can finally load the dataset:
> data("mydataset")  # data(mydataset) works as well, but quoted is preferable - less risk of conflict with another object coincidentally named "mydataset" as well

-3
2017-11-17 04:11



啊,这解释了很多。通常人们会使用 read.csv 在这个情况下。 data 通常仅在从包中加载数据文件时使用,如您在问题中提供的示例中所示。将来,如果您提供完整的可重复示例,您将获得更好的答案。 - Aaron
是的,似乎我误解了数据的使用() - 我认为这是从数据集挖掘规则之前的必要步骤。 - pazof
应该告诉人们@pazof并不真正知道他/她在做什么,并犯了一堆不必要的错误。此外,他如何引发错误的例子是不完整的。然后他的“答案”基本上是错误的。 (当然,我的意见,但我认为他给自己一个复选标记可能会在将来误导人们。) - 42-
@DWin:这不是“错误的”,它不是问题的最佳解决方法 - 当然不是,恰恰相反 - 但仍然有效。选中标记是因为它是解决问题的答案中唯一的解决方案。关于你提到的不必要的错误,请你指出来吗? - pazof