问题并行化R中的滚动窗口回归

我正在运行滚动回归，非常类似于以下代码：

library(PerformanceAnalytics)
library(quantmod)
data(managers)

FL <- as.formula(Next(HAM1)~HAM1+HAM2+HAM3+HAM4)
MyRegression <- function(df,FL) {
  df <- as.data.frame(df)
  model <- lm(FL,data=df[1:30,])
  predict(model,newdata=df[31,])
}

system.time(Result <- rollapply(managers, 31, FUN="MyRegression",FL,
    by.column = FALSE, align = "right", na.pad = TRUE))

我有一些额外的处理器，所以我试图找到一种方法来并行化滚动窗口。如果这是一个非滚动回归，我可以使用apply系列函数轻松地并行化它...

1230

2018-04-13 15:52

起源

答案:

显而易见的是使用 lm.fit() 代替 lm() 所以你不会因处理公式等而产生所有开销。

更新： 所以，当我说明显我的意思是说 实施起来很明显但很难实现！

经过一番摆弄，我想出了这个

library(PerformanceAnalytics)
library(quantmod)
data(managers)

第一阶段是要意识到模型矩阵可以预先构建，所以我们这样做并将其转换回Zoo对象以供使用 rollapply()：

mmat2 <- model.frame(Next(HAM1) ~ HAM1 + HAM2 + HAM3 + HAM4, data = managers, 
                     na.action = na.pass)
mmat2 <- cbind.data.frame(mmat2[,1], Intercept = 1, mmat2[,-1])
mmatZ <- as.zoo(mmat2)

现在我们需要一个将要使用的功能 lm.fit() 在不必每次迭代创建设计矩阵的情况下进行繁重的工作：

MyRegression2 <- function(Z) {
    ## store value we want to predict for
    pred <- Z[31, -1, drop = FALSE]
    ## get rid of any rows with NA in training data
    Z <- Z[1:30, ][!rowSums(is.na(Z[1:30,])) > 0, ]
    ## Next() would lag and leave NA in row 30 for response
    ## but we precomputed model matrix, so drop last row still in Z
    Z <- Z[-nrow(Z),]
    ## fit the model
    fit <- lm.fit(Z[, -1, drop = FALSE], Z[,1])
    ## get things we need to predict, in case pivoting turned on in lm.fit
    p <- fit$rank
    p1 <- seq_len(p)
    piv <- fit$qr$pivot[p1]
    ## model coefficients
    beta <- fit$coefficients
    ## this gives the predicted value for row 31 of data passed in
    drop(pred[, piv, drop = FALSE] %*% beta[piv])
}

时间比较：

> system.time(Result <- rollapply(managers, 31, FUN="MyRegression",FL,
+                                 by.column = FALSE, align = "right", 
+                                 na.pad = TRUE))
   user  system elapsed 
  0.925   0.002   1.020 
> 
> system.time(Result2 <- rollapply(mmatZ, 31, FUN = MyRegression2,
+                                  by.column = FALSE,  align = "right",
+                                  na.pad = TRUE))
   user  system elapsed 
  0.048   0.000   0.05

这比原版提供了相当合理的改进。现在检查生成的对象是否相同：

> all.equal(Result, Result2)
[1] TRUE

请享用！

2018-04-13 15:57

@Zach我当然假设你知道你在这里做了什么 - 试图获得一步预测？ - Gavin Simpson

@Gavin Simpson是的，这就是我在做的事情。我也试图将其并行化。 - Zach

@Zach - 刚刚发布了一个包含实现我的代码的更新 lm.fit() 建议。这样做比我赞赏的要复杂一点。 - Gavin Simpson

@Gavin Simpson：这是一个非常健康的加速，谢谢。 - Zach

@Gavin Simpson：如果我想使用其他回归函数，例如 glm 要么 glmnet？我是否能够实现类似的东西，或者您的方法是否仅针对线性回归进行了优化？ - Zach

答案: