问题更快地将多个csv读取到一个数据帧？

反正有没有加快R中的以下过程？

theFiles <- list.files(path="./lca_rs75_summary_logs", full.names=TRUE, pattern="*.summarylog")

listOfDataFrames <- NULL
masterDataFrame <- NULL

for (i in 1:length(theFiles)) {
    tempDataFrame <- read.csv(theFiles[i], sep="\t", header=TRUE)
    #Dropping some unnecessary row
    toBeRemoved <- which(tempDataFrame$Name == "")
    tempDataFrame <- tempDataFrame[-toBeRemoved,]
    #Now stack the data frame on the master data frame
    masterDataFrame <- rbind(masterDataFrame, tempDataFrame)
}

基本上，我正在读取目录中的多个csv文件。我想通过堆叠行将所有csv文件合并到一个巨大的数据框中。随着masterDataFrame的大小增加，循环似乎更长。我在linux集群上这样做。

10843

2018-04-11 22:51

起源

答案:

更新了答案 data.table::fread。

require(data.table)
out = rbindlist(lapply(theFiles, function(file) {
         dt = fread(file)
         # further processing/filtering
      }))

fread() 自动检测标题，文件分隔符，列类，默认情况下不将字符串转换为因子..处理嵌入式引号，是相当快的等等。 ?fread 更多。

查看旧答案的历史记录。

13

2018-04-11 22:55

谢谢。 rbindlist确实加快了速度！ - WonderSteve

使用 fread 代替 read.csv 如果你要沿着data.table路径.... - mnel

答案:

更新了答案 data.table::fread。

require(data.table)
out = rbindlist(lapply(theFiles, function(file) {
         dt = fread(file)
         # further processing/filtering
      }))

fread() 自动检测标题，文件分隔符，列类，默认情况下不将字符串转换为因子..处理嵌入式引号，是相当快的等等。 ?fread 更多。

查看旧答案的历史记录。

13

2018-04-11 22:55

谢谢。 rbindlist确实加快了速度！ - WonderSteve

使用 fread 代替 read.csv 如果你要沿着data.table路径.... - mnel

热门问题

不使用eval / new函数的JavaScript模板库当涉及内部类时，Java继承如何工作 .NET Windows服务的奇怪问题在.ipa或.app下查找App ID 快速入门XSLT参考[关闭] 如何找出Android应用程序中未使用的资源 Ruby中并发的同步方法[重复] 将std :: chrono :: system_clock :: time_point转换为struct timeval并返回 Google Drive API V3（javascript）更新文件内容 Bootstrap 3.0 - 将元素推到底部受密码保护的.NET ClickOnce部署？如何用postgresql安装wordpress coq Set或Type如何成为命题硒滚动元素进入（中心）视图在Spring Transaction JUnit测试中自动装配Hibernate会话的正确方法 Git的Dockerfile策略如何在FOS_PICKFOLDER中使用IFileDialog，同时仍在对话框中显示文件名在Firefox扩展中复制Google Chrome浏览器操作弹出效果 CakePHP找到MAX 芹菜 - 完成任务的召唤功能从使用fmemopen创建的流中读取宽字符 .NET是否为每个程序集创建一个字符串实习池？ DefaultModelBinder不绑定嵌套模型 Navigator.MediaDevices.getUserMedia（）使用了哪些相机通信标准？选择命名空间名称时应该知道什么？ cout Swagger Codegen CLI Java客户端 - 如何正确使用它一个很好的哈希函数用于采访整数，字符串？ Maven 3 ciManagement配置的目的是什么？如何通过语言文化获取代码页？