我需要做出一个战略决策,选择在我的程序中保存统计数据框架的数据结构的基础。
我在一张大桌子上存储了数十万条记录。每个字段都是不同的类型,包括短字符串。我会对需要快速实时完成的数据进行多元回归分析和操作。我还需要使用一些相对受欢迎且得到很好支持的东西。
我知道以下参赛者:
列表 array.array
这是最基本的事情。不幸的是它不支持字符串。而且我还需要使用numpy作为统计部分,所以这个问题是不可能的。
numpy.ndarray
该 ndarray
能够在每列中保存不同类型的数组(例如 np.dtype([('name', np.str_, 16), ('grades', np.float64, (2,))])
)。这似乎是一个天生的赢家,但......
pandas.DataFrame
这个是在考虑统计用途的情况下构建的,但它是否足够有效?
我读过,那个 pandas.DataFrame
是 不再基于 numpy.ndarray
(虽然它共享相同的界面)。任何人都可以对此有所了解吗?或者可能有更好的数据结构?