我刚刚在生物学研究中选择了Pandas来做一些数据分析工作。结果我正在分析的一种蛋白质被称为'NA'。
我有一个矩阵,在列标题上有成对的'HA,M1,M2,NA,NP ......',和“行标题”相同(对于可能读过这个的生物学家,我正在使用流感)。
当我直接从CSV文件将数据导入Pandas时,它将“行标题”读作“HA,M1,M2 ...”,然后NA读取为NaN。有没有办法阻止这个?列标题很好 - 'HA,M1,M2,NA,NP等......'
我刚刚在生物学研究中选择了Pandas来做一些数据分析工作。结果我正在分析的一种蛋白质被称为'NA'。
我有一个矩阵,在列标题上有成对的'HA,M1,M2,NA,NP ......',和“行标题”相同(对于可能读过这个的生物学家,我正在使用流感)。
当我直接从CSV文件将数据导入Pandas时,它将“行标题”读作“HA,M1,M2 ...”,然后NA读取为NaN。有没有办法阻止这个?列标题很好 - 'HA,M1,M2,NA,NP等......'
以这种方式关闭NaN检测: pd.read_csv(filename, keep_default_na=False)
我最初建议 na_filter=False
完成工作。但是,如果我理解下面杰夫的评论,这是一个更清洁的解决方案。
例:
In [1]: pd.read_csv('test')
Out[1]:[4]: pd.read_csv('test', keep_default_na=False)
Out[4]:1 2
2 3
刚遇到这个问题 - 我为该列指定了一个str转换器,所以我可以在其他地方保留na:
pd.read_csv(... , converters={ "file name": str, "company name": str})