当有很多列时,将 Pandas df 数据类型定义为字典的最佳方法是什么?

我经常使用 pd.read_csv() 加载 csv 文件,而且它们通常具有不同数据类型的列。


这很好,因为我可以将字典传递给 dtype 参数,其中所有列都使用它们各自的数据类型映射出来。我发现的问题是,有时这些 csv 文件有很多列,并且生成的字典非常长。


很多时候,字典看起来像这样:



df_dtype = {


             'A' : str,

             'B' : str,

             'C' : int

}

但是当 df 很长时,字典开始看起来像这样:



df_dtype = {


             'A' : str,

             'B' : str,

             'C' : int,

             'D' : str,

             'E' : str,

             'F' : int,

             'G' : str,

             'H' : str,

             'I' : int,

             'J' : str,

             'K' : str,

             'L' : int,

             'M' : str,

             'N' : str,

             'O' : int,

             'P' : str,

             'Q' : str,

             'R' : int,

             'S' : str,

             'T' : str,

             'U' : int,

             'V' : str,

             'W' : str,

             'X' : int,

             'Y' : str,

             'Z' : str

}


这很丑陋,并且使代码的可读性降低。


这样做的最佳做法是什么?我应该将字典作为目录中的单独文件吗?有没有更漂亮的格式化方式?


繁花不似锦
浏览 122回答 1
1回答

慕的地10843

一种想法是更改格式以指定 dict 键的类型和列表中的列名:d_types = {str: ['A', 'B', 'D'],&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;int: ['C','F'],&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;float: ['G']}#swap key values in dict#http://stackoverflow.com/a/31674731/2901002d = {k: oldk for oldk, oldv in d_types.items() for k in oldv}print (d){'A': <class 'str'>, 'B': <class 'str'>, 'D': <class 'str'>,&nbsp;'C': <class 'int'>, 'F': <class 'int'>, 'G': <class 'float'>}
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python