DataFrame中的字符串,但dtype是对象

DataFrame中的字符串,但dtype是对象

为什么Pandas告诉我我有对象,尽管所选列中的每个项都是一个字符串 - 即使在显式转换之后也是如此。


这是我的DataFrame:


<class 'pandas.core.frame.DataFrame'>

Int64Index: 56992 entries, 0 to 56991

Data columns (total 7 columns):

id            56992  non-null values

attr1         56992  non-null values

attr2         56992  non-null values

attr3         56992  non-null values

attr4         56992  non-null values

attr5         56992  non-null values

attr6         56992  non-null values

dtypes: int64(2), object(5)

其中五个是dtype object。我明确地将这些对象转换为字符串:


for c in df.columns:

    if df[c].dtype == object:

        print "convert ", df[c].name, " to string"

        df[c] = df[c].astype(str)

然后,df["attr2"]仍然有dtype object,虽然type(df["attr2"].ix[0]揭示str,这是正确的。


熊猫区分int64和float64和object。什么是没有的背后的逻辑是什么dtype str?为什么被str覆盖object?



收到一只叮咚
浏览 3505回答 2
2回答

qq_花开花谢_0

dtype对象来自NumPy,它描述了ndarray中元素的类型。ndarray中的每个元素必须具有相同的字节大小。对于int64和float64,它们是8个字节。但对于字符串,字符串的长度不固定。因此,Pandas不是直接在ndarray中保存字符串的字节,而是使用对象ndarray,它保存指向对象的指针,因此这种类型的ddarray是对象。这是一个例子:int64数组包含4个int64值。对象数组包含4个指向3个字符串对象的指针。

慕莱坞森

Pandas使用对象dtype存储字符串。“不要担心它;它应该是这样的。” (虽然接受的答案很好地解释了“为什么”;字符串是可变长度的)但对于字符串,字符串的长度不固定。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python