如何在Pandas中处理SettingWithCopyWarning?

如何在Pandas中处理SettingWithCopyWarning?

背景

我刚刚将我的Pandas从0.11升级到0.13.0rc1。现在,该应用程序正在弹出许多新的警告。其中一个是这样的:


E:\FinReporter\FM_EXT.py:449: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_index,col_indexer] = value instead

  quote_df['TVol']   = quote_df['TVol']/TVOL_SCALE

我想知道究竟是什么意思?我需要改变什么吗?


如果我坚持使用,我应该如何暂停警告quote_df['TVol']   = quote_df['TVol']/TVOL_SCALE?


给出错误的函数

def _decode_stock_quote(list_of_150_stk_str):

    """decode the webpage and return dataframe"""


    from cStringIO import StringIO


    str_of_all = "".join(list_of_150_stk_str)


    quote_df = pd.read_csv(StringIO(str_of_all), sep=',', names=list('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefg')) #dtype={'A': object, 'B': object, 'C': np.float64}

    quote_df.rename(columns={'A':'STK', 'B':'TOpen', 'C':'TPCLOSE', 'D':'TPrice', 'E':'THigh', 'F':'TLow', 'I':'TVol', 'J':'TAmt', 'e':'TDate', 'f':'TTime'}, inplace=True)

    quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]

    quote_df['TClose'] = quote_df['TPrice']

    quote_df['RT']     = 100 * (quote_df['TPrice']/quote_df['TPCLOSE'] - 1)

    quote_df['TVol']   = quote_df['TVol']/TVOL_SCALE

    quote_df['TAmt']   = quote_df['TAmt']/TAMT_SCALE

更多错误消息

E:\FinReporter\FM_EXT.py:449: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_index,col_indexer] = value instead

  quote_df['TVol']   = quote_df['TVol']/TVOL_SCALE

E:\FinReporter\FM_EXT.py:450: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_index,col_indexer] = value instead

  quote_df['TAmt']   = quote_df['TAmt']/TAMT_SCALE

E:\FinReporter\FM_EXT.py:453: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.

Try using .loc[row_index,col_indexer] = value instead

  quote_df['TDate']  = quote_df.TDate.map(lambda x: x[0:4]+x[5:7]+x[8:10])


幕布斯7119047
浏览 5400回答 7
7回答

慕田峪4524236

SettingWithCopyWarning创建它是为了标记可能令人困惑的“链式”赋值,例如以下内容,它们并不总是按预期工作,特别是当第一个选择返回副本时。[ 有关背景讨论,请参见GH5390和GH5597。]df[df['A'] > 2]['B'] = new_val  # new_val not set in df该警告提供了重写建议,如下所示:df.loc[df['A'] > 2, 'B'] = new_val但是,这不适合您的使用,相当于:df = df[df['A'] > 2]df['B'] = new_val虽然很明显你不关心写回到原始帧(因为你覆盖了对它的引用),但遗憾的是这种模式不能与第一个链式赋值示例区分开来,因此(误报)警告。如果您想进一步阅读,可以在索引文档中解决误报的可能性。您可以使用以下分配安全地禁用此新警告。pd.options.mode.chained_assignment = None  # default='warn'

米琪卡哇伊

熊猫数据帧复制警告当你去做这样的事情时:quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]pandas.ix 在这种情况下,返回一个新的,独立的数据帧。您决定在此数据框中更改的任何值都不会更改原始数据框。这是大熊猫试图警告你的事情。为什么.ix是个坏主意该.ix对象试图做不止一件事,对于任何读过干净代码的人来说,这是一种强烈的气味。鉴于此数据框:df = pd.DataFrame({"a": [1,2,3,4], "b": [1,1,2,2]})两种行为:dfcopy = df.ix[:,["a"]]dfcopy.a.ix[0] = 2行为一:dfcopy现在是一个独立的数据框架。改变它不会改变dfdf.ix[0, "a"] = 3行为二:这会更改原始数据帧。请.loc改用大熊猫开发人员认识到该.ix对象非常[推测性],因此创建了两个新对象,这有助于数据的加入和分配。(另一个.iloc).loc 更快,因为它不会尝试创建数据的副本。.loc 用于修改现有的数据帧,这样可以提高内存效率。.loc 是可预测的,它有一种行为。解决方案您在代码示例中所做的是加载包含大量列的大文件,然后将其修改为更小。该pd.read_csv功能可以帮助您解决很多问题,并且可以更快地加载文件。所以不要这样做quote_df = pd.read_csv(StringIO(str_of_all), sep=',', names=list('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefg')) #dtype={'A': object, 'B': object, 'C': np.float64}quote_df.rename(columns={'A':'STK', 'B':'TOpen', 'C':'TPCLOSE', 'D':'TPrice', 'E':'THigh', 'F':'TLow', 'I':'TVol', 'J':'TAmt', 'e':'TDate', 'f':'TTime'}, inplace=True)quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]做这个columns = ['STK', 'TPrice', 'TPCLOSE', 'TOpen', 'THigh', 'TLow', 'TVol', 'TAmt', 'TDate', 'TTime']df = pd.read_csv(StringIO(str_of_all), sep=',', usecols=[0,3,2,1,4,5,8,9,30,31])df.columns = columns这只会读取您感兴趣的列,并正确命名。不需要使用邪恶的.ix物体做神奇的东西。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python