从多索引数据框中提取数据子集并计算列的差异

我认为这是由于堆栈垂直变形时索引中未命名的列引起的。工艺流程：展平多索引的列名。使用 wide_to_long 函数从水平转换为垂直将日期序列转换为“日期时间”格式以进行条件提取。import pandas as pdimport numpy as npimport ioimport datetimedata = '''Date open r close open r close open r close  2000-07-03 19.7 5 17.1 66.26 4 6.22 23.26 1 9.92000-07-05 49.8 2 8.3 78.81 6 4.34 39.81 5 5.12000-07-15 89.5 3 4.1 43.45 7 2.45 29.3 8 1.22000-08-13 74.7 6 7.4 34.26 8 6.4 72.26 9 5.42000-08-25 39.84 1 8.4 95.43 3 4.3 69.81 0 5.22000-08-28 61.8 4 4.2 43.81 1 2.2 129.81 6 1.32000-09-11 82.79 7 7.4 66.26 1 6.5 72.25 6 5.62000-09-16 64.8 8 8.7 73.45 5 4.7 69.45 4 5.42000-09-22 58.5 9 3.3 13.81 8 2.9 777.8 8 1.4'''data = pd.read_csv(io.StringIO(data), sep='\s+')idx = pd.MultiIndex.from_arrays([['','A','A','A','B','B','B','C','C','C'], ['Date','open','r','close','open','r','close','open','r','close']])data.columns = idxnew_cols = [k[1]+'_'+k[0] for k in data.columns[1:]]new_cols.insert(0, 'Date')data.columns = new_colsdata = pd.wide_to_long(data,['open','r','close'], i='Date', j='item', sep='_', suffix='\\w+')data.reset_index(inplace=True)data['Date'] = pd.to_datetime(data['Date'])start_date = datetime.datetime(2000,7,1)end_date = datetime.datetime(2000,8,1)mask = (data.Date > start_date) & (data.Date <= end_date)data = data.loc[mask]data    Date    item    open    r   close0   2000-07-03  A   19.70   5   17.101   2000-07-05  A   49.80   2   8.302   2000-07-15  A   89.50   3   4.109   2000-07-03  B   66.26   4   6.2210  2000-07-05  B   78.81   6   4.3411  2000-07-15  B   43.45   7   2.4518  2000-07-03  C   23.26   1   9.9019  2000-07-05  C   39.81   5   5.1020  2000-07-15  C   29.30   8   1.20data['Val_Diff'] = data['open'] - data['close']print(data['Val_Diff'].max()) 85.4

从多索引数据框中提取数据子集并计算列的差异

1回答