根据 pandas 中的条件由公司创建一个虚拟对象

3回答

墨色风雨

您可以只移动，检查阈值并与原始系列的检查结合起来：df.groupby('firm')['var'].shift().le(.5) & df['var'].le(.5)这应该比稍快一些groupby().apply。另一种方法（在您需要检查几年的情况下更好）是rolling：df['dummy'] = df.groupby('firm')['var'].transform(lambda x: x.rolling(2).max().le(.5))输出：0     False1     False2     False3     False4     False5     False6     False7     False8      True9     False10     True11     True12    False13    False14    False15    False16     True17     TrueName: var, dtype: bool

慕田峪7331174

您的需求几乎可以直接转换为 pandas。首先groupby坚定，然后检查您的条件是否满足apply。你可以得到下一年shiftimport pandas as pddata = {"firm": [1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4], "year" : [2000, 2001, 2002, 2003, 1990, 1991, 1992, 1993, 1994, 2010, 2011, 2012, 2005, 2006, 2007, 2008, 2009, 2010], "var" : [3, 2, 1, 0.5, 5, 3, 2, 0.5, 0.5, 0.5, 0, 0, 8, 5, 3, 0.5, 0.5, 0.5]} df = pd.DataFrame(data)# Solutiondf['dummy'] = df.groupby('firm')['var'].apply(lambda x: (x.shift() <= .5) & (x <= .5)).view('i1')print(df)出去：    firm  year  var  dummy0      1  2000  3.0      01      1  2001  2.0      02      1  2002  1.0      03      1  2003  0.5      04      2  1990  5.0      05      2  1991  3.0      06      2  1992  2.0      07      2  1993  0.5      08      2  1994  0.5      19      3  2010  0.5      010     3  2011  0.0      111     3  2012  0.0      112     4  2005  8.0      013     4  2006  5.0      014     4  2007  3.0      015     4  2008  0.5      016     4  2009  0.5      117     4  2010  0.5      1

炎炎设计

让我们尝试groupby一下shiftdf.groupby('firm')['var'].apply(lambda x : x.shift().le(0.5) & x.le(0.5))0     False1     False2     False3     False4     False5     False6     False7     False8      True9     False10     True11     True12    False13    False14    False15    False16     True17     TrueName: var, dtype: bool