我对熊猫很陌生(只有几天的时间),尽管我仍在学习和探索使用熊猫。我有一个大尺寸的csv文件,由十万行组成。我的目标是基于多列将多行连接成一行。最重要的是,通过引用日期/时间以及以后需要包括在内的日期/时间。下面说明了我的csv文件。
Body UDH Original Sender ID Received Date/Time
Hi John, Can You ABC0010101 GGQMS 01/02/2001 01:03:19
Wait A moment? ABC0010102 GGQMS 01/02/2001 01:03:20
Whats is 050004000111 112233445566 01/03/2001 11:16:01
Carrine Doing 050004000112 112233445566 01/03/2001 11:16:01
Over There? 050004000113 112233445566 01/03/2001 11:16:02
Where is CD10F1011 zwerty 01/03/2001 15:22:10
Your Homework? CD10F1012 zwerty 01/03/2001 15:22:11
Order for Pizza AACCDD55001 112233445566 01/04/2001 19:20:21
Now for cheap $. AACCDD55002 112233445566 01/04/2001 19:20:22
John, you know G0500781 GGQMS 01/04/2001 10:21:21
Where can I get it? G0500782 GGQMS 01/04/2001 10:21:21
正如你在上面看到的是我的csv文件。这里的UDH充当主键,根据字符数(从前到倒数第二)是我们可以识别身体所属的地方。另一部分是接收日期/时间,其中身体的第二部分延迟1秒或超过1秒。
我已经设法将身体连接起来,但是,某些身体由第三部分组成,我没有设法完全连接身体。
以下是我当前的代码:
def problem3():
filep2 = pd.read_csv(r'/Users/John/Downloads/Practice1/my_r.csv')
#data cleaning
filep2['Received Date/Time']= filep2['Received Date/Time'].astype('datetime64[ns]')
filep2['UDH']=filep2['UDH'].astype(object)
filep2['Original Sender ID']=filep2['Original Sender ID'].astype(object)
filep2['Account User Name']=filep2['Account User Name'].astype(object)
filep2['Body']=filep2['Body'].astype(str)
filep2['UDH']=filep2['UDH'].str.strip()
df = pd.DataFrame(filep2)
上面的代码给出了本主题/票证的主题所述的错误。错误消息如下;
森林海
相关分类