我正在尝试对 Twitter 帐户进行一些分析,但在尝试显示来自 Android 的资源时遇到了麻烦。我所做的是合并了两个 json 文件,我认为我正确地合并了它,但是如果我弄错了,这里是我使用的代码。
old_tweets = load_tweets("real_tweets/real_old_tweets.json")
print(len(old_tweets))
for aLis1 in old_tweets:
if aLis1 not in tweets:
tweets.append(aLis1)
load_tweets 是一个自定义函数,它简单地打开并加载给定特定路径的 json 文件
with open(path, "rb") as f:
import json
return json.load(f)
合并推文的两个 json 文件后,我调用这个函数来创建数据框并清理它以只显示我想要的信息。
df_tweets1 = pd.DataFrame(tweets)
df_tweets2 = df_tweets1[['id','created_at','source','full_text','retweet_count']]
df_tweets = df_tweets2.drop_duplicates('id', keep=False
df_tweets.set_index('id', inplace=True)
df_tweets = df_tweets.rename(columns={"created_at": "time", "full_text": "text"})
df_tweets["time"] = pd.to_datetime(df_tweets["time"])
问题是,当我调用df_tweets["source"].unique() 时,我没有看到任何来自 android 的推文
array(['<a href="http://twitter.com/download/iphone" rel="nofollow">Twitter for iPhone</a>',
'<a href="http://twitter.com/#!/download/ipad" rel="nofollow">Twitter for iPad</a>',
'<a href="https://studio.twitter.com" rel="nofollow">Twitter Media Studio</a>',
'<a href="https://studio.twitter.com" rel="nofollow">Media Studio</a>',
'<a href="http://twitter.com" rel="nofollow">Twitter Web Client</a>'],
dtype=object)
合并两组 Twitter 数据时我做错了什么吗?或者我在尝试创建数据框时做错了什么?
编辑**这里是 real_old_tweets.json 的示例输出,以了解格式。我只会发布一条,因为一条推文中包含了很多信息。
沧海一幻觉
相关分类