如果这非常简单或已经被问到,我是 Python 新手并且使用 json 文件,所以我很困惑。
我有一个从网站上抓取的 9 GB json 文件。这些数据包含大约 300 万人的信息。每个人都有属性,但并不是所有的人都具有相同的属性。一个属性对应于 json 文件中的一个键,如下所示:
{
"_id": "in-00000001",
"name": {
"family_name": "Trump",
"given_name": "Donald"
},
"locality": "United States",
"skills": [
"Twitter",
"Real Estate",
"Golf"
],
"industry": "Government",
"experience": [
{
"org": "Republican",
"end": "Present",
"start": "January 2017",
"title": "President of the United States"
},
{
"org": "The Apprentice",
"end": "2015",
"start": "2003",
"title": "The guy that fires people"
}]
}
所以在这里,、 、 、_id和name是locality属性(键)。另一个配置文件可能具有其他属性,例如、、,或者缺少在另一个配置文件中找到的某些属性,例如属性等。skillsindustryexperienceeducationawardsinterestsskills
我想做的是扫描 json 文件中的每个配置文件,如果配置文件包含属性和skills,我想提取该信息并将其插入数据框中(我想我需要 Pandas ?)。从中,我想具体提取他们当前雇主的姓名,即最近在. 数据框如下所示:industryexperienceexperienceorg
Industry | Current employer | Skills
___________________________________________________________________
Government | Republican | Twitter, Real Estate, Golf
Marketing | Marketers R Us | Branding, Social Media, Advertising
...对于具有这三个属性的所有配置文件,依此类推。
我正在努力寻找一个很好的资源来解释如何做这种事情,因此我的问题是。
我想粗略的伪代码是:
for each profile in open(path to .json file):
if profile has keys "experience", "industry" AND "skills":
on the same row of the data frame:
insert current employer into "current employer" column of
data frame
insert industry into "industry" column of data frame
insert list of skills into "skills" column of data frame
我只需要知道如何用 Python 编写它。
炎炎设计
相关分类