同学你好~df是前期定义的,读取train中的数据
是这样
图片看不清哦
输入一下,也不行吗
代码页面右键-Run File in Python Fonsole
是要求的字符不对,
开了,什么都开了
看其他的老师也可以的呀
https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386820023084e5263fe54fde4e4e8616597058cc4ba1000
已解决,发现是自己其中一个类型错了,笑哭,大家请忽略
正确的应该是print('the {} columns:{}'.format(i,name)) 把format放置到括号里面
需要自己去导入库。你可以通过点击pycharm的setting中的project interpreter导入scipy库
本来就是用pandas读的文件,其格式是pandas模块自己定义的,擅自用list切片的方式访问当然容易出错,因为你不知道pandas包提不提供这种访问方式(很遗憾没有),就用自身提供的借口iloc就好啦;
如果只是应用Python而不是底层开发人员的话没必要纠结这么多
在包名上点击右键-->market director as-->source root即可
先检查电脑上装scipy包没有
用win+R打开运行,输入cmd,在里面输pip3 install scipy
安装好了再来试试
https://github.com/coolcumt/Python-make-data-analytics-tools
你应该调用函数,输入:eda_analysis(missSet=[np.nan], df=df.iloc[:,0:3])
new_array[0,len(x)] = x应该是 new_array[0:len(x)] = x,代表重新给数组赋值?
df = pd.read_csv("D:/pythonproject/train.csv");
填写数据存在的路径,注意使用反斜杠。
你好,
count_un = count_un.to_frame['count']
这里的count_un已经是pandas.series的类型了,没有必要再转成Frame的形式了。
我猜您是不是想为了后面的数据整合呢?是的话,其实可以直接合并pandas.series。
就以您的代码为例,可以这么写:
代码:
pd.concat([df_max,df_min],axis=1).T
结果:
var3 var15 imp_ent_var16_ult1 imp_op_var39_comer_ult1 \ 0 238.0 105.0 210000.0 12888.03 1 0.0 5.0 0.0 0.00
不知道有没有回答您的问题呢?
这就是一个导入依赖包的动作,这些依赖包用于后面做计算时所调用的一些方法。
这也太粗,那也太粗,不听你就直接退出,不要评论。这是免费的,想怎么讲是老师的自由。?
input_list = map(int, raw_input().split())
df不是包。这个老师讲的这节课,前面有一句,是将目标csv格式的文件,转换成pandas使用的文件格式。
所以df是pandas能够读取和操作的文件(变量)。
在流程上不会出现5个以上的情况,因为这个函数是在做了value_counts(),取前五个值后才会调用的。
留意:
value_counts().iloc[0:5,]
流程:
for i,name in enumerate(df[['ind_var1_0','imp_sal_var16_ult1']].columns): ##1.Index Name index_name = df[name][~np.isin(df[name],missSet)].value_counts().iloc[0:5,].index.values ##1.1 If the length of array is less than 5 index_name = fill_fre_top_5(index_name) json_fre_name[name] = index_name