我想用python来 频繁项目挖掘(一种大数据挖掘算法)来数据挖掘一个文件中的数据。数据量很大,用网上查到的代码编写好了以后,运行结果为“ array = np.zeros((len(X), len(self.columns_)), dtype=bool) MemoryError”我不知道该怎么解决这个问题。代码是正确的,因为如果将数据量减小就可以运行出来了,但是数据量变成原来那样就显示内存错误
我的代码很简单:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules
student_list = []
file_handler =open('D:\lab\lab1\kosarak.dat',mode='r')
contents = file_handler.readlines()
for name in contents:
name = name.strip('\n')
list_1 = name.split(' ')
student_list.append(list_1)
te = TransactionEncoder()
te_ary = te.fit(student_list).transform(student_list)
df = pd.DataFrame(te_ary, columns=te.columns_)
frequent_itemsets = apriori(df, min_support=0.1, use_colnames=True)
print (frequent_itemsets)
慕仙8527320
慕斯4360584
慕慕5436299
慕慕5436299
慕慕5436299