将文本处理步骤应用于熊猫数据框

首页课程实战体系课手记专栏慕课教程

将文本处理步骤应用于熊猫数据框

我有文本字符串，我正在使用以下字符串函数来清理它。现在我想缩放它并将其应用于数据帧。我面临的挑战是它不适用于数据框。我尝试申请 numpy 数组，但结果是空字符串。

数据框是单列，具有与给定的行变量相似的字符串：

0 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US...

1 Mozilla/5.0 (Windows NT 5.1; rv:2.0.1) Gecko/2...

2 Mozilla/5.0 (iPod; U; CPU iPhone OS 4_1 like M...

3 Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/201...

4 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT ...

line = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; handyCafeCln/3.3.21)"

re_print = re.compile('[^%s]' % re.escape(string.printable))

remove_digits = str.maketrans('', '', digits)

remove_punc =str.maketrans('', '', string.punctuation)

line = line.translate(remove_digits)

line = line.translate(remove_punc)

line = line.split()

结果：

['Mozilla'、'兼容'、'MSIE'、'Windows'、'NT'、'NET'、'CLR'、'handyCafeCln']

我尝试在函数中打包相同的步骤，但无法将其应用于 datframe 并出现以下错误 Series' object has no attribute 'translate

def clean_pairs(lines):

re_print = re.compile('[^%s]' % re.escape(string.printable))

remove_digits = str.maketrans('', '', digits)

remove_punc =str.maketrans('', '', string.punctuation)

lines.translate(remove_digits)

lines.translate(remove_punc)

lines.split()

df.apply(clean_pairs)

慕斯709654

浏览 198回答 1

1回答

POPMUISE

def clean_pairs(lines):    re_print = re.compile('[^%s]' % re.escape(string.printable))    remove_digits = str.maketrans('', '', string.digits)    remove_punc =str.maketrans('', '', string.punctuation)    lines = lines.translate(remove_digits)    lines = lines.translate(remove_punc)    lines = lines.split()    return linesdf = pd.DataFrame([line])print(df[0].apply(clean_pairs))

0 0

随时随地看视频慕课网APP