从数据框中提取文本特征并将其与其他类型的特征(异构数据)一起用于 sklearn 目的:

我试图从类似于此的数据框中提取一些特征:


feature1:float feature2:float feature3:string succeeded:boolean

我远不是该主题的专家,但我尝试了以下操作:


from sklearn.feature_extraction.text import CountVectorizer

import scipy as sp


vectorizer = CountVectorizer()

vectorizer.fit(small_df.feature3)

X = sp.sparse.hstack( (vectorizer.transform(small_df.feature3),

                 small_df[['feature1', 'feature2']),

                 format='csr')


X_columns = vectorizer.get_feature_names() + df[cols].columns.tolist()

但是,我最终遇到以下错误: TypeError: no supported conversion for types: (dtype('int64'), dtype('O'))


任何帮助,将不胜感激!


慕斯王
浏览 106回答 1
1回答

撒科打诨

解决方案:X = sp.sparse.hstack( (vectorizer.transform(small_df.name),                  small_df[cols].values.astype(np.float)))
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python