如何使用 spark-ml 和不 处理分类数据spark-mllib?
如果文档不是很清楚,似乎分类器(例如RandomForestClassifier)LogisticRegression具有一个featuresCol参数,该参数指定中的要素列的名称DataFrame,一个labelCol参数,其指定中的标记类的列的名称DataFrame。
显然,我要在预测中使用多个特征,因此我尝试使用VectorAssembler将所有特征放在下的单个向量中featuresCol。
但是,VectorAssembler仅接受数字类型,布尔类型和向量类型(根据Spark网站),因此我无法将字符串放入特征向量中。
我应该如何进行?
守候你守候我