清理因子水平（折叠多个级别/标签）

## Given: x <- c("Y", "Y", "Yes", "N", "No", "H") # The 'H' should be treated as NA## expectedOutput[1] Yes Yes Yes No No <NA>Levels: Yes No # <~~ NOTICE ONLY **TWO** LEVELS

## Duplicate levels ==> "Warning: deprecated"x.f <- factor(x, levels=c("Y", "Yes", "No", "N"), labels=c("Yes", "Yes", "No", "No"))## the above line can be wrapped in either of the next two linesfactor(x.f) droplevels(x.f)

factor(x, levels=list(c("Yes", "Y"), c("No", "N")), labels=c("Yes", "No")) factor(x, levels=c("Yes", "No"), labels=list(c("Yes", "Y"), c("No", "N"))) factor(x, levels=c("Y", "Yes", "No", "N"), labels=c(Y="Yes", Yes="Yes", No="No", N="No")) factor(x, levels=c("Y", "Yes", "No", "N"), labels=c(Yes="Y", Yes="Yes", No="No", No="N")) factor(x, levels=c("Yes", "No"), labels=c(Y="Yes", Yes="Yes", No="No", N="No"))

由于问题的标题是清理因子水平（折叠多个级别/标签），forcats为了完整起见，此处也应该提到包。forcats于2016年8月在CRAN上亮相。有几种便利功能可用于清理因子水平：x <- c("Y", "Y", "Yes", "N", "No", "H") library(forcats)将要素级别折叠为手动定义的组fct_collapse(x, Yes = c("Y", "Yes"), No = c("N", "No"), NULL = "H")#[1] Yes  Yes  Yes  No   No   <NA>#Levels: No Yes手动改变因子水平fct_recode(x, Yes = "Y", Yes = "Yes", No = "N", No = "No", NULL = "H")#[1] Yes  Yes  Yes  No   No   <NA>#Levels: No Yes自动重新标记因子水平，必要时崩溃fun <- function(z) {   z[z == "Y"] <- "Yes"   z[z == "N"] <- "No"   z[!(z %in% c("Yes", "No"))] <- NA   z}fct_relabel(factor(x), fun)#[1] Yes  Yes  Yes  No   No   <NA>#Levels: No Yes请注意，它fct_relabel()适用于因子级别，因此它需要一个因子作为第一个参数。另外两个函数，fct_collapse()也fct_recode()接受一个字符向量，它是一个未记录的特征。首次出现重新排序因子水平OP给出的预期输出是[1] Yes  Yes  Yes  No   No   <NA>Levels: Yes No这里的级别按其出现的顺序排序x，与默认级别不同（?factor：默认情况下，因子的级别已排序）。为了与预期输出一致，可以通过fct_inorder() 在折叠级别之前使用来实现：fct_collapse(fct_inorder(x), Yes = c("Y", "Yes"), No = c("N", "No"), NULL = "H")fct_recode(fct_inorder(x), Yes = "Y", Yes = "Yes", No = "N", No = "No", NULL = "H")现在，两者都以相同的顺序返回预期输出。

清理因子水平（折叠多个级别/标签）

3回答