'ageage'我有像or'feetfeetfeet'或这样的字符串'cmcmcmcmcm',我想分别将它们减少为'age', 'feet', 和'cm'。
这是规范化的中间步骤,用于匹配最初也包含数字的某些类别的数据字段的不同数据源。数字部分已被删除到一个单独的字符串中。所有的 unicode 字母都被音译为小写 ASCII 字母:
public static function transliterate(string $value)
{
$transliterator = Transliterator::createFromRules(
':: Any-Latin; :: Latin-ASCII; :: NFD; :: [:Nonspacing Mark:] Remove; :: Lower(); :: NFC;',
Transliterator::FORWARD
);
return $transliterator->transliterate($value);
}
另请注意,复数并不重要,因为虽然我提供的示例是英文的,但该项目主要规范化土耳其语字符串,其中此类单词始终是单数。
我希望这可以用正则表达式来完成。虽然我不完全确定如何
小怪兽爱吃肉
大话西游666
MMMHUHU
摇曳的蔷薇