如何更改我的正则表达式以匹配/替换第二个、第三个……单词,但不匹配第一个单词?

该任务必须使用正则表达式来解决,而不使用容器类。


输入:文本(可能由拉丁字母和西里尔字母组成,不包含_)


输出:源文本,但在所有重复单词之前添加下划线_


将单词视为仅包含字母的序列(所有其他字符不包含在单词中)。创建一个将输入转换为输出的静态转换方法。


完成方法:


public static String convert (String input) {

    ...

}

输入示例:


This is a test

And this is also a test

And these are also tests

test

Это тест

Это также тест

И это также тесты

输出示例:


This _is _a _test

_And this _is _also _a _test

_And these are _also tests

_test

_Это _тест

_Это _также _тест

И это _также тесты

我的尝试:


public static void convert(String input) {

        Pattern p = Pattern.compile("(\\b\\w+\\b)(?=[\\s\\S]*\\b\\1\\b[\\s\\S]*\\b\\1\\b)", Pattern.UNICODE_CHARACTER_CLASS);

        String res = p.matcher(input+" "+input).replaceAll("_$1");

        res = res.substring(0, res.length() - 1 - p.matcher(input).replaceAll("_$1").length());

        System.out.println(res);

    }

我的输出:在此处输入图像描述

This _is _a _test

_And this _is _also _a test

_And these are _also tests

_test

_Это _тест

_Это _также _тест

И это _также тесты

第二行中的单词“test”没有“_”,但我需要“_test”


慕村225694
浏览 90回答 1
1回答

呼如林

您可以收集所有重复的单词,然后在它们前面加上_:// Java 9+String s = "This is a test\nAnd this is also a test\nAnd these are also tests\ntest\nЭто тест\nЭто также тест\nИ это также тесты";String rx = "(?sU)\\b(\\w+)\\b(?=.*\\b\\1\\b)";String[] results = Pattern.compile(rx).matcher(s).results().map(MatchResult::group).toArray(String[]::new);System.out.println(s.replaceAll("(?U)\\b(?:" + String.join("|", results) + ")\\b", "_$0"));// Java 8String s = "This is a test\nAnd this is also a test\nAnd these are also tests\ntest\nЭто тест\nЭто также тест\nИ это также тесты";String rx = "(?sU)\\b(\\w+)\\b(?=.*\\b\\1\\b)";List<String> matches = new ArrayList<>();Matcher m = Pattern.compile(rx).matcher(s);while (m.find()) {&nbsp; &nbsp; matches.add(m.group());}System.out.println(s.replaceAll("(?U)\\b(?:" + String.join("|", matches) + ")\\b", "_$0"));请参阅在线 Java 演示和第二个片段演示。输出:This _is _a _test_And this _is _also a _testAnd these are _also teststest_Это _тест_Это _также тестИ это _также тесты注意,我用与 DOTALL 嵌入标志选项组合替换了[\s\S]解决方法构造(这样也可以匹配换行符),使用 Java 9+方法返回所有匹配项,并根据与OR 交替运算符连接的找到的匹配项构建最终模式。.s..results()|细节(?sU)\b(\w+)\b(?=.*\b\1\b):(?sU)- 嵌入的 DOTALL (.也使匹配换行符)和 UNICODE_CHARACTER_CLASS (使所有速记 Unicode 感知)标志选项\b- 字边界(\w+)- 第 1 组:1+ 个单词、字符、字母、数字或_s\b- 字边界(?=.*\b\1\b)- 紧邻右侧,必须有 0+ 个字符,尽可能多,后面跟有与第 1 组中相同的值作为整个单词。(?U)\\b(?:" + String.join("|", results) + ")\\b":这个图案看起来像(?U)\b(?:test|is|Это|тест|также)\b(?U)- 嵌入的 UNICODE_CHARACTER_CLASS 标志选项\b- 字边界(?:test|is|Это|тест|также)- 非捕获交替组\b- 字边界替换是_$0第二个正则表达式,因为_附加到整个匹配值$0。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java