我有一个类型字符串列表,其中包含表单中的多个项目
[Cid:0001,Jid:439,java,unit testing]
[Cid:0001,Jid:439,java,jsp,xml,javascript,servlet,html]
[Cid:0001,Jid:245,ui development,jquery,javascript,html,ajax]
[Cid:0002,Jid:312,team,goals,territory]
等等
由于有很多项目,我需要根据Cid和Jid对项目进行分组。例如,上面的前两行应该是一个组,因为它具有相同的Cid和Jid。
我需要将每个组一个接一个地传递给一个采用JavaRDD格式作为输入的算法。每个列表都使用spark中的parallelize函数进行并行化。
List<List<String>> mainList = new ArrayList<>();
for (Resume r : resumes) {
List<String> subList = new ArrayList<>();
for (String temp : hashSet) {
if (temp.equalsIgnoreCase(r.getJid() + r.getCid())) {
subList.add(r.toString());
mainList.add(subList);
一只萌萌小番薯
相关分类