我正在使用 tf.data 从大型文本语料库中迭代批处理。
我只想将函数应用于数据子集(或批处理子集),而不是一个一个元素。具体来说,我的数据迭代器产生 query, reply
批处理。它们都是正对,所以我只想洗牌下一批的子集(在这种情况下,只有“回复”批次)以生成随机负数。
例如,输入:
query1 reply1
query2 reply2
query3 reply3
...
输出:
正对:(query1 reply1
与输入相同)
负对:(query1 replyN
回复随机洗牌)
当然,可以使用 python 对文本进行混洗,但我想使用 tf.data 使其高效,因为数据大小太大。
千万里不及你
相关分类