神经网络的 DNA 数据输入,一种热编码

遇到了一个问题,这对我来说是一项具有挑战性的任务。有一个巨大的 DNA 数据集,具有 A、G、T、C 结构,4 个完全不同的类别作为输入。看起来像:


1 2 3 4 5 6 7 8 9 … 1.000+

A A G G G G G G G

G G C C C C C C C

T T C C C C C C C

G G A A A A A A A

T T C C C C C C C

C C T T T T T T T

T T C C C C C C C

30.000+

想咨询有关数据处理的建议。它应该表示为具有如此巨大维度的数字或一种热编码吗?[0,0,0,1] 作为 A,[0,0,1,0] 作为 G 等等,或者只是 0, 1, 2, 3?谈论 NN - 想从简单的开始到现代和深入。典型的数值表示很容易由 pandas 和 sklearn 库用几行代码完成,但将其转换为单热编码,对于如此庞大的数据集,看起来是一项有趣的任务。通过使用 pd.get_dummies 从 (1019, 27041) 形状我们得到 (1019, 54082),无法理解为什么当我们有 4 个不同的字母时形状只增加了 2 倍。谢谢!


犯罪嫌疑人X
浏览 160回答 1
1回答

翻阅古今

增加 2 倍而不是增加 4 倍是因为每个系列中只有 2 个类别。(在您的示例中,第一行中的 A 和 G,第二行中的 G 和 C,第三行中的 T 和 C,依此类推)下面的示例将更好地理解附加列的数量In [38]: df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], 'C': [1, 2, 3]})                                                                       In [39]: df                                                                                                                                                    Out[39]:    A  B  C0  a  b  11  b  a  22  a  c  3In [40]: pd.get_dummies(df)                                                                                                                                    Out[40]:    C  A_a  A_b  B_a  B_b  B_c0  1    1    0    0    1    01  2    0    1    1    0    02  3    1    0    0    0    1
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

JavaScript