解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示4

这个时候假设说你是1024的这个vector,什么叫1024的vector?就是你这个位置。例如说第一个位置你是1024的vector,那你怎么变成10万呢?那这个时候显然就是通过线性转换,我相信这个大家是没有问题的。
就你一个1024的这个vector变成一个10万的一个vector,这个肯定10万维度的一个vector,这个显然是个线性转换的过程。当然他这边为了算出这概率本身的分布,因为线性转换之后这边是变成数字。但是他要变成这种所谓的概率的分布,例如20.87%的话,这个时候需要采用一定算法,例如说softmax等等之类的,然后通过soft max就会获得具体的概率。
我们在这个地方看见的66.11%,6.26% 这个是我们从他整个流程的角度讲,包含了更多的模块。我们可以更清晰的看见他本身是怎么工作的。然后我们现在更具体化一点,就像一张图片,我们现在要用更高的像素的粒度来去看一下。

大家可以看在这个地方,我们输入的内容这边就进入embedding。我这边会点击一下继续。好,大家可以看见这边我们谈这个embedding的时候,首先它会有输入的内容会变得token,然后这边有token embedding。

我们继续。好,大家看啊, 这个是position embedding的部分。然后他们会进行相加,大家可以看见这边有加法操作
这边是通过动画的方式去,它过程是一样的。 通过动画的方式 animation的方式来描述它整个过程。我们有了这个embedding,现在也有一个layer Normalization。这个layer Normalization,其实大家就是个正则化的一个过程。只不过是说基于整个layer进行正则化的一个过程,而不是基于batch的方式。我们可以看一下它的动画的过程, 大家可以看他这个怎么 layer的Normalization的过程。现在大家只是根据这种动画有一个动态的一个感受 ,我们后面还会从这个源码实现的角度来更细力度的分享它

好啊,下面是个关键点,就是我们所说的这个self attention自注意力机制,这是整个大模型它本身很有效的一个基本上是一个核心性的驱动的因素。当然MOE还有就是decoding algorithm,这是另外两个非常重要的维度,就是attention MOE以及decoding algorithm。他们三个是我们现在想改变大模型本身的行为,或者控制大模型本身的行为,非常重要的三个思考维度。我们来看一下他的整个动画的过程。

在探索大模型智能体的过程中,如需进一步交流或获取更多信息,可通过以下方式加群联系:
微信交流:NLP_Matrix_Space 或 NLP_ChatGPT_LLM
电话沟通:+1 650-603-1290
邮件咨询:hiheartfirst@gmail.com
期待与您共同探讨大模型智能体领域的知识,分享见解,共同成长。
本文由博客一文多发平台 OpenWrite 发布!
随时随地看视频