继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

llama 3.1 — 技术规格和代码解析

BIG阳
关注TA
已关注
手记 471
粉丝 72
获赞 458

Llama 3.1 是 Meta 目前最先进的语言模型。它采用了最先进的自然语言处理技术,在各种任务中表现出无与伦比的性能。该模型旨在处理从文本生成到复杂问答的广泛应用场景。

  • 模型功能:能够理解和生成与人类相似的高度连贯和相关性文本。
  • 集成能力:与翻译、摘要生成和情感分析任务等各种自然语言处理任务无缝集成。
  • 性能:在基准测试和实际应用场景中表现出色。

本文将分析Llama 3.1仓库,这样你就能更好地理解和使用它,并做出贡献。

Llama 3.1 代码解析

这里是对模型架构和分词工具进行的详细分析代码:

需求:

     blobfile  
    jinja2  
    json-strong-typing  
    torch  
    tiktoken  
    fairscale  
    pydantic==1.10.13  
    pydantic_core==2.18.2
  • blobfile : 用于高效处理blob存储,提供统一的云存储操作接口。
  • jinja2 : 一个Python模板引擎,用于生成动态内容的工具。
  • json-strong-typing : 确保JSON数据的强类型,增强JSON数据的完整性和验证。
  • torch : PyTorch库,用于构建和训练深度学习模型的库。
  • tiktoken : 一个文本分词器,用于处理文本输入和输出。
  • fairscale : 提供模型并行化和高效训练工具的库。
  • pydantic : 用于数据验证和设置管理,确保模型配置的稳健处理和验证。
Llama 3.1 API 的重要概念简介

RMSNorm

RMSNorm类实现了均方根层归一化,以稳定训练并加速收敛。它通过计算输入张量的均方根来进行归一化,确保输出的一致性缩放。

llama-models/models/llama3_1/api/model.py at main · meta-llama/llama-models专为Llama模型设计的工具。为meta-llama/llama-models贡献……github.com

注意力机制

Attention 类定义了注意力机制,用于处理输入序列中不同部分之间的依赖关系。它初始化了查询、键、值和输出转换所需的层。前向方法通过旋转嵌入和缓存机制计算注意力分数和输出,这使得模型能够高效地处理序列依赖关系和较长的上下文长度。

    # 该代码来自: https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/api/model.py
    class Attention(nn.Module):  
        def __init__(self, args: 模型参数):  
            super().__init__()  
            self.n_kv_heads = args.n_heads if args.n_kv_heads is None else args.n_kv_heads  
            model_parallel_size = fs_init.get_model_parallel_world_size() # 模型并行大小
            self.n_local_heads = args.n_heads // model_parallel_size  
            self.n_local_kv_heads = self.n_kv_heads // model_parallel_size  
            self.n_rep = self.n_local_heads // self.n_local_kv_heads  
            self.head_dim = args.dim // args.n_heads  

            self.wq = ColumnParallelLinear(  
                args.dim,  
                args.n_heads * self.head_dim,  
                bias=False,  
                gather_output=False,  
                init_method=lambda x: x,  
            ) # wq 线性层定义
            self.wk = ColumnParallelLinear(  
                args.dim,  
                self.n_kv_heads * self.head_dim,  
                bias=False,  
                gather_output=False,  
                init_method=lambda x: x,  
            ) # wk 线性层定义
            self.wv = ColumnParallelLinear(  
                args.dim,  
                self.n_kv_heads * self.head_dim,  
                bias=False,  
                gather_output=False,  
                init_method=lambda x: x,  
            ) # wv 线性层定义
            self.wo = RowParallelLinear(  
                args.n_heads * self.head_dim,  
                args.dim,  
                bias=False,  
                input_is_parallel=True,  
                init_method=lambda x: x,  
            ) # wo 线性层定义

            self.cache_k = torch.zeros(  
                (  
                    args.max_batch_size,  
                    args.max_seq_len,  
                    self.n_local_kv_heads,  
                    self.head_dim,  
                )  
            ).cuda() # 缓存键向量
            self.cache_v = torch.zeros(  
                (  
                    args.max_batch_size,  
                    args.max_seq_len,  
                    self.n_local_kv_heads,  
                    self.head_dim,  
                )  
            ).cuda() # 缓存值向量

分词工具

Tokenizer类使用Tiktoken分词器来处理文本分词。它通过指定模型路径来初始化,加载特殊令牌,并提供编码和解码文本的功能。encode方法将文本转换为令牌ID,高效地处理特殊令牌和长字符串,。decode方法则反向操作,将令牌ID转换回原始文本,。

llama-models/models/llama3_1/api/test_tokenizer.py at main · meta-llama/llama-models

这是用于Llama模型的工具。您可以通过创建账户来参与meta-llama/llama-models的开发……

聊天格式

ChatFormat 类利用分词器对聊天消息进行编码和解码。它添加头部信息,处理消息内容,并管理工具调用,确保消息格式正确以供模型处理。该类支持多种消息类型和角色,能够稳健地处理对话及工具集成。encode_message 方法结构化消息,而 decode_assistant_message 方法提取并处理工具调用,确保正确解释并生成响应。

llama-models/models/llama3_1/api/chat_format.py at main · meta-llama/llama-models 与 Llama 模型相关的实用工具。参与 meta-llama/llama-models 的开发,点击链接…github.com
Llama 3.1 模型卡

参数及其他指标

llama 3.1 模型有三种规模:80亿、70亿和405亿参数。这些模型旨在优化多语言对话,并在行业标准上超越了众多开源和私有模型的表现。

  • 训练数据:由公开可用的在线数据混合而成。
  • 输入模态:多语言文本。
  • 输出模态:多语言文本和代码。
  • 上下文长度:128k 个标记。
  • 分组查询注意力 (GQA):用于增强推理的可扩展性。
  • 标记计数:在超过 15 万亿个标记上进行了预训练。
  • 知识截止日期:截至2023年12月。
  • 支持的语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
性能表现基准

基础预训练模型:

  • MMLU(五次示例):展示了不同模型大小(8B、70B、405B)的宏平均准确率,最高达到85.2。
  • AGIEval(三到五次示例):展示了平均准确率,其中405B模型达到71.6。
  • CommonSenseQA(七次射击):405B模型的准确率是85.8。
  • 阅读理解(SQuAD 1.0的确切匹配得分):展示了确切匹配得分,其中405B模型达到89.3。

指令微调的模型

  • MMLU(5次):8B、70B 和 405B 模型的宏平均准确度,其中405B 模型的准确度最高,为 87.3。
  • HumanEval(0次):衡量编码任务的通过情况,405B 模型的通过率为 89.0。
  • GSM-8K(8次):在数学问题上的表现情况,405B 模型的精确匹配得分高达 96.8。

训练要素

  • 训练基础设施:使用了Meta自建的GPU集群及预训练、精调、标注和评估的生产基础设施。
  • 训练能耗:在H100-80GB硬件上,累计使用了3930万个GPU小时,地理位置上的温室气体排放量为11,390吨CO2eq,通过Meta的可再生能源计划,实现了净零排放的效果。
Llama 3.1 的改进之处

以下是新模型的改进之处:

增强注意力机制

Llama 3.1 使用先进的注意力机制,如分组查询注意力机制(GQA),来提升推理扩展性和效率,从而更好地处理长序列和上下文信息。

更优化的训练算法

Llama 3.1 使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法,使模型与人类在帮助性和安全性方面的偏好对齐,从而提高整体性能并提高用户满意度。

模型的扩展性

Llama 3.1模型有多种尺寸(8B、70B、405B),并支持长达128k的上下文长度,从而增强其处理大量输入和保持对话连贯的能力。

多语言支持

Llama 3.1支持多种语言,比如英语、德语、法语、意大利语、葡萄牙语、北印度语、西班牙语和泰语。这种多语言支持使其在各种全球应用中更加灵活,并提高了在不同地区的用户友好性。

关于训练数据和效能

该模型在大约15万亿个公开来源的标记上进行了预训练,并通过结合人工生成和合成生成的数据进行了微调。训练过程利用了大量计算资源,优化了能耗,在确保高性能的同时,最大程度地减少了对环境的影响。

负责任的人工智能和安全问题

Llama 3.1集成了广泛的安全措施,包括安全交互的微调训练、对抗性测试以检测潜在风险以及社区反馈机制来减轻潜在风险。这种对负责任AI的重视确保了该模型能够安全有效地应用于各种场景,解决伦理问题并增强AI技术的信任感。

收尾

如果你对更多技术进展感兴趣,那就关注我,看看我的文章吧!

加入Meta AI贡献行列
llama-models/models/llama3_1 at main · meta-llama/llama-models适用于Llama模型的工具和资源。通过注册账户参与meta-llama/llama-models开发……github.com
参考一下
打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP