继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

如何在本地用OpenVINO™运行Llama 3.2模型

墨色风雨
关注TA
已关注
手记 334
粉丝 75
获赞 351

作者:吴卓 (Zhuo Wu)、雷蒙德·洛 (Raymond Lo)、德米特里·帕斯特申科夫 (Dmitriy Pastushenkov)

随着 Llama 3.2 的刚刚发布,,访问最新的 AI 模型进展变得比任何时候都更加容易。得益于 OpenVINO™ 和 Optimum Intel 的无缝结合,您可以在 Intel 硬件上压缩、优化并运行这个强大的模型。在本指南中,我们将带您一步步了解整个过程,从环境设置到模型执行,帮助您解锁 Llama 3.2 的全部潜力,。

目录
  1. 为开发做好机器的准备工作!
  2. 下载 OpenVINO GenAI 示例代码并进行安装
  3. 安装最新构建及其依赖项
  4. 使用 NNCF 下载并导出 Llama 3.2 模型
  5. 运行模型进行测试
  6. 最后一步:得出结论
第一步:准备你的机器以供开发使用,开始吧!

对于首次使用的用户,我们建议您按照 wiki 中的基本设置步骤(1、2 和 3)进行设置。

把机器设置好,准备好了哦。

主页📚 OpenVINO™ Jupyter notebook 教程。通过提交教程来为 openvinotoolkit/openvino_notebooks 的开发做出贡献…github.com 第一步:下载OpenVINO GenAI的示例代码

最简单的方法是在Windows系统上通过OpenVINO GenAI API运行Llama 3.2。我们将通过提供的示例代码一步步教你如何设置。

从克隆仓库开始吧:

就像这样克隆仓库:

git clone <仓库网址>

这样你就开始了!

    git clone https://github.com/openvinotoolkit/openvino.genai.git

在仓库里,你可以找到一个名为 chat_sample 的 Python 示例。这个示例仅用不到 40 行代码就能让你运行 Llama 3.1 并处理用户输入。这是探索该模型功能的一个简单起点。

下面是一个示例代码的预览:

    #!/usr/bin/env python3  
    # 版权所有 (C) 2024 Intel Corporation  
    # SPDX-License-Identifier: Apache-2.0  

    import argparse  
    import openvino_genai  

    def streamer(subword):  
        print(subword, end='', flush=True)  
        # 返回标志表示生成是否应该停止。  
        return False  

    def main():  
        parser = argparse.ArgumentParser()  
        parser.add_argument('model_dir')  
        args = parser.parse_args()  

        device = 'CPU'  # 也可以使用 GPU 设备  
        pipe = openvino_genai.LLMPipeline(args.model_dir, device)  

        config = openvino_genai.GenerationConfig()  
        config.max_new_tokens = 100  

        pipe.start_chat()  
        while True:  
            try:  
                prompt = input('提问:\n')  
            except EOFError:  
                break  
            pipe.generate(prompt, config, streamer)  
            print('\n----------')  
        pipe.finish_chat()  

    if __name__ == '__main__':  
        main()

接下来我们配置环境以便下载、转换和运行模型。

第二步:安装最新的构建及其依赖项

为了防止依赖冲突,最好创建一个独立的虚拟环境。

    python -m venv openvino_venv

运行此命令以创建一个新的venv环境:python -m venv openvino_venv

启动环境:

运行这个命令来激活环境
openvino_venv\Scripts\activate

现在先安装必要的依赖即可。

使用Python安装升级pip: `python -m pip install --upgrade pip`
安装openvino-genai, openvino, openvino-tokenizers[transformers]以及其他依赖,使用预发布版本和额外的索引URL: `pip install -U --pre openvino-genai openvino openvino-tokenizers[transformers] --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly`
安装额外的库,使用额外的索引URL: `pip install --extra-index-url https://download.pytorch.org/whl/cpu "git+https://github.com/huggingface/optimum-intel.git" "git+https://github.com/openvinotoolkit/nncf.git" "onnx<=1.16.1"`
第三步:使用NNCF下载并导出Llama 3.2。

在从Hugging Face导出模型之前,请先接受使用协议在这里

然后,使用以下命令下载模型并将其导出。

    optimum-cli 导出为 openvino --model meta-llama/Llama-3.2-3B-Instruct --task 文本生成(含过去状态) --weight-format 量化int4 --group-size 64 --ratio 1.0 --sym --awq --尺度估计 --dataset "wikitext2" --all-layers llama-3.2-3b-instruct-INT4 
步骤 4:跑模型

使用以下命令来运行模型的推理过程,使用OpenVINO:

python your_script.py

运行以下Python脚本来启动聊天示例:python chat_sample.py llama-3.2-3b-instruct-INT4

这段代码在CPU上运行良好,但很容易通过将\textit{chat_sample.py}文件中的设备名称改为“GPU”来让代码在GPU上运行:

    pipe = ov_genai.LLMPipeline(model_path, "GPU")  # 创建一个管道,使用GPU加速

这是我在AI电脑的集成GPU上跑出来的结果!它在ARC A770独立显卡上表现得非常出色!

结论部分

在本地用 OpenVINO™ 运行 Llama 3.2 可以为希望在 Intel 硬件上最大化 AI 性能的开发者提供强大而高效的解决方案。通过这样的设置,您可以享受更快的推理时间、更低延迟和更少资源消耗——所有这些都只需要少量的设置和编码工作。希望本指南能帮助您快速有效地上手。祝您编码顺利!

更多内容

以下是一些关于AI和OpenVINO™的相关资料,您可以进一步了解:

  1. 使用OpenVINO™和LlamaIndex构建代理RAG系统
    - 使用OpenVINO™和LlamaIndex构建高级AI系统的全面指南
  2. 使用OpenVINO™ GenAI API构建更快的GenAI应用程序,用更少的代码行
    - 学习如何使用更少的代码行构建更快的GenAI应用程序
  3. 在CPU和GPU上使用OpenVINO运行Llama2
    - 使用OpenVINO在CPU上优化运行Llama 2
  4. 如何使用OpenVINO™本地运行Llama 3.1
    - 如何使用OpenVINO本地运行Llama 3.1
额外资源

OpenVINO文档
Jupyter笔记本 (Notebooks)
安装与设置

产品页面

作者和编辑简介:

Zhuo Wu,拥有电子学博士学位,是英特尔的AI倡导者,专注于Intel的OpenVINO™工具套件。她的工作涵盖了深度学习、5G无线通信、计算机视觉、边缘计算和物联网系统。她为多个行业提供了AI解决方案,并在此过程中在4G-LTE和5G系统领域进行了大量研究。此前,她曾是贝尔实验室(中国)的研究科学家,也曾是上海大学的副教授,领导了多个研究项目并申请了多项专利和发表了多篇论文。

Raymond Lo目前位于硅谷,是英特尔AI布道者团队的全球负责人,专注于OpenVINO™工具包。他目前位于硅谷,并且他拥有丰富的背景,包括创立增强现实公司Meta,还包括曾在三星NEXT和谷歌云AI担任重要职务。他的工作横跨创业精神和企业创新,经常在像TED Talks和SIGGRAPH这样的国际大会上发表演讲。

Dmitriy Pastushenkov 是英特尔德国的 AI PC 推广专家,拥有超过 20 年的工业自动化、工业物联网、实时操作系统和 AI 方面的经验。他在软件开发、架构和技术管理方面担任过各种职务。自 2022 年加入英特尔以来,他作为软件架构师,专注于在智能边缘计算优化 AI 和实时工作负载。目前,他积极推广 OpenVINO 和 AI PC 软件栈。Dmitriy 拥有莫斯科动力工程学院计算机科学硕士学位。

斯蒂芬妮·马拉索 是英特尔的产品营销师和分析师,专注于 OpenVINO™ 工具包。从实习生开始,她在团队中工作了三年多,对所支持的创新 AI 产品和工具充满热情,致力于创造有影响力的内容,推动这些产品的普及。

通知及免责声明事项

英特尔技术可能需要支持的硬件、软件或激活的服务。

没有哪个产品或组件能保证绝对安全。

你的费用和结果可能会有所不同哦。

© Intel Corporation 版权所有。英特尔、英特尔标识以及其他Intel商标是Intel Corporation或其子公司拥有的商标。其他名称和品牌可能是其他公司的财产。

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP