ali
大模型使用常见问题解决指南
Prompt工程
prompt通常指的是一个输入的文本段落或短语,作为生成模型输出的起点或引导。Prompt可以是一个问题、一段文字描述、一段对话或任何形式的文本输入,模型会基于Prompt所提供的上下文和语义信息,生成相应的输出文本。
技巧-穿越火线CEO
1、角色扮演 Cosplay
2、给出示例 Few-shot
3、思维链 Chain-of-thought,CoT 复杂任务拆解。在提示词中插入一系列的中间解决步骤,引导大模型将复杂的任务进行拆解,从而解决这个复杂的任务。
4、外部工具 External Tools
5、输出提示 Output Indicator
问题
1、大模型经常freestyle,自由发挥,怎么办?(严肃的场景,回答稳定,不乱说)
a.配置内部代理,屏蔽敏感词。缺点,交互时间变长,可能会造成误匹配。
b.本地化部署。缺点,本地委会大模型需要较高的人力成本和硬件成本。
2、阿里巴巴--通义大模型
应用:通义千问
辅助编程:IDE插件:通义灵码
推荐使用:
通义智文
通义万相 :文生图
3、科大讯飞
讯飞星火认知大模型
应用:讯飞星火(sparkDesk)
推荐
ppt创作 :讯飞智文
4、智谱AI--ChatGLM
应用:代码生成CodeGeeX
推荐:
代码沙盒
科研情报平台,ChatPaper aminer
5、腾讯--腾讯混元大模型
应用:腾讯混元助手
优势:图生文
6、华为--盘古大模型
2、阿里巴巴--通义大模型
应用:通义千问
辅助编程:IDE插件:通义灵码
推荐使用:
通义智文
通义万相 :文生图
国内常见大模型平台使用和介绍
大模型产品、应用、API、收费情况
1、文心大模型
应用:文心一言
网址: https://yiyan.baidu.com/
支持文声图
支持联网
支持图生文
支持读取文档
支持生成图表
商业信息查询
生成思维导图
各个平台的优势推荐
3.5版本免费,4.0版本收费
推荐使用:
1、文心一言
2、Prompt模板
ChatGPT
1、史上增速最快消费级应用
2、Chat Generative Pre-trained Transformer 聊天式生成预训练
场景
1、回答问题
2、生成内容
3、完成任务
使用
1、注册
2、使用
3、其他方案
poe
phind
https://sdk.vercel.ai ,大模型对比平台
http://github.com/xx025/carrot
什么是prompt?
Prompt Engineering
通过prompt可以使用自然语言与大模型进行交互
prompt技巧
1、描述问题要具体
大模型企业级应用场景概览
1、通用大模型:智能聊天机器人,…
2、行业大模型:金融服务,…
3、产业大模型:铁路检测,…
大模型的三大支柱
算力、数据、算法
大模型企业级应用场景挑战
1、缺乏行业深度
2、数据安全隐患
数据脱敏与隐私保护
私有化部署,保障数据不出企业
严格的权限管理和审计机制
3、大模型训练或使用成本高、生成内容准确性疑虑
知识蒸馏、参数量化与剪枝-->小模型
分布式训练与硬件加速,减低训练成本
SFT、RAG-->增加生成内容准确性
建立评估标准和测试流程-->避免重复出现既有问题
AI时代
AI时代所有产品都值得用大模型重做一次
百度说要第一个把全部产品用大模型重做一遍
企业
1、降本增效 BGI
2、用户体验 www.bing.com
3、市场份额
4、话语权
个人
1、生产力提升
2、就业机会的增加:算力芯片\大模型研发\大模型应用 未来属于正确使用大模型的人
第一次工业革命--蒸汽时代
大模型入门
大模型(Large Language Models ,LLM)是指拥有数十亿或数百亿个参数的大型预训练语言模型,如GPT系列模型。它们在解决各种自然语言处理任务方面表现出强大的能力,甚至可以展现出一些小规模语言模型所不具备的特殊能力,如涌现能力。
语言建模(Language Model,LM)是提高机器语言智能的主要方法之一,LM旨在对词序列的生成概率进行建模,以预测未来(或缺失)tokens的概率。
发展阶段:
统计语言模型-->神经语言模型-->预训练语言模型-->大模型
统计语言模型(Statistical Language Model,SLM)基于统计学习方法开发,例如根据最近的上下文预测下一个词。例子:n-gram模型。在n-gram模型中,一个词出现的概率只依赖于它前面的n-1个词。
特点:
使用固定窗口大小的词预测下一个词。
神经语言模型(Neural Language Model,NLM)是使用神经网络来预测词序列的概率分布的模型。
特点:
可以考虑更长的上下文或整个句子的信息。
循环神经网络(RUN):包括LSTM和GRU等变体,能过处理变长的序列数据。
分布式表示:在神经语言模型中,每个单词通常被编码为一个实数值向量,这些向量也被为词嵌入(word embeddingds)。词嵌入可以捕捉词与词之间的语义和语法关系。
预训练语言模型(Pre-trained Language Model,PLM),这些模型通常在大规模无标签语料库上进行预训练任务,学习词汇、短语、句子甚至跨句子的语言规律和知识。通过这种预训练,模型能够捕获广泛的通用语义特征,然后可以在特定任务上进行微调(fine-tuning),以适应特定的应用场景。
Transformer
1、自注意力机制
2、并行化能力
大语言模型(Large Language Models,LLM),大语言模型(大模型)是指那些具有大量参数、在大规模数据集上训练的语言模型。这些模型能够理解和生成自然语言,通常是通过深度学习和自注意力机制(如Transformer架构)实现的。它们在自然语言处理(NLP)的多个领域都有广泛的应用,包括但不限于文本生成、翻译、摘要、问答和对话系统。
预训练语言模型参数级达到了数十亿或数百亿个参数级别,称为大模型。
例如,GPT-3拥有1750亿个参数。
大模型应用 BERT VS GPT
BERT(Bidirectional Encoder Representations from
Transformers)和GPT(Generatice Pretrained Trans)
都是基于Transformers的架构
BERT(Bidirectional Encoder Representations from
Transformers)是由Google AI在2018年提出的一种预训练语言表示模型。它的主要特点是双向的Transformer编码器。这意味着BERT在处理一个单词时,会同时考虑这个单词前面和后面的上下文,这种全方位的上下文理解使得BERT在理解语言时更为精准。
BERT非常适合用于理解单个文本或者文本对的任务。比如:
1、情感分析:判断一段文本的情感倾向是正面还是负面。
2、问答系统:给定一个问题和一段包含答案的文本,BERT可以帮助找到文本中的答案。(完形填空)
3、命名实体识别(NER):从文本中识别出特定的实体,如人名、地点、组织名等。
GPT(Generatice Pretrained Trans)由OpenAI提出,是一种基于Transformer的预训练语言生成模型。
与BERT不同,GPT使用的是单向的Transformer解码器。它在处理文本时主要关注当前单词之前的上下文,这使得GPT在生成连贯文本方面表现出色。
应用示例:
GPT可以应用于任何需要生成文本的场景,比如:
1、文本生成:生成新闻文章、故事、代码等。
2、机器翻译:将一种语言的文本翻译成另一种语言。
3、摘要生成:从一篇长文中生成摘要。
根据前文预测下文
大模型特点
1、参数数量庞大:大模型通常含有极多的参数(10亿及以上的参数),这些参数是模型在训练过程中学习到的权重和偏置。
2、数据需求巨大:为训练这些模型,需要大量多样化的数据。数据的多样性可以帮助模型更好地泛化到未见过的情况。
3、计算资源密集:训练大模型需要大量的计算资源,这通常依赖于高性能的GPU或IPU集群。
4、泛化能力强:由于模型参数众多,大模型通常具有更好的学习能力和泛化能力。
5、迁移学习效果佳:大模型在一个任务上训练好之后,可以通过迁移学习的方式快速适应新的任务。
大语言模型与AIGC之间的区别?
AIGC(Artificial Intelligence Generated Content)是一个总称,是指有能力生成内容的人工智能模型。AIGC可以生成文本、生成代码、生成图像、视频和音乐。
热门的开源AIGC技术:LLaMA 、Stable Diffusion(根据语义生成图片)
大模型也是一种AIGC,它基于文本进行训练并生成文本内容。
11
使用体验教程123456
国外常见大模型平台
平台
一些资源
prompt示例
角色扮演
给出示例
思维链
外部工具
输出提示
国内大模型:
百度文心一言
阿里通义千问
科大讯飞星火
智谱AI·GLM/ChatGLM
腾讯混元大模型
华为盘古大模型
三种通用能力:
文生图
图生文
文档助手
宝藏网站:
https://www.aminer.cn/
OpenAI
ChatGPT
Anthropic
Claude
Meta
LLaMA
PaLM
Bard
网站:
poe
phind
vercel
carrot
Prompt:自然语言的编程接口
描述问题要具体
通用大模型、行业大模型、产业大模型
制造业、零售业、电信业、医疗行业
提高效率:时间加速
大模型应用开发
大模型轻量化
行业知识
数据隐私安全
如何解决通俗语言沟通中大模型存在的问题
prompt工程使用技巧:
角色扮演 =》 可以用来格式约定
2.给出示例 =》 更加专业,而不是泛泛而谈
3.思维链 chain of thought =CoT
prompt工程用于解决的问题(一般的语言对话中,大模型存在的问题):
1.套话,没有具体内容
2.不遵守格式约定
3.胡编乱造(幻觉)
4.数据过时
5.自由发挥,回答不稳定
实际查理芒格是2023年11月28日去世的.....
头部大模型公司和产品及优势
大模型的涌现能力,这是小模型不具备的。识别双关语义和逻辑关系。
语言建模
统计语言模型——神经网络模型——预训练语言模型——大模型。
一个词的概率只依赖于前N-1个词。
神经语言模型
通过词序的概率分布的模型,可以考虑更长的上下文,神经循环网络模型。
预训练语言模型,
Transformer提出,自注意力机制和并行化,可以使用更多的资源。
长序列文本中各个词的关系。
大语言模型
理解和生产自然语言,基于Transformer。
Bert模型,可以识别情绪,可以问答系统。命名实体识别。
大模型的问题
第四次产业革命,工业革命:AI时代所有产品都值得用大模型重做一次。
不是整合,不是接入,而是重做。
大模型:
降本增效,百度智能云有解。
视频播放:大模型很快就能够算出成本。
用户体验。
搜索:世界杯冠军搜索,大模型返回结果更加简洁,然后写文章,且配图梅西夺冠。
生成文案,新闻稿,梅西怎么夺冠。
市场份额:微软云服务Open AI的唯一供应商。
话语权:
对于个人
排序算法 自动生成。
生产力的提升。
就业机会增加,帮助企业高效运转。