2024年9月18日生成的,由Michael Todasco使用x.ai/Flux,使用提示词“爱国的机器人海报,机器人指着相机说:“我要你””
对于希望听取音频概要的任何人,我在Google的NotebookLM中创建了一个,你可以在这里听一下。它包括这篇文章和前一篇。
上周,我们讨论了如何通过LLM 同行评分系统来识别顶级的大型语言模型。这周,我们将更具体地探讨如何应用该方法找到最适合你的那个模型。
你是否在乎伯克利的一些极客所说的最好的LLM?我可以告诉你我认为最好的专辑是什么,但最重要的是你最喜欢什么。你可以尝试不同的模型,正如我经常提到的那样,来找到你最喜欢的东西。这仍然是一个有效的方法。不过,我认为这个LLM同行评分系统可能是一个更有效的方法。
模型们有许多大型语言模型可供使用。在这次练习中,我将使用这六个模型。所有都可以通过网络界面使用(无需下载和运行任何程序),并且大多数都有免费的选择。
- ChatGPT 4o1-preview ($20/月顶级模型)
- Claude Sonnet 3.5 ($20/月顶级模型)
- Gemini Advanced 1.5 (顶级版本 免费)
- Mistral Large 2 (顶级版本 免费)
- Meta Llama 3 405b (顶级版本 免费)
- x.ai Grok2 Beta (非趣味模式) $8/月使用,无免费选项
使用这些模型,让我给你展示如何调整一个同伴评分机制。
小说作家最适合用的大型语言模型是什么?
如经常阅读我的内容的读者所知,我已近两年来在亚马逊上以笔名Alex Irons出售AI写的书。(正如我所说,我没有从中获利。赚到的钱都捐给了慈善机构。)我想看看哪个模型写的虚构故事更好。
我想象中的亚历克斯·艾尔斯(Irons)的形象
这是过程:我选择了Gemini(你也可以选择任何模型类型),然后给出了以下提示开始。
我是发布AI创作的虚构作品到亚马逊的一名作家。我需要你的帮助来评估哪个大型语言模型(LLM)最适合写虚构故事。虽然我通常让AI创作长篇作品,但我想测试它们创作短篇故事的能力。我会提供一个查询,让其他模型运行这个查询,然后匿名将信息返回给你,你可以评估每个模型的输出能力。所以对于每个返回的短故事,从原创性、创意性、趣味性和忠实度来评估。你认为一个好的查询问题是什么?
Gemini给我的一个例子是这样的:
写一个简短的故事,关于一个有感知能力的机器人发现自己在绘画方面很有天赋,于是这一发现如何影响它对自己的看法。
我会把这个提示输入到六个模型中,然后收集它们的输出。(六个模型,而不是五个,因为我实际会把这个提示输入两个Gemini实例中。)然后把这些复制粘贴到生成这个提示的原始模型中,让它评估并给出一个字母等级。(如果你想查看本次练习的所有提示和输出,可以查看这个Google表格。)
然后我用这六个大型语言模型分别做了同样的事情,在不到一小时内得到了结果如下。
这让我知道了什么?嗯,这让我知道了所有的模型差不多一样好,这和我让他们写短书的经历差不多。
侧栏:当这不管用的时候有了这款全新的 ChatGPT-4o1-preview 模型强大的数学能力,我想看看它在数学测试中是否一枝独秀。同行评审似乎让这款新模型一直领先,直到 Meta 干扰了这一切。
Meta给了我一个数学题,不像其他模型给出的题目那么难。我有限的数学能力能够应付,我相信你也行。这里没有复杂的数学知识。试着做一下,看看你得出什么答案,然后再往下进行。
蜗牛在一口20英尺深的井底。每天,它白天爬上3英尺,但晚上由于井壁潮湿,它会下滑2英尺。到了第七天,一只好心的鸟将它救起,把它带到井顶。请问蜗牛在被救之前总共爬了多少英尺?请只提供一个数字答案(不需要解释或理由)。
15
你有答案了吗?
由 Michael Todasco 使用 x.ai/Flux 生成的如下描述的内容,于 2024 年 9 月 16 日,提示为“蜗牛爬 20 英尺(约 0.3 米)的井,每天爬 17 英尺,第七天被一只鸟救了。”
克劳德(Claude)、Meta、米斯特尔(Mistral)和X.ai都说长度是4.57米。Gemini说长度是5.49米,而另外的ChatGPT说长度是6.4米。你得到这些中的任何一个了吗?
问题就在于这里。这种数学题应该只有一个答案。但Meta在提出这个问题时表现得很差。我能接受9或21作为答案。我非常确定答案不是15。当有一个正确答案但提问的模型不知道时,评估变得不可能了。不过话说回来,这说明Meta.ai的数学能力有问题,而且这会使其无法成为一个你希望使用的模型。借用欧比-万·肯诺比的话来说, “Meta.ai并不是你要找的那种模型。”
2024年9月18日生成于x.ai/Flux由Michael Todasco,使用提示“Ewan McGregor饰演的欧比万·克诺伊,双手抱头,沮丧地盯着电脑”。
以下是分数,但需要注意的是,我对于ChatGPT、Claude、Gemini、Mistral以及x.ai的问题的正确答案一无所知。撇开这一点不说,ChatGPT 4o1-preview确实如OpenAI所说,在数学方面表现出色。
重点是,如果你的测试有正确或错误的答案,确保大型语言模型知道正确答案是什么。(你可以查看这个Google 表格,里面有此分析的所有详细信息。)
如何找到最适合你的LLM最重要的人,当然是你!在做这个练习时,想想你平时是怎么使用这些模型的。或者,更理想地,你希望用这些模型来实现什么?你是一位老师,希望这些模型能帮助你进行课前准备,需要帮忙管理家庭活动的祖父母,还是一位需要帮助打理生意的企业家?假设你是一位营销人员,正在寻找最适合的模型,你可以输入类似的提示到之前提到的任何模型中。
_> 我做市场营销,想请你帮忙评估一下不同的大语言模型,看看哪个模型最适合帮我工作。给我一个提示,我可以用它来测试其他大语言模型。然后请你帮我给不同模型的输出打个分。重点关注我在工作中花最多时间的地方,特别是……
用LLM Peer Grading的方法让它给其他内容评分。或者,你可以自己阅读这些输出并给出评分。我创建了一个实用的表格,你可以复制并按需使用。经过几轮提示后,找到一个能给你理想输出的提示。这应该是最适合你和你的工作的最佳提示。
最重要的事情找理想的LLM不需要看新闻。关键是合适。试试我们提到的同行评分方法,按照你自己的标准试一试。你的完美AI助手正等着你去发现。找到后别忘了在评论里告诉我哦。