AI模型的暴论-原创手记-慕课网

背景

本人自由职业，运营者AI开源项目https://github.com/CloudOrc/SolidUI

技术实现

on-premise

内部的私有数据价值越来越低，已经为了做大模型价值，存储很多私有数据，再加上例如LAION 爆火，LLM爆火，让toB 的私有数据价值逐步降低，那么数据侧还能具有的价值是共生数据，公司本身的模型加上客户的数据，两者构建一个不可以迁移的部分，这个是最有价值的数据。

开源数据

AI 新的切入方向，开源数据集，对于算力的要求比较低，但是具有世界意义，是构成AI重要组成部分，LAION 就是很好的例子。

像前几天的三个00后发起开源数据集项目，目标要收集世界上所有的数据，第一部把所有arxiv 数据集成。

fine tuning

如果预训训练模型（LM）非常强力，那么fine tuning其实是在 90% 的场景下是完全可以被无视掉的。fine tuning 是人通过prompt 与 LLM体系达成共建关系。

最直观的场景，协同办公行业，马上就出了很多LLM入口，客户数据汇聚到这些平台里面，通过LLM体系构建一种关系。

设备制造商，在手机领域卷了很多年摄像头，急需切入这个场景的方式。

护城河

往往认识的第一KPI ，并不是最重要，一定要找到自己除此之外的点，很多人都会认识到最显眼第一KPI。

业务挑战与机遇

历史包袱

AI的发展不是周期性，根据不同的切入点做延伸，你会感觉周期性的有点另起炉灶，这种感觉我们经常过几年就会发现，曾经很流行的东西已经再没有人提这个事了。而从 AI 的发展，你如果落实在产品层面来说，这我觉得对于创业者来说是很好的，在不断创造新的可能性，但是从技术的角度来说，其实技术一直是在替换过去的既有的实践，虽然来说底层技术就确实有些延续性的，但是做过真正 AI 创业人都会发现，所谓的 AI 创业，哪怕咱不谈所有的销售或者这些商业化的东西，你 80% 的东西是产品工程， 20% 的是底层的技术。甚至好。如果你是这时候创业，而你恰好不是 open AI 或者 Anthropic 的话，你可能有 10% 的技术就不错了。而这个时候我们会发现，所有这些先来的人，他不仅是技术，行业规模，甚至利益分配这些东西都是历史包袱。

就像最近看到百度的AI搜索，集成了一堆角色场景，这个价值和规模真的有那么大影响力？具体可以等公开数据。

moderation API

数据安全，合规，通过API方式解耦。类似openAI API

可放缩式丧失

要随时切换不同角色看问题，一直是技术的角色，会让创业的画像损失维度。

运营其实离客户最近，他的角度一定是会把把拔高期望的，不会理解产品和技术，尤其技术会离客户更远的。产品工程看的MVP实现，又与技术有偏差，所以在现在的时代缺的是能放下历史包袱，随时切换角色的人物。

Github

GitHub 的土壤，未来一定会在这里产生很多颠覆的性的产品，例如：langchain

低代码平台是伪需求

其实很多时候你的最精准的用户，并不需要去写代码，只要你的模型足够强力就是能通过prompt实现内容。

代码这块，Github Copilot 已经做的足够成功，占领了先机。

低代码这件事最常见一个就是所谓的在业务后台或者后台系统构建一个东西，它解决的问题是什么呢？是标准问题下面的复杂问题呈现这什么意思？我们可以回顾一下比较火的这些低代码的平台，比如像airtable、 NocoDB，他们的上游是什么？他们上游是 SQL 数据库，非常标准的一个东西，中间我们只要从零搭建一套后台系统是非常非常繁琐的。

LLMs的上游是prompt ，这是一套新的标准。

向量数据库跟LLMs关系？

向量数据库最主要的作用做检索和推荐作用，跟LLM关系不大，跟embedding模型是结合关系的。

OpenAI 的 embedding 模型主要用于文本表示,它可以把文本映射到低维的向量空间,实现诸如相似度计算、分类等任务。该模型具有以下主要作用:

文本表示。embedding 模型可以将文本映射到较低维的向量空间,实现文本的数字化表示。这样,文本处理的任务可以转化为向量空间中的运算,更容易被机器学习模型解决。
相似度计算。在embedding 空间中,相似的文本对应的向量更加接近。因此,我们可以通过计算两个向量的相似度(如余弦相似度)来判断两个文本的相似程度,实现相似文本查询等功能。
文本分类。在embedding 空间中,同一类别的文本对应的向量会聚集在一起。所以,我们可以 base 向量空间中的聚类情况来判断文本类别,实现文本分类。
其他下游任务。embedding 向量作为文本的数字特征,可以被输入到其他机器学习模型中,用于情感分析、主题推断等各种下游任务。

midjourney数据飞轮

收集和整理大量数据。Midjourney 通过 Web 爬虫、人工标注等手段收集海量图像、文本等数据,并对数据进行清洗、标注和整理,构建高质量的数据集。
基于数据开发 AI 模型。Midjourney 利用 Step1 构建的数据集开发计算机视觉、自然语言处理等 AI 模型。这些模型可以完成图像识别、语义理解等任务。
将 AI 模型以 API 形式开放。Midjourney 将开发的 AI 模型以 API 的形式开放给客户使用。客户可以在自己的产品或服务中调用这些 API,实现相应的 AI 能力。
用户使用 API 产生更多数据。当用户调用 API 使用 AI 服务时,会产生更多的数据,如用户图像、文本,用户交互数据等。这些新产生的数据被 Midjourney 收集起来,输入到 Step1,不断丰富数据和提高模型效果。
不断迭代以上步骤。Midjourney 通过不断重复 Step1 到 Step4 的过程,构建起数据与模型的正反馈循环,实现数据和算法的快速进步。这就形成了数据飞轮效应。

所以,数据飞轮模式的核心是构建数据和算法的相互促进的循环。数据推动算法进步,进而产生更多数据;算法提高数据的价值,更好识别和理解数据。这种互动构成了数据飞轮,可以实现人工智能的持续快速发展。

这种商业模式优点：

可持续发展。通过正反馈循环,数据和算法可以相互促进,不断提高,实现持续发展。
先发优势。能先构建数据飞轮,并抢占市场,可以通过网络效应获得先发优势。
双向网络效应。数据网络效应和算法网络效应相互作用,产生强大的双向网络效应。

模型与方法

垂直模型

市面上目前大部分垂直模型在它的领域内甚至其实性能是不如 GPT 4 的。强调了针对特定领域和任务的专业化模型的重要性。

这个原因是什么呢？因为我们现在对于通用大模型来说，我们的数据和规模远远没有达到饱和，任何有价值的领域直接就会被整合进通用模型中，不存在任何的权衡，所以这是一个完全免费的提升，所以终归会被合并进去的。

因为你任何增加新的这个领域，其实也会不仅让模型在这一个领域内的能力提升，它会影响整个横向的提升。这是大模型我们觉得非常吸引人的一个点。就之前我们做一个领域的时候，我们的积累只能让我们在这一个领域有提升，而做大模型我们发现我们的模型在横向的生长，这是非常棒的。所以总结来说就是垂直应用之间的差异应该在业务而不在模型。

多模态

多模态学习是指利用来自不同模态(模式)的数据进行机器学习的过程。现在openAI 发版主攻这块，现在还是处于初级阶段。

RLHF 真的是必须？

RLHF本身是一个比较研究性的方法,并不必然稳定或是必须的。近期一些研究,如DPO(Direct Preference Optimization),证明如果有足够丰富的人的偏好反馈数据,我们不一定需要强化学习,可以直接通过最大似然估计来优化语言模型,省去奖励模型。

所以,RLHF并不是对齐必须的手段。主要有以下原因:

RLHF需要设计奖励函数,这本身就是一个难点,不稳定且错误设计可能导致非理想结果。如果有足够反馈数据,我们可以直接优化模型以最大化数据似然,不需要奖励建模。
RL需要大量的环境交互和试错过程进行学习,这在一些环境下(如对话系统)可能比较耗时耗费资源。如果有足够的人的偏好反馈,我们可以直接学习来拟合这些反馈。
RL的学习过程比较不稳定,易受初始化、超参数等的影响,最终的策略也比较难以解释和理解。通过直接学习偏好反馈可以产生更加稳定和可解释的结果。
人的反馈本身就包含对模型行为的评价,如果有足够反馈,其实已经涵盖了RL中奖励信号要表达的信息。所以,没有必要再通过额外的奖励建模。
所以,总体来说,RLHF不是对齐的必要手段。如果有足够丰富的人的反馈与偏好数据,我们可以通过更加简单和直接的学习方法来进行对齐和优化模型,而不一定需要引入强化学习与奖励建模。人的反馈本身就包含了需要的训练信号。

RLHF是一个比较研究性的话题,实际应用中更简单和直接的方法可能更加实用。所以,它并不必然是达到对齐的唯一或最佳手段。重点是数据与优化目标,手段可以根据具体情况选择。

开源与认知

技术平权

在风口，其实技术平权，很多公司做的不是太多，受限于环境，这时候就看谁在这个平权机会下，找到切入点，开源因为自带社区属性，离使用者近，但是很有可能不是最精准用户，有很大偏差，需要不断调整方向，产品工程角度思考。

需要不断连接多种社区，从上下游供应链的方式进行整合。

LLMs涌现

LLMs是很强生成能力，自我标注，例如：算力充沛下，能力非常强，非常智能，可以延伸很多内容，算力缺失下，需要反复确认生成内容。

随着模型迭代的参数量变，ChatGPT 对世界的认知产生了质变。他不再是单纯记住预训练的信息。现在的信息会通过理解，再被提炼为知识，然后由 GPT 为你表达。而到了 GPT-4，也可以说他拥有超越了认知的创造力。这个过程挺像人脑的进化，神经元发展到一定数量之后，智人就拥有了主宰地球的能力。

LLMs插件

这个非常厉害切入点，现在并没有制定标准，openAI一直不去上市，想当成立类似基金会，制定世界标准，先入的做插件的人，能够被社区接受，也就是说后续是共建规范的组织，例如：langchain，openAI