首页科技快讯应用+AI，是未来吗？

应用+AI，是未来吗？

来源：晰数塔互联网快讯时间：2024年01月16日 15:13

一、引擎

1970年代，IBM发明了一个中间件叫：规则引擎。

意思就是：你可以灵活设置规则，不用把业务规则逻辑用编程语言写死在软件中。

因为中国程序员都是码农，不懂得设计程序，就是知道业务逻辑多复杂，代码就多复杂，所以各种状态机引擎、规则引擎都不会用。即使平台研发团队搞了个规则引擎，也都在业务功能中不会用或者只用一点点。

现在，人工智能热潮风起，很多IT厂商又开始用规则引擎忽悠智能化-自动化。

二、数据

对于外行人，认为大模型=会话大模型+生成大模型。

对于内行人，大模型=海量大数据+Transformer深度神经网络。

所以，数据的重要性和稀缺性，对于内行人来说，比模型还重视。所以中国最近两年出台了无数政策在说数据安全和数据资产的事。

Open AI公司因为数据，在2023年也惹上了事。这就是，事情不火不挣钱，大家都不言语，一旦发现事情火了有利可图了，这就得说道说道了。所以2023年，Open AI免费爬取编程问答社区SegmentFault的数据做了大模型，用户一看在ChatGPT中做编程问答效果更好，就不访问SegmentFault网站了，所以SegmentFault的流量快速下滑。这让SegmentFault就怒了：你不仅爬取我的数据不给我钱，你还拉走了我的用户，这不行。

Open AI虽然去年主动去国会申请召开听证会，希望促进国会尽快立法，让大家在规则下发展。但是最终听证会也没有有效运转起来。所以美国对于数据资产的一系列的法律制定，也滞后了。

那大模型怎么持续进化？有人想到了一种方法是：数据增强，通过现有数据进行智能的变形和合成，这样就数据量翻倍了。我认为这种方法比较狗屎。我经常说：垃圾输入必然是垃圾输出。数据增强在我眼里，和内容洗稿没啥本质差异。你把十篇内容稿件通过各种切分排列组合弄出来1000篇内容稿件，也是垃圾，而不是创造和知识。所以这种垃圾输入垃圾输出的数据增强方法，只能让大模型更傻。

那大模型怎么持续进化？我能想到的最好方法就是现在大模型的应用商店。传闻GPT应用商店里已经有300万个应用了。大家不用搞Lora微调和预训练，也不用搞指令调优，也不需要搞人工反馈的强化学习，也不用搞复杂编程开发，只需要提示模板调优+SaaS API调用就可以很方便地做出一个应用。这个应用无法脱离大模型。只要人们使用应用，本质上就是源源不断地把数据输送给大模型。大模型把数据日常沉淀汇集起来，然后在大版本预训练时利用起来。每个应用产生的数据都很小，但是这么多应用产生的数据就如同无数条小河，汇聚起来就是大江大海。你如果因为安全考虑不想把你的数据沉淀给大数据，那对不起，那你用开源私有部署去玩吧。

所以，这种方法避免了数据资产的法律问题，也避免了数据增强的愚蠢问题，还有了源源不断的新鲜数据血液。这个机制才是永恒永动的。

三、技术

刚才提到了提示调优模板+公有云SaaS Open API调用。这里就再衍生一个技术：AI Agent。

Agent这个词大多在强化学习场景中使用。2023年Q4，一个新技术热词被Open AI公司内斗引爆了出来，那就是：Q* Learning。其实A*是强化学习的前置技术-动态规划中的一种算法，Q-Learning也是强化学习-时序差分中的一种算法。Q* Learning就是这么组合来的。

但是AI Agent这个热词在2023年引爆是在上半年，是在下半年Q* Learning引爆之前流行起来的。所以外行人眼里的AI Agent，其实和强化学习没半毛钱关系。

外行人眼里的AI Agent，其实是在上半年流行的提示调优模板相关。

大家都知道，现有人工智能还不能回答复杂逻辑的问题，所以大家想了一个办法，叫做：思维树CoT，意思就是把一个复杂逻辑问题，人为分解为12345步，这样就可以一点点引导大模型得到你想要的答案了。

所以，AI Agent其实是一系列2023年上半年技术的杂合，所以才有了现在AI Agent框架的说法，杂合了：

CoT模板-代码生成大模型、公有云SaaS-Open API甚至API工具（如Postman、Zapier）；

RPA-UI层集成自动化、流程挖掘。

SAP就想走这条路。但这条路和人工智能其实没有半毛钱关系，只是挪用了人工智能的思维树的思路而已。

不过我个人观点：