逼近GPT-4的新模型,为何选择了闭源?
当明星般的开源大模型公司Mistral宣布发布了旗舰大模型Large时,人们为它欢呼,以为是开源的又一次胜利。
结果发现它是一个闭源大模型,你不知道它有多少参数,只知道它自称具备一流的推理能力,在语言、数学、编程、知识等方面直逼GPT-4,超过了之前的老二Claude2。
当年OpenAI成立时,它号称要为了人类的利益,对抗谷歌的垄断,建立开放的人工智能,结果在推出GPT-3之后就封闭了。它说要在使命与商业利益之间做出平衡。
去年5月成立的法国AI初创公司Mistral,号称以开源为使命,去年底推出了开源模型Mistral 7B,Mistral 8X7B,风头盖过了Meta的Llama2。刚刚,它不仅发布了一个闭源模型,而且还接受了微软的投资,同样说要实现使命与商业利益之间的平衡。
商业、应用与政治,是开源独角兽Mistral推出闭源大模型的几重考虑。
目前最先进的闭源大模型,已经初步建立了商业模式,即token经济(tokenomics)。OpenAI去年的年化收入达到了20亿美元,并且预计今年会达到40亿美元。它的估值在2023年翻了三倍,在最近完成的一轮融资中,达到了860亿美元。
另一家独角兽AI公司Ahthropic,拥有排名第二的闭源大模型Claude2,去年其收入也达到了年化近10亿美元,去年的几轮融资数额为近70亿美元,估值已经达到了184亿美元。
Mistral能挑战OpenAI吗?它号称要做到“在AI世界里资本效率最高”,目前估值为20亿欧元,相比GPT-4训练投入了上亿美元,Mistral Large只投入了2000万美元。它在商业上要对标OpenAI,但从投入和融资上并没有显示出挑战OpenAI的雄心。
来源:Mistral官网 ,Mistral模型系列服务报价
它的商业模式类似于OpenAI面向开发者提供API有偿服务,基于token用量计价,目前输入百万token 8美元,输出百万token 24美元。上下文长度32K。目前只支持文本、转换、代码生成。
相比之下的GPT-4 Turbo, 128k上下文, 百万token输入10美元,输出30美元。
Mistral Large的原生函数调用和JSON 模式受到了称赞,RAG功能(检索增强生成)增强了它的准确性。但仍有不少疑惑,它的价格非常接近OpenAI,但它的差异性何在?
GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较(衡量大规模多任务语言理解)。
开源与闭源双管齐下,成为今年大模型领域的一个新趋势。最近谷歌在发布”最强“闭源大模型Gemini Ultra之后,发布了开源模型Gemma 2B 和7B,也是其加速推进AI的软硬件应用的战略举措。
而Mistral则是从开源杀入闭源。Mistral 7B到MoE架构的Mistral 8X7B,继在多项测试指标超过了Llama 70B之后,现在开始挑战闭源大模型GPT-4和Claude 2了。
目前无论是在PC设备终端,还是推理引擎上,开源模型Llama2和Mistral 7B都成为首选。而更多适配PC的7B模型,适配手机的2B或更小的模型,正在涌现。对于许多应用与模型公司来说,基于云的tokenonics无法成立的话,不妨向边缘走,向设备终端走。
第三个是政治考虑。Au Large不仅是Mistral的旗舰模型,是法兰西的旗舰模型,也是整个欧盟的旗舰模型。Mistral甚至代表欧盟大模型企业,影响到了人工智能法案 (AI ACT)的立法过程。在AI主权的趋势下,欧洲要建立起自己的大模型经济。这次微软的投资,只有1500万欧元,并且在云服务领域展开合作,并非外界夸张地以为微软又控制了一个大模型。
微软将在西班牙和德国投资50亿美元,建立数据中心。不管怎么说,欧盟在自己的境内,建立起了用自己的数据训练自己的大模型的基础设施。它首先服务的语言是英语、法语、西班牙语、德语和意大利语。
市场上领先的 LLM 模型在广泛常识、推理和知识基准上的表现:MMLU(测量理解中的大规模多任务语言)、HellaSwag(10-shot)、Wino Grande(5-shot)、Arc Challenge(5 次)、Arc Challenge(25 次)、TriviaQA(5 次)和 TruthfulQA。
除了 Mistral Large 之外,Mistral还发布了一个较小版本的闭源模型Small,其性能优于Mixtral 8x7B,并且延迟较低,为用户在开源产品与Large之间提供了选择。
Mistral还推出了一款名为Le Chat的聊天助手。任何人都可以在chat.mistral.ai上注册并试用,但因为注册人数太多,许多人被放到了等候名单上。目前该服务的访问是免费的,用户可以在三种不同的模型之间进行选择 - Mistral Small、Mistral Large 以及设计简洁的Mistral Next。Mistral还计划为企业客户推出Le Chat的付费版本。
这家位于巴黎的公司2023年5月才成立,团队由谷歌Deepmind和Meta前员工组成,最初6人团队以7页PPT融到了8亿元(相当人民币),成为一段传奇。
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究
相关推荐
Meta的大模型开源后,国产大模型在卷什么?
大模型时代,有哪些商业模式新选择?
GPT-4的黑箱运作方式,让他们怒了
训练成本不到其 6% 的「联邦大模型」,凭什么在会议场景媲美 GPT-4?
谁在评价大模型?AI大模型评测榜单乱象调查
OpenAI连发5款新模型,还修复了GPT-4变懒问题
GPT-4被吹爆,科学家担忧溢屏
对话李彦宏:真正AI时代,新的应用需要基于大模型的“新地基”
对话 Moonshot AI 杨植麟:闭源是通往超级 APP 的唯一通路
用起来少费电的模型,可能比GPT-5更重要
网址: 逼近GPT-4的新模型,为何选择了闭源? http://www.xishuta.com/newsview109943.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94938
- 2人类唯一的出路:变成人工智能 19132
- 3报告:抖音海外版下载量突破1 18849
- 4移动办公如何高效?谷歌研究了 18375
- 5人类唯一的出路: 变成人工智 18234
- 62023年起,银行存取款迎来 10114
- 7网传比亚迪一员工泄露华为机密 8160
- 8顶风作案?金山WPS被指套娃 7088
- 9大数据杀熟往返套票比单程购买 7037
- 10五一来了,大数据杀熟又想来, 6755