DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品
来源:财联社
就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。
除夕凌晨钟声敲响前不久,DeepSeek工程师们在“抱抱脸”平台上传了Janus Pro 7B和1.5B模型。这俩模型是对去年10月发布的Janus模型的升级。
15亿和70亿的参数量,意味着这两个模型具备在消费级电脑上本地运行的潜力。与R1一样,Janus Pro采用MIT许可证,在商用方面没有限制。
据DeepSeek介绍,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。
从报告给出的“跑分”数据来看,在部分文生图基准测试中,Janus-Pro 70亿参数模型表现好于OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。
(来源:技术报告)虽然DALL-E 3是OpenAI在2023年发布的一款“老模型”,同时Janus Pro目前只能分析和生成规格较小的图像(384 x 384)。DeepSeek在如此紧凑的模型尺寸中依然展现了令人印象深刻的性能。
技术报告显示,在视觉生成方面,Janus-Pro通过添加7200万张高质量合成图像,使得在统一预训练阶段真实数据与合成数据的比例达到1:1,实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeek VL2并增加了大约9000万个样本。
作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。
公司也在报告中,给出了更多图像生成的案例。
相关推荐
APUS发布多模态大模型“AiLMe”
OpenAI推出GPT-4o,多模态AI概念股暴涨
一文读懂“多模态基础模型”
消息称 OpenAI 将推出多模态人工智能数字助理
曝OpenAI神秘大模型“草莓”两周内发布!
变天:由一个惊艳例子引发对Deepseek的10条思考
谷歌的下一款ChatGPT竞品,是它
消息称蚂蚁集团正研发语言和多模态大模型 定名“贞仪”
DeepSeek新模型大揭秘,为何它能震动全球AI圈
AI共富:DeepSeek震惊美国AI业界,中国国产AI大崛起!
网址: DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品 http://www.xishuta.com/newsview132069.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95064
- 2人类唯一的出路:变成人工智能 20149
- 3报告:抖音海外版下载量突破1 19949
- 4移动办公如何高效?谷歌研究了 19373
- 5人类唯一的出路: 变成人工智 19255
- 62023年起,银行存取款迎来 10226
- 7网传比亚迪一员工泄露华为机密 8342
- 8五一来了,大数据杀熟又想来, 7703
- 9滴滴出行被投诉价格操纵,网约 7326
- 10顶风作案?金山WPS被指套娃 7158