首页 科技快讯 Facebook发布新购物AI,通用产品识别的计算机视觉系统让「一切皆可购买」

Facebook发布新购物AI,通用产品识别的计算机视觉系统让「一切皆可购买」

来源:晰数塔互联网快讯 时间:2020年05月21日 15:23

编者按:本文来自微信公众号“新智元”(ID:AI_era),36氪经授权发布。

来源:VentureBeat等

编辑:啸林

Facebook发布最新AI技术,要让“任何物品皆可购买”成真——基于物品分割、检测和分类三个方面的进步。Facebook的长期目标是创建一个全面的AI驱动的系统,实现无缝消费。

Facebook发布新AI:让“一切皆可购买”

昨天,Facebook首席执行官马克·扎克伯格宣布推出Facebook Shops。 

Facebook Shops将为企业建立单一在线商店,以让客户直接连接到Facebook和Instagram上。

“我们的长期愿景是建立一个多功能的Al生活方式助手,它可以准确搜索和排名数十亿种产品,同时根据个人口味进行个性化。” 

“同一系统将使在线购物具有社交性,就像现实生活中和朋友一起购物一样。再进一步,它将推进视觉搜索,以使您的现实环境就可以支持虚拟购物。

如果您看到喜欢的东西(衣服,家具,电子产品等等),您可以为它拍张照片,系统会找到确切的商品,以及从那时到那里立即购买的几个类似商品,并提供购物建议。” 

这听起来有点像科幻电影《少数派报告》中的场景:

阿汤哥在街上走,视网膜被自动扫描、提取身份信息,得知他喜欢喝吉尼斯黑啤,于是便开始对他投放吉尼斯广告:“嘿,吉尼斯就在你身后!”

不论在现实中的任何地方,都能看到个性化商品投放

想要实现这个魔幻场景,要归功于Facebook新开发的三个AI系统。

第一个是通用计算机视觉系统GrokNet,目标是在图片或视频中识别所有的产品,实现“一切皆可购买”。

它在七个数据集中进行了训练,其中包含数百万个用户发布、购买和出售的产品图像,从SUV到细高跟鞋、再到各种形状的桌子,无所不包。

第二个可以通过处理某个产品的2D视频而创建其3D视图,并且还能带来强大的AR试穿。

第三个被称为实例蒙版投影,可以从图像中自动分割识别服装产品。

通用产品识别的计算机视觉系统:GrokNet

为了实现这一愿景,Facebook正在部署一种新的通用计算机视觉系统,称为GrokNet。设计这种新产品识别模型的目的是使“几乎所有照片都可以用于购物”。 

GrokNet目前为Facebook的点对点购物平台Marketplace中的买卖双方提供功能。当卖家将照片上传到Marketplace时,系统会自动列出相应属性,例如商品的颜色或材料。

Facebook表示,GrokNet可以检测出数十亿张照片中的精确、相似(通过相关属性)或一同出现的产品,且在Marketplace上执行搜索和过滤的效率至少是类似算法的两倍。

例如,与Facebook基于文本的归因系统(只能识别33%)相比,它能够识别90%的家庭和花园列表。

作为有限测试的一部分,除了在Marketplace卖家列出商品之前从图像生成颜色和材料的标签外,它还用于在页面管理员上传照片时在Facebook Pages上标记产品。

看来,以后在Facebook上被自动标记的,不只是你朋友的脸。

Facebook表示,在培训GrokNet的过程中,它使用了具有挑战性角度的真实卖方照片以及目录样式的价差。

为了使所有国家,语言,年龄,大小和文化尽可能地具有包容性,它抽样了不同体型,肤色,位置,社会经济阶层,年龄和姿势的示例。

Facebook开发了一种使用GrokNet作为反馈循环自动生成其他标识符的技术,而不是使用会花很多时间的产品标识符来手动注释每个图像,因为产品标识符已经使用了很长时间。

利用对象检测器,该方法可以识别图像中可能产品周围的框,然后将框与已知产品列表进行匹配,以将匹配项保持在相似度阈值内。结果的匹配将被添加到训练集中。

Facebook的GrokNet架构

Facebook还利用了每个培训数据集都具有固有难度的情况。较简单的任务不需要那么多图像或注释,而较困难的任务则需要更多图像或注释。

公司工程师通过将大部分培训分配给具有挑战性的集,而每批只分配少量图像给简单的图像,从而同时提高了GrokNet在不同任务上的准确性。

产品化的GrokNet具有83个损失函数(即,将变量的事件映射到表示与事件相关的某些成本的数字的函数),可以预测给定图像的一系列属性,包括其类别,属性和可能的搜索查询。

它仅使用256位来表示每个产品,就产生了类似于指纹的嵌入,可用于诸如产品识别,视觉搜索,视觉上相似的产品推荐,排名,个性化,价格建议和规范化等任务。

Facebook表示,将来,它将把GrokNet用来为Marketplace的店面赋能,以便客户可以更轻松地找到产品,了解这些产品的穿着方式并获得相关的配件建议。

“这种通用模型使我们能够利用更多的信息源,从而提高了准确性,并且胜过了单一的垂直关注模型。” 

基于SLAM技术的3D重建和AR试用/试穿

第二个AI模型为Facebook的3D视图功能提供了支持,该功能现已通过测试,在iOS的Marketplace上提供。

基于2月份推出的Facebook3D照片工具,这个模型对手机实时视频进行后期处理,以创建可旋转并向上移动至360度的交互式伪3D表示。

Facebook使用一种称为同步本地化和映射(SLAM)的方法进行重建,该方法可以在跟踪代理人(智能手机)位置的同时创建和更新未知环境或对象的地图。

智能手机的姿态在3D空间中重建,其路径通过检测异常间隙的系统进行平滑处理,并将每个姿态映射到校正不连续性的坐标空间中。

为了保持一致性,将平滑的相机路径映射回原始空间,从而重新引入了不连续性并确保了物体的可识别性。

Facebook的SLAM技术还结合了对帧的观察以获得稀疏的点云,该点云由任何给定捕获场景中最突出的特征组成。

这个云充当了相机姿势的指导,这些姿势与最能代表3D对象的视点相对应;图像以某种方式失真,看起来像是从视点拍摄的。

启发式离群值检测器会发现可能引入失真的关键点,并将其丢弃,而相似性约束使重构的无特征部分变得更加僵硬,而散焦区域看起来更加自然。

除了3D重建之外,Facebook表示将很快利用其Spark AR平台结帐功能,使客户能够看到物品在各个地方的外观。

已经有Nyx,Nars和Ray-Ban等品牌在Facebook Ads和Instagram中使用它来增强现实的“试穿”体验。

该公司计划支持试穿各种物品,包括家居装饰。和家具-包括商店在内的各种应用程序和服务,Facebook的功能使企业可以通过网络直接进行销售。

自动分割识别服装产品:实例蒙版投影

为了使诸如Marketplace之类的服务能够在图像中自动隔离服装产品,Facebook开发了一种细分技术,该技术声称与几种基准相比,它可以实现最先进的性能。

这项技术被称为“实例蒙版投影”(Instance Mask Projection),可以发现腕带、项链、裙子和毛衣等在不均匀的光线下拍摄或部分被遮盖的物品,甚至可以以不同的姿势出现在衬衫和夹克等其他物品下。

Instance Mask Projection可以检测整个服装产品并大致预测其形状。该预测用作改进每个像素的估计的指南,允许合并来自检测的全局信息。预测的实例图被投影到一个功能图中,用作语义分割的输入。

据Facebook称,这种设计更便于进行服装分析(涉及复杂的分层、大的变形和非凸体)以及街道场景分割(重叠实例和小对象)。

下一步:AI时尚助手!

Facebook表示,其目标是有一天将这些不同的方法结合到一个系统中,即时提供与个人口味和风格相匹配的产品推荐。

它设想了一个助手,该助手可以通过分析一个人的衣橱中的图像来学习喜好,例如,让人可以尝试收藏并出售其他人可以预览的服装。

为此,Facebook表示,其研究人员正在制作一个“智能数字壁橱”的原型,该壁橱不仅根据计划的活动或天气提供服装建议,而且还根据个人产品和美学提供时尚灵感。

Facebook预计最终将需要新的系统来适应不断变化的趋势和偏好,理想情况下,该系统将从对潜在所需产品的图像的反馈中学习。

它最近在Fashion ++方面取得了进展,它使用AI来提供个性化的穿搭建议,比如添加皮带或半折衬衫。

但该公司表示,在真正的预测性时尚助手成为可能之前,必须在语言理解和个性化体验方面取得进步。

可能,AI充分渗透进现实,开启社交无缝购物、智能穿搭助手的那一天,离我们真的不远了。

参考链接:

Facebook详细介绍了其购物体验背后的AI

https://venturebeat.com/2020/05/19/facebook-details-the-ai-behind-its-shopping-experiences/

Facebook开发了新的AI技术,有一天可以使“一切都可以购物”

https://www.zdnet.com/article/facebook-develops-new-ai-techniques-to-one-day-make-anything-shoppable/

网址: Facebook发布新购物AI,通用产品识别的计算机视觉系统让「一切皆可购买」 http://www.xishuta.com/newsview23470.html

所属分类:互联网创业

推荐科技快讯