首页科技快讯一个顶级AI产品经理的自我修养

一个顶级AI产品经理的自我修养

来源：晰数塔互联网快讯时间：2024年04月08日 10:41

光年之外最近在做什么？

曲凯：应该很多人都会好奇光年之外最近都在做些什么？

Hidecloud：最近我们发布了一个 AI 驱动的儿童绘画产品，叫 Dodoboo，将小朋友的几笔涂鸦自动优化成一张比较精美的图画，激发孩子的创造力和自信心。

我们在这件事上做了一些小的创新。市面上已有的涂鸦增强产品，大部分是需要你先写一个 prompt 再画画。但我们的目标人群是 5~10 岁的小朋友，让他们写 prompt 其实是不现实的，所以我们是让他直接动笔画就行了，不需要事先想自己要画什么。这样的话，在同类产品中我们表现还不错。

曲凯：这类产品，它给用户的那个点是什么？

Hidecloud：这个很有意思，我们的产品是做涂鸦增强的，我们本来认为涂鸦本身就是 aha moment。后来工程师想到一个 idea，他说除了这边画画，那边 AI 出图之外，是不是也应该支持把 AI 生成的图再拖过来，进行二次创作？

后来他自己就把这个功能给做了。实际做出来之后，我们发现了一些新的嗨点。

把生成的图拖过来，基于生成的图又生成了一张新的，再拖过来再生成新的，你会发现那个画越变越美，细节越变越多，纹理越变越好，整个过程我们自己就能玩得特别嗨。

所以那个时候我意识到一件事：以前我们可能会觉得对于大模型应用，都是人给它一个 prompt，但这个 prompt 是否一定要来自于用户？我觉得是不一定的。

像我自己去年七八月份，看了很多产品之后，我当时有个判断：我很难想象两三年之后有一款大规模流行的 AI C 端产品，它的主流使用场景是用户拿着手机在那打字。因为打字是非常消耗人精力的事，成本太高了。

所以当时我在想，我一定要做低 prompt 甚至 0 prompt 的产品。像刚才我描述的那个场景，把一张图拖过去再生成下一张图，这就是一个几乎 0 prompt 的过程，但它给你带来的娱乐体验是非常有意思的。

曲凯：我觉得你刚才讲的这个场景就是非常产品经理的一个点，因为从技术上来看，完全可以做到不用拖，它就自己去不断地生成。

Hidecloud：这里面有两个感悟。

一个是在交互这件事上。其实有时候像这样一些人机交互的机会是藏在代码里的，比如在工程上，其实非常好实现 “自动迭代 10 轮”。但我们发现，当把这个过程展开，让人参与进来的时候，这个过程本身就是具备消费价值的。

这其实就非常需要产品和工程之间有紧密的结合，你要理解整个的运作过程，你才能知道这其中哪一部分是可以抽离出来的，哪一部分是人可以以适当的方式参与进去的。这其中会有很多值得挖掘的点。

还有一个点在于，像我刚才描述的那个场景，从一张草稿变为一张精美的画作，对我来说消费的是过程，但对于我身边的同事来说，他们欣赏的是内容本身。

所以，AIGC 里，G（Generate）和 C（Content）都是具备消费价值的。我觉得最终不一定是每个人都来 G，有可能是少部分人来 G，而绝大部分人是来消费 C 的。只不过我们需要思考怎样用一个合适的形式，让用户参与进来，不管消费的是最终的产物，还是过程本身。

今年 toB、toC 都会有现象级的产品出来了

曲凯：做了半年多的 AI 产品，现在的你对于 AI 的理解和之前有哪些区别？

Hidecloud：行业内一直有一种说法，闭源模型永远会领先开源模型。但从我们自己的实践来看，最近半年，整个开源社区的进展是异常的夸张。每个星期都像过年一样。整个学术界和产业界对于开源社区的贡献，已经超过了我在半年前我对我所能够利用的 AI 能力的想象。

当然你也可以说这不算什么，闭源的某公司拥有更强大的模型能力，但我觉得 so what? 如果现有的开源社区已经提供了足够好用的模型能力，我为什么还一定要追求最强大的呢？

曲凯：我理解你的意思是，现在的各种开源模型、开源算法，其实相当于产品经理的弹药库。有的人有原子弹，但也无所谓，平时也用不上，只要够用就足够了。所以目前你的弹药库里大概都有哪些东西？

Hidecloud：比如先从我们最熟悉的语言模型开始说起。

从整个开源社区的角度来看，有两个比较主流的方向，一个是 Llama 2，另一个是 Mistral。市场上绝大部分 fine-tuned 的版本都是基于它们两个做的。

另外，在视觉语言模型方面，开源社区里也有非常多好用的。

比如 LLaVA，它是基于 Llama 的视觉语言模型，可以用它做一些图片描述。现在只要给它一张图，它便能够给出非常 detail 的图片描述，我有时候甚至都没能注意到这个图上居然还有这个细节，这在半年前都是想都不敢想的技术。

图像方面的话，在 Stable Diffusion 生态里，有两个我觉得是去年比较重要的工作。一个是 ControlNet，另一个是去年年底的 LCM（Latent Consistency Model）技术，它核心解决的是效率的问题。

以前就算你有 4090 的卡，跑一张图也得至少 10 秒，但是有 LCM 之后，它可以把出图的时间直接压缩到毫秒级别。

像以前的一些图像生成场景，可能需要二十几秒的延迟。但谁能想到半年的时间，就已经可以做到毫秒级出图，这在产品中的想象空间就变大了很多。

视频和声音方面，像 Pika、ElevenLabs 这种最顶尖的商业产品，它们的大部分模型能力，都能在开源社区中找到对应的方案。当然这其中可能需要一些界面上的包装、模型间的微调。

曲凯：但既然弹药库里已经有这么多武器了，也能更低成本、更高质量地完成了，为什么在过去半年里，我们没有看到更多像妙鸭这样的爆款应用出来？

Hidecloud：这个问题非常有意思。

我觉得这一波 AI，不光是要站在用户需求和商业视角上做产品，更多是要去理解模型的能力边界。我很 buy in 王小川提过的一个观点：上一代产品经理解决的是 PMF，即产品和市场的 fit，这一代产品经理还要先解决 TPF，即产品和技术的 fit。

我上周末做了一个 AI 行业的分享，分享的对象是行业里一帮顶尖的，彼此认识了快 10 年的产品人。说实话我的分享只是一些很基础的，关于 stable diffusion 底层原理的认识，但即使是这样，对于这批顶尖的产品同学来说，大家仍然会觉得这是很崭新的认知。

所以我自己有一个很大的感受是，绝大部分人，只是保持了一种兴奋、震惊，但真的去理解整个学术界和工业界进展的同学，是非常少的。AI 火了一年了，但是你看有多少人真的入行搞 AI 了？至于真的去理解每个月的技术进展，最新模型的能力边界、原理的人，就更少了。

所以我觉得这也是为什么过去半年，没有出来那么多新东西的原因。

曲凯：他们是没有去理解最底层的这些技术，还是他们没有及时读 paper 去理解最新的技术？

Hidecloud：都有。

曲凯：为什么是产品经理要来读这些东西？因为像以前这些技术问题似乎都交给 CTO 去做就好了。

Hidecloud：现在的产品大都比较薄。我自己对现在产品的定义是 model as a product，即 model 本身的输入和输出，决定了产品整体的交互。

当然我们不排除未来 AI Native 的产品会越做越深，model 在其中的占比会越来越低。但至少在当下，模型能力还和变戏法一样，它本身对用户来说就已经很新鲜、很有价值了，那这个时候产品经理如果不能去理解模型的能力边界的话，你就很难去把它和用户需求连接起来。

我见过有的团队，尤其是在大厂里，产品、技术和模型分三家，然后他们三家就仿佛在隔空对话，产品也不知道模型能做什么，技术也不知道产品这边到底想满足什么样的用户需求。

曲凯：这是不是也能解释，为什么现在很多很好的产品是小团队做出来的？

Hidecloud：对，产研之间的配合需要非常紧密。

曲凯：我理解肯定是有相当大比例的人存在这些问题，不管是组织结构跟不上，还是他日常的学习习惯跟不上。但肯定也还是有一小撮人是很优秀的，但他们目前也没有 deliver 出什么成果。你觉得其它的一些阻碍是什么？

Hidecloud：还有一个阻碍点在于，现在的互联网已经不是 20 年前的互联网了。消费者不管是在效率方面的需求，还是娱乐方面的需求，都更深了。你要去竞争的是抖音，是 Office。那现在的 model as a product 本身还太浅了，没法儿立刻满足这些复杂的用户需求。

曲凯：有道理，Albert （拒绝三亿美金 offer 的人 | 42章经）之前也跟我提过，他探索 AI 游戏的时候，也会问自己一个问题：为什么大家不去玩王者荣耀？

Hidecloud：简单来说，如果抖音是 100 分，那我们现在有 10 个 AI 产品在竞争，最低分 30 分，最高分 50 分，你竞争过了所有人，也竞争不过抖音。

曲凯：虽然整体的体验是 30 分，但有没有可能有一个点，我就是为了它而来，这个点可能在某一个维度上达到了 100 分？

Hidecloud：这对某些人群来说是成立的。

比如我一直在 track C.AI 的付费率，我发现有一个非常稳定的人群，这半年以来，这个人群的续费率始终保持在 94%。

但核心的问题在于这个人群的规模有限，很难破圈。如果要找一个更通用的点，目前这个行业还没有找到。

但现在的 AI 产品也冒出了一些好的苗头，像我两个前同事做的产品，一个是 Answer.AI，一个出海教育产品，另一个是 AiPPT，这俩产品的粘性都非常好，如果去细究产品，你会发现它不是单纯的 model as a product，它里面有很多其它的设计。

曲凯：我觉得现在的产品处于两个极端。

一种是 90% 的 model，10% 的传统功能，这一类大家就会觉得很薄，更多是一个玩法，可能突然火一下，就消失了。另一种像你举的 AiPPT，我觉得是反过来的，它可能 90% 是旧有的东西，只有 10% 用到了 AI。

但大家期待的似乎是比较偏中间的那种，一半的模型，一半的产品，这样又有一些神奇的能力，又不会显得太薄。

Hidecloud：我个人不太喜欢在这种事情上下定义。

从历史上看，产品的形态往往是由行业演进而来的，并不是规划出来的。并不是我们说最好是一半一半就一定是一半一半，它是被市场教育、被用户牵引，最后形成了一个情况。很难说什么是最好的。

曲凯：对，但这里涉及到一些问题，我想先问下你，你认为未来的大模型产品是否是端到端分离的？公司是不是一定要自己有模型、训模型？

Hidecloud：这个问题我最近有一些相对成型的想法了。

我不认为现在所有做应用的团队，一定要从零开始 pre-train 一个模型，但我认为团队一定要具备操纵模型的能力。

操纵模型是指，你能根据业务需求，用不同的数据重新引导这个模型，不管是通过 fine-tuning 还是 LoRA，还是做模型的裁剪、蒸馏，你要具备这些能力。

曲凯：对，回到刚才的问题，如果是模型能力很重要的话，那就是模型能力强的人有更好的产品表现。像现在那几个大模型公司拿了这么多钱，它们可以随便招几个人做个产品矩阵。

另外一种情况是，如果是模型占比不高的话，那就是传统的大企业 + AI 是更有效的。

所以这两条线是大家比较 buy in 的，要么是传统大公司 + AI，要么是赌模型，在模型公司里面做应用，但在中间，创业公司做产品到底能做成什么样子，以及最后是否会像移动互联网一样，能把所有东西都重做一遍，这可能是大家还不那么确定的。

从你的角度看，你相信未来所有东西都能被重做一遍吗？

Hidecloud：你看移动互联网的时候，大家一开始想到的都是，我去做一个移动的 Google、移动的淘宝，但最后发现，移动的 Google、移动的淘宝，都是它们自己做出来的，并没有被另外一个公司取代。

真正起来的东西是抖音、是小红书，这些都是 PC 时代没有的。

所以我觉得这一波 AI，不一定什么东西都要重新做一遍。会有很多场景，随着 AI 本身渗透率提高，能慢慢涌现出一些之前从没出现过的需求。

曲凯：你们内部在试的过程中，有发现什么类似的新需求吗？

Hidecloud：很难说，但让我去 bet 的话，在两三年左右的时间里，我非常看好类似 C.AI 的情感陪伴类的场景。

原因是我做了一些相关的实验，然后我突然意识到了一件事情，人类的情感太容易被 hack 了！

我当时用 GPT-4V 模型做了一个很简单的 demo：它会读取你手机中最近的几张照片，并输出为图片描述，然后将图片描述发送给另外一些我用 GPT 做的 agents，这些 agents 是各种人设，比如我的朋友、我的粉丝，这些 agents 看到我的图片描述之后，会像评论朋友圈那样给我留言。

后来我觉得光夸我也没意思，就又做了几个黑我的，以及几个进一步帮我辩护，帮我回怼的。

你想，整个过程，想法是我的想法，agents 的人设是我写的，整体 pipeline 是我搭的，我是一个全知全能的上帝视角，理论上我对于它们输出的内容是有心理预期的，我不应该会被它们所影响。但当我第一次运行这整个 workflow 的时候，我看到这些 agents 在下面有的夸我、有的黑我、有的维护我的时候，我的内心真的被扯动了。

我之前也会看一些经典的心理学实验，看的时候觉得不可思议：怎么人类的情绪就那么容易被操控了呢，但当我自己亲身经历完，当时那一下我就觉得，人类的情感太容易被 hack 了。

你想，如果是一个普通用户，他无法知道这背后的原理，他甚至会觉得这是真的。

所以我相信基于 AI 的情感陪伴一定是一个非常大的机会，人太容易对一个东西产生情感依赖了。

曲凯：你们这几个月在摸索的过程中，感觉现在 AI 产品核心遇到的几个问题是什么？

Hidecloud：成本是蛮大的问题。以前做互联网创业，尤其是近几年，工程层面的开销，几乎在整体成本当中可以忽略不计了，但 AI 产品不一样。

曲凯：这是不是最大的一个区别啊？因为我们也在聊一些团队，大家总在好奇为什么看不到产品，但很多时候是，他们也做出 demo 了，但不敢放，因为放出来可能马上就烧光了。

Hidecloud：对对对，所以做 AI 产品，day one 就得收费。

曲凯：今天的成本和半年前或者一年前相比，大概下降了多少？

Hidecloud：图像领域相比半年前，大概降了 10 倍。

但仍然不够。因为虽然成本在下降，但需求在增加，生成的要求也变高了。可能在半年前，聊 10 句出一张图就满足了，但现在是希望用户能一边聊天，旁边还有个图像同时在动。

曲凯：回到刚才谈到的成本问题是主要问题，还有其它的吗？

Hidecloud：其它的我觉得就是实际的模型能力进展，再给半年时间应该差不多了。

像语言模型，按现在的需求来看已经是完全够用了。只不过在用语言模型的方式上，大家可能需要开阔下思路，比如不一定是单语言模型，可能是不同任务拆到一些不同等级的模型上，或者有时候同一个 query 可以是多个模型配合参与。

现在，语言模型和视觉语言模型我觉得都 ready 了，多模态模型可能还需要 3~6 个月的时间成熟，到时候可能也会再涌现出一些新的产品。

曲凯：所以按你的预期，今年我们是能看到一些新产品的？

Hidecloud：对，我还比较有信心。不管是 toB 还是 toC，今年应该都会有一些现象级的产品出来了。

曲凯：因为你也会跟很多同行交流嘛，你自己是偏乐观还是偏悲观的？

Hidecloud：我是短期偏谨慎吧，中长期乐观。

曲凯：你这谨慎派也已经很乐观了，那我们今年可以好好期待一下。

产品经理该如何学 AI ?

曲凯：你之前做的那个产品经理的分享中，还有没有哪些核心的点是可以给大家总结下的？

Hidecloud：我大概讲了 3 个方面。

第一个方面是关于 Stable Diffusion 的底层原理。而且我发现，在你理解了原理之后，对于产品形态也会产生很多不一样的认知和想法。

比如我有提到一个点，当你把 Stable Diffusion 的底层原理理解透之后，其实你会发现，它是一个从完全没有信息意义、完全随机的噪点中，通过不断地降噪，从而提取出有信息意义的图像的过程。

也就是说，假设有一个 xy 轴的平面空间代表了全世界所有的概念，Stable Diffusion 从中随机取一个点就能还原出一个图像。

这让我想起我以前做推荐算法的那个时候，其实我们在刻画用户画像上已经能做得很精准了，都不用是大厂，一个普通公司，只要有足够的数据，就能把用户刻画得足够好。

现在最棘手的是，当我圈出了用户所有的喜好，但我试图在内容库中去做匹配时，却没有足够多适合的内容推荐给他。

因为内容的供给目前是非常稀疏的。首先它不精准，其次它的供给有限，第一个是最靠近的，后面就越靠越远。

但当你理解透了 Stable Diffusion 的底层原理，你再回过头来想这件事，你会发现未来充满想象——我无需在内容库中预先备好内容，我只要描绘出来你喜欢什么，之后在你喜欢的那个空间里，我就能给他提供一个人一辈子所能消耗的无限的内容供给。因为空间是可以无限展开的，其中的每一个微小的点都能被 Stable Diffusion 还原成一张图像、一段视频，或者是任何你喜欢的形式。

如果你不理解它的底层原理，那你是没有办法去重新思考搜索、推荐，以及上一代我们所做的东西的。所以理解技术原理非常重要。

第二和第三个方面都是关于产品经理应该怎么学 AI 的，核心就两个点：坚持读 paper 和自己多动手。

读 paper 还是非常重要的。AI 还处在很早期的发展阶段，我当时总结过 Stable Diffusion 的发展历史，整个时间线看下来也就只有 3 年的时间，所以基本上就是那八九篇经典的 paper。全部读完然后串在一起，整个原理你就了解了。

可能再过 5~10 年，当很多事情变成常识了以后，懂不懂原理区别不大。但在当下来说，读 paper 是能带来极大的信息增量的。

曲凯：你读是精读吗？

Hidecloud：我会把 paper 分成两大类。

一类是范式型创新，另一类是雕花型创新。雕花型的我一般就快读，只看其中的亮点，看它在雕什么花，通过什么方法、提升了什么点，范式型创新我都是会细读的。

我现在一天基本上读两三篇左右。如果看到一篇论文有很多亮点，就很有那种精神上的爽感。

读 paper 还有一个好处，它真的能帮你在产品设计和技术改造上带来直接的收益。

比如上次我读到的一篇，它里面提到了六七个不同的优化点，我一看，靠，这个点我们可以直接拿来用，那个点我们也可以拿来用。其实 paper 并没有那么神秘，里面的很多优化点也并不都是算法上的，而就是传统互联网产品工程上的一些优化设计，怎么做扩展、怎么用空间换时间、内存换速度等。

第三个方面是一定要自己多动手。

就算你完全不会写代码，像 Hugging Face 上的 demo、paper 里的 demo、GitHub 里的小项目，很多也都是可以直接体验的，你就尽可能都去体验一遍。

体验分为很多种，最简单的就是在本机上跑 demo。要么就是你 Windows 本机有个 Nvidia 显卡，要么你在 Mac 上面，比如你只要是 M 系列的芯片，然后有个 32G 的内存，绝大部分的模型都能跑得起来，7B、13B 的版本是完全没问题的。

这种实际的动手体验其实是找感觉的一部分，因为当你只是去看别人的讲解、公众号的文章，你自己是没有那种很实际的体感的。

我记得我第一次在本地把大语言模型跑起来的时候，跑起来的那一下，就是你看到自己的这个电脑开始吐字的时候，那种感受非常不一样的。

曲凯：Hello World 的那种感觉？

Hidecloud：对，非常震撼，会刺激你产生非常多对产品的想象。

另外如果你稍微具备一点点代码能力，你就可以多去做一些小实验，去满足一些自己的想法。整个过程你能 get 到其实模型的运营并没有想象中那么简单，但中间的很多环节，都是有潜在的产品机会的。

比如我在调配模型的时候，突然发现这个模型出来的结果很有趣，但普通用户不能直接用，因为这中间涉及到非常多的数据预处理环节。比如给用户做声音克隆，中间有七八步的声音预处理，那普通用户根本用不了。但这就是产品机会，你可以帮他把数据预处理环节压缩成一个训练过程，直接给用户 deliver 最终的结果。

如果你没有自己去实际体验，首先你感受不到最终结果出来的那奇妙的一刻，其次你也根本不知道要做的和最终的结果之间有哪些步骤、哪些障碍。

所以多体验 demo、多 build，培养的是你整体的认知，以及让你去思考在产品、工程上还有哪些机会。

AI 行业还是太早期了，你做一点微小的工作，都能给你带来非常大的回报，ROI 很高的。

AI 时代，产品与技术的配合会发生哪些变化？

曲凯：AI 时代的产品经理，跟技术侧到底该怎么合作？

Hidecloud：像我们在研究文生图的时候，就发现了一个新的产研配合范式。

在 Stable Diffusion 生态里有两个非常出名的 WebUI，一个是 AUTOMATIC1111，另一个是 ComfyUI。我主要在用 ComfyUI 工作。它可以简单理解为由大量的 node 节点组成的 workflow。它的 input 可以是一段文字，也可以是一张图，output 通常是一张图，所以只需要根据需求搭建出 workflow，便可将其直接导出为 API。

这就和之前的开发方式截然不同。

以前的开发方式是产品经理先大致梳理出业务流程和预期结果，再和负责模型、算法的工程师去沟通，但这在 AI 时代是非常不现实的。

首先因为技术本身更新太快，其次在生产过程中有很多参数和细节是需要去调整的。所以如果还是按以前的开发方式，产品经理和工程师之间 back and forth 的沟通就太长了。

但现在有了 ComfyUI，我可以自己改 config，比如这个效果不好，我可以立马改个参数重新跑，这个反馈基本上是实时的。

以前做偏后端的业务逻辑功能的产品经理，过度依赖于后端公司去实现，而现在可能就是通过搭建一个 workflow，一个 pipeline，就解决了。

曲凯：所以你觉得以后产研配合会变成什么样子？

Hidecloud：以前的产品经理之所以依赖工程师，是因为有很多业务逻辑必须通过代码语言去实现。而现在来看，至少可以通过某些工具，将自然语言直接转变为 workflow 的形式。

甚至，未来大模型可以直接把自然语言转变成业务逻辑的抽象表达，可能是一些可视化的 pipeline，也可能是另外一种标记型的语言。

所以以后的业务逻辑部分，可能会完全由 PM 和运营自己搞定，工程团队会更关注如何做并发、做性能、做扩展等更后端的工作。

曲凯：现在有人说 AI 时代一定得是懂技术的产品经理，你怎么看？

Hidecloud：我觉得这是一个阶段性的机会。在这两年时间里，很多 best practice 还没有变成行业常识，你比别人先理解它，你就有优势。但也许两三年之后，所有这些都变成常识了，那到时候也许也不一定非要懂技术。

曲凯：招聘上呢，你们大概喜欢招什么样的人？

Hidecloud：很难说，因为样本太小了，所以现在是聊到合适的就 ok。

但大体上首先要对 AI 有热情，跟你聊到一些常见的 AI 产品，你得用过，有一些对这些产品的观察和思考。

不过即便是这点要求，在面试过程中我们发现也很难达到。像我们用 Perplexity， ChatGPT 等，不管是在 prompt engineering 还是在提问的形式上，都能总结出很多小技巧。但在面试中，我会发现大家的整个体验深度还是非常浅的。比如我就问一下你有没有创建过自己的 GPTs，可能 10 个人我能刷掉 9 个，大家还是不太愿意动手，只喜欢看别人输出，但你自己一动手，那个信息量比你看 10 篇文章都大。

曲凯：最后，all in AI 了大半年，现在感受怎么样？仍然觉得是塞班之后最大的机会吗？

Hidecloud：我现在其实信心更足，这个确实没有看错，真的就是移动互联网之后的第二次大机会。

本文来自微信公众号：42章经（ID：myfortytwo），作者：曲凯