对话 vivo 胡柏山：手机行业就是最典型的新质生产力，MR 原型机今年见

2024 年的最后一周，爱范儿等媒体来到了 vivo 位于东莞的总部，与 vivo 执行副总裁，首席运营官胡柏山进行了一场畅所欲言的对话，聊了市场格局，AI 进程和应用，以及关于 vivo 产品的未来方向和规划，其中包括对于折叠屏市场的思考，对于 MR 眼镜、人形机器人以及 AI 眼镜的规划和看法，还有 vivo 的强项：影像。以下是关于产品层面的对话纪要（为便于阅读，对话经爱范儿重新编辑）：长焦和视频还有提升空间，手机 AI 任重道远 Q：怎么看 AI 目前的状况，AI 未来取代影像成为手机第一卖点吗？现在旗舰机的影像水平到头了吗？胡柏山：我们先聊影像，我们自己所定位的最终目标是取代绝大部分的单反相机的场景，我说的是场景。所以它的天花板还是非常高的。我之前也说过，X200 Pro 的主摄从上代旗舰的 1 英寸往回退到 1/1.28 英寸，但是用户体验没有下降，没有下降原因就是芯片处理能力加上影像算法又提升了一大步。这个说明一个问题，主摄的用户体验已经到了一个不错的水平，如果打个分的话，假设常规焦距的单反是 100 分，现在我们的主摄接近 80 到 85 分。但是在长焦和视频上，跟单反差距还是比较大的。如果继续打分的话，主摄是 80 到 85，长焦大概在 60 分，勉强及格。演唱会场景下，10 倍焦距的时候，我们的 X200 Pro 还是 OK 的，20 倍的时候也就是说你坐在外场的时候，在晚上的拍摄效果，能够看得清楚这个人是谁，但是用户还是不敢把照片拿朋友圈分享，因为有点拿不出手，但是 10 倍可以拿的出手。在长焦这一块上，我们的手机影像离单反有比较大的距离。争取 3 到 5 年，vivo 能够把长焦提升到 80 分这个水平，这个机会还是存在的。虽然手机的内部空间利用已经到了极限，其他的提升空间在哪里？影像传感器的感光能力还可以通过技术继续提升，另外大模型和影像算法还可以有很大的提升。这就是我对 vivo 未来把长焦做到 80 分有信心。拍照是相对静态的，所以算法的作用空间会大很多，但是视频是动态的，视频要加一堆算法的话，功耗会有巨大的压力。当然这里也有提升空间，芯片现在是 3nm，下一代是 2nm，SoC 芯片，甚至未来专门的影像处理芯片都会进步。我们下一步也会把大模型的算法能力用在视频上，但是视频的总体逻辑是动态的，所以算法的加持能力还是会弱一些。无论是长焦还是视频，离用户高要求的满意还有不少距离，技术本身也还有很大的发展空间，所以影像依旧是未来旗舰手机的重点。再说 AI，确实是过去两年时间里大模型的产生，AI 的发挥在那还是很快。回归到手机本身讲，AI 还是有它的限制空间，手机的最大的问题是算力不够，我把手机 AI 分成了三个阶段：第一阶段就是 AI 能力加强过去一些功能，比如过去一段时间，整个手机行业比较热门的就是 AI 消除，这个功能十几年前就有，功能技术时代就有，但是那个时候算法比较低级，一直做不好。过去的语音识别能力，用深度学习的方式，做得好的可能成功率只有 90%，这种成功率你就会发现，对话搞不了几轮，每个环节失真太厉害了。生成式大模型出来依旧，语音识别能力和语义理解能力，一下子提升很多。过去我们有个功能叫电话秘书，最早是在 NEX 3 上推出，别人一听就知道是传统 AI 做出来的，说不了两句就把电话挂了。现在因为有 AI 加持，短时间内大家听不出来是 AI 在讲话。这些都还是基于某一个功能或者某一个模块的提升，跟通用人工智能（AGI）不是差一点，而是差了十万八千里。第二个阶段，我认为，是大模型能力结合到系统里去。比如说，我们过去找一个功能设置，根本找不到，因为菜单选项太多，乱七八糟。未来 AI 和系统深度耦合，能够让手机清楚地知道你的意图，知道下一步要操作什么，手机交互变得更加智能。比如我们刚开始尝试的「原子岛」，就是知道你的意图，来提出解决方案。这个阶段会跑比较长的时间，因为这个阶段用户体验，现在算力勉强可以满足。第三个阶段，就是我们在 VDC 2024 大会上说的 PhoneGPT，我们当时展示的功能就是点个外卖，说能点成功。其实每一步成功率只有 85%，跑三步就跑不动了，时间也很长，这个体验只是个模型，用户体验根本不好。真正要实现 PhoneGPT 的要求，对算力要求不是增加一点，而是增加好多倍。现在的一体架构，封装架构，以及带宽，都不够。真正 PhoneGPT，整个能力要求就是对现在高速存储，服务器端能力，带宽能力，SoC 架构要跟服务器端要接近才有机会实现。这个就跟影像一样，我们能看到用户的需求已经产生，很多模型跑在云端的服务器上，我们内部的算力中心差不多接近 1 万张算力卡，很多模型在云端可以跑得动，比如 130B 参数的模型，但这个规模在手机上根本跑不动，手机只能跑 2B、3B 的参数。所以手机真正实现 PhoneGPT，我估计没有五年，达不到用户体验上的要求。 AI 这个赛道，目前还在第二阶段，它是一个渐进式的提升，不是 0 到 1 的提升。所以 AI 对整个换机潮，目前来说，驱动力是不大的，因为用户没有感到了从 0 到 1 的突变，只有从 0 到 1 的突变发生，用户发现 PhoneGPT 能干那么多事情，他们才会有强大的换机欲望。因为我自己既管产品也管技术，所以我透露的应该都是目前我们的技术或者整个行业的技术目前所处的水平。 Q：在智能手机行业，新质生产力体现在哪些方面，最重要的是在哪些部分？胡柏山：手机行业就是最典型的新质生产力的代表，按照我的理解，新质生产力所体现出来的有三高的特点，高科技、高质量、高动能，也有四新的特点。如果以这个标准来衡量，新质生产力里面，手机就属于典型的新质生产力范畴，大家看到过去那么多年，新技术在手机上不断地迭代。我们自己非常重视的两个赛道，一个是影像赛道，一个是 AI 赛道。影像赛道里面，过去大概五年，大家能够感受到手机在各种条件下的拍照效果，这是一个突飞猛进的过程。手机替代了过去很多我们用的数码相机，甚至都把微单取代掉了，然后在部分场景也替代掉了单反，更多的消费者愿意为拍照效果好去买单，愿意多掏更多的钱来买手机使拍照效果好。 2024 年我们发布的 X100 Ultra 以及 X200 Pro，我们命名为「演唱会神器」，也是一样。这几年演唱会场景非常多，大家开各种演唱会，消费者希望把这个美好的时刻记忆下来。演唱会场景为什么需要手机？单反相机不能带入演唱会场景，所以消费者记录美好瞬间只能用手机。 AI 赛道也是如此，AI 刚起步，其实也赋能了手机很多赛道。我觉得手机行业作为新质生产力的代表，完全是毋庸置疑的，我也相信未来很长一段时间，手机还是作为最最核心的消费电子产品，能为新质生产力添砖加瓦。 vivo MR 原型机明年见，人形机器人成熟要十年后 Q：vivo 在 MR（混合现实）和人形机器人上的进展如何？胡柏山：我们 MR 跑得比较快，vivo MR 团队已经达到将近五百人，我们的目标进度是 2025 年大概 9、10 月份，高保真的 MR 体验原型机会在全国大概十几个城市的 vivo 店上架体验。从开始预约到现场体验，形成一个标准化的流程，让大家体验一下。商业化的话，我们要看整个 MR 的生态，MR 生态还是需要娱乐的内容，游戏的内容。因为 vivo 是一家比较纯粹的，不做内容生产的公司，所以内容上要看整个生态能不能及时匹配上。当然，很多信息表明业界朝有利的方向走，腾讯在内容上会加大投入，过去他们的想法是要做硬件，最近的想法是不做硬件，还是做软件，这对我们来说是一件好事。我对 MR 团队的要求是我们一定要找到我们自己认为比较刚需的场景，人群细分点没有关系，但是对细分人群来说，MR 是非要不可。就比方说，手机上玩的游戏或者主机上玩的游戏，体验是这个水平，MR 一来以后，用户发现原来那些都是渣渣，体验有巨大的提升。除了 MR 设备没带在身上以外，大部分时间，他们一有时间玩游戏就找那个 MR 上去，这就是刚需场景。关于人形机器人，去年我们也提到这个概念，为什么有这个需求大家很清楚：社会老龄化越来越严重。从趋势角度来说，机器人确实是一个方向，我们自己分析过机器人的一些关键的路径，其中有个就是空间感知。MR 的空间感知能力非常强，MR 做好以后，机器人空间感知能力不会出问题。机器人还有一个要求就是手和脚要足够灵活，它的大脑决策能力要很强。所以要实现大家理想中的机器人，我们自己的判断需要十年以上。空间感知能力以及决策能力短时间内没有那么完美，但是手和脚的能力其实是会进步比较快，像特殊场景干特殊工作的工业机器人。真正理想的机器人可能需要十年甚至十五年以上才能实现，但是我们可以分阶段实施，先比如说先限定一个范围，生产线机器人，可能干「两份活」，但是我们未来希望做「十份活」，这个能力我们也在构建，出产品没有那么快。我们现在整个逻辑是这样的，这种机器人我们内部叫做场景需求和用户需求比较明确，但是技术解决路径不完全明确。就跟之前聊影像一样，用户要的就是对标单反机拍摄，机器人属于用户场景需求足够明确，只是技术不匹配的情况。未来三到五年，我们搞清楚技术成熟的状态，我们可以根据这个技术的成熟状态，在中间这个时间点设置一个具有解决某一些局部场景能力的产品出来。说白了就是我们要搞清楚未来三到五年技术达到什么状态，包括 AI 能力。根据这个技术能力，我们在理想场景情况下，中间做一些裁剪，满足具体场景的需求，这是我们自己内部制订的一些产品周期。 Q：AR 产业链成熟进度会快一些，这块怎么看？胡柏山：对于 AR 这个产品我们这么理解，首先用户需求角度，眼镜不能太重，带显示的 AR 眼镜很重的，四五十克，这个体验不好，有些 AR 眼镜做的显示部分，显示东西比较少，这个品类暂时我们没有做，不带显示的眼镜我们会考虑。无论做哪个品类，我们都要找到我之前讲的刚需的场景，必须要找到细分人群，对这个品类来说，他非要不可，前一段时间产品同事跟我聊，我问找到非要不可的用户和场景有没有？他说找到一部分，听起来也挺有道理。因为很多用户在干活的时候，手已经被占用了。要不要不另外一个人站后面，为他服务？如果说他只有一个人，手被占的情况下，需要一个辅助设备来弥补那个场景，手机也好或者其他设备不能很好解决。所以，我们的 MR 设备的定位逻辑就是这个东西对那部分人是刚需，而且非要不可，我们找到了一些人群，应该产品快的话 2025 年底，慢的话 2026 年会出现。折叠屏需求出现了去伪存真，产品节奏会改 Q：增长了 4 年的折叠屏手机市场出现了停滞乃至下滑的情况，vivo 对折叠屏手机的规划是怎么样的？胡柏山：折叠屏可能一开始各个厂商对它的希望比较大，因为毕竟是一个产品形态的巨大的变革。回到用户需求角度来说，谁在用折叠屏？一类像我这样超过 45 岁以上，眼睛开始老花的人群，现在折叠机就解决很多眼睛开始老花，要看很多新闻或者视频，他需要手机屏幕大很多，这是解决年纪大的问题的需求。第二类人就是像在座的各位媒体人，都用折叠机，要处理很多信息，也包括我自己，要处理公司的邮件很多信息。直板机处理信息就是先是纵向的，点进去就必须要横过来，这个体验不好，而且字比较小。不管哪一类都是解决细分人群的需求，我为什么说做产品，我们还要搞清楚对哪些用户是刚需。折叠刚出来的时候中间很大一部分用户是抱着尝新的态度，过去没有用过，试着用用，结果用了之后发现对他来说并不合适。我有一个朋友，他说手机除了看微信，打电话，发短信，剩下就是刷抖音，抖音还是竖屏，折叠屏对他根本没有作用，下一部肯定不会再买折叠屏。经过前面的发展以后，折叠屏留下来的就是刚需的用户，刚才说的两类用户，去掉的就是那些尝新的用户。第一和第二类用户市场容量，其实相对没有那么大。而且很多场景，像游戏场景，折叠屏使用肯定不好，它的散热环境比直板机要差，操控体验也没有直板机好，所以折叠屏就变成了一部分细分人群的产品。这个市场规模总量多大，取决于那部分细分人群的规模，未来可能大概稳定五百万台的规模，对我们来说，我们要不要做？要做。因为用户需求角度有那些人群，但是我们要控制一下，我们上一代大折一次做了两款，一款主打影像和性能，一款偏性价比，我们计划上百万台销量，最后发现还是干了大几十万台，这个规模还是有限的。后面正常就是一年一迭代，按照这个节奏推进，把用户体验做好，毕竟始终有一部分用户是折叠刚需，比如有的用户一部手机处理日常微信，日常社交，另外一部手机看股票行情，审批文件。另外，小折叠产品这块，2023 年小折叠产品全球范围内是增长的，2024 年，行业领先品牌的小折叠掉了 30% 到40%，后续 vivo 应该不会再出小折叠产品。旗舰机价格还会涨，次旗舰体验已经相当不错 Q：今年旗舰机微微涨价，明年涨价还会继续吗？vivo 如何平衡成本价格？胡柏山：我们判断涨价可能还是持续，涨价两个因素，第一个很清楚，旗舰的 SoC 平台，半导体制程会往上再提，所以持续涨价是确定性的，都要涨，我们也在尽量跟 SoC 厂商协商，也不能涨的太猛，比如说他要牺牲他的毛利空间，我们也牺牲一点毛利空间，来维持或者说到涨价幅度慢一点，五百，我们涨三百，另外两百下一年再涨。第二个包括刚才说的影像，像长焦，离 80 分比较远，我们每年要持续投入，虽然空间不变，但是里面的实现方式，像镜头的排布，模组的实现方式，会有大的变化。大的变化以后，良率会降低，各个产品成本都在增加。旗舰机价格往上走是必然趋势，对于大部分普通用户来说，（次旗舰现在）已经做的比较好了。比方说 N-1 平台（使用上代旗舰芯片的次旗舰手机），用户体验已经比原来提升不少。我们在未来的旗舰影像也可能会布局在 N-1 平台产品上，满足用户购买力的问题。说白了，如果用户要追求极致用户体验，影像、AI、游戏的极致体验，现在对不起，还是得多掏五百块钱。不追求极致体验，一般体验，OK，N-1 平台也有很好的外观，当然也没有那么极致体验，但是对用户来说，游戏也不玩那种最猛的，就玩原神，N-1 平台完全没有问题。拍照，你不追求演唱会 20 倍长焦，你追求 10 倍，我们 X 系列的普通款也能满足的比较好。所以，用户购买力强的对体验有极致追求的，会更加往上走，但是我们中间肯定还是会布局一些合适的价位段的产品和比较好的体验的产品来满足用户的需求。