得场景者得AI天下出行赛道跑出了一家值得关注的数据玩家-开云集团管理有限公司

2026-05-27 00:41:54

得场景者得AI天下出行赛道跑出了一家值得关注的数据玩家

分享到：

得场景者得AI天下出行赛道跑出了一家值得关注的数据玩家(图1)

　　然而，AI开始转向理解并作用于真实的物理世界之时，一个尴尬的现实也随之浮现：

　　训练这些模型所需的真实物理世界交互数据，极度稀缺——缺到甚至有业内观点认为，需求与供给之间，可能存在近十万倍的差距。

　　因为过去的大模型，靠海量文本和图片就能完成语言理解与生成，但具身智能需要的是“决策→行动→反馈”的完整链条——这些静态、缺乏因果和交互的数据，很难再满足需求。

　　行业迫切需要一种全新的数据：来自真实物理世界、带有因果逻辑、能持续产出的交互数据。

　　于是，高质量的物理世界数据，成为当下战略级的稀缺资源；而能为行业持续、低成本、大规模生产物理世界数据的玩家，也逐渐被推上风口。

　　有意思的是，业内人士告诉量子位，AI时代最大的物理世界数据入口之一，很可能正在从一个很多人意想不到的行业里诞生，那就是出行平台。

　　你可能并不知晓，平日里常用的出行服务平台，除了出行服务之外，正在用数据新业务“赚外快”。

　　出行服务行业，最近逐渐流行起一门新的生意：手握海量真实道路一手数据源的平台们，正通过数据资产化、服务化等方式，开辟第二增长曲线。

　　如祺出行在2025年财报中披露，以AI数据业务为主要收入来源的技术服务板块，已成为公司增长最快的板块。

　　而这个AI数据业务，指的是如祺出行的数据业务板块（以下简称“如祺数据”），最早布局于2023年。

　　彼时，如祺出行在2023年5月获批了乙级测绘资质，开始将那些搭载激光雷达、高精度惯导、周视与环视摄像头等传感器的智能驾驶数据采集车，投入常态化运营。

　　这些车辆在提供出行服务的同时，也在合规采集真实的驾驶和道路数据。而如祺数据也在采集数据的过程中，不断延伸其数据服务能力。

　　公开信息显示，其数据资产已覆盖标注数据、行为数据、合成数据及多模态训练数据集四大类，涵盖从原始采集到加工交付的全链条。

　　这其中，标注数据是基础，行为数据则记录了驾驶员在实际道路环境中的操作决策，合成数据用于补充长尾场景，多模态训练数据集则覆盖图像、文本、音频与视频，可以直接用于大模型的垂类微调。

　　截至2026年5月，公司在广州、上海、重庆、沈阳等城市，部署了超过300辆智能驾驶数据采集车。

　　通过近三年的常态化运营，这些车辆的日均产出已经达到1600小时、130TB；平台亦累计沉淀出千万级的高价值驾驶场景片段。

　　这些片段背后，本身就是完整的真实世界交互过程。从这个角度看，平台产生的数据，更像是在持续生产物理世界的“切片”。

　　在如祺财报中，2025年，以AI数据服务为主要收入来源的技术服务板块，录得营收1.6亿元，同比大增487.4%。

　　如祺数据的客户结构也能验证这一结论。据介绍，公司服务目前已覆盖智能驾驶、具身智能、大模型、消费电子、医疗等多个领域；腾讯、小马智行、理想、火山引擎、百度智能云、广汽集团等头部企业都是其客户。

　　也就是说，从出行服务衍生出的数据服务，已经具备跨行业解决实际需求的能力，并且能跑通从数据采集、加工到商业化交付的完整闭环。

　　具备全链条数据服务能力的如祺，不再只是一家出行服务商，也不单单是传统的数据标注服务商，而是在向“数据集+全栈能力”的综合服务商升级。

　　而这种“数据集+全栈能力”的闭环能力，很可能也会成为下一代AI中，不可或缺的底层基础设施之一。

　　一切要从李飞飞对世界模型的定义说起。她认为，当前主流的大语言模型存在一个致命缺陷，就是缺乏“空间智能”——即对三维物理世界进行感知、推理和行动的能力。

　　因此，李飞飞倡导构建一种全新的AI系统，让机器能像人类一样，理解三维物理世界的运行法则，并完成互动。

　　这套系统，就是她所说的“世界模型”。而世界模型需要具备三个最核心的标准：生成性、多模态性、交互性。

　　这意味着，训练下一代AI所需的数据，必须同时具备这三个特征，尤其是“交互性”——数据不能只是被动的视觉呈现，还必须包含“动作-反馈”闭环的完整因果链条。

　　但问题在于，当前行业能够稳定获取的物理世界交互数据，远远无法满足训练需求。

　　这正是当前行业面临的核心瓶颈。高质量、高保真、带交互标签的物理世界数据极度匮乏，需求与供给之间存在巨大缺口。

　　每一辆数据采集车，本质上都是一个移动的感知终端，在完成日常出行服务的同时，同步记录“驾驶员决策—车辆响应—环境反馈”的完整交互链条。

　　如祺数据不仅会记录3D障碍物的位置信息，还会同步采集汽车底盘的CAN信号（反映车辆状态，如方向盘转角、油门刹车）、毫米波雷达回波、激光点云与摄像头视频。

　　这些多模态数据围绕泊车场景，形成了“行为（驾驶员操作）-状态（车辆响应）-环境（周围反馈）”的联合数据集。

　　在训练AI时，这类数据不仅能告诉模型“是什么”，还能帮助模型理解“为什么”，比如为什么要避让、如何判断车位可用性等需要物理常识和因果推理的任务。返回搜狐，查看更多