模板文件不存在: ./template/pc/header.htm

新闻资讯

2026-05-27 00:41:54

得场景者得AI天下出行赛道跑出了一家值得关注的数据玩家

分享到:

  

得场景者得AI天下出行赛道跑出了一家值得关注的数据玩家(图1)

  然而,AI开始转向理解并作用于真实的物理世界之时,一个尴尬的现实也随之浮现:

  训练这些模型所需的真实物理世界交互数据,极度稀缺——缺到甚至有业内观点认为,需求与供给之间,可能存在近十万倍的差距。

  因为过去的大模型,靠海量文本和图片就能完成语言理解与生成,但具身智能需要的是“决策→行动→反馈”的完整链条——这些静态、缺乏因果和交互的数据,很难再满足需求。

  行业迫切需要一种全新的数据:来自真实物理世界、带有因果逻辑、能持续产出的交互数据。

  于是,高质量的物理世界数据,成为当下战略级的稀缺资源;而能为行业持续、低成本、大规模生产物理世界数据的玩家,也逐渐被推上风口。

  有意思的是,业内人士告诉量子位,AI时代最大的物理世界数据入口之一,很可能正在从一个很多人意想不到的行业里诞生,那就是出行平台。

  你可能并不知晓,平日里常用的出行服务平台,除了出行服务之外,正在用数据新业务“赚外快”。

  出行服务行业,最近逐渐流行起一门新的生意:手握海量真实道路一手数据源的平台们,正通过数据资产化、服务化等方式,开辟第二增长曲线。

  如祺出行在2025年财报中披露,以AI数据业务为主要收入来源的技术服务板块,已成为公司增长最快的板块。

  而这个AI数据业务,指的是如祺出行的数据业务板块(以下简称“如祺数据”),最早布局于2023年。

  彼时,如祺出行在2023年5月获批了乙级测绘资质,开始将那些搭载激光雷达、高精度惯导、周视与环视摄像头等传感器的智能驾驶数据采集车,投入常态化运营。

  这些车辆在提供出行服务的同时,也在合规采集真实的驾驶和道路数据。而如祺数据也在采集数据的过程中,不断延伸其数据服务能力。

  公开信息显示,其数据资产已覆盖标注数据、行为数据、合成数据及多模态训练数据集四大类,涵盖从原始采集到加工交付的全链条。

  这其中,标注数据是基础,行为数据则记录了驾驶员在实际道路环境中的操作决策,合成数据用于补充长尾场景,多模态训练数据集则覆盖图像、文本、音频与视频,可以直接用于大模型的垂类微调。

  截至2026年5月,公司在广州、上海、重庆、沈阳等城市,部署了超过300辆智能驾驶数据采集车。

  通过近三年的常态化运营,这些车辆的日均产出已经达到1600小时、130TB;平台亦累计沉淀出千万级的高价值驾驶场景片段。

  这些片段背后,本身就是完整的真实世界交互过程。从这个角度看,平台产生的数据,更像是在持续生产物理世界的“切片”。

  在如祺财报中,2025年,以AI数据服务为主要收入来源的技术服务板块,录得营收1.6亿元,同比大增487.4%。

  如祺数据的客户结构也能验证这一结论。据介绍,公司服务目前已覆盖智能驾驶、具身智能、大模型、消费电子、医疗等多个领域;腾讯、小马智行、理想、火山引擎、百度智能云、广汽集团等头部企业都是其客户。

  也就是说,从出行服务衍生出的数据服务,已经具备跨行业解决实际需求的能力,并且能跑通从数据采集、加工到商业化交付的完整闭环。

  具备全链条数据服务能力的如祺,不再只是一家出行服务商,也不单单是传统的数据标注服务商,而是在向“数据集+全栈能力”的综合服务商升级。

  而这种“数据集+全栈能力”的闭环能力,很可能也会成为下一代AI中,不可或缺的底层基础设施之一。

  一切要从李飞飞对世界模型的定义说起。她认为,当前主流的大语言模型存在一个致命缺陷,就是缺乏“空间智能”——即对三维物理世界进行感知、推理和行动的能力。

  因此,李飞飞倡导构建一种全新的AI系统,让机器能像人类一样,理解三维物理世界的运行法则,并完成互动。

  这套系统,就是她所说的“世界模型”。而世界模型需要具备三个最核心的标准:生成性、多模态性、交互性。

  这意味着,训练下一代AI所需的数据,必须同时具备这三个特征,尤其是“交互性”——数据不能只是被动的视觉呈现,还必须包含“动作-反馈”闭环的完整因果链条。

  但问题在于,当前行业能够稳定获取的物理世界交互数据,远远无法满足训练需求。

  这正是当前行业面临的核心瓶颈。高质量、高保真、带交互标签的物理世界数据极度匮乏,需求与供给之间存在巨大缺口。

  每一辆数据采集车,本质上都是一个移动的感知终端,在完成日常出行服务的同时,同步记录“驾驶员决策—车辆响应—环境反馈”的完整交互链条。

  如祺数据不仅会记录3D障碍物的位置信息,还会同步采集汽车底盘的CAN信号(反映车辆状态,如方向盘转角、油门刹车)、毫米波雷达回波、激光点云与摄像头视频。

  这些多模态数据围绕泊车场景,形成了“行为(驾驶员操作)-状态(车辆响应)-环境(周围反馈)”的联合数据集。

  在训练AI时,这类数据不仅能告诉模型“是什么”,还能帮助模型理解“为什么”,比如为什么要避让、如何判断车位可用性等需要物理常识和因果推理的任务。返回搜狐,查看更多

上一篇:飞捷科思完成数亿元Pre-A轮融资布局物理AI底层技术
下一篇:安永李菁:人工智能赋能ESG为可持续发展注入新动能