当AI开始与世界“对视”，我们该如何重新理解“影像”

文源 | 源媒汇

作者 | 白河

“12岁它就退休喽。”

“那你是不是眼睛也好了？”

一个寻常的傍晚，全盲视障博主“宝哥和他的导盲犬”还在街边候车，路过两位小朋友被导盲犬阿尔法吸引，随即停下与宝哥聊天，当其中一个女孩听闻导盲犬到一定年龄就要退休后，用一个略显稚气的问题向宝哥报以最纯粹的善意。

来源：B站账号“宝哥和他的导盲犬”视频截图

似乎在孩童眼中，阿尔法退休意味着宝哥的视力自然也会恢复，童言轻易说出比童话更美好的字句，然而现实生活并不总是尽如人意。

宝哥全名赵秋宝，今年44岁，9年前他因为视网膜色素变性在短短几个月内失去视力，沉重的打击一度让宝哥连续多月闭门不出，消沉过后，倔强的他渐渐意识到，作为一个曾拥有正常视力的视障人士，自己似乎可以用这种特殊经历为消除社会残健隔阂做点什么。

于是，宝哥开始走出家门记录日常，尝试让更多人看见一个视障人士的真实生活。

去年2月宝哥萌生了一个更大胆的计划，那就是带着导盲犬阿尔法，还有一台配备无障碍功能的vivo手机环游中国。

来源：纪录片《触得到的远方》，宝哥和导盲犬阿尔法走在路上

一人一狗一手机，从一座城市到另一座城市，宝哥总是不急不缓地走着，风声、脚步声、偶尔的停顿或摸索，构成一种近乎笨拙却异常坚定的节奏，旅途中，阿尔法帮他扫清前行障碍，而手机则成为他新的“眼睛”。

借助vivo手机上搭载的“vivo看见”功能，宝哥不仅可以通过播报模式听取手机拍摄到的各种场景、文本，还能够与手机进行多轮对话互动，实现无障碍操作。

当阿尔法停下休息时，他会举起手机，把摄像头对向街道、对向路牌、对向陌生人，通过“vivo看见”功能重新“看到”这个世界，每当手机开始准确地描述眼前场景时，宝哥也会轻轻点头，仿佛自己亲眼目睹一般。

来源：纪录片《触得到的远方》，宝哥正在用“vivo看见”识别眼前的场景

除了街上场景识别，vivo手机还会帮他记住人们的衣着样貌甚至表情，在南澳一艘渔船上，宝哥与一位80后渔民成为朋友，那天“vivo看见”告诉他，“面前是你的朋友章喜德，他双臂交叉，面带微笑，穿着一件深色长袖”，这种体验早已超脱炫技层面，成为AI时代一种人与世界重新建立关系的过程。

有一次，宝哥在视频里哽咽着说：“虽然眼睛看不见光了，但手机和科技，能带给我光。”

这句话的分量，似乎要比近年很多技术发布会更能触动人心，也更让我们感到踏实，特别是在AI井喷式发展当下，一些宝贵的个体经验仍在时刻提醒我们，技术真正落地的那一刻，除了要改变世界，还应该让更多人真正“看见”世界。

重新理解影像

不知何时开始，AI焦虑从曾经的少数人幻觉变成一种普遍的群体疑惑现象。

大模型参数暴涨、生成能力跃迁、新的应用形态层出不穷，AI版本迭代以小时甚至分钟为计量单位，人们一边享受着AI带来的生产力解放，同时也在担心有朝一日会跟不上AI发展步伐。

诚然，每当社会进入技术迭代周期，总会有相似的状况出现，从一百多年前第一次工业革命期间爆发的卢徳运动，到上世纪中叶计算机革命引发社会的技术焦虑症（Technophobia），再到如今AI普及带来的掉队担忧，人们在不断适应新技术同时普遍会萌发相应的困惑与迷茫。

在这样的矛盾中，我们有必要更进一步挖掘AI在效率、参数、性能之外的价值，也正是在这个意义上，我们或许需要重新理解一个被反复提及、同时也在AI时代悄然变化的概念——影像。

在过去很长一段时间里，影像的核心功能是“记录”。

从胶片到数码，从单反到手机，影像技术的进步方向是提升记录的精度与效率，但在AI时代这个定义开始失效，因为AI本身并不能“看”。

无论再强大的大模型，其本质上仍然停留在符号和数据的处理层面，AI可以理解语言、生成图像视频、提供策略，但它无法直接感知物理世界，它看不见光线、听不见环境、触摸不到空间，这就意味着如果没有感知能力，AI再聪明也只是一个被困在屏幕里的“大脑”。

而影像正是在这一刻完成了角色转换。

在AI普及语境下，影像不再只是纯粹的记录工具，而是成为AI进入物理世界的“入口”，通过光学系统、图像传感器、ISP处理、再到空间计算，影像技术完成了对现实世界的数字化映射，并进一步参与到三维结构理解、场景识别乃至行为预测中。

换句话说，影像如今正在成为AI最重要的“感知系统”之眼，这也是为什么越来越多厂商开始重新审视影像的战略价值。

对此，vivo给出的判断尤为直接：算力终将趋同，而影像会成为真正的分水岭，真正能让一个智能设备“懂你”的，是它对这个世界的感知能力，AI只有走出云端、走入万家灯火，在千千万万普通人的生活场景中，才能蓬勃发展。

这番判断背后其实是vivo对技术路径的重新排序，过去人们习惯认为AI的核心在“算”，但当算力逐渐标准化之后，决定体验差异的不再是“会不会算”，而是AI“看到了什么、如何理解”，并且如何反馈到现实世界。

基于这种认知，在博鳌亚洲论坛2026年年会上，vivo总裁、首席运营官胡柏山正式发布vivo“影像+AI”战略规划，旨在以影像为基础构建感知系统，驱动AI实现从数字世界到物理世界的关键跨越。

vivo总裁、首席运营官，vivo中央研究院院长胡柏山发表主题演讲

如果说大模型提供的是“大脑”，那么影像就是让这个大脑真正睁开眼睛的那部分，在胡柏山看来，科技的下一个十年，影像将与AI并驾齐驱，成为AI落地物理世界的“第一引擎”。

手机，仍然是AI落地的第一现场

一个常被忽略的事实是，AI再宏大也必须有一个“落点”，同理影像技术也需要载体支撑，而在未来相当长一段时间里，这个落点与载体依然会是手机。

在博鳌亚洲现场，胡柏山提到真正的变革往往不是轰轰烈烈的宣言，而是润物细无声的渗透，回望过去，是个人电脑和智能手机率先将高深的技术转变成人人可用的工具，而历次技术革命证明消费终端始终是前沿技术走出实验室，走进普罗大众生活的最佳通道。

在他看来，在这一轮以人工智能为核心的新技术革命中，手机仍会成为AI落地的“第一现场”。

原因其实并不复杂，手机是目前消费市场唯一同时具备高频使用、完整传感器体系、以及稳定算力的平台，是人类与数字世界最紧密的接口，需要明确的是，低延迟、高隐私、离线可用的端侧能力，本就是大众级AI体验的核心前提。

因此在未来很长一段时间里，手机将不仅是通讯工具，还将成为物理世界的感知枢纽，更是每个人的数字大脑。

值得关注的是，当手机硬件迭代趋缓、功能趋同之后，人们对手机的期待不再是“更强”而是“更懂”，vivo的思路则是用“影像+AI”去重塑手机，基于这一双核驱动，vivo正在构建一套完整的感知体系。

在胡柏山看来，未来的手机将不再是被动等待指令的工具，而是一个能看见、能思考、能行动的“数字伙伴”，手机将从现在的Smart Phone进化为Agent Phone。

以即将发布的vivo X300 Ultra和vivo X300s为例，其核心变化不只是影像硬件升级，而是落地了“影像Agent”的应用。简单来说，手机不再只是执行拍照指令，而是能够基于场景理解，主动参与拍摄过程，例如识别环境、判断构图、推荐参数，甚至根据用户习惯给出个性化建议等

当AI与影像进一步结合，用户不再需要掌握所有摄影知识，设备会在理解场景的基础上，帮拍摄者完成剩下的部分，对于普通用户来说，这种变化的意义并不是要让人变得更专业，而是要让拍摄者更好地表达自我。

此外，未来vivo还将针对用户高频场景，为不同产品系列定制差异化的Agent体验。

例如折叠旗舰X Fold系列将重点布局办公、出行Agent，开会时它默默记录，出差时它主动规划航班、天气、酒店；性能旗舰iQOO系列则聚焦游戏Agent，能够自动优化性能，录制高光时刻，让激情时刻不再错过。

围绕影像这一核心感知能力，vivo还在构建一个更大的设备网络：以手机为产品基石，向MR设备延伸，再到云台相机、可穿戴设备，最终指向家庭机器人。

vivo连续五年亮相博鳌亚洲论坛

这些设备的共同点是它们都在“看”，手机记录日常，头显理解空间，穿戴设备延伸感知边界，机器人则将感知转化为行动，它们不是孤立存在，而是共享同一套“视觉+大脑”的系统能力。

这套体系的关键不在于单点性能，而在于底层协同。

当影像能力可以像积木一样被复用、叠加、迁移，AI就不再依赖单一设备，而是形成一个连续的感知网络，这也是vivo“智及万物”的真正含义——不追求设备变多，目标是让感知能力在不同形态之间流动。

当技术开始“看见人”

当AI通过影像看见世界，接下来就不再只是技术问题。

因为“看见”本身就意味着进入，AI通过镜头进入到我们的空间、生活甚至记忆，影像与AI的结合正在把技术从工具层推向更深的层次，它开始理解人的习惯、记录人的轨迹、甚至参与构建一个人的“数字形象”。

在某种意义上我们时刻都在生成自己的“数字DNA”，手机里的照片和视频构成了记忆的外壳；设备中的AI智能体在持续学习我们的偏好、行为与关系，当两者叠加，一个关于“自己”的数字画像就逐渐清晰。

这听起来很诱人也同样令人不安，因为问题尖锐且直接：这些数据属于谁？又该由谁来守护？

vivo的回答是把这一伦理“边界”前置到技术架构之中，通过芯片级安全体系将隐私保护嵌入底层，这种路径的意义在于拓展能力的同时预设约束，不用等问题出现再补救。

克制与安全理念背后，更值得关注的是vivo一贯对待技术的态度，在去年的博鳌亚洲论坛上，胡柏山提到“科技的高度，终须回归人的尺度”，这句话在今天听起来变得前所未有的重要。

因为当我们赋予AI眼睛，当AI开始与世界“对视”，它看到的已经超越矩阵、结构和数据，开始渗入到人的情绪、感知甚至人性，正因如此，如今我们真正需要理解的不再是技术本身，而是人与技术、社会与技术的关系。

在这个语境下，影像从记录现实、参与理解再到成为感知系统，这一变化轨迹其实也映射着AI的迭代路径，AI从工具到伙伴再到我们的“数字分身”，在这个演变过程中，vivo始终认为，技术必须服务于人而不是替代人。

就像宝哥行走中国的经历那样，当一名视障人士借助vivo手机重新进入世界时，我们开始意识到所谓“看见”并不局限在视觉层面，而是不同群体都可以通过前沿技术重新回到社会，建立连接。

宝哥用手机“看见”的远不仅是路标和街道，还有人与人之间的连接，陌生人的善意、城市的变迁、社会的温度通过手机、通过AI、通过镜头逐一展示在宝哥眼前，这或许才是“AI+影像”真正的意义，它并不是要替代人的感知，而是不断延伸人与世界之间的连接。

同样地，如果说AI的未来一定要有一个方向，那么它不应该只是更聪明，而应该更接近人，毫无疑问，“影像”就是这条路径上最关键的那双眼睛。

部分图片引用网络如有侵权请告知删除

DC娱乐网

当AI开始与世界“对视”，我们该如何重新理解“影像”

热门分类