做AI眼镜,为什么一定要有定制化大模型

AI 眼镜,究竟为什么这么热?

自 2023 年 10 月 Meta 旗下的 Ray-Ban Meta 智能眼镜发布,标志着智能眼镜终端不再只是极客的玩具,而是可能成为继智能手机之后,人类与数字世界交互的下一个核心入口。

截止目前,国内已有十余家厂商正式发布了 AI 眼镜产品,还有更多的产品正等待亮相," 百镜大战 " 的序幕已经拉开。

这场大战之中,参赛选手属性各不相同,既有互联网厂商,也有做显示出身……不同类型的选手都是以一种怎样的姿态加入的这场战斗?

为了解开这些疑问,量子位与不同属性的 AI 眼镜从业者进行了对话交谈。

今天的文章是这一系列交流中的第三期,我们对话了雷鸟创新创始人兼 CEO 李宏伟先生。

在 AI 眼镜的多项关键技术当中,光波导显示是雷鸟创新的看家本领。

同时,雷鸟还与阿里通义团队合作,成为了国内首家使用定制大模型的 AI 眼镜厂商。

雷鸟如何发挥在显示技术上的巨大优势?选择定制大模型路线又是基于什么样的考量?

且看李宏伟先生的回答。

核心要点

AI 眼镜要具备实时响应能力,必须要有定制化的基座模型;

具备全彩显示能力的 AI 眼镜,才是 AI 最好的落地载体;

无论是用户画像还是生态破局点…… AI 眼镜的许多问题,本质上都和 Killer APP 相关;

AI 眼镜发展的最大限制因素,在于技术和生态的互动。

以下为量子位与李宏伟对话实录,部分内容有删改。

AI 眼镜,必须有定制化基座模型

量子位:V3 在发布的时候剧透了很多未来要上新的 AI 功能,V3 前不久刚刚完成了一次更新,这次更新有什么亮点?从发布到现在,在技术的迭代上有没有遇到什么难点?

李宏伟:最近的一次更新是一个非常重要的更新,我们上线了两个最重要的新功能。

一个是 AI 录音,它包括了录音、转写、总结、翻译,一键完成。

另外增加了 " 所见即所得 " 的探索世界,它的摄像头是一直开着的,你可以一边走,一边问摄像头里面的内容。

除了新的功能之外,我们还优化了核心的拍照录像的色彩效果,这样可以让画面更加鲜活,而且我们还极大地提高了语音助手的启动速度和稳定性,它的稳定性和速度都有很大的提升,这是在上次的新版本上做的事情。

在这个过程中其实还有蛮多的困难要克服,比如说在端云侧的功能分布、网络连接的稳定性、网络连接的速度——我们怎么能保证在弱网环境下也能连接得好,但同时启动速度也比较快。

包括 AI 上面的多模态算法的协同,用语言、视觉的,在不同场景下,因为多模态大模型现在还没那么成熟,我们在一些场景下怎么做不同模态算法的融合,同时做算法和规则的融合。

还有就是多品牌手机设备的兼容性,这里面还有一系列的问题,在过去得到了很大的解决。

量子位:关于接下来的的重点更新,雷鸟的计划是怎样的?

李宏伟:我们在下一步的更新有几个大的方向。

第一个是符合我们过去在发布会上对大家的承诺,比如说我们过去提到的 RayNeo 新的 AI 电台、RayNeo AI 备忘录这些新的功能,我们会按照原计划上线,这里面还是可以给用户带来比较好的体验。

V3 既然是一个带扬声器的眼镜,我们就希望它能够更自然地每日获取资讯;它又是一个 24 小时戴在头上的设备,所以我们希望它可以帮用户很好地记录日常生活中大大小小的事情,这是一个方向。

另外一点,我们也在不断地吸收用户的反馈,包括对新功能、核心体验上的反馈,所以我们也在做核心体验不断地优化,比如拍视频,在防抖效果上会持续做优化。

同时我们也在伴随大模型的发展,在眼镜上面随时给大家最新的大模型相关的产品。

比如说我们最近应该会上我们的 AI Agent 商店,这里面就可以引入更多开发者开发的各种各样 AI 的功能。

当然包括基座大模型本身的迭代,我们都会第一时间放到眼镜上面去。

量子位:当时雷鸟跟通义做了定制的大模型,但是 DeepSeek 在 1 月底突然火了,这对咱们在模型上的策略有没有影响?

李宏伟:其实没有影响,原因有几点。

我们选择通义大模型是经过深思熟虑的,其中大模型在工程化方面的能力、对产品适应度等维度都是非常重要的决策点。

DeepSeek 在推理模型上做得很好,但推理模型本身是不是适合接眼镜作为核心大模型,坦白说,不是很合适。

现阶段,用户希望在眼镜上提出的问题能够尽快得到反馈,这是最主要的。从结果来看,我认为我们的选择是对的。

其次,我们也会上线 AI Agent 商店,这样我们能够在通义合作的技术上,将更多大模型的能力引进到产品上来。

量子位:现在市面上很多厂商是选择接一些能力比较强的通用大模型,然后自己再做调优,您认为定制大模型未来会是更好的趋势吗,还是觉得这两种路线各有优势?

李宏伟:我还是觉得定制大模型是好的。我们认为眼镜是 AI 落地非常好的载体,它对 AI 的倚重是比较高的。

你做一个东西,如果这里面 AI 不是很重要,或者你用 AI 不重,你在上面调优就可以。

但如果你跟它是生死相依的,你只在外面改就不行,简单粗暴就是这样理解的。

眼镜和 AI 是生死相依的,所以我们就认为只在外围改是不行的,外围你改不了什么东西,你只能做 Agent,只能在它的功能上做集合。

但现在 AI 落在眼镜上的问题,不是说功能集合的问题,是它的基座大模型就要改,它的速度问题、准确的问题、多模态的问题,都不是在上层能解决的问题。

上层当然有很多工作要做,但是不改基座大模型,我认为是不行的。

因为大模型本身的发展,主要考虑到的是基座大模型的能力,而它的工程化方面,过去更多的是考虑手机或者电脑的使用场景。

但在眼镜上面要做到反应速度非常快——我问了它,要赶紧给我回复,因为我也没有别的响应方法。

所以,眼镜对多模态大模型的要求比较高,对图像识别率要求也比较高,所以我们跟通义一起在眼镜上做了很多的改变和优化,从底座模型开始就做了很多事情,所以我们在快、准等等各个方面都做了很多的突破,这一点还蛮重要的。

量子位:在 1 月份的发布会上,雷鸟承诺过给 V3 提供 3 年的免费 AI 功能更新维护,今后的新产品,比如说 X3 Pro,也会这样吗?未来会不会也会考虑一些订阅的模式,或者半订阅的模式,去平衡一些 AI 上面的成本?

李宏伟:首先我们承诺的就肯定会做到,所以我们会在 V3 上面持续提供 3 年的免费 AI 更新维护。

其次,我们在未来会探索更多或者更长期的商业化的模式,这件事情主要有两个考虑。

第一个考虑是说,我们还是希望在一定的用户基础上再做这样的商业模式,用户基数太少了意义不大。

第二是我们做这种商业模式,其实是为了给用户提供更好、功能更强大的 AI,所以我们会在成本和用户体验之间做一个平衡,这样可以给用户提供更长期、稳定的服务和价值。

发挥 AI 的最大价值,需要全彩显示

量子位:雷鸟在光波导上积累的技术优势特别多,包括 5 月份马上也要发 X3 Pro,同时涉猎不带显示的 AI 眼镜,好像就体现不出雷鸟在光波导上的优势,所以同时涉足这种不带显示的 AI 眼镜是什么样的战略?

李宏伟:这里面主要的原因,实际上就是雷鸟采取的策略,我们的策略,就像任正非任总说的,一边攀登珠穆朗玛峰,一边沿途下蛋。

彩色 AI 眼镜一体机是我们攀登珠峰的产品,它一定是未来的 AI+AR 眼镜的主要形态。在过程中我们也会把比较成熟的技术和成熟的用户需求做成 " 沿途下蛋 " 的产品。

这样做有几个原因,第一个原因是说只有攀登珠峰才能有未来。第二点是沿途下蛋对于我们获得现在的商业成果,以及逐步的积累能力,尤其是市场化的能力,也有帮助,所以主要是这个考虑。

基于这个考虑,不带显示的 AI 眼镜不是现在突然决定做的,是我们很早就在做相关的研究,我们在前期设计了 V1、V2 两款,它们都是从摄像头出发的产品,所以我们发的这一款叫 V3,就是因为这个原因。

另外一点,不带显示的眼镜有一个优点,就是当前更成熟,我们看到在行业里面不带显示的 AI 眼镜已经做到了 PMF(产品市场匹配度,Product Market Fit)。

在核心的 Killer App 上面,比如说第一视角拍摄,比如 AI 上面,我们已经可以做得比较好了。而对我们来说,我们通过这样的产品,在 AI 上面可以做到更及时的基于用户检验的积累。

眼镜是 AI 落地最好的载体,同时眼镜上面的 AI 也是非常重要的,我们在眼镜上面积累 AI,或者做一个很好的 AI Agent 出来,实际上是需要数据积累的,所以我们现在做不带显示的眼镜,也可以让我们有更广泛的数据积累。

我们很快会推出来一个用户激励计划,如果用户同意把一些数据经过脱敏上传,我们会提供相应的奖励,这样我们就可以真的打磨出来更好的在眼镜上的 Agent,或者在眼镜上的多模态个人助理。

量子位:您认为在 AR 设备上,AI 能够带来哪些创新?

李宏伟:首先我们认为 AI 和 AR 的融合,就是一个确定性的、必须的事情。

比如说 X3 Pro 是一个带显示的眼镜,我们把它和 AR 等同了,但如果我们拆开来看,它里面首先是显示。

AI 到底需不需要显示?我认为 AI 非常需要显示,这是必须的。因为视觉是一个人最主要的感官,所以显示是必须的。

举一个典型的场景,比如翻译菜单,现在雷鸟 V3 和 Meta 都是一样的,你可以让它翻译菜单,它念给你听。但最好的情况,其实是我看到一个法语的菜单,我调动眼镜就可以把它变成中文的菜单,我把它翻译成中文盖在上面去,这样我点菜的时候,直接指向某个菜就可以直接点了,这是效率最高的方法。

所以 AI 眼镜是非常需要显示的,这是第一点,它们的结合是在各种各样的场景下结合,几乎没有什么场景是说有显示是不好的。

第二件事情,AI 确实把 AR 的场景能做出来,并且体验很好。

举个例子,刚才讲的翻译的场景,我们把翻译的结果贴在菜单上,这当然就是一个虚拟现实融合的 AR 的功能。但是如果要翻译得好,实际上背后是需要 AI 的。

比如说我们用一些 AR 的场景,我们提问题的,希望面前站了一个人物形象或者一个小精灵形象,他跟我们沟通的时候,如果他只是跟我们简单互动,像以前 AR 的场景,你跟他招招手,他动一动,他的玩法或者可玩性就比较弱。

如果你做了一个 AI+AR 的场景,它可以真的跟你互动。比如说眼镜看到迪士尼的米老鼠,你只是跟它招手,它能在你手上停一停,这个比较简单。但如果你要能跟它聊天,它有各种各样 AI 驱动的对话和表情,体验就完全不一样。

所以对一系列的 AR 场景来说,AI 都让它能够成为现实,并且对体验提升非常大的一个助力。

量子位:您认为有显示的眼镜和没有显示的眼镜,它们的用户群体都有什么特点?

李宏伟:我们现在看到的是有显示的眼镜和没有显示的眼镜,这当然是一个视角,产品就是这样子的。但其实如果我们补充另外一个视角,就能更好地回答您这个问题。

背后其实是不同的 Killer App 造成了产品形态不同。顺序不完全是说我们定义了怎样的硬件,反倒是我们定义了什么样的 Killer App,定义什么样的产品形态,去满足这个关键的 Killer 的应用场景。

从这个视角来看,我们看到几个 Killer App。

第一个是第一视角的拍摄,这件事情是蛮重要的,举个例子,比如你去徒步的时候,你一边走要一边举起手机来拍,体验就不太好,或者是你去旅行,在海外,比如在巴塞罗那的街头去 City walk,你就不希望不断掏手机出来,你希望直接拍到,不管是照片还是视频,这样效果就比较好。

第二个 Killer App 就是 AI,AI 当然是一个非常重要的部分。

我们看到了一系列的应用场景,进而决定做什么样的产品是满足这些场景的,比如不带显示的眼镜,它就可以做到第一视角拍摄,它也可以做到一定程度的 AI,比如对话的 AI、视觉的理解,但是它的输出就比较受限制。

带显示的眼镜,一方面可以把原来的体验做得更好,比如说第一视角的拍摄,现在我们第一视角的拍摄,因为没有显示,所以我们不知道当时拍的大概是什么样子,但有了显示之后,我就可以做预览,我就可以知道拍的什么样子,这样才能拍到我想要的画面。

AI 有了显示之后,它的反馈就不单是用语音,还可以用视觉反馈,这还蛮重要的。所以首先是场景体验会提升,当然它的使用成本、价格会变高一点,所以在这些场景里面,更关注更高级体验的用户,就会采用带显示的眼镜。

另外带显示的还有别的用户画像,因为有的功能是不带显示做不到的,比如说这里面对 AI 和 AR 非常感兴趣的科技爱好者,他们就希望做这样的事情,买这样最领先的产品。

再比如说有些人是希望能投屏到眼镜上面去,它有一系列的场景会在上面用,这些群体都会偏好带显示的眼镜。所以带显示的眼镜使用范围更广、应用场景更多,但是在这些场景里面偏重于早期科技爱好者群体这样的画像。

量子位:现在有一些 AI 眼镜采用的是 " 折中路线 ",也就是在全彩显示选择单色显示,雷鸟如何看待这种模式?如果可以一步跳到全彩显示的阶段,对大家是否是更有好处的?

李宏伟:还是刚才说的,既要考虑硬件的问题,也要考虑 Killer App 的问题,我们认为单色显示的产品是有价值的,但它的重要性不如彩色的。

举个例子,我之前参加一个电视节目录制,阿里的王坚院士也是嘉宾,他本来认为全民 AR 时代要 20 年,但是看到雷鸟 X3 这样带彩色显示的眼镜之后,他就改变了,他说 3 到 5 年全民 AR 时代就会到来,这是它的价值,彩色会带来更多的应用场景。

一个设备的爆发,其实本质上是应用场景带动的爆发,所以核心的我们还是觉得,单色的是有价值的,但彩色的更有价值,它更有决定性的意义。

AI 眼镜的生态破局点,在于打造 Killer App

量子位:您觉得 AI 眼镜,不管带不带显示,它能否成功的最关键因素是什么?

李宏伟:我觉得这还是跟它的 Killer App 有关系,当然面向不同场景、不同用户的时候也不太一样。

如果我们简单粗暴地来说,首先如果我们认为是大规模用户,我们就希望这个眼镜无非是符合两个特征,第一是它的功能够强,第二是成本够低。

功能够强这件事情当然是 Killer App 不断叠加,作为下一代的手机,它就是这个发展过程,就跟手机一样,打电话、发短信、上网、APP Store、图片、视频……

它要有一个一个的 Killer App 上去,比如第一视角拍摄,它要拍得够好,它拍得越好,可能用的人就越多。

还有 AI 的功能,现在语音对话、视觉翻译导览都可以,但是在多模态的时候,做一个复杂意图规划,这样的模型还需要发展。

比如我跟大家在开会,会上我说下周三咱们一起吃个饭,AI 要理解我面前有多少人,要给我定个日历,去哪儿吃饭,要不要订个餐厅,这件事情还要发展,这也是一个要解决的问题,就是 Killer App 不断增加,其中非常重要的是 AI Agent 的成熟。

还有一个是成本的问题,这方面主要还是工程化的问题,就是把眼镜做到尽量轻、把续航时间做到尽量长,核心的还是这个问题。这里面当然要解决一些 IP 设计的问题、电池、功耗的问题,产品佩戴人因工程的问题,核心是这几个方面。

量子位:AI 眼镜生态内容不足也是一个非常棘手的问题,尤其是现在各家眼镜厂商的应用之间,可以说基本上都不太互通,面对这个困境雷鸟有什么对策?

李宏伟:AI+AR 眼镜本来就是一个不断持续发展叠加的过程,现在没有到解决生态繁荣问题的时候,现在的核心是要解决第一步的问题,也就是前面几个 Killer App 的问题,在这件事情上最近是有进展的,比如雷鸟 V3、Meta 雷朋眼镜。

另外我们一边在发布产品,一边为开发者提供一个非常好的开发生态,包括我们的产品本身,包括 SDK,包括开发者支持等等相应的事情,所以我们在一个螺旋上升过程中,只是说一开始可能 10 个应用,后面变成 50 个、200 个,它有一个发展的过程。

我们也在跟全球最大的生态公司合作,比如腾讯、阿里、谷歌,刚才您提到我们跟阿里在 AI 上面的合作,不单是 AI 大模型本身的合作,我们也在做 AI Agent 平台的合作,所以这里面也在做这件事情,去促使生态的发展。

我们在内容、应用、硬件上都还是做了比较多的工作,比如提供一个很好的硬件基础,打造前面最重要的几个 Killer App,同时跟大公司、开发者一起构成一个促进生态发展的环境,这是我们在做的事情。

破局点也是比较明确的,就是像雷鸟这样的公司,把产品卖到几百万、上千万,这个事情自然就解决了。最核心的破局点在这里。

量子位:那您认为做 AI 眼镜的友商之间有没有必要抱团取暖,比如说推出一个相对兼容性比较强的开发标准,从而更好地推动开发者生态?

李宏伟:我觉得需要。雷鸟就是这样做的,比如说我们的 SDK、开发者生态,就是兼容 Open XR、AI 的一些基本标准的。

我只是觉得这件事情可能只能发挥 30%、40% 的作用,但也号召大家这么做,因为这件事情这样做,对大家都有好处,开发者生态本来就是一个生态问题,它不是一个纯粹的技术问题,生态起不来,大家都会受到影响。

不会存在说一个人突然生态很好,这是基本不可能的。

量子位:AI 眼镜虽然出现也有一两年的时间,但是它还算是一个比较新的物种,在供应链打通上面,可能也是存在一些不完善的地方,您认为目前的供应链能够满足我们当下和未来一段时期的需要吗?

李宏伟:我认为还不行,在一些关键的地方还不是很完美。

这主要体现在两个维度上面,第一个维度是说这个技术不是什么大问题了,但是因为 AI 眼镜这个方向,大家的准备度不够,所以没有针对性地做出来很适合它的好的供应链的组件。

某种意义上芯片就是这个逻辑。现在的芯片主要还是考虑过去手机或者相关设备,当然有些像 AR1 这样的比较考虑眼镜的,如果更多人真的专门为眼镜去做设计,体验还是会好很多,这是第一个问题。

第二个问题是在技术的完成度上面,确实有些关键的器件在技术完成度上面还是需要一点时间去做不断地优化,当然这不代表它现在就不能商业化,它只是有不断优化的过程,比如说包括 micro LED、波导,但是在这个方面,雷鸟都在推动行业一起去做非常重要的突破。

比如芯片,我们也在跟一些芯片公司定制;以及 Micro LED 和波导,雷鸟发布了全球第一个全彩 Micro LED 的眼镜,我们自己做了全彩光引擎,我们也在和应用材料这样的公司,联合开发了第一个量产的光刻刻蚀的光波导,它就可以做到很好的一致性。

供应链问题是一个产业问题,也是一个生态问题,它需要和大家联动,头部的企业就非常需要跟供应链一起解决刚才那两个问题。

当然,在这两件事之外,还有一个问题,就是要把成本和规模化量产解决,才能给客户一个价格合适的产品,这件事情雷鸟做得也比较多,我们在各个方面通过大规模量产,把成本降得更低一些。

量子位:所以您认为对于整个行业的发展,最大的限制因素是什么?

李宏伟:我还是认为最大的限制因素,实际上还是技术和生态的互动。

这个行业发展,我认为它的主线是这样的,从不带显示的 AI 眼镜,到带显示的 AI 眼镜,再到 AI+AR 眼镜,它会有若干个指数级增长的爆发点,就是它会有几个 iPhone 时刻,这些 iPhone 时刻的核心就是技术足以把产品变成现实。

当然要想产品化,除了技术突破,还需要整个生态,包括软件、供应链生态的互动。

所以这件事情我整体来说觉得是随着时间发展会快速突破的过程,雷鸟作为头部企业在这里面已经做了比较多的探索,已经看到了一定的趋势和结果。

量子位:小米、华为等大厂最近也纷纷在 AI 眼镜上有所动作,您认为这样的大厂加入这个行业会带来什么样的影响?

李宏伟:我觉得对行业来说是一个好事,促进行业更快的发展,我刚才不断地提到生态的问题,他们进来之后就会让生态更繁荣,至少他们进来了,生态就多了一家。

对市场的竞争也会带来影响,在不带显示的 AI 眼镜上面,战术上不好做,但是战略上它的技术栈的深度不是那么深,所以大家会相对比较卷。坦白说,不带显示的 AI 眼镜,其实也不是特别适合纯新的创业公司来做,当然雷鸟背后有知识,也有我们过去的积累,所以我们决定做这个产品。

行业发展会经过几个阶段,刚才不断地说那几个阶段,我们尽快把第一个阶段渡过去,就可以让第二阶段更快的到来,第一个阶段越久,第二个阶段永不容易到来。

第二个阶段是什么?就是带显示的 AI 眼镜,而带显示的眼镜上面,它的技术是具有颠覆性的,光学显示技术是新的,它不是手机的技术。

带了显示之后,应用生态会更丰富,也有更强的颠覆性了。所以我们觉得这没有关系,包括雷鸟这样的公司,我们现在在不带显示的 AI 眼镜上已经获得了比较好的竞争力和份额,我们认为更重要的是在带显示的 AI 眼镜上,雷鸟这样的公司会获得更大的优势。

—  完  —

 量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!