当前位置: 首页 » 资讯 » 科技头条 » 正文

AI眼镜的风,终究是吹到了科大讯飞

IP属地 中国·北京 科技行者 时间:2026-05-30 00:19:50

作者|周雅



“我们到底需要什么样的智能眼镜?”

这是昨天在澳门BEYOND Expo 2026的第一天,科大讯飞在其中做了一场发布,正式带来了它的AI眼镜。在讲产品之前,科大讯飞穿戴设备业务部总经理林会杰,所抛出的问题。

这个问题其实已经存在了14年。从2012年智能眼镜的“鼻祖”Google Glass,一直到今天智能眼镜百“镜”齐放,无数玩家试过各种路子,至今都绕不开同一个坎——眼镜到底是个主机,还是个配件?

是做一台戴在头上的手机,把手机功能全平移过来?还是只干几件特定的事,像耳机那样听听歌、接接电话?但话说回来,手机已经够强了,如果眼镜只是个更小的手机,消费者凭什么为它掏钱?

现实情况是,AI眼镜的局面正处于“冰与火之歌”。一边是铺天盖地新品发布,但热闹之余,另一边真实的数据却相当现实。据公开数据显示,电商平台上AI眼镜的平均退货率高达30%,在直播带货为主的某些渠道,退货率甚至逼近40%-50%。一边是铺天盖地的新品发布,另一边是用户买回家就退。

归根结底,这是AI眼镜目前发展受限的事,我把这件事归为一个词——「在场」。

14年来,智能眼镜一直没能证明一件事,它是否能让用户一直让它在脸上戴着。它要么太重,戴不住,人没法让它一直「在场」;要么砍得太残,没用处,人没理由让它一直「在场」。它对于用户的价值,一直是悬空的。

而讯飞AI眼镜,正在试图回答这个问题。



01/ AI眼镜不该是更小的手机

这一轮AI眼镜的爆发,是因为AI进化所带来的。

它懂语言,懂图像,懂多模态,能推理,能决策,能把一整套有头有尾的任务跑完。

在林会杰看来,AI和眼镜正好互补。

眼镜是人类身上的天然入口。每天能戴十几个小时,长在眼前,第一人称视角,自带显示、摄像头、语音一整套传感器。它有身体,没脑子。

AI正相反。它有脑子,没身体。

一个缺身体,一个缺脑子。把它们拼起来,眼镜第一次有了不模仿手机的理由。

所以讯飞给的定位很明确:AI眼镜不是配件,是主机;但它也不应该是更小的手机,它应该是用户的“第二大脑”。林会杰的原话是:“讯飞 AI 眼镜,是戴在眼前的超级 AI 助理。”

海德格尔有个著名的说法:工具用得最顺手的时候,恰恰是你意识不到它存在的时候。你抡锤子钉钉子,脑子里想的是钉子,不是锤子。只有锤子坏了,你才会突然看见那把锤子。

一个工具能不能普及,常常不看它能做多少事,而看它能不能「消失」在使用里。

要做到这件事,林会杰说有三道坎。

第一道是「佩戴」,得「轻」到几乎无感,还不能为了轻,而牺牲性能和续航;第二道是「听清」,像是展会、高铁、机场这种开放声场里,人声、音乐、噪声混成一团,AI得先听得清,才谈得上听得懂;第三道是「做事」,让AI真正进到工作场景里,把沟通和办事的链路打通。

这三道坎,对应的正是「在场」的三层——身体能不能在场,感知能不能在场,行动能不能在场。



02/第一层在场:跨越40克的门槛

第一道坎是重量,它决定的是最基础的那种在场,即物理上的在场。一副戴不住的眼镜,再聪明也是零。

讯飞AI眼镜的重量是40克。林会杰在台上特意较了个真,现场摆了台电子秤,上面放着讯飞AI眼镜,镜头特写打上去,读数 40.7 克。他说那0.7克是误差,“我们不讲约40克,因为讯飞AI眼镜的重量就是40克。”



然后,旁边还有台天秤,讯飞AI眼镜的另一端放了颗高尔夫球,结果眼镜比高尔夫球还轻。



那么这40克是怎么做出来的?讯飞披露了三层关键工艺:

第一层:全贴合树脂波导显示芯片。这是讯飞林会杰明确提及的「全球首创」工艺。波导是AR/AI眼镜显示模组的核心,传统玻璃基波导虽然光学性能好,但重、脆、贵。树脂波导则在保留显示能力的前提下大幅减重。「全贴合」意味着各层光学结构紧密结合,不留空隙,同时减重和提升光学一致性。

第二层:航空级镁铝合金镜架。镁铝合金的密度只有钢的一半左右,强度却足够支撑结构需求,是高端笔记本电脑、相机机身常用的材料。

第三层:定制化微型光机模组。光机是显示系统的核心引擎,体积越小,眼镜可设计空间越大。

三层叠加之后,讯飞AI眼镜整机重量比同类产品轻了20%以上。

更重要的是,这个数字背后还做了三件事:

一是1.7米跌落测试不碎裂。智能眼镜的脆弱性是普通用户最大的心理障碍之一,四五千元的设备,掉一次就报废,谁也不敢天天戴出门。

二是针对亚洲人脸做了上千次模拟仿真测试。这是一个常被忽略的维度。绝大多数智能硬件的人体工学是基于欧美人脸数据建模的,鼻梁高度、太阳穴宽度、耳后弧度都不一样。讯飞把这件事单独拎出来,针对的是中国及东亚市场的真实佩戴体验。

三是没有为减重牺牲功能。整机内集成了摄像头、显示模组、5+1麦克风阵列、扬声器等数十个传感器,还要保留续航。这是讯飞在演讲中反复强调的,“不是通过砍功能把眼镜做轻了”。

在产品发布之前,讯飞邀请了一些先锋用户做产品前测,其中一家汽车媒体上台分享时说,女生其实很在意饰品的颜值和重量,她有很多素颜镜、AR 眼镜、AI 眼镜,但使用率都不高,要么太重,要么不好看。讯飞的这副,她测下来,“跟我好几个品牌的口红是一样重的”。



03/第二层在场:听得清看得清

戴得住,只是开始。

第二道坎更硬,在真实世界的噪声里,AI怎么知道你想听谁说话,这是感知层面的在场。

林会杰倒也实诚,他在台上直接挑明说,“行业里都说 95%、98%,听起来谁都差不多”,所以他今天不打算罗列数据,要用现场实际演示说话。

第一个演示是跨语言电话同传。

林会杰一句“小飞小飞,打电话给我的同事Andy,看一看展会现场在做什么”,全程没动手。眼镜调起手机通讯录,拨号接通,并自动启动通话翻译。而Andy在电话另一端用西班牙语介绍展会现场,林会杰眼前的镜片上实时浮现中文字幕,同时还有语音播报。通话结束,手机上留下了全程记录,AI做了份双语总结,把关键信息、达成的共识、待办事项,都列了出来。



这个演示的重点,不在于翻译本身,在于它让AI主动调度。AI跨越了眼镜与手机两个终端,自动完成了通讯录检索、拨号、翻译启动、字幕投射、记录归档、摘要生成等一整条链路。

但这项功能其实还不足以构成差异化,真正的实力考验,在第二个演示环节,也就是:80分贝复杂声场下的精准识音。林会杰把5位同事请上台,模拟真实展会环境,多人交叉对话、嘈杂背景音、多语言混杂,并在旁边架了一台分贝仪做实时噪音水平显示。当噪音冲到80分贝以上,林会杰对着Andy进行交流,眼前的镜片仍然能精准呈现Andy说话的英文转写与中文翻译。



80分贝是什么概念?根据WHO的环境噪音参考,70分贝以上长期暴露会影响人耳健康,80分贝相当于嘈杂的餐厅或大型展会现场。绝大多数现有AI翻译眼镜在这个分贝水平下,几乎无法稳定工作。

这背后,是基于一套多模态AI降噪系统,这也是讯飞AI眼镜区别于市面其他产品的技术差异点。

林会杰在台上提出了一个看似简单、却长期没有被解决的问题:“在多人同时说话的场景下,AI到底应该听谁的?”

传统方案有两类,麦克风阵列方向波束(基于声源方位猜测),以及AI算法降噪(基于语音特征过滤)。但本质上它们都是在猜测哪个声音是目标,AI并不知道用户真正想听谁。

讯飞的解法是,让眼镜不只「听」你说话,还要「看」你说话。

这里用上了一个「全球首创的唇动识别技术」,配合「5+1麦克风阵列」和「眼镜内置的摄像头」,组成的这套多模态AI降噪系统。麦克风做声源定位,摄像头追踪用户的视线方向,同时做唇动识别,三者融合,系统就能锁定「你正看着的那个人」,增强他的声音,把别的弱化掉。林会杰把它概括成九个字:“看谁听谁,看谁翻译谁。”

这套机制,其实是在用工程手段复刻人脑的一个本能。

心理学里有个「鸡尾酒会效应」。几十人同时说话的派对上,你依然能在嘈杂中锁定跟你聊天那个人的声音,自动过滤掉其余的。人类做这件事,靠的是双耳定位,加上对说话人嘴型、表情的视觉辅助。

讯飞的多模态降噪,本质上就是给眼镜装了一套「鸡尾酒会大脑」。用麦克风阵列做「双耳」,用摄像头读唇形做「眼睛」,让AI能像人一样,在嘈杂的现场判断出此刻我该听谁。

这也是讯飞反复强调的,它和别的眼镜最本质的区别:这台摄像头不是用来拍照的,它是你的第一人称视角,你看到的就是它看到的,你想听的就是它帮你听到的。

另一位前测用户,也是一位AI眼镜测评博主上台时,讲了讲这件事。他测过市面上主流的翻译眼镜,结论是,大家在安静室内都能打到80分,可一到展会、餐厅、商超这种室外嘈杂环境,效果直接不及格,几乎不可用。对方说十句,眼镜只听进七八句,说一句只听到半句。听都听不全,翻译当然不准。他对讯飞这副的评价是,它核心就干了一件事:让眼镜听清楚。

听清了,听懂了,才谈得上翻得对。



至于翻译本身,背后是讯飞多年的积累,汇成了讯飞自研的「端到端同声传译大模型」。

林会杰在台上解释了它与传统翻译引擎的区别。传统方案是一个串行链路:语音 → 语音识别 → 文本 → 文本翻译 → 翻译后文本 → 语音合成 → 输出语音。每一道工序都在累积延迟,每一道工序都会损失信息。

而端到端同传大模型,直接打通了这一条链路:语音输入 → 模型 → 语音输出。这就对噪声、口音的鲁棒性更高。

讯飞披露的数据是,目前支持122种语言和口音、覆盖200多个国家和地区、内置17个行业的专业翻译模型,非常适配医疗、法律、金融、汽车、能源、外贸、媒体采访等专业商务场合。

04/第三层在场:还得办得成

前两道坎,让AI眼镜得以在现场「看」和「听」。第三道坎,是让在场的AI动起来,替用户办事。

于是讯飞正式发布它的AI助理,叫做GlassClaw。



林会杰特意把它和普通语音助手划清界限:它是多模态的,能看懂你看到的画面,能听懂你听到的声音,能理解上下文,还能主动帮你规划下一步。

现场连演了几个动作。

先是海报识别。林会杰看着手里一张活动彩页问“我眼前的海报是什么”,眼镜读懂了内容,翻译过来,还告诉他海报里提到的两场采访都取消了。

紧接着,林会杰下了一条相当长的指令:“查一下BEYOND主办方和讯飞之前的合作,看看有没有深入合作的机会?写一份合作提案,发邮件给主办方,抄送同事。”

这一连串动作,跨了检索、调知识库、写文档、找联系人、发邮件好几个环节。而GlassClaw接下任务,生成了提案,找到了同事的邮箱,把邮件发了出去。现场,让同事和主办方当场确认,邮件确实收到了。执行过程几分钟。

从产业语境看,这正是当下Agentic AI产品形态化的一个关键节点,让AI走出“问答-工具调用”层面,变成一个替用户完成任务的行动者。讯飞把这件事,直接做在了眼镜上,让眼镜成为Agentic AI的载体,一个用户抬眼就能调用、不必掏手机的入口。

林会杰透露了一个细节:“我自己也是GlassClaw的忠实用户,每周的工作周报都是由它来完成的。”这个表述,暗示了讯飞内部已经把这个产品作为日常生产力工具使用。

同一套逻辑,还延伸到了「智能提词器」。对高频要开会、发言、演讲、采访的商务和媒体人群,提词内容能实时映在眼前,跟着语速自动滚动。配套的充电胶囊还能当实体遥控,按键切换暂停、翻页,把控发言节奏。

一个够轻、会看、会听、会做事,还一直待在你眼前的AI眼镜,就是讯飞AI眼镜想要呈现的样子。

定价方面,标准款售价4299元,续航款售价4699元,一起发布的还有它的配件(见下图)。





05/在场式智能:当工具真正消隐于无形

整场听下来,讯飞反复回到同一个画面。

发布会上看到一张外文PPT,你抬手机想拍,还没拍下来就翻页了。国外客户来电,你得手忙脚乱再找一台设备。国企开会,你不方便掏出手机。

这些场景的共同点,是需要「双手」。

手机时代,所有的智能都藏在一块需要你掏出来、点亮、解锁、打开应用的玻璃里。

讯飞AI眼镜想要进化的,是「解放双手」。它把智能从口袋里那块需要被唤醒的玻璃,挪到了你永远睁着的那双眼睛前面。手机的智能是「召唤式的」,你得主动去找它。眼镜的智能是「在场式的」,它一直就在那里。

发布会尾声,林会杰在台上说,“未来的世界,每一个信息、每一段对话、每一个场景,都应该在你的眼前自然流动,跨越语言时空的界限,打通物理世界与数字世界的桥梁。眼镜将成为连接人与世界、人与知识、人与人之间沟通的新一代的交互入口。讯飞AI眼镜要让每个人都拥有「第二双眼睛」和「第二个大脑」。”

这话说得很大,可落到那片小小的镜片上,它又变得很具体。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新