AI眼镜的风，终究是吹到了科大讯飞

IP属地中国·北京 科技行者 时间：2026-05-30 00:19:50

作者｜周雅

“我们到底需要什么样的智能眼镜？”
这是昨天在澳门BEYOND Expo 2026的第一天，科大讯飞在其中做了一场发布，正式带来了它的AI眼镜。在讲产品之前，科大讯飞穿戴设备业务部总经理林会杰，所抛出的问题。
这个问题其实已经存在了14年。从2012年智能眼镜的“鼻祖”Google Glass，一直到今天智能眼镜百“镜”齐放，无数玩家试过各种路子，至今都绕不开同一个坎——眼镜到底是个主机，还是个配件？
是做一台戴在头上的手机，把手机功能全平移过来？还是只干几件特定的事，像耳机那样听听歌、接接电话？但话说回来，手机已经够强了，如果眼镜只是个更小的手机，消费者凭什么为它掏钱？
现实情况是，AI眼镜的局面正处于“冰与火之歌”。一边是铺天盖地新品发布，但热闹之余，另一边真实的数据却相当现实。据公开数据显示，电商平台上AI眼镜的平均退货率高达30%，在直播带货为主的某些渠道，退货率甚至逼近40%-50%。一边是铺天盖地的新品发布，另一边是用户买回家就退。
归根结底，这是AI眼镜目前发展受限的事，我把这件事归为一个词——「在场」。
14年来，智能眼镜一直没能证明一件事，它是否能让用户一直让它在脸上戴着。它要么太重，戴不住，人没法让它一直「在场」；要么砍得太残，没用处，人没理由让它一直「在场」。它对于用户的价值，一直是悬空的。
而讯飞AI眼镜，正在试图回答这个问题。

01/ AI眼镜不该是更小的手机
这一轮AI眼镜的爆发，是因为AI进化所带来的。
它懂语言，懂图像，懂多模态，能推理，能决策，能把一整套有头有尾的任务跑完。
在林会杰看来，AI和眼镜正好互补。
眼镜是人类身上的天然入口。每天能戴十几个小时，长在眼前，第一人称视角，自带显示、摄像头、语音一整套传感器。它有身体，没脑子。
AI正相反。它有脑子，没身体。
一个缺身体，一个缺脑子。把它们拼起来，眼镜第一次有了不模仿手机的理由。
所以讯飞给的定位很明确：AI眼镜不是配件，是主机；但它也不应该是更小的手机，它应该是用户的“第二大脑”。林会杰的原话是：“讯飞 AI 眼镜，是戴在眼前的超级 AI 助理。”
海德格尔有个著名的说法：工具用得最顺手的时候，恰恰是你意识不到它存在的时候。你抡锤子钉钉子，脑子里想的是钉子，不是锤子。只有锤子坏了，你才会突然看见那把锤子。
一个工具能不能普及，常常不看它能做多少事，而看它能不能「消失」在使用里。
要做到这件事，林会杰说有三道坎。
第一道是「佩戴」，得「轻」到几乎无感，还不能为了轻，而牺牲性能和续航；第二道是「听清」，像是展会、高铁、机场这种开放声场里，人声、音乐、噪声混成一团，AI得先听得清，才谈得上听得懂；第三道是「做事」，让AI真正进到工作场景里，把沟通和办事的链路打通。
这三道坎，对应的正是「在场」的三层——身体能不能在场，感知能不能在场，行动能不能在场。

02/第一层在场：跨越40克的门槛
第一道坎是重量，它决定的是最基础的那种在场，即物理上的在场。一副戴不住的眼镜，再聪明也是零。
讯飞AI眼镜的重量是40克。林会杰在台上特意较了个真，现场摆了台电子秤，上面放着讯飞AI眼镜，镜头特写打上去，读数 40.7 克。他说那0.7克是误差，“我们不讲约40克，因为讯飞AI眼镜的重量就是40克。”

然后，旁边还有台天秤，讯飞AI眼镜的另一端放了颗高尔夫球，结果眼镜比高尔夫球还轻。

那么这40克是怎么做出来的？讯飞披露了三层关键工艺：
第一层：全贴合树脂波导显示芯片。这是讯飞林会杰明确提及的「全球首创」工艺。波导是AR/AI眼镜显示模组的核心，传统玻璃基波导虽然光学性能好，但重、脆、贵。树脂波导则在保留显示能力的前提下大幅减重。「全贴合」意味着各层光学结构紧密结合，不留空隙，同时减重和提升光学一致性。
第二层：航空级镁铝合金镜架。镁铝合金的密度只有钢的一半左右，强度却足够支撑结构需求，是高端笔记本电脑、相机机身常用的材料。
第三层：定制化微型光机模组。光机是显示系统的核心引擎，体积越小，眼镜可设计空间越大。
三层叠加之后，讯飞AI眼镜整机重量比同类产品轻了20%以上。
更重要的是，这个数字背后还做了三件事：
一是1.7米跌落测试不碎裂。智能眼镜的脆弱性是普通用户最大的心理障碍之一，四五千元的设备，掉一次就报废，谁也不敢天天戴出门。
二是针对亚洲人脸做了上千次模拟仿真测试。这是一个常被忽略的维度。绝大多数智能硬件的人体工学是基于欧美人脸数据建模的，鼻梁高度、太阳穴宽度、耳后弧度都不一样。讯飞把这件事单独拎出来，针对的是中国及东亚市场的真实佩戴体验。
三是没有为减重牺牲功能。整机内集成了摄像头、显示模组、5+1麦克风阵列、扬声器等数十个传感器，还要保留续航。这是讯飞在演讲中反复强调的，“不是通过砍功能把眼镜做轻了”。
在产品发布之前，讯飞邀请了一些先锋用户做产品前测，其中一家汽车媒体上台分享时说，女生其实很在意饰品的颜值和重量，她有很多素颜镜、AR 眼镜、AI 眼镜，但使用率都不高，要么太重，要么不好看。讯飞的这副，她测下来，“跟我好几个品牌的口红是一样重的”。

03/第二层在场：听得清看得清
戴得住，只是开始。
第二道坎更硬，在真实世界的噪声里，AI怎么知道你想听谁说话，这是感知层面的在场。
林会杰倒也实诚，他在台上直接挑明说，“行业里都说 95%、98%，听起来谁都差不多”，所以他今天不打算罗列数据，要用现场实际演示说话。
第一个演示是跨语言电话同传。
林会杰一句“小飞小飞，打电话给我的同事Andy，看一看展会现场在做什么”，全程没动手。眼镜调起手机通讯录，拨号接通，并自动启动通话翻译。而Andy在电话另一端用西班牙语介绍展会现场，林会杰眼前的镜片上实时浮现中文字幕，同时还有语音播报。通话结束，手机上留下了全程记录，AI做了份双语总结，把关键信息、达成的共识、待办事项，都列了出来。

这个演示的重点，不在于翻译本身，在于它让AI主动调度。AI跨越了眼镜与手机两个终端，自动完成了通讯录检索、拨号、翻译启动、字幕投射、记录归档、摘要生成等一整条链路。
但这项功能其实还不足以构成差异化，真正的实力考验，在第二个演示环节，也就是：80分贝复杂声场下的精准识音。林会杰把5位同事请上台，模拟真实展会环境，多人交叉对话、嘈杂背景音、多语言混杂，并在旁边架了一台分贝仪做实时噪音水平显示。当噪音冲到80分贝以上，林会杰对着Andy进行交流，眼前的镜片仍然能精准呈现Andy说话的英文转写与中文翻译。

80分贝是什么概念？根据WHO的环境噪音参考，70分贝以上长期暴露会影响人耳健康，80分贝相当于嘈杂的餐厅或大型展会现场。绝大多数现有AI翻译眼镜在这个分贝水平下，几乎无法稳定工作。
这背后，是基于一套多模态AI降噪系统，这也是讯飞AI眼镜区别于市面其他产品的技术差异点。
林会杰在台上提出了一个看似简单、却长期没有被解决的问题：“在多人同时说话的场景下，AI到底应该听谁的？”
传统方案有两类，麦克风阵列方向波束（基于声源方位猜测），以及AI算法降噪（基于语音特征过滤）。但本质上它们都是在猜测哪个声音是目标，AI并不知道用户真正想听谁。
讯飞的解法是，让眼镜不只「听」你说话，还要「看」你说话。
这里用上了一个「全球首创的唇动识别技术」，配合「5+1麦克风阵列」和「眼镜内置的摄像头」，组成的这套多模态AI降噪系统。麦克风做声源定位，摄像头追踪用户的视线方向，同时做唇动识别，三者融合，系统就能锁定「你正看着的那个人」，增强他的声音，把别的弱化掉。林会杰把它概括成九个字：“看谁听谁，看谁翻译谁。”
这套机制，其实是在用工程手段复刻人脑的一个本能。
心理学里有个「鸡尾酒会效应」。几十人同时说话的派对上，你依然能在嘈杂中锁定跟你聊天那个人的声音，自动过滤掉其余的。人类做这件事，靠的是双耳定位，加上对说话人嘴型、表情的视觉辅助。
讯飞的多模态降噪，本质上就是给眼镜装了一套「鸡尾酒会大脑」。用麦克风阵列做「双耳」，用摄像头读唇形做「眼睛」，让AI能像人一样，在嘈杂的现场判断出此刻我该听谁。
这也是讯飞反复强调的，它和别的眼镜最本质的区别：这台摄像头不是用来拍照的，它是你的第一人称视角，你看到的就是它看到的，你想听的就是它帮你听到的。
另一位前测用户，也是一位AI眼镜测评博主上台时，讲了讲这件事。他测过市面上主流的翻译眼镜，结论是，大家在安静室内都能打到80分，可一到展会、餐厅、商超这种室外嘈杂环境，效果直接不及格，几乎不可用。对方说十句，眼镜只听进七八句，说一句只听到半句。听都听不全，翻译当然不准。他对讯飞这副的评价是，它核心就干了一件事：让眼镜听清楚。
听清了，听懂了，才谈得上翻得对。

至于翻译本身，背后是讯飞多年的积累，汇成了讯飞自研的「端到端同声传译大模型」。
林会杰在台上解释了它与传统翻译引擎的区别。传统方案是一个串行链路：语音 → 语音识别 → 文本 → 文本翻译 → 翻译后文本 → 语音合成 → 输出语音。每一道工序都在累积延迟，每一道工序都会损失信息。
而端到端同传大模型，直接打通了这一条链路：语音输入 → 模型 → 语音输出。这就对噪声、口音的鲁棒性更高。
讯飞披露的数据是，目前支持122种语言和口音、覆盖200多个国家和地区、内置17个行业的专业翻译模型，非常适配医疗、法律、金融、汽车、能源、外贸、媒体采访等专业商务场合。
04/第三层在场：还得办得成
前两道坎，让AI眼镜得以在现场「看」和「听」。第三道坎，是让在场的AI动起来，替用户办事。
于是讯飞正式发布它的AI助理，叫做GlassClaw。

林会杰特意把它和普通语音助手划清界限：它是多模态的，能看懂你看到的画面，能听懂你听到的声音，能理解上下文，还能主动帮你规划下一步。
现场连演了几个动作。
先是海报识别。林会杰看着手里一张活动彩页问“我眼前的海报是什么”，眼镜读懂了内容，翻译过来，还告诉他海报里提到的两场采访都取消了。
紧接着，林会杰下了一条相当长的指令：“查一下BEYOND主办方和讯飞之前的合作，看看有没有深入合作的机会？写一份合作提案，发邮件给主办方，抄送同事。”
这一连串动作，跨了检索、调知识库、写文档、找联系人、发邮件好几个环节。而GlassClaw接下任务，生成了提案，找到了同事的邮箱，把邮件发了出去。现场，让同事和主办方当场确认，邮件确实收到了。执行过程几分钟。
从产业语境看，这正是当下Agentic AI产品形态化的一个关键节点，让AI走出“问答-工具调用”层面，变成一个替用户完成任务的行动者。讯飞把这件事，直接做在了眼镜上，让眼镜成为Agentic AI的载体，一个用户抬眼就能调用、不必掏手机的入口。
林会杰透露了一个细节：“我自己也是GlassClaw的忠实用户，每周的工作周报都是由它来完成的。”这个表述，暗示了讯飞内部已经把这个产品作为日常生产力工具使用。
同一套逻辑，还延伸到了「智能提词器」。对高频要开会、发言、演讲、采访的商务和媒体人群，提词内容能实时映在眼前，跟着语速自动滚动。配套的充电胶囊还能当实体遥控，按键切换暂停、翻页，把控发言节奏。
一个够轻、会看、会听、会做事，还一直待在你眼前的AI眼镜，就是讯飞AI眼镜想要呈现的样子。
定价方面，标准款售价4299元，续航款售价4699元，一起发布的还有它的配件（见下图）。

05/在场式智能：当工具真正消隐于无形
整场听下来，讯飞反复回到同一个画面。
发布会上看到一张外文PPT，你抬手机想拍，还没拍下来就翻页了。国外客户来电，你得手忙脚乱再找一台设备。国企开会，你不方便掏出手机。
这些场景的共同点，是需要「双手」。
手机时代，所有的智能都藏在一块需要你掏出来、点亮、解锁、打开应用的玻璃里。
讯飞AI眼镜想要进化的，是「解放双手」。它把智能从口袋里那块需要被唤醒的玻璃，挪到了你永远睁着的那双眼睛前面。手机的智能是「召唤式的」，你得主动去找它。眼镜的智能是「在场式的」，它一直就在那里。
发布会尾声，林会杰在台上说，“未来的世界，每一个信息、每一段对话、每一个场景，都应该在你的眼前自然流动，跨越语言时空的界限，打通物理世界与数字世界的桥梁。眼镜将成为连接人与世界、人与知识、人与人之间沟通的新一代的交互入口。讯飞AI眼镜要让每个人都拥有「第二双眼睛」和「第二个大脑」。”
这话说得很大，可落到那片小小的镜片上，它又变得很具体。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱：公司英文名称已变更为Z.AI Co,Ltd

比亚迪回应唐车型后电机总成脱落：底盘发生严重磕碰非产品质量问题

赛力斯中期预告：阵痛的表象，定力的真相

机器人与物理世界交互的“最后一毫米”

存储成本上涨致手机涨价：消息称今年 Q4 应是价格高点，在可预见的六个季度内情况不容乐观

IBM预警AI基建热潮抢占企业软件支出预算，引发软件板块下挫

全站最新

智谱：公司英文名称已变更为Z.AI Co,Ltd

比亚迪回应唐车型后电机总成脱落：底盘发生严重磕碰非产品质量问题

赛力斯中期预告：阵痛的表象，定力的真相

机器人与物理世界交互的“最后一毫米”

热门推荐

智谱：公司英文名称已变更为Z.AI Co,Ltd

比亚迪回应唐车型后电机总成脱落：底盘发生严重磕碰非产品质量问题

赛力斯中期预告：阵痛的表象，定力的真相

机器人与物理世界交互的“最后一毫米”

存储成本上涨致手机涨价：消息称今年 Q4 应是价格高点，在可预见的六个季度内情况不容乐观

IBM预警AI基建热潮抢占企业软件支出预算，引发软件板块下挫

Intel喜讯连连：18A工艺良率提升到85%、CPU将涨价15%

英伟达与三菱重工拟合作，将冷却与能源技术融入下一代AI数据中心

从“真人”到“漫人”，AI漫剧以“爽感+低成本”迅猛崛起

东风汽车：岚图梦想家9基于全域L3级自动驾驶架构打造，预计今年下半年上市

可能是史上最火的AI产品 OpenClaw小龙虾热度几乎归零

IBM股价大跌25%，创1987年以来最大单日跌幅

68万起全系1604匹马力！腾势Z预售24小时海内外订单破1000台

高德发布通用世界模型工坊ABot-World Studio：内置"任意门"，同时支持交互式视频与3D场景生成

完美世界2026中报预告：《异环》流水亮眼，游戏影视双线布局未来可期