京东全球首推全栈开源实时视频交互模型JoyAI-VL-Interaction 赋能开发者打造实景AI助手

IP属地中国·北京 编辑：大力财经头部财经 时间：2026-06-23 03:37:48

京东近日宣布，正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction，并获得vLLM-Omni的day-0原生支持。这一突破性技术将推动大模型从“被动应答”转向“主动交互”，为开发者构建具备实时观察与决策能力的AI助手提供全新框架。
与传统模型依赖用户提问才能启动分析不同，JoyAI-VL-Interaction可自主持续监控视频流，通过实时判断画面内容决定是否需要响应。例如在安防场景中，系统能主动识别异常行为并立即预警，而非等待用户询问后才反馈结果。这种“主动判断”机制显著提升了AI在复杂环境中的实用性。
该模型在实时性方面实现关键突破。针对传统视频处理需完整上传后分析的延迟问题，JoyAI-VL-Interaction支持对正在发生的视频流进行即时解析。在直播解说、实时翻译等场景中，系统可在画面变化瞬间生成响应，确保信息传递的时效性。测试数据显示，其在监控预警、实时计数等58个流式场景中，响应延迟控制在毫秒级。
为应对复杂任务需求，模型创新性地引入“智能体委托”机制。当遇到代码生成、工具调用等高负载任务时，系统会自动将任务分配至后台大模型处理，同时保持前台模型持续观察现场。任务完成后，前后台无缝衔接对话流程，既保证处理效率又维持交互连贯性。这种设计特别适用于需要多线程处理的工业指导、医疗辅助等场景。
技术架构方面，该系统支持多模态输入输出，包括摄像头、直播流、监控视频等视频源，以及语音交互、可视化界面等交互方式。开发者可灵活替换ASR语音识别、TTS语音合成、后台模型等组件，甚至接入自定义业务系统。其长期记忆功能允许AI助手在持续交互中积累上下文信息，提升服务个性化水平。
在真实场景评测中，JoyAI-VL-Interaction展现出显著优势。对比豆包视频通话助手，其在58个测试案例中取得77.6%的胜率；面对Gemini视频通话助手时，胜率更高达87.9%。评测覆盖监控预警、时间感知、直播导览等高实时性需求场景，验证了模型在主动响应与即时处理方面的领先性。
目前，该开源项目已提供完整部署方案，支持vLLM框架快速落地。开发者可基于现有代码库，快速开发安防监控、老人看护、电商导购等垂直领域应用。其模块化设计尤其适合需要定制化AI解决方案的企业，通过替换不同组件即可构建符合特定业务需求的智能助手。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

解决飞行器“失控”“失明”难题

马云带队插秧，吴泳铭、邵晓锋、蒋凡、吴泽明、蒋芳等到场

雷军：攻击我的人只是为了流量

小米“寻天”SUV谍照来袭原厂自带车顶帐篷瞄准户外露营市场

暑期回国研学新选择：北上深杭科技之旅，让孩子边玩边学收获满满

喜欢合资轿车别错过！这三款车配置足舒适佳还省油，闭眼入不踩雷

全站最新

解决飞行器“失控”“失明”难题

马云带队插秧，吴泳铭、邵晓锋、蒋凡、吴泽明、蒋芳等到场

雷军：攻击我的人只是为了流量

小米“寻天”SUV谍照来袭原厂自带车顶帐篷瞄准户外露营市场

热门推荐

解决飞行器“失控”“失明”难题

马云带队插秧，吴泳铭、邵晓锋、蒋凡、吴泽明、蒋芳等到场

雷军：攻击我的人只是为了流量

字节切入网约车！豆包打车功能在北京、杭州开启灰度测试

马云率阿里高管下田插秧，以种田之道诠释AI战略深耕决心

谷歌DeepMind工程师：进顶尖AI实验室需具备目标感、毅力与数学成熟度

SpaceX加速布局AI算力市场与Reflection AI达成长期高额算力合作

DeepMind工程师揭秘：进顶尖AI实验室，需目标感、毅力与超强数学力

马云携阿里高管下田插秧，周靖人现身力破离职不实传闻

马云领衔阿里高层下田插秧首席科学家周靖人现身破离职传闻

第二代豆包AI手机将至：突破隐私困境，携手Agent开启智能协作新篇

XREAL AURA空间计算眼镜发布开启沉浸式体验新纪元助力“浦东智造”

广州苹果手机应急寄存指南：选正规直营机构，看透明流程与全额赔付保障

小米18系列发布有新动态：Pro版先发标准版随后，背屏与AI按键成亮点

小米YU7 GT纽北自动驾驶圈速破纪录，第一视角揭秘性能与科技魅力