京东开源实时视频视觉语言交互模型JoyAI-VL-Interaction

田宁
2026-06-22 17:10

6月22日消息,京东近日开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这也是全球首个全栈开源的interaction模型和系统,并获得vLLM-Omni的day-0原生支持。它让大模型从“一问一答”走向“边看边说”,开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景AI助手,有望推动AI在物理世界发挥巨大作用。

watermark,image_d2F0ZXJtYXJrLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3Jlc2l6ZSxQXzEy,g_south,t_55,x_1,y_20

京东开源的JoyAI-VL-Interaction,就是让AI像人一样持续“在场”:边看、边记、边判断,并在关键时刻主动回应,或选择性地交接给后台Agent。相比传统模型,JoyAI-VL-Interaction有三重突破:

1、主动判断,而非被动回答。传统模型通常要等用户发起问题,才开始处理当前画面,而JoyAI-VL-Interaction可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。

2、实时响应,而非事后总结。传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。而JoyAI-VL-Interaction面向正在发生的视频流,画面变化时就能响应。

3、适时智能体委托,同时保持观察和交互。JoyAI-VL-Interaction还具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或Agent。前台模型继续观察现场,后台模型处理复杂任务,结果返回后再自然接回对话。它更像一套“前台实时助手+后台智能大脑”的协作系统:前台负责在场,后台负责干重活,有机会开启AI与人类协作的新范式。

据介绍,JoyAI-VL-Interaction开源的是完整技术栈,包括模型权重、交互数据集、训练方案和完整可部署系统,可以帮助开发者更快从模型研究走向真实场景落地。JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入,也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块,都可以按需替换。开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
3月2日消息,京东健康旗下“京医千询”医疗大模型近日启动开源,成为国内医疗行业首个全面开源的垂类大模型。此次启动全面开源,意味着“京医千询”医疗大模型的所有模型参数、数据构造、多阶段模型训练、模型评测等核心代码都将公开,显示出京东健康在推动医疗AI技术进步、和以医疗AI驱动医疗行业转型发展方面的决心。
6月17日消息,京东团队即将开源视觉语言实时交互模型JoyAI-VL-Interaction。媒体从一份在开源社区和海外AI技术圈受到关注的技术报告获悉,JoyAI-VL-Interaction把多模态大模型从“一问一答”,推进到“实时流式交互”,适合需要AI持续在场的场景。报告将JoyAI-VL-Interaction与豆包、Gemini 的App内视频通话助手进行了人工评测,覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。在58个案例中,JoyAI-VL-Interaction对豆包的总体胜率为77.6%,对Gemini的总体胜率为87.9%。其中,在监控预警场景中,对两个基线均取得100%胜率。
6月4日消息,阿里巴巴旗下的天猫精灵与通义大模型团队联合多位领域学者和组织,推出了一个名为100PoisonMpts的大语言模型治理开源中文数据集,宣布十余位知名专家学者成为首批“给AI投100瓶毒药”的标注工程师。标注人各提出100个含有偏见和歧视回答的棘手问题,并标注出大型模型的回答,完成由AI"投毒"和"解毒"的攻防。100PoisonMpts数据集预计在6月开放第一批问答数据,目前正在魔搭等技术社区征集更多垂直领域专家。
3月10日消息,猎芯网近日宣布全面接入国产开源模型DeepSeek R1,“芯宝”AI精灵已上线,通过深度融合AI技术,猎芯网将重塑电子元器件采购流程,为工程师、采购商和终端工厂提供从选型、替代到方案设计的高效支持。
1月29日消息,Clawdbot(现改名Moltbot),这个能读文件、跑命令、写代码、管系统的开源AI智能体,现已正式登陆京东云。京东云轻量云主机现已预置Moltbot应用镜像,无需手动配置环境,三步即可完成部署。
3月11日消息,继1月官宣上线OpenClaw(曾用名Clawdbot、Moltbot,俗称“龙虾”)云服务后,京东云轻量云主机凭借零门槛部署、全天候稳定运行的优势,成为众多用户部署这款热门开源Agent的选择。最新数据显示,京东云OpenClaw云服务用户规模单周增长超300%,云端部署需求持续走高。京东云轻量云主机的一键部署方案,正成为现象级开源AI项目快速普及的重要助力。
5月9日消息,一年一度的618大促即将到来,B站今年推出商业化AI数据洞察能力,将帮助品牌和商家在投前洞察、达人匹配、创意生成,投后策略复盘在内的营销全链路带来提效。在电商“大开环”战略下,今年B站持续加强与淘天、京东等电商平台的紧密合作,升级数据共建计划、强化种草合作。B站还计划通过一系列商业基建能力的升级、UP主优质种草内容的聚合,助力品牌和商家拓展消费人群,在大促中收获更长效的生意转化。
在近日举办的1688创业开源大会上,1688的AI应用负责人王卓隽带来主题为《1688.AI 让用户采购更简单》的演讲。
11月25日消息,重庆文旅两江集团近日与美团旅行战略签约。双方就未来3年内,预订线上化、AI“数智化”、经营培训、产业链品牌化等四大方向深度合作进行探讨,并准备将合作范畴延伸至酒店新客源探索、酒店餐饮创新升级等多个领域,积极探索国资文旅集团深度数字化转型变革,推动地方文旅消费与本地吃喝玩乐购的深入融合发展。