刘强东甩出王炸,京东大模型一飞冲天

电商必读
2026-06-05 09:20

刘强东:未来五年的技术进步,可能会超越过去十年的成就。

AI浪潮席卷而来,各类模型层出不穷,但视频生成始终是一块难啃的骨头。尤其是长视频,几乎很难一次性成功:不是角色动作出错,就是场景逻辑混乱。

这也让AI视频长期停留在“玩具”阶段,难以真正进入专业创作领域。

好在技术仍在不断突破,各大互联网公司也在持续攻坚。

日前,京东正式推出并开源JoyAI-Echo长音视频生成框架。相比此前行业里大量停留在“几秒钟短片”阶段的AI视频模型,JoyAI-Echo的核心突破,在于真正开始攻克“长视频生成”这一公认难题。

图片

图源:京东黑板报

长期以来,AI生成长视频普遍面临三个关键问题:角色一致性容易崩坏、人物声音频繁变化,以及生成速度过慢,难以满足实际生产需求。而JoyAI-Echo正是围绕这三个问题进行了系统优化。

JoyAI-Echo内置了跨模态音视频记忆库,可以在多镜头生成过程中,持续记录并调用角色外观特征与音色信息,从而保证人物在长时间、多场景切换中的一致性

经过实测,验证了在长达5分钟的视频生成过程中,角色身份、视觉形象以及声音音色依然能够保持高度统一。

图片图片

图源:京东黑板报

这背后,本质上是在解决AI视频领域最棘手的“时序一致性”问题。

此前,大多数AI视频模型在生成短视频时表现尚可,但一旦时间拉长,就会出现人物面部变化、服装错乱、声音漂移甚至场景逻辑断裂等问题。

这也是为什么过去AI视频更多用于概念展示、实验短片,而难以真正进入工业化内容生产阶段。

JoyAI-Echo此次发布的意义,在于它开始让AI视频从“演示级”向“生产级”迈进,也标志着,京东在长视频生成领域进入全球第一梯队。

除了角色和声音一致性问题,JoyAI-Echo另一个重要突破就是生成效率

京东团队提出了“记忆驱动后训练流程”,结合SFT、跨模态RLHF以及Distribution Matching Distillation(DMD)等技术,对生成链路进行了优化。其中,仅DMD技术就带来了约7.5倍的推理速度提升

推理效率的提升,意味着AI视频开始具备更强的实时生产能力,也意味着商业化门槛正在下降。

JoyAI-Echo此次还加入了一个颇具代表性的功能:“对话式编辑”。

过去AI视频生成还有一个痛点,就是修改成本极高。用户如果对其中一个镜头不满意,往往需要重新生成整条视频。

但JoyAI-Echo引入了Director Agent(导演助理)机制,可以通过自然语言直接调整镜头、场景和角色内容,实现局部修改,而不必整体重跑。

这意味着AI视频正在从“静态生成工具”,逐渐演变为“动态协作工具”。

从产业层面来看,JoyAI-Echo的发布,对于京东自身体系也具有非常现实的意义。

当前电商行业已经进入“内容驱动消费”阶段。短视频、直播、种草内容,正在成为用户消费决策的重要入口。尤其是在抖音、快手等平台推动下,“短视频+直播”已经成为行业主流趋势。

而AI长视频生成能力一旦成熟,最先改变的就是电商内容生产逻辑。

这对于京东而言,不只是技术突破,更是平台能力升级。

因为京东本身拥有海量商家与商品生态。如果AI视频工具能够深度嵌入商家后台,那么它实际上会成为一种新的基础设施。

对于大量中小商家来说,AI生成内容意味着营销门槛下降;对于平台而言,则意味着内容供给能力大幅增加。

尤其是在直播电商与内容电商高度竞争的背景下,AI视频能力可能会逐渐成为平台的重要竞争力之一。

事实上,在AI技术赋能电商这件事上,京东已经布局多年

除了此次推出的JoyAI-Echo之外,京东此前已经陆续发布了JoyAI基础大模型、JoyAI-RA具身智能模型、JoyInside、AI数字人以及AI智能体“京言”等多个AI方向产品。

其中,AI数字人与智能客服方向,已经较早进入实际业务场景。

早在2024年,京东就以集团创始人刘强东为原型,推出了“采销东哥”AI数字人,开启直播首秀。

开播仅30分钟,直播间观看量就突破千万;40分钟直播中,整体订单量破10万,整场成交额超过5000万元,用户平均停留时长达到日常均值的5.6倍。

图片

图源:京东

去年12月,京东正式宣布京东数字人直播向所有商家免费开放,旨在帮助商家快速搭建全时段无间隙的24小时直播间。

同时,京东还全面开放公域流量,帮助商家实现降本增效,实现高效转化。

图片

图源:京东云

而就在两个月前,刘强东的数字人形象再次出现在三亚国际游艇分展区活动现场,并发表致辞,同时宣告刘强东的个人游艇品牌在三亚落地。

如今JoyAI-Echo的推出,也意味着京东开始进一步向AI内容生产链路延伸

从整个行业来看,长视频生成赛道也正在迅速升温。

2026年初,字节跳动推出Seedance 2.0视频生成模型,被不少业内人士视为AI视频从“可用”迈向“生产级”的关键节点之一。

随后在2026年5月,火山引擎又正式上线“火山剧创1.0”,开始覆盖短剧创作全流程,包括剧本生成、镜头拆解以及视频生成等环节。

图片

图源:火山引擎

这背后反映出的,是字节对于“AI内容工业化”的明确布局。

因为字节本身拥有抖音、西瓜视频等庞大的内容生态,而短剧又是当前流量增长最快的内容形态之一。

AI视频能力如果能够降低短剧生产成本,将直接影响未来内容供给效率。

阿里同样在快速推进视频生成方向。

此前,HappyHorse曾匿名登顶图生视频榜单,随后阿里巴巴正式“认领”HappyHorse,并确认是由其旗下ATH(Alibaba Token Hub)创新事业部研发。

图片

图源:Artificial Analysis

图片

图源:X平台

2026年5月,阿里云又推出AI视频创作平台“万镜一刻”,整合HappyHorse、Wan、Qwen-image、Z-image等多套模型能力。

图片

图源:万镜一刻

值得注意的是,阿里的思路更偏向“完整创作链路”。

其平台不仅提供视频生成,还引入了“编剧Agent”“导演Agent”“提示词Agent”等功能模块。

例如,编剧Agent可以把一句话创意扩展成完整剧本,导演Agent负责拆解镜头,而提示词Agent则负责生成电影级运镜语言。

这种模式本质上是在尝试构建整个影视工业流程。

快手方面,则在2026年2月正式全球上线可灵3.0系列模型,包括可灵视频3.0、可灵视频3.0 Omni等产品。

由于快手本身长期深耕短视频与直播生态,因此其AI视频能力也被视为未来平台商业化的重要方向之一。

图片

图源:可灵AI 

可以发现,AI视频生成技术,正成为几大互联网巨头的必争之地。竞争的焦点,也在从单一的“生成能力”转向更全面的“工业化能力”。

更要看解决角色一致性、长时序逻辑、交互式编辑的能力,以及能否支撑起商业化生产的高效率需求。

当然,现阶段AI长视频仍然存在不少限制。

包括算力成本较高、复杂剧情稳定性不足、细节控制能力有限,以及版权与数据合规等问题,依然是行业需要持续面对的挑战。

尤其是随着AI生成内容规模扩大,关于训练数据来源、版权归属以及内容真实性的问题,也会越来越受到重视。

但整体来看,AI视频行业已经进入明显加速阶段。

而长视频能力一旦成熟,它带来的影响将不仅仅局限于娱乐行业。

广告、电商、教育、游戏、短剧、品牌营销、虚拟主播、数字人直播,乃至未来的互动影视,都可能因此发生变化。

对于平台而言,AI视频意味着更低的内容生产成本、更高的内容供给效率以及更强的商业转化能力。

对于创作者而言,则意味着内容生产门槛进一步下降。

而对于整个互联网行业来说,这意味着“内容工业化”正在进入全新的阶段。

1、该内容为作者独立观点,不代表电商派观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、电商号平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
7月13日消息,京东在2023京东全球科技探索者大会暨京东云峰会上正式发布京东言犀模型,同时发布言犀AI开发计算平台。该平台已经启动预约注册,预计8月正式上线。
“2023京东全球科技探索者大会暨京东云峰会”将于7月13日在京举办。
7月6日消息,2023世界人工智能大会今日开幕,在产业发展主论坛上,京东探索研究院院长、京东科技智能服务与产品部总裁何晓东发表演讲。他表示,模型将重塑所有的商业模式,京东也即将发布干亿级言犀模型。日前,京东CEO许冉也透露,京东将在7月13日发布京东模型。他认为,未来通往AGI的终局,多模态智能是必经之路。
6月27日消息,在京东云城市大会上海站上,京东集团技术委员会主席、京东云事业部总裁曹鹏介绍,即将推出的言犀大规模预训练语言模型,是参数达到千亿级的新一代模型京东模型将面向多模态,深入零售、物流、工业等产业场景。曹鹏强调,在产业智能时代,也需要新一代数字基础设施,能广泛支持各类芯片架构,并兼容各类异构基础设施。
7月5日消息,京东集团CEO许冉在今日2023全球数字经济大会主论坛上表示,唯有技术才能创造核心竞争优势,7月13日,京东全球科技探索者大会将发布京东模型京东将在人工智能、数据、云计算等领域,不断探索和拓宽科技新边界。
2023全球数字经济大会于7月4日至7日在京举行。京东集团CEO许冉应邀出席大会主论坛并发表主题报告。
3月3日消息,据多方消息,原百度ACG 技术委员会主席、T10级高管孙珂已正式离职,并入职京东零售模型部门,向AI与创新负责人顾烨平汇报。孙珂2011年博士毕业于哈尔滨工业大学,同年加入百度,长期深耕自然语言处理、知识图谱与模型领域。在百度期间,他主导过“百度知心”搜索项目、UNIT语音交互平台2.0发布,并曾任百度智能云应用产品事业部总架构师,负责文心快码、百度GBI等产品的技术与商业化。
电商必读
解读重磅与头条,分析趋势看未来。