机器之心Pro的个人主页

最新

当世界模型不止「视频」该如何评估？WorldLens提出实用化评估新框架

WorldLens在这一部分同时做了开环与闭环评测，目的不是「给规划器打分」，而是把规划器当作媒介，测试生成世界是否提供了足够稳定、足够可信的可行动线索。更重要的是，WorldLens并没有把人类评测停留在「…

昨天17:56 · 137阅读 · 0评论

都是TOP人才！跑遍全球，和机器之心共聚AI学术顶会

从论文的深度解读，到人才晚宴上的热烈交谈，“论文分享会”与“人才Meetup”两大系列活动，贯穿全年，覆盖海内外，旨在打造一个有温度、有深度、也有价值的AI交流生态圈：我们已经初步规划了覆盖ICLR、CVPR…

昨天17:48 · 24阅读 · 0评论

告别高昂重制成本！港科大广州、快手可灵发布立体视频转换单步推理新方案

由于先前的研究工作往往从未对这两种格式进行区分，或者只在单一格式上进行训练，不可避免的带来了一些不合理的对比，如将汇聚式3D电影数据集上训练的模型在平行光轴的数据集上进行测试对比。这就好比给模型装了一个“开关…

昨天15:44 · 126阅读 · 0评论

布局控制+身份一致：浙大提出ContextGen，实现布局锚定多实例生成新SOTA

论文地址：https://arxiv.org/abs/2510.11000项目地址：https://nenhang.github.io/ContextGen开源代码：https://github.com/ne…

昨天15:31 · 1743阅读 · 0评论

VideoCoF：将「时序推理」引入视频编辑，无Mask实现高精度编辑与长视频外推！

来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架VideoCoF，受LLM「思维链」启发，通过「看-推理-编辑」的流程，仅需50k训练数据，就在多项任务上取得了SOTA效果，并完美支持长视频外…

昨天15:27 · 63阅读 · 0评论

LeCun和哈萨比斯「吵」起来了：「通用智能」到底存不存在？

LeCun并没有退让，他认为这不仅是词汇定义的问题，更是数学事实：理论上可行不代表实际上有意义。从这个角度看，人类大脑虽然并非为下棋或工程设计而进化，但依然能够发展出科学、工程与复杂文明，这本身被视为通用智能…

昨天15:11 · 559阅读 · 0评论

技术革新+生态赋能：多彩新媒构建智慧广电新标杆

针对IPTV终端长期存在的交互单一、跨设备体验割裂等问题，多彩新媒启动了终端技术架构的重构，将EPG产品从传统的BS架构，转向更强调本地性能与响应能力的CS架构，重点攻克了多终端兼容与性能优化难题。行业层面，…

昨天14:13 · 80阅读 · 0评论

仅需15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了

但在真实落地中，这两条路线都有较明显的共性代价：一方面，它们通常强依赖大量后训练，工程实现与适配成本也更高；另一方面，LinearAttention在压缩信息后，长序列下的召回能力显著弱于FullAttent…

昨天12:48 · 40阅读 · 0评论

拿走200多万奖金的AI人才，到底给出了什么样的技术方案？

对应到广告场景里，这意味着系统不再只判断「点不点」某个广告，而是尝试回答：在此时此刻，这个人最不反感、也最可能有用的广告，会是什么。对此，他们给出的解法是：在编码的最后一层，故意引入一些随机性，让码表使用更均…

昨天12:46 · 236阅读 · 0评论

最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品

通过Forms/Functions/Dynamics的统一视角，记忆不再是附属插件，而是智能体实现时间一致性、持续适应与长程能力的关键基底；未来随着RL融合、多模态与多智能体场景兴起，以及从检索中心走向生成式…

昨天09:37 · 28阅读 · 0评论

RL加持的3D生成时代来了！首个「R1 式」文本到3D推理大模型AR3D-R1登场

该工作系统研究了奖励设计、RL算法和评估基准，并提出Hi-GRPO——一种层次化强化学习范式，通过分离全局结构推理与局部纹理精修来优化3D生成。受3D生成自然层次结构的启发——模型首先构建全局几何，然后精修局…

前天16:38 · 2.0万阅读 · 0评论

旧金山大停电，Waymo自动驾驶汽车瘫痪，特斯拉赢麻了

Waymo自动驾驶汽车在停电期间大规模瘫痪。在此期间，有大量照片和视频被发布到社交媒体上，拍下了Waymo自动驾驶出租车在道路中间和十字路口停车。也说明了这一瘫痪现象并非个例，而是普遍现象。Waymo表示，其…

前天16:34 · 392阅读 · 0评论

突破本体束缚！简智第一视角数采设备开启数据采集新范式

革新产品形态，采集方式重新定义！简智机器人全新第一视角设备——DAS Ego，370克轻量化设计，开机即用，无惧场景限制，让数据采集像拍照般轻松。具备行业目前最大超广FOV，捕捉全景交互细节，高精度记录完整移动轨迹，同时本地高效处理数据，可压缩至2%实时回传，并能联动手部设备，实现“手眼协同”，构建最全面的数据配方。以轻量专业之姿，赋能高效、精准的行业解决方案。

前天14:51 · 79阅读 · 0评论

智能体如何学会「想象」？深度解析世界模型嵌入具身系统的三大技术范式

在该范式中，世界模型作为决策生成器，它的核心任务，是为智能体生成一个未来的目标状态，并把复杂的长时序任务拆分成两个更容易解决的子问题：统一的世界-策略模型构建范式：大规模预训练模型天然具备世界建模与策略生成潜…

前天14:39 · 2111阅读 · 0评论

震撼，英伟达新模型能打遍几乎所有游戏

一个通用的视觉-动作模型，能够接收游戏观测（如视频帧），并生成对应的手柄操作指令，实现跨多款游戏的零样本（zero-shot）游玩能力，同时也可作为基础模型，用于对新游戏进行进一步微调与适配。在未进行任何额外…

前天14:36 · 80阅读 · 0评论

AI一旦开始「内卷」，会变成什么样？腾讯混元和上交联合揭秘多智能体「饥饿游戏」

当面临极端竞争压力时，LLM多智能体系统会出现严重的“过度竞争”行为，沉迷互踩、内卷和博弈，直接拖垮整体任务表现。这项研究设计了一个高风险、零和博弈的辩论环境，让智能体在“合作完成任务”与“避免被淘汰”之间做…

前天14:32 · 556阅读 · 0评论

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

Marble所依赖的基于WebGL的3DGaussianSplatting(3DGS)渲染器SparkJS，让世界模型首次在浏览器中「跑起来」，但也暴露出明显瓶颈：大场景以及复杂场景下，CPU排序成为性能天花…

前天14:19 · 16阅读 · 0评论

瞄准AI、图形顶端战场：摩尔线程上演国产GPU硬核实力路演

张建中将MUSA架构分为几个层级进行了介绍，其最底层是全功能GPU架构，其上为硬件产品与系统（从单卡到大规模集群），最上层为全套软件栈与开发者生态。摩尔线程在大会上发布了AI算力笔记本MTTAIBOOK，作为…

前天14:11 · 140阅读 · 0评论

陈天桥旗下盛大AI东京研究院于SIGGRAPH Asia正式亮相，揭晓数字人和世界模型成果

图2盛大AI首席科学家郑波博士深入剖析数字人“灵魂缺失”的核心难题，并确立了以“交互智能”和“时空智能”为核心的研究目标。Mio框架通过将这五个模块无缝融合，实现了从认知推理到实时多模态体现（embodime…

前天14:11 · 475阅读 · 0评论

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」

总体而言，DualCamCtrl巧妙地采用了双分支视频扩散框架（DualBranchVideoDiffusionFramework），其中一条分支负责生成RGB表示，另一条分支负责生成深度表示，两种模态通过提…

前天14:11 · 14阅读 · 0评论

机器之心Pro

7140.5万+

阅读

1万

内容

738

订阅

127

获赞

+订阅

未来在这里发声注册信息

活动勋章

独家|“祥源系”百亿元金融产品爆雷后续：浙金中心董事长丁建林等18人已被刑拘

政权倒台一年后，阿萨德家族被曝在俄罗斯过着“奢华生活”

青岛大学撤销9个学院？有学院已发撤销公告

任泽平：此轮牛市十年一遇

徐杰20分萨林杰32+11 广东客场击败广州豪取5连胜

乌克兰或将制裁中国公民，外交部：敦促乌方立即纠正错误

支付中心 - 搜狐招聘 - 广告服务 - 联系方式 - About SOHU - 公司介绍 - 隐私政策

Copyright © 2025 Sohu All Rights Reserved. 搜狐公司版权所有