资讯

近年来,以人形机器人、自动驾驶为代表的具身人工智能(Embodied Artificial Intelligence, ...
说到底,这项来自Meta的研究为我们揭示了视觉AI系统中一个长期被忽视但至关重要的组件——视觉标记器的深层运作规律。研究团队通过大规模实验发现,决定压缩质量的核心因素竟然是一个相对简单的数值:压缩后总浮点数的数量。这个发现就像发现了烹饪中面粉用量决定蛋糕质量的基本法则一样,为整个领域提供了清晰而实用的指导原则。
这项由加州大学默塞德分校的杨明轩教授、字节跳动种子实验室的李向泰博士以及武汉大学、北京大学等多所院校联合开展的研究,已于2025年2月发表在arXiv预印本平台上。感兴趣的读者可以通过链接https://lxtgh.github.io/project/sa2va访问项目主页,或通过https://huggingface.co/ByteDance/Sa2VA- ...
近日,来自加州大学圣克鲁兹分校、苹果公司、加州大学伯克利的研究者提出了 OpenVision 2,一种极简的生成式视觉预训练新方向。这项工作在保持最优性能的同时,大幅提升了训练效率,并在生成式框架下实现了 10 亿参数规模的可扩展训练。
这项由南京大学姚耀教授团队领导的前沿研究发表于2025年9月的arXiv预印本平台,论文编号为arXiv:2509.09676v1。有兴趣深入了解的读者可以通过https://nju-3dv.github.io/projects/SpatialVID 访问项目主页获取完整信息。 设想一下,如果你要教一个从未见过真实世界的AI系统理解我们生活的三维空间,你会怎么做?传统的方法就像给盲人描述颜色一样困 ...
字节跳动的研究团队发现,当前的大语言模型智能体在处理需要多步骤完成的长期任务时面临着一个根本性问题:稀疏奖励信号让系统难以判断中间步骤的价值。这个问题就好比一个厨师在做一道复杂菜品时,只有在客人品尝后才知道菜品好坏,却不知道在准备食材、调味、烹饪的各 ...
与其他联合生成方法的比较也很有启发性。研究团队将LayerDiffusion与AnimateDiff结合用于RGBA视频生成作为对比基线。结果显示,这种组合虽然理论上可行,但在实际效果上存在明显缺陷:RGB和Alpha之间经常出现不对齐的问题,生成的 ...
当你坐在一辆自动驾驶汽车里,车载AI系统通过摄像头观察路况并告诉你"前方有行人正在过马路,我们需要减速",你会完全相信这个电子司机的判断吗?最近,由上海AI实验室、新加坡国立大学、加州大学尔湾分校等多个顶级研究机构组成的国际团队发表了一项突破性研究, ...
当你看到好莱坞大片中栩栩如生的人物说话时,是否想过有一天你也能仅仅用一张照片和一段音频就制作出同样逼真的说话视频?ByteDance智能创作实验室与清华大学的研究团队在2025年9月发表了一篇突破性研究论文,题为"HuMo: ...
顶尖智能体人才去哪儿,或将决定AI下半场的走向。27岁、清华姚班、普林斯顿博士、OpenAI智能体核心项目,引用过万……他提出「评测将比训练更重要」,把研究拉向产品与可度量价值。
来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现。 人类一眼就能看懂的文字,AI居然全军覆没。 来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现: ...