资讯

为了更好地普及和传播大模型技术的最新进展与技术体系,我们于2023年3月发表了大语言模型英文综述文章《A Survey of Large Language Models》,并不断进行更新完善,目前已经更新至第14个版本,95页正文1064个参考文献。自英文综述文章上线后,陆续有读者询问该英文 ...
There was an error while loading. Please reload this page.
说到底,这项来自Meta的研究为我们揭示了视觉AI系统中一个长期被忽视但至关重要的组件——视觉标记器的深层运作规律。研究团队通过大规模实验发现,决定压缩质量的核心因素竟然是一个相对简单的数值:压缩后总浮点数的数量。这个发现就像发现了烹饪中面粉用量决定蛋糕质量的基本法则一样,为整个领域提供了清晰而实用的指导原则。
他本、硕、博分别毕业于中国矿大、哈工大、澳大利亚 Newcastle 大学,曾在悉尼大学野外机器人研究中心开展博士后研究,致力于机器人的多模态感知及融合、最优滤波与参数辨识、机器人与航天器控制、野外机器人系统与技术等方面的研究。
字节跳动的研究团队发现,当前的大语言模型智能体在处理需要多步骤完成的长期任务时面临着一个根本性问题:稀疏奖励信号让系统难以判断中间步骤的价值。这个问题就好比一个厨师在做一道复杂菜品时,只有在客人品尝后才知道菜品好坏,却不知道在准备食材、调味、烹饪的各 ...
官方称,UnifoLM-WMA-0属于UnifoLM(Unitree机器人统一大模型)系列成果,是团队专为通用机器人学习量身打造的,能适配多种机器人本体。
当你看到好莱坞大片中栩栩如生的人物说话时,是否想过有一天你也能仅仅用一张照片和一段音频就制作出同样逼真的说话视频?ByteDance智能创作实验室与清华大学的研究团队在2025年9月发表了一篇突破性研究论文,题为"HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning",这项研究让这个梦想变成现 ...
这项由南京大学姚耀教授团队领导的前沿研究发表于2025年9月的arXiv预印本平台,论文编号为arXiv:2509.09676v1。有兴趣深入了解的读者可以通过https://nju-3dv.github.io/projects/SpatialVID 访问项目主页获取完整信息。 设想一下,如果你要教一个从未见过真实世界的AI系统理解我们生活的三维空间,你会怎么做?传统的方法就像给盲人描述颜色一样困 ...
当你坐在一辆自动驾驶汽车里,车载AI系统通过摄像头观察路况并告诉你"前方有行人正在过马路,我们需要减速",你会完全相信这个电子司机的判断吗?最近,由上海AI实验室、新加坡国立大学、加州大学尔湾分校等多个顶级研究机构组成的国际团队发表了一项突破性研究, ...
近年来,以人形机器人、自动驾驶为代表的具身人工智能(Embodied Artificial Intelligence, ...
这项由上海交通大学人工智能学院孟彦旭、吴浩宁等研究者组成的团队发表于2025年8月的研究成果,提出了名为SceneGen的创新框架。这项研究已经在arXiv平台发布(论文编号:arXiv:2508.15769v1),感兴趣的读者可以通过https://mengmouxu.github.io/SceneGen访问完整的研究资料和代码。