资讯
于是,研究团队提出了一种全新的训练方法,他们称之为"批评微调"。这就像是把AI从一个被动的模仿者变成了一个敏锐的评论家。不再是简单地学习如何给出正确答案,而是学习如何识别、分析和批评错误答案中的问题。这种方法的灵感来源于人类的学习过程——我们往往通过 ...
这项由南京大学的谢睿、刘银洪等研究者与字节跳动、西南大学合作完成的研究发表于2025年1月,题为《STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World ...
科技行者 on MSN
香港大学团队让视频编辑像玩拼图一样简单:把任何物体精准插入 ...
这项由香港大学的涂远鹏、赵恒爽教授等人与阿里巴巴达摩院合作完成的研究于2025年1月发表在计算机视觉顶级会议上,研究成果名为"VideoAnydoor: High-fidelity Video Object Insertion with ...
科技行者 on MSN
阿里巴巴团队发布MinMo:让AI和人类像朋友一样自然聊天的革命性语音 ...
这项由阿里巴巴集团通义实验室FunAudioLLM团队完成的研究发表于2025年1月,论文题目为《MinMo: A Multimodal Large Language Model for Seamless Voice ...
近日,来自加州大学圣克鲁兹分校、苹果公司、加州大学伯克利的研究者提出了 OpenVision 2,一种极简的生成式视觉预训练新方向。这项工作在保持最优性能的同时,大幅提升了训练效率,并在生成式框架下实现了 10 亿参数规模的可扩展训练。
这项由南京大学姚耀教授团队领导的前沿研究发表于2025年9月的arXiv预印本平台,论文编号为arXiv:2509.09676v1。有兴趣深入了解的读者可以通过https://nju-3dv.github.io/projects/SpatialVID 访问项目主页获取完整信息。 设想一下,如果你要教一个从未见过真实世界的AI系统理解我们生活的三维空间,你会怎么做?传统的方法就像给盲人描述颜色一样困 ...
字节跳动的研究团队发现,当前的大语言模型智能体在处理需要多步骤完成的长期任务时面临着一个根本性问题:稀疏奖励信号让系统难以判断中间步骤的价值。这个问题就好比一个厨师在做一道复杂菜品时,只有在客人品尝后才知道菜品好坏,却不知道在准备食材、调味、烹饪的各 ...
与其他联合生成方法的比较也很有启发性。研究团队将LayerDiffusion与AnimateDiff结合用于RGBA视频生成作为对比基线。结果显示,这种组合虽然理论上可行,但在实际效果上存在明显缺陷:RGB和Alpha之间经常出现不对齐的问题,生成的 ...
顶尖智能体人才去哪儿,或将决定AI下半场的走向。27岁、清华姚班、普林斯顿博士、OpenAI智能体核心项目,引用过万……他提出「评测将比训练更重要」,把研究拉向产品与可度量价值。
依托 AgentGym-RL 框架,研究人员创新性地提出了智能体范式下扩展测试时计算的新路径 —— 扩展环境交互(Scaling ...
007:黎明曙光的相关信息已于今日凌晨陆续公开。在接受采访时,开发商IOInteractive的代表谈到了游戏中演员的选用情况。在本作中,核心角色詹姆斯·邦德将由出生于1995年的年轻演员帕特里克·吉布森饰演。吉布森此前 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果