资讯
说到底,这项来自Meta的研究为我们揭示了视觉AI系统中一个长期被忽视但至关重要的组件——视觉标记器的深层运作规律。研究团队通过大规模实验发现,决定压缩质量的核心因素竟然是一个相对简单的数值:压缩后总浮点数的数量。这个发现就像发现了烹饪中面粉用量决定蛋糕质量的基本法则一样,为整个领域提供了清晰而实用的指导原则。
他本、硕、博分别毕业于中国矿大、哈工大、澳大利亚 Newcastle 大学,曾在悉尼大学野外机器人研究中心开展博士后研究,致力于机器人的多模态感知及融合、最优滤波与参数辨识、机器人与航天器控制、野外机器人系统与技术等方面的研究。
官方称,UnifoLM-WMA-0属于UnifoLM(Unitree机器人统一大模型)系列成果,是团队专为通用机器人学习量身打造的,能适配多种机器人本体。
字节跳动的研究团队发现,当前的大语言模型智能体在处理需要多步骤完成的长期任务时面临着一个根本性问题:稀疏奖励信号让系统难以判断中间步骤的价值。这个问题就好比一个厨师在做一道复杂菜品时,只有在客人品尝后才知道菜品好坏,却不知道在准备食材、调味、烹饪的各 ...
国内能轻松使用的 Grok4 中文版教程,无需翻墙,支持 Grok-4 及中文版功能 本指南提供全面的 Grok4 国内使用指南,包括国内可用的 Grok4 网页版、Grok4 国内入口、Grok 官网平替和详细使用教程,帮助您快速使用上 grok~ Grok 中文版是 马斯克 xAI 的 Grok4 模型的中文版本 ...
科技行者 on MSN
字节跳动与清华联手:实现电影级说话视频生成
当你看到好莱坞大片中栩栩如生的人物说话时,是否想过有一天你也能仅仅用一张照片和一段音频就制作出同样逼真的说话视频?ByteDance智能创作实验室与清华大学的研究团队在2025年9月发表了一篇突破性研究论文,题为"HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning",这项研究让这个梦想变成现 ...
本文提供 ChatGPT 中文版使用指南,推荐国内直连的 ChatGPT 镜像网站,支持GPT-4,无需翻墙。 本项目为用户提供全面的 ChatGPT 中文版使用指南,同时整理了国内可用的 ChatGPT镜像网站和 官网使用教程,帮助您快速上手 ChatGPT,无论是个人使用还是专业需求。 什么是 ...
科技行者 on MSN
南大团队突破:海量视频数据集让AI理解空间关系
这项由南京大学姚耀教授团队领导的前沿研究发表于2025年9月的arXiv预印本平台,论文编号为arXiv:2509.09676v1。有兴趣深入了解的读者可以通过https://nju-3dv.github.io/projects/SpatialVID 访问项目主页获取完整信息。 设想一下,如果你要教一个从未见过真实世界的AI系统理解我们生活的三维空间,你会怎么做?传统的方法就像给盲人描述颜色一样困 ...
当你坐在一辆自动驾驶汽车里,车载AI系统通过摄像头观察路况并告诉你"前方有行人正在过马路,我们需要减速",你会完全相信这个电子司机的判断吗?最近,由上海AI实验室、新加坡国立大学、加州大学尔湾分校等多个顶级研究机构组成的国际团队发表了一项突破性研究, ...
IT之家 9 月 15 日消息,宇树科技今晚宣布开源 UnifoLM-WMA-0,其为宇树科技 跨多类机器人本体的开源世界模型-动作架构 ,专为通用机器人学习而设计,其核心成分在于一个可以理解机器人与环境交互物理规律的世界模型。
AI日报汇总最新行业动态:腾讯发布混元3D+3.0模型,建模精度提升3倍;昆仑万维Mureka上线音乐创作功能;阿里Qoder推出付费订阅服务;VEED Fabric 1.0实现图片转视频;OpenAI发布GPT-5-Codex革新编程;全国发布AI安全治理框架2.0;Mini-o3实现超长视觉推理;上海AI Lab推出多模态模型Lumina-DiMOO;腾讯微调技术提升图像美感300%;Meta ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果