英伟达推DAM-3B模型:突破局部描述难题,让AI看懂图像/视频每一

小嗯聊科技 2025-04-24 21:21:47

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落

科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。

视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。

英伟达推出的 Describe Anything 3B(DAM-3B)直面这一难题,支持用户通过点、边界框、涂鸦或掩码指定目标区域,生成精准且贴合上下文的描述文本。

DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频,模型已在 Hugging Face 平台公开。男子长期熬夜劝大家好好爱自己

0 阅读:3
小嗯聊科技

小嗯聊科技

感谢大家的关注