跳到主要内容

Eagle_NVlabs

Eagle GitHub Repo stars

Eagle 是 NVIDIA 推出的前沿视觉语言模型家族,聚焦以数据为中心的策略,覆盖通用多模态理解、长上下文推理和具身智能应用。项目包含四条主要路线:LocateAnything 用于通用视觉定位、检测与指向,强调快速高质量的 grounding;Eagle 2.5 面向图像与视频的长上下文多模态理解;Eagle 2 聚焦前沿视觉语言模型的后训练数据策略;初代 Eagle 探索以混合编码器为核心的视觉中心型 VLM 设计。

项目能力涵盖密集目标检测、OCR、文档理解、GUI 定位、视频分段与细粒度描述、通用视觉问答、3D 感知与空间智能,以及智慧城市等虚实场景应用。其中 LocateAnything 通过并行框解码实现更高的定位速度,Eagle 2.5 强调长上下文图像和视频理解能力。该系列同时提供多个不同规模和骨干配置的开源模型,并已被用于 NVIDIA 多个旗舰项目和平台,包括 Nemotron、NeMo Retriever、Isaac GR00T 和 Cosmos。