Monkey视觉模型:高分辨率图像标注利器2024/08/09 23:34阅读量 6用滑动窗口+全局视图处理高清图像并生成文本描述 传统多模态模型看不清高清图细节 兼顾局部细节与全局结构,提升描述准确暂无可展示正文阅读原文详情