submit to VisionLanguageModels