基于多模型融合的可解释图像文本描述模型——数字经济下的电子商务新视界

数媒竞赛获奖作品信息及简介
作品名称基于多模型融合的可解释图像文本描述模型——数字经济下的电子商务新视界
作品分类其他
参赛院校海南大学
指导老师徐博、唐浩
团队成员曾之人、王盼、杨青霖、胡益豪
奖项等级国赛一等奖
竞赛年份2024

在数字经济浪潮下,传统的商品展示方案难以吸引用户浏览购买。电子商务平台亟须改进商品展示方式以提升用户体验。本团队提出了一种基于多模型融合的可解释图像文本描述模型,运用添加解析注意力机制的CLIP模型提取输入图像的高级特征,通过应用LoRA微调后的BLIP2、ConvNeXtxxlarge和CLIP模型的预测结果进行集成融合,生成准确、详细且具有吸引力的商品文本描述。 在电子商务的运营实践中,我们设计了一个端到端的强交互网页,b端和c端用户通过上传图片,调用模型自动提取商品的关键特征并进行预测,得到文本化描述。模型依托于多模态算法,结合最新设计元素和流行趋势,能够生成富有吸引力且详尽的文本描述,增强商品市场竞争力。同时,模型的可解释性保障了生成的文本描述可溯源性,以便用户进行个性化定制和调整。因此,该模型能够显著提升商品描述质量,优化整体的用户体验。本作品开发的平台可以为人工智能背景下的电子商务带来全新的应用体验。