华东师范大学学报(自然科学版) ›› 2025, Vol. 2025 ›› Issue (5): 53-65.doi: 10.3969/j.issn.1000-5641.2025.05.006
冯雷1(), 李超楠1, 盛春杰2,*(
), 施宇星2, 黄奕铖1, 金剑虹1, 许韵1, 杜聿洲1, 周妮娜1, 缪思好1
Lei FENG1(), Chaonan LI1, Chunjie SHENG2,*(
), Yuxing SHI2, Yicheng HUANG1, Jianhong JIN1, Yun XU1, Yuzhou DU1, Nina ZHOU1, Sihao MIAO1
摘要:
针对多模态大模型在处理如树木倒伏等复杂视觉场景时, 因依赖单路径推理而导致的决策鲁棒性不足问题, 提出了一种基于束搜索思维链 (Beam Search Chain-of-Thought, BS-CoT) 的推理优化方法. 该方法通过并行探索和评估多条潜在的推理路径, 有效克服了传统模型易陷入单一错误逻辑的缺陷, 显著增强了模型在复杂场景下的视觉决策能力. 为验证该方法的有效性, 构建了一个面向城市治理中树木倒伏场景的专用数据集. 实验结果表明, 与基线模型相比, 本方法在事件召回率和关键信息捕获率上均有显著提升. 本研究不仅为解决城市公共安全领域的视觉决策难题提供了可靠的技术方案, 也为提升大模型在关键任务中的推理可靠性提供了新的范式.
中图分类号: