随着人工智能技术的迅猛发展, 大语言模型 (large language models, LLMs) 在自然语言处理和各种知识应用中展现了强大的能力. 研究了国内大语言模型在中小学学科知识图谱自动标注中的应用, 重点以义务教育阶段道德与法治学科和高中数学学科为例进行分析和探讨. 在教育领域, 知识图谱的构建对于整理和系统化学科知识具有重要意义, 然而传统的知识图谱构建方法在数据标注方面存在效率低、耗费大量人工成本等问题. 研究旨在通过大语言模型来解决这些问题, 从而提升知识图谱构建的自动化和智能化水平. 基于国内大语言模型的现状, 探讨了其在学科知识图谱自动标注中的应用, 以道德与法治和数学学科为例, 阐述了相关方法和实验结果. 首先, 探讨了研究背景和意义. 接着, 综述了国内大语言模型的发展现状和学科知识图谱的自动标注技术. 在方法与模型部分, 尝试探索一种基于国内大语言模型的自动标注方法, 力图完善其在学科知识图谱上的应用. 还探讨了学科知识图谱人工标注方法模型, 以此作为对比, 评估自动标注方法的实际效果. 在实验与分析部分, 通过在道德与法治和数学学科的自动标注实验和对其结果的分析, 发现两个学科的知识图谱自动标注均取得了较高的准确率和效率, 与人工标注结果进行了深入比较分析, 得出了一系列有价值的结论, 验证了所提出方法的有效性和准确性. 最后, 对未来的研究方向进行了展望. 总体而言, 研究为学科知识图谱的自动标注提供了一种新的思路和方法, 有望推动相关领域的进一步发展.
台风等极端天气会使淤泥质潮滩发生数十厘米的冲淤变化. 在全球变暖导致台风强度及频率增大的背景下, 厘清台风影响下潮滩冲淤变化及其机制, 对潮滩保护与生态系统完整性维持具有重要意义. 本文借助基于运动恢复结构算法的无人机(unmanned aerial vehicle, UAV)摄影测量方法, 于2021年7月“烟花”台风前后对崇明东滩典型样地进行滩面高程测量, 并在盐沼-光滩过渡带现场采集水动力泥沙数据. 结果表明: 无人机摄影测量精度为4.1 cm; 台风影响下光滩区域侵蚀、盐沼区域淤积, 变幅达 ±32 cm. 其原因是: 台风影响下, 光滩区域在天文大潮时波高及水深增大, 达到波浪破碎条件后表层沉积物被侵蚀并被强潮流搬运; 涨潮流携带悬浮泥沙进入盐沼后, 因盐沼缓流消浪作用导致水体挟沙能力下降, 泥沙在盐沼区域沉积. 因此, 盐沼-光滩过渡带呈现光滩区域侵蚀、盐沼区域沉积的冲淤分带性. 本文将无人机摄影测量与同步水动力泥沙现场观测结合, 为深刻认识台风事件对潮滩冲淤的影响提供了新视角.
农作物病害是威胁农作物生长的主要因素之一, 机器学习算法能高效率实现大范围农作物病害的发现, 有利于对其进行及时处理, 进而提升农作物的产量和质量. 在大范围农业场景中, 由于供电等条件限制, 无法满足服务器等高算力设备的供电需求, 现有深度网络模型大多需要较高算力, 难以部署在低功耗的嵌入式设备上, 给大范围农作物病害的准确识别应用带来障碍. 为解决此问题, 提出了一种基于知识蒸馏的轻量化农作物病害识别模型, 并设计了一种基于残差结构和注意力机制的学生模型, 利用知识蒸馏方法从大规模模型ConvNeXt中迁移学习成果, 在实现模型轻量化的同时保持高精度识别. 实验结果表明, 在模型规模为2.28 MB的条件下, 39类农作物病害图像分类任务的准确率达到了98.72%, 且每类病害的精确率、召回率和特异度均高于90%. 该模型满足了在嵌入式设备中部署的需求, 为农作物病害识别提供了一种实用高效的解决方法.
在国家新工科建设背景下, 早期的C++教学已不能满足“两性一度” (高阶性、创新性和挑战度) 的要求, 另外存在知识点碎片化、理论与实践难以结合、单视角偏差等问题, 针对以上问题, 通过将QT (Qt Toolkit)和C++这两门课程合二为一, 提出了有效融合QT和C++的创新教学模式, 并在智慧树平台部署了相应的课程知识图谱辅助教学. 一方面, 扩展了教学的广度, 有效关联课程知识点, 实现多模态教学资源的整合和共享, 促进学生多视角学习知识, 体现课程的创新性和避免单视角偏差; 另一方面, 提高了教学的深度, 构造融合QT和面向对象程序设计C++的知识图谱, 通过这两门课程知识点的有机融合, 搭建从理论到实践的桥梁, 提高课程高阶性和挑战度. 本研究另辟蹊径, 为C++的教学改革开辟了新途径, 也为其他高校的编程课程教学改革提供了有价值的参考和借鉴.
提出了一种基于自注意力融合的多图知识追踪方法(multi-graph knowledge tracing method based on self-attention, SA-MGKT), 旨在通过学生的历史答题数据, 对其知识的掌握程度进行模型化, 并评估其未来学习的表现. 首先, 该方法构建了学生–习题异质图来表示学生–习题的高阶关系, 通过图对比学习技术捕获学生的答题偏好, 并采用3层LightGCN进行图表征学习. 然后, 引入概念关联超图和有向转换图的信息, 通过超图卷积网络和有向图卷积网络进行节点嵌入. 最后, 通过引入自注意力机制, 成功融合了习题序列的内部信息以及多图表征学习所蕴含的潜在信息, 从而显著提升了知识追踪模型的准确性. 实验数据在3个标准数据集上均展现出令人鼓舞的结果, 模型的分类性能得到了大幅提升, 具体表现为相对于基线模型, 在评估指标上分别提高了3.51%、17.91%和1.47%. 这些结果充分验证了融合多图信息和自注意力机制对于增强知识追踪模型性能的有效性.
为提升对未来事件的预判能力并有效应对不确定性, 提出了一种基于图增强和注意力机制的网络架构, 用于多元时间序列的不确定性预测. 通过引入隐含式图结构并结合图神经网络技术, 捕捉各序列间相互依赖关系, 从而建模时间序列之间的相互影响; 运用注意力机制捕捉同一序列内的时序变化模式, 以建模时间序列的动态演变规律; 采用蒙特卡洛随机失活 (Monte Carlo dropout) 方法近似模型参数, 并将预测序列建模为随机分布, 以实现精确的时间序列不确定性预测. 实验证明, 该方法在保持较高预测精度的同时, 还能进行可靠的不确定性估计, 可以为决策任务提供置信度信息.
Gross-Pitaevskii方程广泛应用于玻色-爱因斯坦凝聚体(Bose-Einstein condensate, BEC)的动力学研究, 然而这个方程通常很难解析求解. 因此发展相应的高精度数值求解方法非常重要. 发展了结合算符劈裂法、Crank-Nicolson算法和四阶精度Numerov算法的高效求解Gross-Pitaevskii方程的新数值计算方法. 通过数值计算可以表明, 与传统的四阶精度的五点差分法相比, 所提出的算法具有高效和消耗内存小的优点.
溶解有机碳 (dissolved organic carbon, DOC) 是海洋中最大的活跃有机碳库. 精确刻画大河河口及其近海水体表层DOC浓度的时空分布, 有助于更好地理解河流输送的有机碳在河口近海经历的生物地化过程及在该区域的归宿. 本研究采用机器学习方法, 通过反演水体溶解态有机碳库中的有色溶解有机物 (colored dissolved organic matter, CDOM) 的吸收光谱信息, 并基于其与水体DOC浓度的相关关系, 发展了基于地球静止轨道水色成像仪 (geostationary ocean color imager, GOCI) 的DOC遥感反演模型. 结果表明, Nu支持向量回归 (nu-supporting vector regression, NuSVR) 方法可准确反演CDOM光谱吸收特性 (如验证集CDOM在300 nm处的吸收系数aCDOM(300)和275 ~ 295 nm处的光谱斜率S275–295的平均绝对误差 (mean absolute percent differences, MAPD) 分别为32%和8.6%). 分别基于该区域表层水体CDOM光谱吸收特性与DOC浓度之间表现的3种不同的相关关系进行DOC算法构建, 结果表明, 基于aCDOM(300)与DOC浓度之间的线性相关, 并考虑这一相关关系的季节性差异所构建的DOC反演算法可较为准确地反演水体DOC浓度, DOC反演现场数据验证集和卫星验证集的MAPD分别为11%和14%. 将构建的DOC算法模型应用到GOCI卫星图像上, 结果显示, 受长江径流影响, 季节尺度上, 长江口夏季水体表层DOC浓度显著高于冬季; 而受潮汐、风场等因素的影响, 小时尺度上河口近岸海域DOC分布呈现逐时高动态变化. 本研究利用卫星遥感反演河口近海水体DOC浓度, 为进一步在不同时间尺度上研究该区域水体DOC动态变化及驱动因素提供了有效手段.
数字教育资源自动化内容审查是教育信息化时代的迫切需求, 特别是对教育资源是否超标的适用性审查, 存在知识点难定位和难理解的问题. 针对这一需求, 提出了一种基于教育知识图谱和大语言模型(简称“大模型”)协同的教育资源内容审查方法. 具体地, 首先利用“本体”思想, 设计并构建一个面向中小学教育的知识图谱; 之后, 利用大模型在文本生成和排序任务上的优势, 设计基于教学内容生成和排序剪枝的知识定位方法; 最后, 通过教学内容核心知识子图与知识图谱教学路径的冲突检测, 实现超标教学内容识别. 实验结果表明, 所提出的方法可有效应对教育资源内容的超标知识审查任务, 为基于知识图谱及大语言模型协同的教育应用开辟新的技术路径.
为进一步厘清上海自然博物馆植物标本室模式标本的基本情况, 促进标本的利用和共享, 通过比对馆藏标本与植物标本资源共享平台和植物分类学期刊中模式标本的采集信息, 整理出模式标本418份, 隶属69科147属239种, 其中新发现模式标本390份. 本文还对馆藏模式标本的数量、类型、种类组成、优势类群、采集地、采集时间及采集人等进行了统计和分析.
提出了一种基于铌酸锂导模结构的高效光栅耦合器设计方案及其优化的光学激发配置. 利用有限时域差分算法对光栅耦合器的耦合效果进行了数值分析; 主要研究了光栅周期、光栅占空比、二氧化硅隔离层厚度, 以及入射光的偏振和角度对光栅耦合效率的影响; 对在共振波长和非共振波长处空间光传播电场图像进行了模拟. 理论仿真结果显示, 在光栅周期为650 nm、光栅占空比为0.3、刻蚀深度为130 nm时, 利用横磁(transverse magnetic, TM)偏振光沿光栅法线夹角17°方向入射, 可获得优化的光栅耦合效率 ~38%, 从而有效地将空间光耦合进入铌酸锂亚波长波导薄膜中, 这对铌酸锂微纳光栅耦合器的设计和性能应用有借鉴和参考价值.
扩散模型变革了文本–图像生成领域, 使终端用户可以基于简单的自然语言提示生成高质量、多样化的图像艺术作品. 然而, 由于训练数据集庞大且未经过滤, 文本–图像生成模型具有生成色情内容与暴力内容等不适当内容的能力. 为更加安全地部署此类模型, 提出了一种基于CLIP (contrastive language-image pre-training) 方向性损失的微调 (directional CLIP loss based fine-tuning, CLIF)算法, 使用方向性的CLIP损失来微调模型, 以抑制其生成不适当内容的能力. CLIF消耗的计算资源很少, 并且具有强制生效的特点. 为评估其抑制效果, 提出了CTP (categorized toxic prompts)用于评估文本–图像生成模型的不适当内容生成能力. 在CTP与COCO (common objects in context) 上的实验结果表明, CLIF能够在抑制文本–图像扩散模型生成不安全内容的同时不影响其一般性生成能力.
提出并实现了一个本地轻量化课程教学智能辅助系统. 该系统利用IPEX-LLM (Intel PyTorch extention for large language model)加速库, 在计算资源受限的设备上高效部署并运行经过QLoRA(quantum-logic optimized resource allocation)框架微调的大语言模型, 并结合增强检索技术, 实现了智能问答、智能出题、教学大纲生成、教学演示文档生成等4个主要功能模块的课程灵活定制, 在帮助教师提高教学备课和授课的质量与效率、保护数据隐私的同时, 支撑学生个性化学习并提供实时反馈. 在性能实验中, 以集成优化后的Chatglm3-6B模型为例, 该系统处理64-token输出任务时仅需4.08 s, 验证了其在资源受限环境下快速推理的能力. 在实践案例分析中, 通过与原生Chatgml-6B和ChatGPT4.0在功能实现上的对比, 进一步表明了该系统具备优越的准确性和实用性.
利用癌症基因组图谱 (the Cancer Genome Atlas, TCGA) 和国际肿瘤基因组协作组 (International Cancer Genome Consortium, ICGC) 数据库收集肝细胞癌 (hepatocellular carcinoma, HCC) 患者的RNA测序信息. 首先, 通过非负矩阵分解 (non-negative matrix factorization, NMF) 聚类方法和加权基因共表达网络分析 (weighted gene co-expression network analysis, WGCNA) 筛选出参与HCC免疫反应机制的关键基因. 利用套索 (the least absolute shrinkage and selection operator, LASSO) 回归分析构建预后基因模型, 并用基因集富集分析 (gene set enrichment analysis, GSEA) 方法分析生物学功能. 随后, 对不同风险组患者使用单样本基因集富集分析 (single sample genes set enrichment analysis, ssGSEA) 评估两组间免疫浸润和相关功能差异. 使用 “RMS” R软件包结合独立危险因素构建列线图以预测患者的总体生存时间. 最后, 利用人类蛋白质图谱数据库(Human Protein Atlas, HPA)与实时荧光定量PCR (real-time quantitative PCR, RT-qPCR) 进行临床初步验证. 总之, 本文在风险评分的基础上整合患者临床特征, 构建了一个可验证、可重复的列线图, 为临床肿瘤患者的精准治疗提供可靠的参考.
单目3D (three-dimensional)物体检测是自动驾驶和机器人导航中的一项基础但具有挑战性的任务. 直接从单张图片预测深度本质上是一个不适定的问题. 几何投影是一种强大的深度估计方法, 它从物体的物理高度和图像平面中的投影高度推断物体的深度. 然而, 高度估计错误将会放大深度估计的误差. 研究了预测物体表面点的物理高度和投影高度, 而不是物体本身的高度, 由此可获得一系列深度候选值; 还研究了估计高度的不确定性, 并根据不确定性来组合这些深度候选值, 以获得最终的目标深度. 实验证明了此深度估计方法的有效性, 且该方法在KITTI数据集的单目3D目标检测任务上达到了SOTA (state-of-the-art)结果.
近年来, 大规模开放在线课程(massive open online courses, MOOCs)已成为获取知识和技能的重要途径. 然而, 因课程数量激增导致信息过载的问题日益严重. 知识概念推荐旨在识别并向学生推荐需要掌握的特定知识点. 现有研究通过建立异质信息网络应对数据稀疏性, 但在充分挖掘异质信息网络数据和考虑学习者与知识概念之间多样互动方面存在局限性. 为了解决这些问题, 本文提出了一种名为融合异质信息网络与行为感知的知识概念推荐(heterogeneous learning behavior-aware knowledge concept recommendation, HLB-KCR)的新方法. 首先, 使用基于元路径的随机游走和skip-gram算法生成富含语义信息的元路径嵌入, 并通过两阶段元路径嵌入增强模块优化嵌入效果; 其次, 构建融入时间上下文信息的多类型交互图, 利用图神经网络(graph neural network, GNN)进行消息传递, 更新节点嵌入, 获得包含时间和交互类型信息的深度嵌入表示; 再次, 引入语义注意力模块, 将元路径嵌入与多类型交互嵌入相融合; 最后, 使用扩展的矩阵分解评分预测模块优化推荐算法. 在大型公开的MOOCCubeX数据集上进行大量的实验证明了HLB-KCR的有效性与合理性.
为了及时更新大金山岛苔藓植物名录, 为其就地保护研究提供科学依据, 在对上海大金山岛5次野外调查的基础上, 报道了大金山岛苔藓植物20科38属67种, 与该岛历史数据相比, 新增23种苔藓植物, 包括上海新记录13种, 首次发现叶附生苔类植物 (拟疣鳞苔Cololejeunea raduliloba Steph.) 在大金山岛的分布. 结合气候变化及苔藓植物生理生态特性对大金山岛苔藓植物物种组成变化进行了讨论, 提出了及时更新一个地区的名录对多样性就地保护的重要性.
操作系统是整个计算机系统的核心与基石, 其可靠性与安全性至关重要. 操作系统的故障或漏洞可能会导致系统崩溃、数据丢失、隐私泄露和安全攻击等问题, 特别是在安全攸关系统中, 一旦操作系统发生错误, 就可能会造成重大人员伤亡或财产损失. 一直以来, 如何保障操作系统的安全性和可靠性对学术界和工业界都是一个重大挑战. 目前验证操作系统安全性的方法有软件测试、程序静态分析、形式化方法等. 其中, 形式化方法是最有潜力确保操作系统安全可信的方法, 通过使用形式化方法, 建立数学模型并进行系统的形式化分析和验证, 从而发现潜在的错误和漏洞. 在操作系统中, 形式化方法可以用于验证操作系统的功能正确性、完整性以及系统安全性等. 在已有的针对操作系统形式化验证的成果基础上, 提出了一个面向嵌入式操作系统的形式化验证方案, 采用VCC (verified C compiler)、CBMC (C bounded model checker)以及PAT (process analysis toolkit)工具分别对操作系统单元层面、模块层面和系统层面进行验证. 该方法已成功应用到某操作系统的任务调度架构案例中, 对于嵌入式操作系统的分析验证具有一定的通用性.
从建构主义和能力本位理论出发, 提出了一种基于知识图谱的在线学习系统设计方法, 即打破传统的知识结构, 以提升能力为目标, 构建知识、技能等多维度的能力框架; 搭建了以知识图谱为底层逻辑, 链接数字学习资源的学习系统; 开展了教学实践和实证研究. 首先, 使用调查问卷对学习系统进行了验证; 其次, 以“阅读英文学术论文”能力为学习任务, 随机分配实验组和对照组; 最后, 评估两组对于知识、技能的理解、记忆水平以及综合运用能力. 研究结果显示, 学习系统的有效性和易用性实验组总成绩、知识得分、技能得分和能力得分均高于对照组成绩, 其中总成绩和能力得分具有显著性差异, 表明该系统对于在线学习效果有一定的促进作用.
综述了微塑料生物示踪和成像技术的研究进展. 目前, 多种示踪技术已被应用于微塑料的生物分布研究中. 常用的标记方法包括荧光标记、金属标记、同位素标记等. 其中, 荧光示踪技术因其高灵敏度和易操作性而应用最为广泛. 基于微塑料本身的光谱特性, 研究者还开发了多种先进成像技术, 如高光谱成像、表面增强拉曼成像和偏振光成像等. 这些技术能够实现微塑料的高灵敏度检测和定量分析. 此外, 组织透明化技术与高分辨率成像的结合使得微塑料在生物体内的三维可视化成像成为可能. 这种方法能够更全面地揭示微塑料在生物体内的空间分布情况, 为深入研究微塑料的生物学效应提供了新的视角. 未来, 多种示踪技术和成像方法与三维处理分析软件的结合将有助于更精细地探究微塑料在生物个体及其器官内的原位分布. 这种综合分析方法有望为微塑料的环境风险评估和管理提供更全面的科学依据.