领域知识图谱拥有不完备性和语义复杂多样性的特点, 从而导致其在规则抽取和选择问题上的不足, 影响了其推理的能力. 针对此问题, 提出了一种融合关系和结构编码的规则抽取模型. 通过提取目标子图中的关系和结构信息并进行特征编码, 从而实现了一种多维度的嵌入表达方法. 设计了融合关系和结构信息的自注意力机制, 使模型能够更好地捕捉输入序列中的依赖关系和局部结构信息, 从而提升了模型对于上下文的理解和表达能力, 进而解决了在语义复杂情况下规则的抽取和选择的问题. 通过在真实汽车部件故障工业数据集和公共数据集的实验, 表明了在链接预测与规则质量评估任务中, 所提出的模型都有一定的提升 (规则长度为3时, mean reciprocal rank (MRR) 平均提升了7.1百分点, Hits@10平均提升了8.6百分点; 规则长度为2时, MRR平均提升了7.4百分点, Hits@10平均提升了3.9百分点), 证实了关系和结构信息对于规则抽取与推理的有效性.
第三方软件系统在现代软件开发过程中有着重要的作用. 软件开发人员根据需求, 在第三方软件库中检索合适的依赖库来构建软件, 可避免许多重复工作, 加快开发过程. 然而, 检索第三方依赖库的过程可能会很困难. 通常第三方软件库提供预设的标签 (类别) 给软件开发人员进行查找, 但是如果一个软件的预设标签被错误地标注, 软件开发人员就无法查找到其需要的库, 这势必会影响开发过程. 提出了一种软件分类模型来解决上述挑战, 模型结合方法向量、方法重要性和文本向量, 将未知类别的软件分类到已知类别. 鉴于此问题尚未有公开的数据集, 为此建立了一个数据集并公开, 此数据集包含来自Maven存储库的30种类别的120个软件系统. 在此自建数据集上对提出的分类模型进行了测试, 预测类别的准确度对于1个候选者的情况 (top-1) 为70%, 对于3个候选者的情况 (top-3) 则达到了90%. 实验结果表明, 所提模型可以有效用于对开源存储库中的软件系统分类, 辅助软件开发人员快速查找第三方库.
农作物病害是威胁农作物生长的主要因素之一, 机器学习算法能高效率实现大范围农作物病害的发现, 有利于对其进行及时处理, 进而提升农作物的产量和质量. 在大范围农业场景中, 由于供电等条件限制, 无法满足服务器等高算力设备的供电需求, 现有深度网络模型大多需要较高算力, 难以部署在低功耗的嵌入式设备上, 给大范围农作物病害的准确识别应用带来障碍. 为解决此问题, 提出了一种基于知识蒸馏的轻量化农作物病害识别模型, 并设计了一种基于残差结构和注意力机制的学生模型, 利用知识蒸馏方法从大规模模型ConvNeXt中迁移学习成果, 在实现模型轻量化的同时保持高精度识别. 实验结果表明, 在模型规模为2.28 MB的条件下, 39类农作物病害图像分类任务的准确率达到了98.72%, 且每类病害的精确率、召回率和特异度均高于90%. 该模型满足了在嵌入式设备中部署的需求, 为农作物病害识别提供了一种实用高效的解决方法.
单目3D (three-dimensional)物体检测是自动驾驶和机器人导航中的一项基础但具有挑战性的任务. 直接从单张图片预测深度本质上是一个不适定的问题. 几何投影是一种强大的深度估计方法, 它从物体的物理高度和图像平面中的投影高度推断物体的深度. 然而, 高度估计错误将会放大深度估计的误差. 研究了预测物体表面点的物理高度和投影高度, 而不是物体本身的高度, 由此可获得一系列深度候选值; 还研究了估计高度的不确定性, 并根据不确定性来组合这些深度候选值, 以获得最终的目标深度. 实验证明了此深度估计方法的有效性, 且该方法在KITTI数据集的单目3D目标检测任务上达到了SOTA (state-of-the-art)结果.
为提升对未来事件的预判能力并有效应对不确定性, 提出了一种基于图增强和注意力机制的网络架构, 用于多元时间序列的不确定性预测. 通过引入隐含式图结构并结合图神经网络技术, 捕捉各序列间相互依赖关系, 从而建模时间序列之间的相互影响; 运用注意力机制捕捉同一序列内的时序变化模式, 以建模时间序列的动态演变规律; 采用蒙特卡洛随机失活 (Monte Carlo dropout) 方法近似模型参数, 并将预测序列建模为随机分布, 以实现精确的时间序列不确定性预测. 实验证明, 该方法在保持较高预测精度的同时, 还能进行可靠的不确定性估计, 可以为决策任务提供置信度信息.
提出了一种基于路径查询信息的图注意力模型, 可以将知识图谱中的文本信息与图结构信息有效融合, 进而提高知识图谱的补全效果. 对于文本信息, 使用基于预训练语言模型的双编码器来分别获得实体的嵌入表示和路径查询信息的嵌入表示. 通过注意力机制来进行路径查询信息的聚合, 以捕获图结构信息, 更新实体的嵌入表示. 模型使用对比学习进行训练, 在多个知识图谱数据集上进行实验, 如直推式、归纳式的方式, 都取得了良好的效果. 结果表明, 将预训练语言模型与图神经网络的优势相结合, 可以有效捕获知识图谱中文本信息与图结构信息, 进而提高知识图谱的补全效果.
在大量的网络社交媒体中, 存在一些表达了潜在的心理健康障碍和精神疾病的帖子, 根据帖子文本识别用户产生心理健康障碍的原因是一项重要任务. 观察这些帖子发现, 其上下文中存在标签共现现象, 即上下文中同时出现了多个候选标签的语义, 干扰了标签表征的建模与预测. 为缓解该现象带来的影响, 提出了一种标签感知增强分类的方法, 该方法利用大规模预训练语言模型识别潜在的候选标签, 并通过估计样本独立的标签语义强度作为增强数据以消减共现标签带来的噪声, 基于增强数据构建了性能良好的预训练语言模型分类器. 在数据集Intent_SDCNL和SAD上进行的实验验证了该方法的有效性.
扩散模型变革了文本–图像生成领域, 使终端用户可以基于简单的自然语言提示生成高质量、多样化的图像艺术作品. 然而, 由于训练数据集庞大且未经过滤, 文本–图像生成模型具有生成色情内容与暴力内容等不适当内容的能力. 为更加安全地部署此类模型, 提出了一种基于CLIP (contrastive language-image pre-training) 方向性损失的微调 (directional CLIP loss based fine-tuning, CLIF)算法, 使用方向性的CLIP损失来微调模型, 以抑制其生成不适当内容的能力. CLIF消耗的计算资源很少, 并且具有强制生效的特点. 为评估其抑制效果, 提出了CTP (categorized toxic prompts)用于评估文本–图像生成模型的不适当内容生成能力. 在CTP与COCO (common objects in context) 上的实验结果表明, CLIF能够在抑制文本–图像扩散模型生成不安全内容的同时不影响其一般性生成能力.
针对现有算法计算量大、实时性差、部署困难等问题, 同时为满足红外探测系统对实时性及准确率的高要求, 提出了一种部署于国产嵌入式芯片的轻量化算法, 即YOLOv5-TinyHisi. YOLOv5-TinyHisi算法根据红外小目标特点对主干网络结构进行轻量化改造, 并使用SIoU优化损失函数中的边界误差, 提高了红外小目标定位的准确性. 将YOLOv5-TinyHisi算法模型部署到海思Hi3531DV200嵌入式开发板上, 利用芯片集成的神经网络加速引擎 (neural network inference engine, NNIE) 对网络推理进行加速. 在公开数据集上的实验结果表明, 该算法能够大幅度降低参数量和模型大小, 与YOLOv5相比, 在平均精度上的提升了1.52%. 在海思Hi3531DV200嵌入式开发板上对分辨率为 (1280×512)像素的单张图像推理速度可达到35帧/s, 召回率可达到95%, 满足了红外探测系统对实时性和准确率的要求.
与非图模型是一种表示电路设计的通用基础形式, 同时也是模型检查器的一种通用输入格式. 介绍了一种基于与非图结构编码的特征提取方法, 并基于该方法实现了一种快速的组合模型检查器Liquid. 所提出的结构编码的核心思想: 首先罗列出与非图中所有可能的子结构, 再将每个子结构出现的次数编码成向量, 该向量即作为与非图的特征向量参与之后的机器学习过程. 由于各种模型检查算法的性能在不同的与非图上参差不齐, Liquid的设计目标是组合多种模型检查算法, 针对不同的与非图使用机器学习模型挑选出合适的算法. 收集了目前所有的模型检查器基准测试集作为实验数据集并进行了实验. 实验结果表明, Liquid在实验数据集上的表现优于所有组合中的独立模型检查算法, 并有着不错的预测准确率. 同时, 还从多个维度分析了Liquid有效的原因.
操作系统是整个计算机系统的核心与基石, 其可靠性与安全性至关重要. 操作系统的故障或漏洞可能会导致系统崩溃、数据丢失、隐私泄露和安全攻击等问题, 特别是在安全攸关系统中, 一旦操作系统发生错误, 就可能会造成重大人员伤亡或财产损失. 一直以来, 如何保障操作系统的安全性和可靠性对学术界和工业界都是一个重大挑战. 目前验证操作系统安全性的方法有软件测试、程序静态分析、形式化方法等. 其中, 形式化方法是最有潜力确保操作系统安全可信的方法, 通过使用形式化方法, 建立数学模型并进行系统的形式化分析和验证, 从而发现潜在的错误和漏洞. 在操作系统中, 形式化方法可以用于验证操作系统的功能正确性、完整性以及系统安全性等. 在已有的针对操作系统形式化验证的成果基础上, 提出了一个面向嵌入式操作系统的形式化验证方案, 采用VCC (verified C compiler)、CBMC (C bounded model checker)以及PAT (process analysis toolkit)工具分别对操作系统单元层面、模块层面和系统层面进行验证. 该方法已成功应用到某操作系统的任务调度架构案例中, 对于嵌入式操作系统的分析验证具有一定的通用性.
随着高校信息系统应用的普及以及使用频率的提高, 师生对数据一致性、准确性、及时性和完整性提出了更高的要求, 原数据同步方案中使用XML (extensible markup language)进行数据同步具有同步效率低下、难以扩展的缺点. 考虑到开源工具DataX可以完成多种异构数据库之间的数据同步且不会对源数据库造成破坏, 本文使用DataX对原数据同步方案进行改进, 并针对高校研究生信息系统建设过程中存在的多个业务需求和应用场景, 提出了不同的数据同步方案. 同时, 针对DataX在启动和执行过程中一次读只能进行一次写的缺点, 设计了一次读可以多次写的方案. 对比实验表明, 优化后的方案可以提高数据同步效率, 具有较好的扩展性, 能够满足高校数据同步需求.
基于评论的推荐系统是一种主要通过挖掘文本信息抽取物品特征和用户偏好, 以提高性能的推荐系统方法. 现存的大多数方法忽略了撰写评论的陌生人信息, 引入陌生人信息可以更准确地衡量用户的相对感受并对目标用户的表达进行补充, 从而进行更精细的用户建模. 近年来, 一些研究尝试整合相似陌生人的信息, 但忽略了对其他陌生人信息的利用. 提出了基于偏好级别陌生人信息辅助的推荐系统模型CSRR(collaborative stranger review-based recommendation), 利用陌生人信息, 更加准确地对用户建模并进行适当扩展, 提升了推荐性能. 具体地, 为了准确捕捉用户的偏好, 首先, 设计了一个基于陌生人信息辅助的注意力模块, 该模块不仅考虑了评论文本的相似性, 也考虑了目标用户与撰写评论的陌生人之间的偏好交互作用; 其次, 一个基于陌生人信息过滤的门控模块根据目标用户–物品对的特征, 在偏好级别动态整合陌生人信息, 有效地过滤了陌生人的偏好信息以及丰富目标用户的建模; 最后, 应用隐因子模型 (latent factor model, LFM) 来完成评分预测任务. 实验结果说明CSRR模型在多个来源的真实数据集上均具有较高的预测准确度.
现有的一阶段方法分别提取视觉特征映射和文本特征, 并进行多模态推理来预测被引用对象的边界框. 这些方法存在以下两个缺点: 首先, 预先训练的视觉特征提取器在视觉特征中引入了与文本无关的视觉信号, 阻碍了多模态交互; 其次, 现有模型的推理过程缺乏对语言建模的可视化指导. 基于上述缺点, 现有的一阶段方法的推理能力是有限的. 提出了一种提取文本相关视觉特征映射的低阶交互和一种整合视觉特征的高阶交互来指导语言建模, 并进一步对视觉特征进行多步推理. 在此基础上, 提出了一种新的网络结构, 称为双路径多级交互网络. 在5种常用的视觉定位数据集上进行了实验, 结果表明该方法具有较好的性能和实时性.
深度神经网络模型的庞大存储和高计算量的需求限制了其在面积和功耗受限的嵌入式设备上的部署. 为了解决这一问题, 随机计算将数据表示为一个随机序列, 继而通过基本逻辑运算单元实现加法和乘法等算术运算, 以减小神经网络的存储空间和降低计算复杂度. 然而, 当随机序列的长度较短时, 网络权重在从浮点数转换到随机序列的过程中存在离散化误差, 这会降低随机计算网络模型的推理准确率. 尽管使用更长的随机序列可以扩大随机序列的表示范围以缓解这一问题, 但也会导致更长的计算时延和更大的能源功耗. 本文提出了一种基于傅立叶变换的可微量化函数的设计, 可以在网络的训练过程中, 通过提高模型对随机序列的匹配度, 来减小数据转换过程中的离散化误差, 从而保证较短随机序列的随机计算神经网络的准确率. 此外, 还设计了一种加法器, 用于提高运算单元的准确性, 并通过将输入分块来并行计算以进一步缩短时延. 最后, 通过实验表明, 本文相较于其他方法可以提高20%的模型推理准确率, 并能够达到缩短50%的计算时延.
集装箱锁销曲面结构复杂, 因而建立出一个曲面特征完整度较高的点云模型较为困难. 考虑到在大多数场景下, 位于固定高度的传感器搭配旋转的转台采集的曲面特征通常会存在一定的缺失. 为此, 提出了一种基于转台的多视角多姿态点云模型重建算法, 还原锁销较完整的曲面特征. 首先, 利用转台参数标定结果, 实现多视角三维点云的拼接, 建立一个固定姿态下的点云模型; 其次, 通过提出的改进球面投影算法, 选取锁销置于转台的摆放姿态, 建立另一姿态下的点云模型; 最后, 融合多个姿态下的点云模型, 提高其具备的曲面特征. 实验结果表明, 所提出的算法能建立出曲面特征完整度较高的锁销点云模型.
红外小目标的检测一直是红外追踪系统的关键技术, 针对现有红外小目标检测方法在复杂背景下易造成虚警、检测速度慢的不足, 从人类视觉系统的角度出发, 参考了多尺度局部能量因子检测方法 (multiscale local contrast measure using a local energy factor, MLCM-LEF), 提出了一种基于双层局部能量因子的红外小目标检测方法. 从局部能量差异与局部亮度差异两个角度进行目标检测, 使用双层局部能量因子从能量角度描述小目标与背景的相异程度, 同时采取加权亮度差因子从亮度角度对图像进行目标检测, 通过二维高斯融合上述二者的处理结果, 最终利用图像均值和标准差进行自适应阈值分割, 提取红外小目标. 经过公开数据集实验测试, 该方法在抑制背景噪声、减低虚警概率的表现上比主流的检测方法有所提升, 与MLCM-LEF算法相比, 基于双层局部能量因子的方法将单帧检测时间降低至三分之一.
三维点云语义分割方法, 是三维视觉环境感知中的重要任务, 被广泛应用于自动驾驶、增强现实、机器人等领域. 然而, 大多数语义分割方法工作在全监督的模式下, 为数据标注带来了极大的压力, 为了解决对于大规模点云标注数据的依赖问题, 许多工作基于有标签数据训练生成伪标签进一步迭代训练模型, 但未考虑到错误伪标签累积所导致的确认偏差. 针对该问题, 本文提出了一种基于组对比学习的弱监督三维点云语义分割方法, 在从伪标签中选择的正例组与负例组之间构造对比学习, 令伪标签之间相互竞争, 减少错误伪标签的梯度贡献, 从而缓解确认偏差. 实验结果表明, 本文所提出的方法在S3DIS、ScanNet-V2、Semantic3D等3个公开数据集上, 相较于目前最优方法均取得了更优的精度.
随着深度学习在计算机视觉领域取得的巨大成功, 基于示例的纹理合成研究得到了长足的发展. 当下主流纹理合成模型往往采用神经网络方法, 其通常包含卷积层和上采样层、下采样层等局部组件, 并不适用于捕捉非平稳纹理中的不规则结构特征. 受频率域与空间域的对偶性质的启发, 提出了一种基于隐层傅里叶卷积的非平稳纹理合成方法. 该方法以生成对抗网络为基础架构, 沿着隐层通道进行特征拆分, 搭建图像域局部分支和频率域全局分支, 进而兼顾视觉感知和结构信息. 实验表明, 该方法能够处理结构上极具挑战的非平稳纹理样本, 相较于目前最优方法而言, 在大尺度结构的学习与扩展上取得了更好的效果.
基于解耦常识性关联的图像描述生成算法旨在排除各类实体间常识性关联对模型推理的干扰, 提高描述生成的流畅性与准确性. 针对当前图像描述生成中存在的符合常识但与图像内容不相符的关系语句, 该算法先通过一种新颖的训练方式加强关系检测模型对图像中真实关系的关注程度, 提高关系推理的准确性. 再通过一种关系感知的实体交互方法, 对存在关系的实体进行有针对性的信息交互, 对关系信息进行强化. 实验表明, 该算法能够纠正一些常识性的虚假关系, 生成较为准确的图像描述, 并在各项评价指标上获得了较好的实验结果.