摘要:为降低疲劳驾驶对车辆安全的影响、提升道路交通安全水平,本文基于面部表情特征识别探讨了疲劳驾驶问题,提出一种基于数据和先验知识双驱动技术的自适应驾驶员疲劳检测模型(ADDM)。ADDM采用数据和先验知识的双驱动方法整合多源面部信息,捕捉不同面部区域之间的协调动态特征,克服了仅使用单个或多个面部动作单元(如嘴部或眼部区域)导致的高误判率。结合类别信息(K均值)、时间信息和注意力信息,缓解驾驶员个体差异导致的泛化能力差问题。采用图卷积网络(GCN)建模面部区域关系,通过节点间的信息交换提升检测性能。实验表明,ADDM在两个公共基准数据集上优于最先进方法,疲劳检测表现优异。
摘要:最大间距准则算法先将图像转化为一维数据信息,该转化过程会导致数据信息丢失,本文针对此问题采用二维图像直接输入的方法。经典的MMC算法基于L2范数,针对L2范数存在的异常值问题,提出了L1范数。本文提出基于L1范数的二维最大间距准则算法,该算法在 CK+48 人脸表情数据库及添加不同噪声的数据集上开展表情识别实验,实验结果验证了本文算法的有效性。
摘要:针对化工产品表面,尤其是钢表面缺陷检测效率低、人工识别精度差的问题,本文设计并实现了一套基于深度学习的钢表面缺陷检测与分割系统。该系统以钢表面缺陷图像为研究对象,采用改进U-Net网络作为核心模型,实现对4类钢表面缺陷(凹坑、裂纹、划伤、斑块)的精准分类与像素级分割。为解决小样本缺陷分割精度不足的问题,该系统通过引入注意力机制与残差连接模块,并结合数据增强技术扩充训练样本。实验结果表明,该系统在测试集上的平均Dice系数达到0.89,较传统U-Net模型提升 8.2% ,能够有效处理单缺陷、多缺陷及无缺陷等复杂场景,满足工业生产中对钢表面缺陷检测的实时性与准确性要求。不同化工产品的表面缺陷类型虽有差异,但本文针对凹坑、裂纹、划伤、斑块4类钢表面缺陷的研究方法,也适用于其他化工产品的表面缺陷检测。
摘要:为提升低照度图像亮度、细节清晰度的同时有效改善颜色失衡问题,本文提出一种结合亮度对抗生成及颜色偏移校正的低照度图像增强方法。首先,将低照度图像转换至YCbCr颜色空间,并构建基于生成对抗网络的亮度分量增强模型,并在增强过程中施加结构引导约束,避免过增强与结构失真;进而构建颜色偏移估计与校正网络,对色度分布进行自适应建模与精细校正,恢复自然一致的颜色特性;最后,将亮度增强分量与色度校正分量重构获取最终增强图像。在公共数据集上进行测试验证,实验结果表明:本文方法在亮度提升、结构细节保持以及颜色一致性等方面均取得了显著效果,无论在主观视觉效果还是客观评价指标上均优于现有主流方法。
摘要:隐写术是实现隐蔽通信的一种手段,而隐写分析是用来检测是否存在秘密信息隐蔽传输的技术,两者在相互对抗中不断进步与发展。基于失真函数和校验网格码(STC)结合的自适应图像隐写算法的提出使得图像隐写分析愈加困难,导致隐写分析算法难以对图像隐写区域进行针对性检测。为此,许多专家提出在基于深度学习的隐写分析模型中加入注意力机制,引导模型重点关注隐写区域的特征,从而实现检测准确率提升的目标。本文介绍了近几年在隐写分析模型中引入各种注意力机制来提高模型性能的技术,对最新的技术进行了剖析,总结和展望该机制在隐写分析中的研究前景和应用方向,为后续研究提供有价值的参考依据。
摘要:针对甲状腺结节超声检查诊断中主观依赖性强、微小病灶识别困难、多模态信息利用不足等问题,本文提出集成深度学习与跨平台系统的多模态智能诊断方案。基于2家三甲医院1019例多模态超声检查数据,通过改进U-Net深度学习模型实现病灶分割,结合多分支深度学习模型与跨模态融合技术完成三分类预测,开发一体化辅助诊断系统,可实现超声数据自动分析与结果可视化展示。结果显示,该方案分类准确率达 87.6% AUC为0.901,优于单模态超声诊断模型,单例样本推理约4.5s,兼顾诊断精度与临床应用效率。
摘要:视频超分辨率重建在计算机视觉领域具有重要研究价值,但处理快速动作、遮挡视频时存在空间一致性差、运动模糊难处理、计算效率低等问题。本文构建一种中间特征细化网络模型,实现时空域视频超分辨率重建。在时间域,模型采用中间特征细化网络对输入帧执行多尺度特征编码,以充分保留帧间的全局信息与局部纹理细节。解码器同步完成特征细化与光流估计两个任务,实现二者信息的相互促进,达成高效帧间插值。空间域采用帧组注意力机制,聚焦不同时段帧特征以增强超分辨率性能,借助互补信息恢复细节,采用3D残差密集网络提升融合效果,同时通过单应性对齐算法提高计算效率。通过与其他基准模型对比实验,该模型在不同数据集上超分辨效果良好,且计算效率更优。
摘要:随着人工智能的发展,智能汽车已逐步融入人们的生活,因此在智能驾驶过程中准确检测行人至关重要。对于车载摄像头而言,行人的互相遮挡和远近尺度不一是影响检测性能的两个关键因素,会直接威胁行车安全。因此,为增强智能汽车在密集场景下的行人检测能力,本文提出一种基于深度学习的遮挡注意特征金字塔网络(OA-FPN),在传统FPN的基础上,设计了高效跨尺度融合、上下文增强对齐和高效注意引导三种模块。实验表明,OA-FPN在密集行人数据集CrowdHuman上的平均精度达到 91.08% ,相比传统FPN有较大提升,为智能汽车的安全行驶提供可靠的技术保障。
摘要:针对传统集装箱表面缺陷检测方法中误报率高和泛化能力不足的问题,本文提出一种基于加权框融合(WBF)与视觉大语言模型(VLLM)审核的两阶段协同检测框架WBF-VLLM。在第一阶段并行引入YOLOv8x与Cascade R-CNN模型构建异构视觉检测框架,并采用加权框融合技术对多模型检测结果进行融合;在第二阶段引入视觉大语言模型Gemini 2.5Pro 作为专家审核模块,结合全局与局部图像信息实现候选缺陷进行多模态推理与类别校正。实验结果表明,相较于基准模型, mAP(?0.5 与mAP@0.5:0.95分别提高 45.9% 和 58.9% ,证明所提方法的有效性。
摘要:服务区入口处车辆频繁变道、合流与分流,导致车流冲突频发,严重影响道路通行效率和行车安全。为此,本文提出基于车辆轨迹大数据分析的服务区入口车流冲突风险实时评估方法。本文利用Tracker软件提取服务区入口车辆的轨迹数据,并对原始数据进行平滑处理。本文基于平滑处理后的车辆轨迹数据,计算TTC与ETTC,作为服务区入口车辆冲突风险的量化指标。本文引入事故树分析法,结合TTC与ETTC指标数据计算服务区入口车流冲突概率值,进而确定风险等级,实现实时评估。实例分析结果表明,该方法下服务区入口车流冲突风险实时评估结果的均方根误差为 0.38% ,R2为0.9417,实时评估效果良好。
摘要:当前矿井瓦斯-火灾早期预警通常依赖单一模态数据,存在片面性。因此,本文提出基于多模态融合与注意力机制的矿井瓦斯-火灾早期联合预警方法,采用可见光相机与热红外相机采集矿井环境多模态图像数据,并运用Retinex增强处理提升图像整体亮度;结合条带波变换算法与脉冲耦合神经网络,实现多模态图像融合,构建包含注意力机制的改进YOLOv8神经网络模型,实现矿井瓦斯-火灾早期联合预警。实验结果表明:该方法预警结果AUC值达到0.97,预警效果较好。
摘要:针对医院信息化系统在容器化部署中“医疗业务中断风险高、数据安全防护弱、能耗管控难"等痛点,本文提出一种融合eBPF内核级采集技术、无监督异常检测与医疗业务适配的多维度容器监控系统。该系统面向HIS(医院信息系统)LIS(检验信息系统)、PACS(影像归档和通信系统)等医院核心业务容器,实现CPU、内存、网络I/O、医疗数据操作以及能耗的多维度实时监控。通过模拟医院早高峰挂号、集中影像诊断、检验数据传输等场景的干扰实验,分析"容器数量、医疗业务类型、硬件能效"对业务性能以及能耗的干扰规律,建立容器性能-能耗双维度干扰预测模型。该系统具有低侵入性的特点,可适配不同业务类型的应用,为医院后续医疗容器资源管理提供数据支撑。
摘要:针对校园安全管理中未知人员识别难、轨迹追踪不及时、宿舍管理自动化程度低、异常行为检测滞后及火灾预警薄弱等突出痛点,本文提出融合多模态BLIP模型与YOLOvl1算法的智能化监控系统。该系统包括数据采集预处理、目标检测与人员识别等六大核心模块,实现对校园安全全方位、实时化、智能化管控。测试表明,系统未知人员识别准确率达 95.2% ,平均事件响应延迟 0.8s ,系统可用性为 99.5% ;相较于传统系统,响应时间缩短 86.7% 效率提升 98.9% 、事件处理成功率提高 50% ,为校园安全提供强有力的技术支撑,应用前景广阔。
摘要:针对图数据库信息多样、查询格式严格的特点,本文提出一种实体意图双识别微调的医疗知识图谱查询生成与问答方法(EI-FT-KG-QA)。先基于寻医问药数据集构建医疗知识图谱,并通过大语言模型优化实体信息;再借助规则匹配构建实体识别数据集,结合实体替换、掩码、拼接三种数据增强策略微调实体识别模型;随后设计特定Prompt,融合上下文学习与思维链技术实现用户提问意图识别,以实体与意图识别结果为核心输入,通过结构化指令模板生成微调数据集;并采用LoRA微调大语言模型,使其可直接生成知识图谱查询语句完成智能问答。实验显示,该方法在查询生成与问答任务上的F1较基线提升约 3% ,实现了高效、准确的查询与精准回答。
摘要:本研究基于Coze平台,设计并实现一款面向大学英语四六级考试的智能教学助手系统。该系统采用项目反应理论(IRT)构建个性化评估模型,依托大语言模型的自然语言处理能力,实现个性化推荐、学习方案智能生成、作业自动批改等核心功能。该系统采用模块化设计,旨在解决传统英语教学中存在的个性化指导不足、学习效果评估方式单一等问题。实践表明,该教育智能体能够根据学生能力水平精准推荐学习内容,有效减轻教师教学负担,显著提升大学英语四六级备考效率与学生的英语综合水平。
摘要:针对大语言模型(LLM)本地化部署的评估流程非标、性能与资源监控脱节等挑战,本文研制一套ContainTest-AI的一体化综合评估平台。首先,本文通过异步并发引擎、GPU同步监控及容器化技术部署评估平台;其次,重点对Qwen3-30B-A3B-Instruct模型开展实证测试,成功定位128并发场景下的性能拐点,此时系统字符吞吐量饱和在1935.79token/s,GPU功耗达 256W ,请求成功率首次从 100% 降至 97.9% ,直观揭示了应用性能与硬件资源的瓶颈关联,并确认该点为峰值能效的最佳工作点;最后,平台通过同量级不同模型的性能测试,实现了可量化的横向对比评估。本研究为LLM本地化部署提供可靠的量化决策依据,为AI大模型的选型与计算资源的规划提供有效支持。
摘要:随着新工科建设和生成式人工智能(AIGC)技术的快速发展,电气类专业的传统实践教学面临着目标模糊、技能训练单一、教学工具滞后等问题,而AIGC的应用既引发学术诚信风险,也带来高阶思维培养的挑战。本文以“电机拖动"课程为例,提出一种融合AIGC技术的实践教学新范式。该范式基于“三位一体、四径贯通”的课程思政理念,系统地将AIGC嵌入课前精准研习、课中实践、过程评价与课后反馈等环节,推动学生高阶思维能力与AI应用素养的培养。研究旨在通过全链式赋能,提升学生解决复杂工程问题的核心能力,同时强化课程思政融入与价值引领实效。
摘要:随着“互联网+教育"与高校国际化深度融合,高校学生语言交互需求迫切,但主流平台存在高校场景适配不足、语伴配对精准度低、功能冗余、流程繁琐等问题。本项目旨在通过搭建校内语言学习交互平台,打破中外学生跨文化交流壁垒,促成不同母语学生结成语伴关系,弥补语言学习环境单一的局限,从而提升大学生语言学习技巧与跨文化交流本领。
摘要:数据结构作为计算机相关专业的核心课程,承担着培养学生逻辑思维与实践应用能力的核心任务。但传统教学模式普遍存在交互不足、学生参与度低等问题。本文提出“生成式AI+微信平台"双赋能交互式教学方案:生成式AI凭借个性化内容生成与智能交互优势,提供讲解视频、交互式答疑、拓展习题、个性化引导、分析报告智能生成等服务;微信平台依托其轻量化、易操作、强互动的特点,构建“课前—课中—课后"全流程交互式教学场景。以哈夫曼编码为教学案例设计教学方案,教学实证表明,该教学模式能有效降低抽象知识理解难度,提升学生学习兴趣、课堂参与度及综合应用能力,为生成式AI与微信平台双赋能数据结构及同类抽象课程教学改革提供可行路径。
摘要:核电厂仪控系统项目的需求全生命周期管理对保障工程质量与进度至关重要。针对当前需求管理中存在的手工条目化效率低、版本对比依赖简单文本匹配以及缺乏统一协同平台等挑战,本文提出一种创新的需求条目化与数字化管理方案。该方案支持从核电需求规格书自动解析并生成结构化条目,通过改进的差异对比算法实现超越纯文本的精准变更识别,并基于企业级前后端技术构建统一在线管理平台。实践表明,该方案能够有效构建完整的需求追踪链路,显著提升团队协作效率与项目管理水平,为复杂系统工程的需求数字化管理提供有效解决方案。