随着我国交通运输体系信息化程度不断提升,特别是大数据、云计算、人工智能等信息技术在交通管理领域的广泛应用,使道路交通管理模式逐渐从传统的现场管控、事后管控、人工管控,逐渐转为以交通态势实时采集、预先研判、提前干预为主的智能化交通管控模式,交通管理大数据的采集、存储、融合、开发、利用成为提升道路交通安全管理水平新的增长点。从交通管理业务数据中挖掘有效信息,识别易导致交通事故的高风险交通要素,成为当前控制道路交通事故率、提升道路交通安全水平亟待解决的现实问题。通过应用文本挖掘技术,从道路交通事故案情文本数据中识别出易导致交通事故的交通参与者及其不规范交通行为,是提升交通管理大数据开发利用水平的重要突破点。1道路交通事故案情文本挖掘需求从道路交通事故数据产生和积累情况来看,目前道路交通管理主要侧重对机动车及其驾驶人的追责和处理,对道路交通事故中涉及的非机动车因素分析,如行人随意横穿公路等非驾人员交通行为以及未进入机动车管理系统的共享单车、电动车、三轮车等非机动车辆的不规范驾驶等因素,没有形成结构化存储和管理,只是融合在用于描述道路交通事故案情的文本数据中。如何对非结构化的文本数据进行挖掘分析,得出能够支撑道路交通事故风险分析的有价值信息,是当前道路交通事故数据分析利用的一个难点。基于以上需求,需要研究实现针对道路交通事故案情文本数据的挖掘分析方法,通过文本分词、文本分类、自动识别,将交通事故案情文本数据中蕴含的非机动车涉事车辆、行人及其交通违法行为等非结构化数据进行标识,识别出交管执法中信息录入不完整,但实际上引发交通事故的潜在风险因素,支撑道路交通事故的致因要素分析和管控。道路交通事故案情文本数据中“跑步横过马路”“道路右侧横过”“无号牌电动车”等是需要通过非结构化文本数据挖掘技术识别出来的易导致交通事故因素,而在交管执法认定的违法行为记录情况数据中,通常没有对上述因素的结构化记录。因此,需要通过对交通事故案情文本数据进行挖掘分析,对其进行自动化识别和统计分析。2道路交通事故案情文本分词方法2.1分词方法概述文本挖掘(TM)又称文本数据挖掘(TDM),指为发现知识从文本数据中抽取隐含的、以前未知的潜在有用模式的过程[1-3]。其中,文本分词技术是进行文本挖掘和特征提取的基础性工作[4]。解决道路交通事故案情文本数据挖掘问题,关键在于采用合适的中文分词算法,将半结构化、非结构化的交通事故案情文本数据转换为结构化的特征描述数据,在此基础上识别容易导致道路交通事故的潜在风险因素。目前主流的中文文本分词方法包括基于词库的分词算法和无词典的分词技术[5]。基于词库的分词算法基本思路是构建领域关键词词库,按照一定的规则将待处理文本与词库中的关键词进行匹配,得到对待处理文本的结构化分词匹配结果,其优势在于直观简单,可以根据业务的需求灵活构建和维护领域关键词词库,不断优化分词效果,缺点是分词效果依赖领域词库是否完善,分词方法具有领域专用性。无词典分词技术包括基于统计的分词方法、基于理解的分词方法[6]。基于统计的分词方法基本思路是基于一定的语法规则构建语言模型,对待处理文本进行无差别字词划分,对划分结果采用隐马尔可夫(HMM)或条件随机场(CRF)等算法进行概率统计,将概率最大的分词方式作为最终分词结果。基于理解的分词方法通过引入机器学习方法,基于样本语料库对机器学习模型进行训练,构建神经网络、支持向量机等机器学习模型,实现对大规模语料的自动化分词。无词典分词技术的优势在于分词效果受领域词库的影响较小,分词方法具有普适性,能够较好地处理新词和消除歧义,适合对大规模语料库的分词处理,缺点是分词算法的训练过程要依赖大量的样本语料库,算法训练和运行对计算资源要求较高。本文研究道路交通事故案情文本分词与特征提取,目的是解决交通管理中的潜在风险因素识别问题,通过对交通管理部门重点关注的交通参与者、不规范交通行为等进行调研和统计,可以建立较为完善的领域关键词词库。因此,适合采用基于词库的分词算法解决道路交通事故案情文本分词问题。2.2道路交通事故案情文本分词算法框架第一,从道路交通事故数据库中读取待挖掘分析的道路交通案情文本数据;第二,采用jieba分词库中的posseg模块对案情文本数据进行分词处理,同时标注词性;第三,参照交通管理部门业务调研形成的交通参与者业务词库、交通违法行为业务词库,对道路交通案情文本数据分词及词性标注结果数据进行统计分析,提取出道路交通事故涉及的交通参与者数据、交通违法行为数据;第四,分别对涉交通事故的交通参与者、易导致交通事故的交通违法行为进行统计分析;第五,基于统计分析结果数据识别易导致交通事故的潜在风险因素,建立交通事故潜在风险因素数据库,对结果进行分析与可视化展示,形成可供相关部门参考的决策建议。道路交通事故案情文本分词算法框架如图1所示。10.19301/j.cnki.zncs.2023.08.005.F001图1道路交通事故案情文本分词算法框架3道路交通事故案情文本挖掘示例本研究基于python编程语言实现道路交通事故案情文本分词算法框架,采用jieba分词模块中的中文分词算法[7],对较大以上事故的简要案情文本数据进行挖掘分析。较大以上事故一般指发生了人员伤亡的道路交通事故,容易导致人身伤害、财产损失等严重后果。通过分析导致该类交通事故的交通参与者及其交通违法行为等潜在风险因素,可以为交通管理部门明确工作重点、提升道路交通安全管理水平提供有价值的辅助决策信息。本研究采集H省2019年第四季度发生的较大以上道路交通事故数据作为示例数据,采集的道路交通事故数据包含事故编号、事故发生时间、事故发生地点、事故简要案情等列。通过对“事故简要案情”列的道路交通事故案情文本数据进行挖掘分析,可以提取和分析容易导致较大以上道路交通事故的交通参与者类型及其交通违法行为等信息,将其作为关键词,识别为容易导致较大以上道路交通事故的风险因素。道路交通事故案文本挖掘分析统计如表1所示。10.19301/j.cnki.zncs.2023.08.005.T001表1道路交通事故案情文本挖掘分析统计关键词(参与者类型)相关交通事故数关键词(违法行为)相关交通事故数摩托车453横过152行人432倒车19货车283超速行驶16轿车259逆向行驶15客车233横穿13无牌车103无证7牵引车95跑步6电动车82逆向3自行车52疲劳2三轮车22横穿马路1起发生较大以上交通事故的交通参与者类型中,排名前10位的交通参与者包括摩托车、行人、货车、轿车、客车、无牌车等。其中,摩托车、行人、无牌车、电动车、自行车、三轮车这几类事故高发的交通参与者,在机动车数据库中没有实现完全的结构化数据管理,是道路交通安全管控中的难点,应引起交通管理部门的重点关注。导致较大以上事故发生的交通违法行为中,排名前10位的交通违法行为包括行人或非机动车横过马路、横穿公路、机动车倒车、机动车驾驶人超速行驶等行为。其中,横过/横穿公路、逆向行驶、行人跑步过公路等行为,属于非机动车驾驶人的交通违法行为,通常没有对其进行专门的结构化录入和管理,只是在交通事故简要案情文本中有所体现。从交通事故预防的角度来说,交通管理部门不能仅着眼于记录和管控机动车驾驶人的交通违法行为,对于非驾驶人的交通参与者违法行为也应出台相应的管控措施,实现对交通事故的精准防控。为了方便把握易导致交通事故的风险因素,明确道路交通管理重点,可以绘制容易导致较大以上道路交通事故的高频风险因素词云图[8],对其进行直观展示。借助热点词云图能够直观展示交通事故频发的交通参与者类型、易导致交通事故频发的交通违法行为,可以辅助交通管理部门更方便快捷地明确易导致较大以上交通事故发生的风险因素,提高道路交通安全管理的针对性和工作效率。4结语基于文本挖掘算法对道路交通事故案情文本数据进行挖掘分析,可以有效提取信息,实现交通事故风险因素结构化数据的描述、统计和分析,辅助交通管理部门管控道路交通安全风险,提高道路交通管理的针对性和准确性,实现对交通管理大数据的进一步利用。本研究目前主要实现了对非驾驶人交通参与者及其交通违法行为两类风险因素的挖掘和提取。后续可以考虑引入关联规则挖掘算法,对交通参与者及其交通违法行为与道路交通事故发生概率进一步挖掘和统计,形成量化描述,提升道路交通事故风险识别的科学性和准确性。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览