基于概念漂移检测的数据流频繁模式挖掘算法研究

电子商务是伴随着数据而生的行业,会产生大量与用户相关的数据,这些数据具有高速、多变等特性,而且各类数据属性都可能会随时间发生变化,从而导致相关决策不佳。而概念漂移也是数据流挖掘中的主要问题之一,这就需要开发能良好适应电子商务数据流概念漂移的挖掘模型。为此,本文提出了基于概念漂移检测的可变滑动窗口频繁模式挖掘算法和基于概念漂移类型检测的双层可变窗口频繁模式挖掘算法。本文的工作主要包含以下三个方面:(1)本文提出一种基于概念漂移检测的可变滑动窗口频繁模式挖掘算法(VSW-CDD,Variable Sliding Window-Concept Drift Detection)。针对固定的滑动窗口不能适应数据流多变的特性,本文基于滑动窗口技术,设计尺寸可变的滑动窗口,在挖掘过程中同时检测关于概念漂移的挖掘结果变量和原因变量来判定数据流是否发生概念漂移。当数据流的概念没有变化时,窗口持续扩大;而当概念漂移发生时,窗口相应地缩小。实验表明,本文提出的VSW-CDD算法能够及时检测到数据流中的概念漂移,system immunology并通过调整窗口大小来适应新的概念。此外,算法能够挖掘出数据流中最新的频繁模式,针对电子商务网站中的用户点击数据集有较好的挖掘效果。并且,与其它算法相比,本文提出的这一算法在查全率和自适应方面也有更好的表selleck现。(2)本文提出了一种基于概念漂移类型检测的双层可变窗口频繁模式挖掘算法(DLVSW-CDTD,Double-layer Variable Sliding Window—Concept Drift Type Detection)。目前,处理概念漂移的算法大多数针对单一类型的概念漂移,难以同时适应具有不同类型的漂移数据的应用场景,为此,本文在VSW-CDD算法的基础上,引入了双层的嵌套可变滑动窗口来区分概念漂移的类型,并且结合了衰减模型,在挖掘过程中能够针对不同类型的概念漂移进行漂移适应。实验结果表明,DLVSW-CDTD算法不仅能检测出数据流中不同类型的概念漂移,还能够进行针对性的漂移适应处理,并且在时间复杂度和内存消耗方面都有一定的提升,此外,算法各方面的性能不会因为窗口的大小改变而发生突变,算法整体的运行稳定性较好。(BYL719配制3)本文以VSW-CDD算法和DLVSW-CDTD算法为基础,设计并实现了一个基于概念漂移检测的电子商务数据挖掘原型系统。该系统采用Django框架和Vue前端架构,设计了用户信息管理、数据文件管理、频繁模式挖掘和结果展示四个模块,用户可根据实际需求灵活选择挖掘模型,得到相应的频繁模式结果。通过对系统的使用与初步测试,该系统具有较好的实用性和稳定性,同时也进一步显现了本文提出算法的有效性和实用性。