舆论纲要:不平衡分门别类中的臃肿题目接洽
在试验需要的激动下,不平衡分门别类接洽赶快变成数据发掘范围的热门题目,并普遍运用在搜集侵犯检验和测定等试验题目中。现有的不平衡分门别类本领常常将题目控制在样品量不平衡上,对于类臃肿对不平衡分门别类的感化接洽较少,尚未提出不平衡分门别类的类臃肿处置本领。同声,因为类型噪声的生存,罕见类的猜测功效常常不高,已有的噪声处置算法常常仅关心属性噪声,而对类型噪声处置功效欠佳。基于此,正文开始接洽类臃肿数据的类型噪声处置;其次经过仿真接洽和算法领会相贯串的本领接洽类臃肿对不平衡分门别类的感化,并比拟类臃肿和样品量不平衡对不平衡分门别类的感化;结果,在已有接洽的普通上,提出了一个不平衡分门别类的类臃肿进修框架。舆论重要奉献如次:1、类臃肿数据的类型噪声处置接洽对于类臃肿数据,类型噪声的感化常常要比属性噪声更大少许,已有的噪声处置算法极易将臃肿地区数据误辨别为类型噪声处置掉。正文在LOF算法的普通上提出了一种鉴于拉拢限制独立系数的类型噪声处置算法:CLOF。算法经过 、 、 三个限制独立系数值,归纳运用完全和限制消息,来辨别类型噪声,并矫正其标签。在仿真数据集和UCI数据集上的试验截止表白,CLOF算法不妨灵验地辨别类型噪声,并在确定水平上贬低了臃肿地区数据被误辨别为噪声的几率,普及了罕见类的猜测功效。2、不平衡分门别类的类臃肿题目进修战略接洽正文在已有文件的普通上提出了四种不平衡分门别类的类臃肿进修战略,并将俭朴贝叶斯用来辨别本质数据的臃肿样品,同声,对类臃肿题目及其与样品量不平衡题目的彼此感化举行了体例接洽。在如实数据上的试验截止表白:普遍情景下类臃肿处置战略不妨普及不平衡分门别类的功效,且四种处置战略中“分割法”展现最好。3、不平衡分门别类的类臃肿题目进修战略在搜集侵犯检验和测定中的运用接洽正文以本质运用为后台,贯串搜集侵犯检验和测定说领会不平衡分门别类繁的类臃肿处置战略的运用进程。同声将正文提出的不平衡分门别类的类臃肿进修框架:俭朴贝叶斯辨别臃肿地区+分割法,运用到KDD CUP99搜集侵犯检验和测定数据会合,试验截止表白,正文提出的不平衡分门别类的类臃肿进修框架不妨有效力用来本质题目,普及罕见类的猜测功效,进而为构造关系计划供给扶助,贬低危害。