机器学习在不平衡数据问题及电商网站交易预测中的应用
立即解锁
发布时间: 2025-10-20 00:01:57 阅读量: 20 订阅数: 27 AIGC 

智能计算与模式识别
# 机器学习在不平衡数据问题及电商网站交易预测中的应用
## 1. 不平衡数据问题中的重采样改进
在处理不平衡数据问题时,一个关键的挑战是少数类样本的分类性能不佳。为了解决这个问题,提出了一种新的预处理方法,该方法结合了过采样和粗糙集理论。
### 1.1 生成冗余实例的作用
在步骤VI中生成冗余实例可以防止在清理阶段过滤掉过多的正合成样本。确定额外对象数量的方法需要进一步研究,特别是其对计算性能的影响。建议这个数量应与所考虑的特定问题的复杂性相关。
### 1.2 实验设置
为了验证新算法的有效性,进行了一系列实验。选择了六个高度不平衡的真实数据集,这些数据集来自UCI仓库。
- **分类器选择**:使用广泛应用的C4.5决策树作为分类器,因为它是最有效的数据挖掘方法之一。
- **k - NN参数设置**:k - NN处理中的重要参数k设置为5,因为这已被证明适用于广泛的问题。
- **距离度量**:采用HVDM度量来测量对象之间的距离,因为它能妥善处理定量和定性数据。
数据集的具体特征如下表所示:
| 数据集 | 对象数量 | 属性数量 | 不平衡率(IR) | 边界区域 |
| --- | --- | --- | --- | --- |
| glass - 0 - 1 - 6 vs 5 | 184 | 9 | 19.44 | 空 |
| ecoli - 0 - 1 - 3 - 7 vs 2 - 6 | 281 | 7 | 39.14 | 非空 |
| glass5 | 214 | 9 | 22.78 | 空 |
| ecoli - 0 - 1 vs 5 | 240 | 6 | 11 | 非空 |
| led7digit - 0 - 2 - 4 - 5 - 6 - 7 - 8 - 9 vs 1 | 443 | 7 | 10.97 | 非空 |
| ecoli - 0 - 1 - 4 - 6 vs 5 | 280 | 6 | 13 | 非空 |
### 1.3 实验结果
使用ROC曲线下面积(AUC)来评估分类器性能。将提出的VISROT算法与其他五种预处理技术以及无预处理步骤的分类进行比较,结果如下表所示:
| 数据集 | noPRE | SMOTE | S–ENN | Border–S | SafeL–S | S–RSB∗ | VISROT |
| --- | --- | --- | --- | --- | --- | --- | --- |
| glass016 vs 5 | 0.8943 | 0.8129 | 0.8743 | 0.8386 | 0.8429 | 0.8800 | 0.8943 |
| ecoli0137 vs 2 - 6 | 0.7481 | 0.8136 | 0.8209 | 0.8445 | 0.8118 | 0.8445 | 0.8445 |
| glass5 | 0.8976 | 0.8829 | 0.7756 | 0.8854 | 0.8939 | 0.9232 | 0.9951 |
| ecoli01 vs 5 | 0.8159 | 0.7977 | 0.8250 | 0.8318 | 0.8568 | 0.7818 | 0.8636 |
| led7digit02456789 vs 1 | 0.8788 | 0.8908 | 0.8379 | 0.8908 | 0.9023 | 0.9019 | 0.8918 |
| ecoli0146 vs 5 | 0.7885 | 0.8981 | 0.8981 | 0.7558 | 0.8519 | 0.8231 | 0.8366 |
从结果可以看出,VISROT算法在两个数据集(glass5和ecoli01 vs 5)上优于其他算法,其中一个数据集具有非空边界区域。在另外两个数据集上,VISROT算法与最有效的技术结果相似。在其余两个数据集中,应用VISROT方法的效果略逊于SMOTE和SMOTE–ENN或Safe–Level SMOTE和SMOTE–RSB∗。
### 1.4 结论
实验证明,提出的算法
0
0
复制全文


