使用文档: ReadTheDocs | 语言: English / 中文
链接: API文档 | 示例 | PyPI | 发布日志 | 源代码 | 下载 | 知乎/Zhihu | arXiv
论文: IMBENS: Ensemble Class-imbalanced Learning in Python
imbalanced-ensemble(IMBENS)是一个 Python 库/软件包。它主要用于在类别不平衡数据上快速实现和部署集成学习算法。截至目前(2021/06),IMBENS已实现了14种不同的不平衡集成学习算法,从经典的SMOTEBoost (2003) 到最近的 SPE (2020),从欠采样、过采样到代价敏感学习,全部包括在内。IMBENS实现的大部分方法都具有详细的 文档和使用手册,并将在未来继续更新加入其他方法。
- 🍎 统一易用的API设计,便于使用和二次开发,详细的 文档 和 示例
- 🍎 所有实现的方法均原生支持多分类不平衡问题
- 🍎 在可能的情况下,使用 joblib 实现并行训练/预测以优化性能
- 🍎 强大的、可定制的、交互式的模型训练日志记录和可视化工具
- 🍎 完全兼容其他的流行软件包,如 scikit-learn 和 imbalanced-learn
API 使用示例:
# Train an SPE classifier
from imbens.ensemble import SelfPacedEnsembleClassifier
clf = SelfPacedEnsembleClassifier(random_state=42)
clf.fit(X_train, y_train)
# Predict with an SPE classifier
y_pred = clf.predict(X_test)
如果IMBENS帮助了您的工作或研究, 我们将非常感谢对以下 论文 的引用:
title={IMBENS: Ensemble Class-imbalanced Learning in Python},
author={Liu, Zhining and Wei, Zhepei and Yu, Erxin and Huang, Qiang and Guo, Kai and Yu, Boyang and Cai, Zhaonian and Ye, Hangting and Cao, Wei and Bian, Jiang and Wei, Pengfei and Jiang, Jing and Chang, Yi},
journal={arXiv preprint arXiv:2111.12776},
$ pip install imbalanced-ensemble # 正常安装
$ pip install --upgrade imbalanced-ensemble # 升级安装
$ git clone https://github.com/ZhiningLiu1998/imbalanced-ensemble.git
$ cd imbalanced-ensemble
$ pip install .
imbalanced-ensemble 具有以下依赖项:
- Python (>=3.6)
- numpy (>=1.16.0)
- pandas (>=1.1.3)
- scipy (>=0.19.1)
- joblib (>=0.11)
- scikit-learn (>=0.24)
- matplotlib (>=3.3.2)
- seaborn (>=0.11.0)
- tqdm (>=4.50.2)
- 基于重采样的方法
- 降采样 + 集成
- 过采样 + 集成
- 基于重加权的方法
- 代价敏感学习 + 集成
- 兼容方法
本节中我们提供一些简单的指南来帮助您快速开始使用 IMBENS。
我们强烈希望您查看 示例仓库 中的更全面的使用示例,其中演示了 IMBENS 的许多高级特性。
一个可运行的示例:以 SPE[1] 为例,仅需少于10行的代码就可以部署它:
>>> from imbens.ensemble import SelfPacedEnsembleClassifier
>>> from sklearn.datasets import make_classification
>>> from sklearn.model_selection import train_test_split
>>> X, y = make_classification(n_samples=1000, n_classes=3,
... n_informative=4, weights=[0.2, 0.3, 0.5],
... random_state=0)
>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.2, random_state=42)
>>> clf = SelfPacedEnsembleClassifier(random_state=0)
>>> clf.fit(X_train, y_train)
>>> clf.predict(X_test)
。它可对集成分类器进行直观的可视化来获取更多信息或比较不同方法的性能。请阅读 可视化工具的文档 以及 使用示例 以获取更详细的信息。
from imbens.ensemble import SelfPacedEnsembleClassifier
from imbens.ensemble import RUSBoostClassifier
from imbens.ensemble import EasyEnsembleClassifier
from sklearn.tree import DecisionTreeClassifier
# Fit ensemble classifiers
init_kwargs = {'estimator': DecisionTreeClassifier()}
ensembles = {
'spe': SelfPacedEnsembleClassifier(**init_kwargs).fit(X_train, y_train),
'rusboost': RUSBoostClassifier(**init_kwargs).fit(X_train, y_train),
'easyens': EasyEnsembleClassifier(**init_kwargs).fit(X_train, y_train),
# Fit visualizer
from imbens.visualizer import ImbalancedEnsembleVisualizer
visualizer = ImbalancedEnsembleVisualizer().fit(ensembles=ensembles)
使用可视化器展示不同方法的性能曲线(performance curve)
fig, axes = visualizer.performance_lineplot()
使用可视化器展示不同方法的混淆矩阵(confusion matrices)
fig, axes = visualizer.confusion_matrix_heatmap()
IMBENS 中实现的所有集成分类器都支持打印可自定义的训练日志。训练日志由 fit() 方法的 eval_datasets、eval_metrics 和 training_verbose 3 个参数控制。请阅读 fit() 方法的文档 来获得更详细的使用方法。
clf.fit(..., train_verbose=True)
'granularity': 10,
'print_distribution': False,
'print_metrics': True,
'valid': (X_valid, y_valid)
from sklearn.metrics import accuracy_score, f1_score
'acc': (accuracy_score, {}),
'weighted_f1': (f1_score, {'average':'weighted'}),
更多有关不平衡学习的背景、定义、评价准则等,请参考:极端类别不平衡数据下的分类问题S02:问题概述,模型选择及人生经验 - 知乎 (zhihu.com) 。
- 重采样 (re-sampling): 直接更改训练集中不同类别样本的数量
- 欠采样 (under-sampling): 丢弃多数类中的样本
- 过采样 (over-sampling): 为少数类生成新的样本
- 数据清洁 (cleaning): 根据特定的规则清除一些样本
- 混合采样 (hybrid-sampling): 结合上述方法,常见组合为过采样+数据清洁
- 重加权 (re-weighting): 更改不同样本在模型训练中的权重
- 类别重加权 (class-wise reweighting): 为不同类别的样本分配不同权重,如代价敏感学习 (cost-sensitive learning) 类方法
- 样本重加权 (instance-wise reweighting): 为不同的样本分配不同权重,如难例挖掘 (hard example mining) 类方法
- 其他方法,如后验概率调整 (posterior probability adjustment) 等。
若对相关的研究论文以及子领域划分感兴趣,请参考有关类别不平衡(长尾)机器学习的一切:论文,代码,框架与库 -知乎 (zhihu.com) 以及 ZhiningLiu1998/awesome-imbalanced-learning: A curated list of awesome imbalanced learning papers, codes, frameworks, and libraries. (github.com) 。
