首页 » 技术分享 » Visual Analysis of Discrimination in Machine Learning

Visual Analysis of Discrimination in Machine Learning

 

论文传送门

作者

香港科技大学

  • Qianwen Wang
  • Zhenhua Xu
  • Zhutian Chen
  • Yong Wang
  • Huamin Qu

清华大学

  • Shixia Liu

摘要

在犯罪预测和大学录取等关键应用中,自动决策的使用越来越多,这引发了对机器学习公平性的质疑。我们如何决定不同的待遇是合理的还是歧视性的?在这篇文章中,我们从视觉分析的角度研究了机器学习中的歧视,并提出了一个交互式可视化工具 DiscriLens,以支持更全面的分析。为了揭示算法歧视的详细信息,DiscriLens 基于因果建模和分类规则挖掘来识别潜在区分项集的集合。通过将扩展的欧拉图与基于矩阵的可视化相结合,我们开发了一种新的集合可视化,以方便对区分项集的探索和解释。一项用户研究表明,用户可以快速准确地解释 DiscriLens 中的视觉编码信息。用例表明,DiscriLens 在理解和减少算法歧视方面提供了有用的指导。

Introduction

机器学习在最近几十年取得了巨大的进步,并成为各种应用中的有用技术,包括信用评分、犯罪预测和大学入学。由于这些领域的决策可能有道德或法律问题,模型用户超越模型准确性并考虑最大似然模型的公平性至关重要。

已经从三个主要方面提出了许多方法来评估和减轻歧视:调查训练数据中的歧视的预处理方法,调整模型学习过程的过程中方法,以及修改歧视性模型预测的后处理方法。然而,这些研究通常将歧视形式化为汇总统计数据,并可能阻碍详细评估。同时,这些研究简单地假设歧视的表征已经被明确定义,这在实践中通常是不成立的。

由于歧视的复杂性,它没有明确和统一的定义,在不同领域的表现也有很大差异。在这项研究中,我们开发了一个可视化的分析工具,使领域知识的参与和支持一个系统的对歧视的评估,从而进一步有利于歧视的分析和减轻。

我们将一组相似的人视为由一系列属性值定义的项目集(例如,{测试分数=低,专业=CS})。当定义很长且很复杂时,这些项目集的可解释性会被严重削弱。此外,这些项目集的数量可能很大,并且这些项目集通常错综复杂地交织在一起。因此,帮助用户感知这些项目集并解释区分是非常重要的。

为了应对这些挑战,我们设计并实现了 DiscriLens,这是一个交互式可视化工具,便于对算法区分进行简单的解释、评估和比较。在 http://discrilens.hkustvis.org 有一个演示(建议用 Chrome 打开)。我们开发了一个三阶段管道,基于因果建模和分类规则挖掘来识别潜在的歧视性项目集集合。提供了一组用户交互来将人类领域知识结合到判别分析中。提出了一种新的基于欧拉的可视化方法——RippleSet,以提供一种有效的判别方法。RippleSet 将一个集合表示为几个相邻的圆,而不是一个凸形,从而避免了传统欧拉图中的重叠。我们进一步将 RippleSet 与基于矩阵的可视化相结合,以支持用户从多个方面检查区分项集。我们通过一个用户研究和使用案例来证明 DiscriLens 在分析歧视方面的有
效性。

Contribution

  • 设计和开发一个交互式视觉分析工具,具有一套新颖的可视化技术,用于分析机器学习中的辨别。
  • 一项用户研究和一系列评估 DiscriLens 的实用性和可用性的用例。

Related Work

  • Discrimination in Machine Learning
  • Visual Analysis for ML Discrimination
  • Set Visualization

DISCRIMINATION: A MATHEMATICAL NOTATION

Designing DiscriLens

Design Goals

  • 定制歧视的定义
  • 衡量歧视的程度
  • 识别歧视状况
  • 描绘歧视的分布
  • 比较歧视

System Overview


DiscriLens 由两个主要模块组成:发现模块和可视化模块(图 4)。发现模块将训练数据、模型和用户定义的保护组作为输入。然后,它通过一个三阶段的管道,并产生一个潜在的歧视性项目集的集合。可视化模块作为一个界面,帮助理解歧视,以及一个工具,提供应用和改进模型的指导。

DISCRIMINATION DISCOVERY

Visual Interface



Interactions

  • Filter Itemsets & Modify Resolving Attributes
  • Coordinate RippleSet with Attribute Matrix


LABORATORY STUDY



对于每个参与者,两个数据集随机地与两个条件相关联(DiscriLens 和基线),并且以相反的平衡顺序呈现。在正式研究之前,每个参与者都接受了 20 分钟的辅导,学习工具,完成试验任务,并自由提问。在每种情况下,参与者完成四项任务。在这项用户研究中,参与者是随机排序的。最后,每个参与者完成一份研究后问卷,并接受一次简短的非正式访谈。

Use Cases

除了实验室研究之外,我们还通过用例进一步证明了 DiscriLens 在分析算法区分方面的有效性。这些案例是与两名机器学习专家(E1 和 E2)和一名领域专家(一名具有十多年教学经验的教授(E3))合作进行的。

我们主要使用 xAPI 数据集进行演示,更多用例可在补充材料中找到。xAPI 数据集中的每个数据点都有 9 个学生属性(例如,举手、缺勤天数)和一个指示该学生的考试分数是否超过 69 的二进制标签。我们设置性别=女性为保护组,τ = 0.25。训练了六种不同类型的最大似然模型:XGBoost、k 近邻(KNN)、逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)和决策树(DT)。所有六个模型的超参数都经过调整,使用 AutoML 实现了 5 倍交叉验证精度的最大化。



专家们提到并讨论了信任问题。E3 怀疑训练数据可能遗漏了一些与学生表现相关的属性。他还评论说,定罪分析的结果受到分析人员的选择的影响(例如,关键属性的设置)。"两位分析家可能会得出相反的结论。"机器学习专家 E1 建议将算法识别和人类识别进行比较,以增加用户的信心。“即使一个模型做出了歧视性的预测,它仍然可以比人类少一些偏见,因此是有帮助的。”

Discussion

对于鉴别发现,在一台 PC (2.3GHz 双核,英特尔酷睿 i5 处理器)上运行 4,000 个样本和 14 个功能的四阶段流水线大约需要 6 分钟。主要的瓶颈在于 FEGS 算法(两分钟)、FP-Growth 算法(一分钟)和歧视性规则挖掘(三分钟)。

Rippleset 的可扩展性主要受集合个数和项目个数的限制。

在 DiscriLens 中,我们允许用户自定义区分的定义,并支持人类领域知识的集成。虽然这一特性被受访专家视为一种优势,但我们也承认,用户定制在歧视分析中可能是一把双刃剑。

同时,当前版本的 DiscriLens 仅支持一个受保护属性的分析,并要求用户将受保护组定义为输入。

与其他可解释的模型(如决策树)相比,我们的研究在解释已识别的区分方面提供的支持有限。

我们承认 DiscriLens 中新颖而复杂的可视化设计会给用户带来挑战,尤其是那些没有视觉分析知识的用户。

Conclusion

在这项工作中,我们设计并开发了 DiscriLens,这是一种交互式可视化工具,有助于更好地理解和分析算法歧视。开发了一个四阶段管道,用于发现歧视性预测。为了有效地展示,通过将扩展的欧拉图与基于矩阵的集合可视化相结合,设计了一种新颖的集合可视化。两个案例研究展示了 DiscriLens 在理解和消除算法歧视方面的可用性和实用性。上下文感知拒绝选项是一种后处理方法,被提出用于更好地消除歧视,同时减少准确性损失。我们还报道了在 DiscriLens 的开发和评估过程中获得的对算法歧视的见解。

转载自原文链接, 如需删除请联系管理员。

原文链接:Visual Analysis of Discrimination in Machine Learning,转载请注明来源!

0