TauJud: 机器学习范畴司法文本测试扩增

机器人飞机
2020-01-05 08:17:28 6

论文摘要

随着大数据的发展，机器学习技术在司法领域得到了广泛应用。为了提高模型的表现，测试数据需要进行合理的扩展。然而，现有的数据扩增方法往往难以满足司法文书的需求，特别是在生成的数据需要具备可解释性和逻辑性方面。为此，我们设计了一款名为TauJud的工具，旨在生成更有效的司法文书测试数据，从而提升模型评估的准确性和效率。

论文介绍

机器学习系统通常缺乏透明性，导致开发人员难以理解系统的决策过程。因此，测试在机器学习系统中尤为重要。然而，现有的测试数据质量难以保证，尤其是在智能软件系统中。高质量的测试数据应当覆盖所有真实情况，且结果公正。因此，我们开发了TauJud，以增强司法文书的数据扩增能力，帮助用户更好地评估司法预测模型的准确性。

方法

本文主要研究对象是司法文书，即案件审理的理想载体，通常用自然语言表述。在司法预测中，常用词向量分析中文文本。然而，过多的冗余数据不仅会增加数据集的规模，还可能影响模型的决策质量。因此，我们采用了一些方法来优化测试数据，包括停用词删除、回译和文档裁剪。此外，我们还引入了司法文书特有的扩增方法，如敏感属性的处理和同义词交换。