大赛说明

挑战赛详情

1、挑战赛任务:

任务一  罪名预测:根据刑事法律文书中的案情描述和事实部分,预测被告人被判的罪名;

任务二  法条推荐:根据刑事法律文书中的案情描述和事实部分,预测本案涉及的相关法条;

任务三  刑期预测:根据刑事法律文书中的案情描述和事实部分,预测被告人的刑期长短。

参赛者可选择一个或者多个任务参与挑战赛。同时,为了鼓励参赛者参与到更多的任务中,组委会将单独奖励参与更多任务的参赛者。

2、数据介绍:

本次挑战赛所使用的数据集是来自“中国裁判文书网”公开的刑事法律文书,其中每份数据由法律文书中的案情描述和事实部分组成,同时也包括每个案件所涉及的法条、被告人被判的罪名和刑期长短等要素。

数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。

我们将先后发布CAIL2018-Small和CAIL2018-Large两组数据集。CAIL2018-Small包括19.6万份文书样例,直接在该网站发布,包括15万训练集,1.6万验证集和3万测试集。这部分数据可以自由下载,供参赛者前期训练和测试。比赛开始2-3周后(具体时间请关注比赛新闻),我们将通过网络下载向有资格的参赛队伍定向发布CAIL2018-Large数据集,包括150万文书样例。最后,剩余文书将作为第一阶段的测试数据CAIL2018-Large-test。

3、评价方法:

本次挑战赛使用的数据集均为来自中国裁判文书网上的刑事法律文书,标准答案是案件的判决结果。下面将对三项任务的评价方法分别进行说明:

任务一、任务二的评价方式:

任务一(罪名预测)、任务二(法条推荐)两项任务将采用分类任务中的微平均F1值(Micro-F1-measure)和宏平均F1值(Macro-F1-measure)作为评价指标。

任务三评价方式:

任务三(刑期预测)将根据预测出的刑期与案件标准刑期之间的差值距离作为评价指标。

三项任务总分的计算方式:

每个任务的满分均为100,则总分为:score_all = score_1 + scroe_2 + score_3

具体请参考github(https://github.com/thunlp/CAIL)。

4、基线系统:

竞赛组织方已提供一个开源的针对不同任务的基线系统(LibSVM(https://github.com/thunlp/CAIL2018/tree/master/baseline))

5、数据集论文:

本次比赛数据集论文CAIL2018: A Large-Scale Legal Dataset for Judgment Prediction 已公布。数据下载地址是CAIL2018数据集下载

参赛方式

参赛对象 :  本次技术竞赛面向全社会开放,相关领域的个人、科研机构、高等院校、企业单位等人员均可报名参加。

报名方式 :  竞赛网站将于2018年04月30日开放注册报名,请及时关注。

报名方式    登录2018中国“法研杯”法律智能挑战赛官网,完善相关信息,即可报名参赛。

报名时间 :  2018年04月30日至2018年07月14日

赛程安排

第一阶段(2018.05.15-2018.07.14) :  

开启报名,发放CAIL2018-Small数据,用于编写模型进行训练和测试。每周限提交3次,开放排行榜;

第一阶段开始3周之后(计划6月5日,可能根据参赛队伍情况调整,具体时间请关注官方网站公告栏),根据参赛者提交结果情况。对于高于任一任务预设基准算法成绩(已经在排行榜上显示svm_baseline,成绩为71.83、68.79、47.83)的队伍”,我们将通过网络下载定向发布CAIL2018-Large数据集,包括新增的150万份样例。发放结束后将于1周之内(计划6月12日,可能根据参赛队伍情况调整,具体时间请关注官方网站公告栏)利用全部测试数据CAIL2018-Large-test进行重新评测,刷新排行榜。第一阶段的最终成绩以各参赛队伍7月14日之前提交的最终比赛模型(或最后提交的模型)在全部测试数据CAIL2018-Large-test上的成绩为准。

第二阶段(2018.07.14-2018.08.14) :  

封闭评测,第一阶段结束时,所有参赛者提交最终比赛模型(或以最后提交的模型为准)。同时,主办方将收集中国裁判文书网在随后一个月内每天新增的裁判文书数据作为新的测试集,对各参赛者的模型进行封闭评测,得到最终成绩。

挑战赛的最终成绩计算方式:最终成绩 = 第一阶段的成绩 * 0.3 + 第二阶段的成绩 * 0.7

技术交流和颁奖活动(2018.09)

奖项设置

挑战赛将针对三个任务分别评出一等奖1名,二等奖2名,三等奖3名,同时为了鼓励参赛者参与到更多任务中,组委会还将单独设立总分一等奖1名,二等奖2名,三等奖3名。由主办方中国中文信息学会(CIPS)为获奖者提供荣誉证书认证;由中国司法大数据研究院为获奖者提供奖励和参会交流赞助。

三个任务每个任务:一等奖 14000     二等奖 4000     三等奖 1000

总                    分:一等奖 6000     二等奖 3000     三等奖 1000

说明: 1. 以上所有提及金额均为税前金额。

2. 获奖算法与系统的知识产权归参赛队伍所有,仅要求获奖团队提供算法与系统报告(包括方法说明、数据处理、参考文献和使用开源工具等信息)及团队成员名单,供颁奖会技术交流。