中国法律智能技术评测(CAIL2021):信息抽取(Rank2)
目录
目录
赛题介绍
赛题背景
赛题描述
赛题数据
提交要求
评估标准
数据分析
数据处理
数据划分
数据增强
模型训练
模型结构
训练策略
不要停止预训练
信息抽取任务微调
模型集成
后处理
消融对比
大赛结果
不足与展望
引用
附录
本项目是对2021年中国法律智能技术评测的信息抽取赛题第二名方案的总结复盘,本次比赛使用了新的模型和训练方法,出乎意料地取得了较好的结果,值得回顾一下。在调参、模型集成等方面尚有较大进步空间,再接再厉。
赛题介绍
赛题背景
信息抽取是自然语言处理中一类基础任务,涉及命名实体识别与关联抽取等多类子任务。在法律文本中主要体现为对于案件关键信息如嫌疑人、涉案物品、犯罪事实等关键信息的精确抽取。信息抽取对于实现“智慧司法”建设具有现实意义,其结果将辅助司法办案人员快速阅卷、厘清案件信息,也是知识图谱构建、相似案例推荐、自动量刑建议等一系列任务的重要基础。该任务需要参赛队伍从包含案件情节描述的陈述文本中识别出关键信息实体,并按照规定格式返回结果进行评测。
赛题描述
赛题数据
本次任务所使用的数据集主要来自于网络公开的若干罪名法律 ...
全球人工智能技术创新大赛【赛道一】:医学影像报告异常检测(三等奖)
目录
目录
赛题介绍
赛题背景
赛题描述
赛题数据
提交要求
评估标准
赛题思路
数据处理
探索分析
数据划分
样本重加权
数据增强
模型训练
模型结构
预训练
微调
模型集成
方案优化
大赛结果
Top方案
不足与展望
参考文献
附录
半监督学习
Blending
赛题介绍
赛题背景
影像科医生在工作时会观察医学影像(如CT、核磁共振影像),并对其作出描述,这些描述中包含了大量医学信息,对医疗AI具有重要意义。本任务需要参赛队伍根据医生对CT的影像描述文本数据,判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常,复赛阶段除了判断有异常的区域外,还需判断异常的类型。判断的结果按照指定评价指标进行评测和排名,得分最优者获胜。
赛题链接:Link
赛题描述
赛题数据
大赛分为初赛A/B榜、复赛A/B榜以及决赛答辩,各时间点公布的数据文件及时间如下
数据文件
发布时间
备注
track1_round1_train_20210222.csv
2021.03.02(初赛A榜)
仅包含区域标注
track1_ ...
grep, sed, awk三剑客
grep: Globally search a Regular Expression and Print
基本用法
参数说明
sed: Stream Editor
基本用法
参数说明
编辑命令
实例
awk: Alfred Aho, Peter Weinberger, Brian Kernighan
基本用法
参数说明
常用内置变量
语法
运算符
BEGIN/END
分支、循环、数组
分支: if
循环: do while, for
数组
常用字符串函数
grep: Globally search a Regular Expression and Print
强大的文本搜索工具,它能使用特定模式匹配(包括正则表达式)查找文本,并默认输出匹配行到STDOUT。
基本用法
1$ grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文 ...
Shell Programming
目录
目录
Shell基础
常用指令
父子shell
环境变量
输入/输出重定向
执行时重定向
输入重定向
输出重定向
错误重定向
脚本中重定向
输入/输出
自定义文件描述符
重定向到已有文件描述符
管道
变量
字符串
变量参数
数组参数
参数传递
位置参数
命名参数
用户输入
基本输入: read
文件输入: cat | read
脚本退出: exit
命令替换: ( command )
运算和测试
数学运算
$( expr expression )
$[ expression ]
let expression, $(( expression ))
内建计算器bc
测试命令: test expression, [ expression ]
数值测试: -eq, -ne, -gt, -ge, -lt, -le
字符测试: =, !=, <, >, -n -z
文件测试: -e, -d, -f, …
复合条件测试: !, -o / ||, -a / &&
结构化命令
分支
if-then-el ...
经典机器学习算法推导汇总
目录
目录
前言
MLE/MAP
最大似然估计(MLE)
最大后验概率估计(MAP)
线性回归/逻辑斯蒂回归
线性回归
逻辑斯蒂回归(LR)
朴素贝叶斯
PCA/LDA
PCA
计算步骤
证明
LDA
计算步骤
证明
EM/GMM
EM算法
GMM模型
SVM
KKT条件
核技巧
分类问题
线性可分
线性不可分
回归问题
求解优化问题
聚类
距离度量
KMeans
Spectral
决策树
ID3
C4.5
CART
RF
前言
本文只做复习使用,只给出关键算法描述和证明。
MLE/MAP
给定NNN个样本对{(X(i),y(i)),i=1,⋯ ,N}\{(X^{(i)}, y^{(i)}), i = 1, \cdots, N\}{(X(i),y(i)),i=1,⋯,N},其中y∈{Ck,k=1,⋯ ,K}y \in \{C_k, k = 1, \cdots, K\}y∈{Ck,k=1,⋯,K},要求估计参数模型P(X∣θ)P(X | \theta)P(X∣θ)的参数θ\thetaθ,使之最能描述给定数据分布。
最大似 ...
Useful Terminal Control Sequences
前言
ANSI定义了用于屏幕显示的Escape屏幕控制码,打印输出到终端时,可指定输出颜色、格式等。
基本格式
1\033[<background color>;<front color>m string to print \033[0m
\033[ xxxx m为一个句段;
\033[0m关闭所有属性;
光标控制
ANSI控制码
含义
\033[nA
光标上移n行
\033[nB
光标下移n行
\033[nC
光标右移n行
\033[nD
光标左移n行
\033[y;xH
设置光标位置
\033[2J
清屏
\033[K
清除从光标到行尾的内容
\033[s
保存光标位置
\033[u
恢复光标位置
\033[?25l
隐藏光标
\033[?25h
显示光标
颜色控制
ANSI控制码
含义
\033[m
NONE
\033[0;32;31m
RED
\033[1;31m
LIGHT RED
\033[0;32;32m
GREEN
\033[1;32m
LIGHT GR ...
Hexo+Github博客搭建
前言
那么问题来了,现有的博客还是现有的这篇文章呢?
软件安装
安装node.js, git, hexo
博客搭建
初始化
推荐使用git命令窗口,执行如下指令
12345678910111213141516171819202122232425262728293031$ mkdir Blog$ cd Blog$ hexo initINFO Cloning hexo-starter to ~\Desktop\BlogCloning into 'C:\Users\LouisHsu\Desktop\Blog'...remote: Enumerating objects: 68, done.remote: Total 68 (delta 0), reused 0 (delta 0), pack-reused 68Unpacking objects: 100% (68/68), done.Submodule 'themes/landscape' (https://github.com/hexojs/hexo-theme-landscape.git) re ...
二次入坑raspberry-pi
前言
距上一次搭建树莓派平台已经两年了,保存的镜像出了问题,重新搭建一下。
系统
下载
从官网下载树莓派系统镜像,有以下几种可选
Raspberry Pi — Teach, Learn, and Make with Raspberry Pi
Raspbian & Raspbian Lite,基于Debian
Noobs & Noobs Lite
Ubuntu MATE
Snappy Ubuntu Core
Windows 10 IOT
其余不太了解,之前安装的是Raspbian,对于Debian各种不适,换上界面优雅的Ubuntu Mate玩一下
老老实实玩Raspbian,笑脸:-)
安装
比较简单,准备micro-SD卡,用Win32 Disk Imager烧写镜像
Win32 Disk Imager download | SourceForge.net
安装完软件后可点击Read备份自己的镜像。
注意第二次开机前需要配置config.txt文件,否则hdmi无法显示
树莓派配置文档 config.txt 说明 | 树莓派实验室
123456 ...
TF-IDF
引言
正在做LintCode上的垃圾邮件分类,使用朴素贝叶斯方法解决,涉及到文本特征的提取。
TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
计算步骤
词频(TF)
Term Frequency,就是某个关键字出现的频率,具体来讲,就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式:
TFij=nij∑kni,kTF_{ij} = \frac{n_{ij}}{\sum_k n_{i, k}}
TFij=∑kni,knij
其中,nijn_{ij}nij表示关键词jjj在文档iii中的出现次数。
单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的,但是不能反映文章性质的那种词,比如:因为、所以、因此等等的连词,在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF,所以仅仅使用TF来考察一个词的关键性,是不够的。
逆文档频率(IDF)
I ...






