LOUIS' BLOG

中国法律智能技术评测(CAIL2021)：信息抽取(Rank2)

发表于2021-10-22|竞赛相关|竞赛相关

目录目录赛题介绍赛题背景赛题描述赛题数据提交要求评估标准数据分析数据处理数据划分数据增强模型训练模型结构训练策略不要停止预训练信息抽取任务微调模型集成后处理消融对比大赛结果不足与展望引用附录本项目是对2021年中国法律智能技术评测的信息抽取赛题第二名方案的总结复盘，本次比赛使用了新的模型和训练方法，出乎意料地取得了较好的结果，值得回顾一下。在调参、模型集成等方面尚有较大进步空间，再接再厉。赛题介绍赛题背景信息抽取是自然语言处理中一类基础任务，涉及命名实体识别与关联抽取等多类子任务。在法律文本中主要体现为对于案件关键信息如嫌疑人、涉案物品、犯罪事实等关键信息的精确抽取。信息抽取对于实现“智慧司法”建设具有现实意义，其结果将辅助司法办案人员快速阅卷、厘清案件信息，也是知识图谱构建、相似案例推荐、自动量刑建议等一系列任务的重要基础。该任务需要参赛队伍从包含案件情节描述的陈述文本中识别出关键信息实体，并按照规定格式返回结果进行评测。赛题描述赛题数据本次任务所使用的数据集主要来自于网络公开的若干罪名法律 ...

全球人工智能技术创新大赛【赛道一】：医学影像报告异常检测(三等奖)

发表于2021-05-19|竞赛相关|竞赛相关

目录目录赛题介绍赛题背景赛题描述赛题数据提交要求评估标准赛题思路数据处理探索分析数据划分样本重加权数据增强模型训练模型结构预训练微调模型集成方案优化大赛结果 Top方案不足与展望参考文献附录半监督学习 Blending 赛题介绍赛题背景影像科医生在工作时会观察医学影像（如CT、核磁共振影像），并对其作出描述，这些描述中包含了大量医学信息，对医疗AI具有重要意义。本任务需要参赛队伍根据医生对CT的影像描述文本数据，判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常，复赛阶段除了判断有异常的区域外，还需判断异常的类型。判断的结果按照指定评价指标进行评测和排名，得分最优者获胜。赛题链接：Link 赛题描述赛题数据大赛分为初赛A/B榜、复赛A/B榜以及决赛答辩，各时间点公布的数据文件及时间如下数据文件发布时间备注 track1_round1_train_20210222.csv 2021.03.02(初赛A榜) 仅包含区域标注 track1_ ...

grep, sed, awk三剑客

发表于2020-05-05|Linux

grep: Globally search a Regular Expression and Print 基本用法参数说明 sed: Stream Editor 基本用法参数说明编辑命令实例 awk: Alfred Aho, Peter Weinberger, Brian Kernighan 基本用法参数说明常用内置变量语法运算符 BEGIN/END 分支、循环、数组分支: if 循环: do while, for 数组常用字符串函数 grep: Globally search a Regular Expression and Print 强大的文本搜索工具，它能使用特定模式匹配（包括正则表达式）查找文本，并默认输出匹配行到STDOUT。基本用法 1$ grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文 ...

Shell Programming

发表于2020-05-04|Linux|shell

目录目录 Shell基础常用指令父子shell 环境变量输入/输出重定向执行时重定向输入重定向输出重定向错误重定向脚本中重定向输入/输出自定义文件描述符重定向到已有文件描述符管道变量字符串变量参数数组参数参数传递位置参数命名参数用户输入基本输入: read 文件输入: cat | read 脚本退出: exit 命令替换: ( command ) 运算和测试数学运算 $( expr expression ) $[ expression ] let expression, $(( expression )) 内建计算器bc 测试命令: test expression, [ expression ] 数值测试: -eq, -ne, -gt, -ge, -lt, -le 字符测试: =, !=, <, >, -n -z 文件测试: -e, -d, -f, … 复合条件测试: !, -o / ||, -a / && 结构化命令分支 if-then-el ...

经典机器学习算法推导汇总

发表于2020-02-10|机器学习

目录目录前言 MLE/MAP 最大似然估计(MLE) 最大后验概率估计(MAP) 线性回归/逻辑斯蒂回归线性回归逻辑斯蒂回归(LR) 朴素贝叶斯 PCA/LDA PCA 计算步骤证明 LDA 计算步骤证明 EM/GMM EM算法 GMM模型 SVM KKT条件核技巧分类问题线性可分线性不可分回归问题求解优化问题聚类距离度量 KMeans Spectral 决策树 ID3 C4.5 CART RF 前言本文只做复习使用，只给出关键算法描述和证明。 MLE/MAP 给定NNN个样本对{(X(i),y(i)),i=1,⋯ ,N}\{(X^{(i)}, y^{(i)}), i = 1, \cdots, N\}{(X(i),y(i)),i=1,⋯,N}，其中y∈{Ck,k=1,⋯ ,K}y \in \{C_k, k = 1, \cdots, K\}y∈{Ck,k=1,⋯,K}，要求估计参数模型P(X∣θ)P(X | \theta)P(X∣θ)的参数θ\thetaθ，使之最能描述给定数据分布。最大似 ...

Useful Terminal Control Sequences

发表于2019-05-28|Linux

前言 ANSI定义了用于屏幕显示的Escape屏幕控制码，打印输出到终端时，可指定输出颜色、格式等。基本格式 1\033[<background color>;<front color>m string to print \033[0m \033[ xxxx m为一个句段； \033[0m关闭所有属性；光标控制 ANSI控制码含义 \033[nA 光标上移n行 \033[nB 光标下移n行 \033[nC 光标右移n行 \033[nD 光标左移n行 \033[y;xH 设置光标位置 \033[2J 清屏 \033[K 清除从光标到行尾的内容 \033[s 保存光标位置 \033[u 恢复光标位置 \033[?25l 隐藏光标 \033[?25h 显示光标颜色控制 ANSI控制码含义 \033[m NONE \033[0;32;31m RED \033[1;31m LIGHT RED \033[0;32;32m GREEN \033[1;32m LIGHT GR ...

Hexo+Github博客搭建

发表于2019-01-04|其他

前言那么问题来了，现有的博客还是现有的这篇文章呢？软件安装安装node.js, git, hexo 博客搭建初始化推荐使用git命令窗口，执行如下指令 12345678910111213141516171819202122232425262728293031$ mkdir Blog$ cd Blog$ hexo initINFO Cloning hexo-starter to ~\Desktop\BlogCloning into 'C:\Users\LouisHsu\Desktop\Blog'...remote: Enumerating objects: 68, done.remote: Total 68 (delta 0), reused 0 (delta 0), pack-reused 68Unpacking objects: 100% (68/68), done.Submodule 'themes/landscape' (https://github.com/hexojs/hexo-theme-landscape.git) re ...

二次入坑raspberry-pi

发表于2018-10-29|Linux|Linux

前言距上一次搭建树莓派平台已经两年了，保存的镜像出了问题，重新搭建一下。系统下载从官网下载树莓派系统镜像，有以下几种可选 Raspberry Pi — Teach, Learn, and Make with Raspberry Pi Raspbian & Raspbian Lite，基于Debian Noobs & Noobs Lite Ubuntu MATE Snappy Ubuntu Core Windows 10 IOT 其余不太了解，之前安装的是Raspbian，对于Debian各种不适，换上界面优雅的Ubuntu Mate玩一下老老实实玩Raspbian，笑脸:-) 安装比较简单，准备micro-SD卡，用Win32 Disk Imager烧写镜像 Win32 Disk Imager download | SourceForge.net 安装完软件后可点击Read备份自己的镜像。注意第二次开机前需要配置config.txt文件，否则hdmi无法显示树莓派配置文档 config.txt 说明 | 树莓派实验室 123456 ...

TF-IDF

发表于2018-10-25|Practice

引言正在做LintCode上的垃圾邮件分类，使用朴素贝叶斯方法解决，涉及到文本特征的提取。 TF-IDF（词频-逆文档频率）算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。计算步骤词频(TF) Term Frequency，就是某个关键字出现的频率，具体来讲，就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式： TFij=nij∑kni,kTF_{ij} = \frac{n_{ij}}{\sum_k n_{i, k}} TFij=∑kni,knij 其中，nijn_{ij}nij表示关键词jjj在文档iii中的出现次数。单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的，但是不能反映文章性质的那种词，比如：因为、所以、因此等等的连词，在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF，所以仅仅使用TF来考察一个词的关键性，是不够的。逆文档频率(IDF) I ...