-
中文NER的那些事儿4. 数据增强在NER的尝试
这一章我们不聊模型来聊聊数据,解决实际问题时90%的时间其实都是在和数据作斗争,于是无标注,弱标注,少标注,半标注对应的各类解决方案可谓是百花齐放。在第二章我们...
风雨中的小七 2023-01-02449 0 0 -
数据增强效果不好?记一次数据排查的经历
在教育领域存在这样的一个场景,某个学生做错一个题目,学生希望系统出一些跟该题目相关的习题或者视频资料进行针对性的查漏补缺,提高学习的练习和复习的效率,这个在学术...
towan 2023-01-02466 0 0 -
小样本利器3. 半监督最小熵正则 MinEnt & PseudoLabel代码实现
在前两章中我们已经聊过对抗学习FGM,一致性正则Temporal等方案,主要通过约束模型对细微的样本扰动给出一致性的预测,推动决策边界更加平滑。这一章我们主要针...
风雨中的小七 2023-01-02438 0 0 -
Bert不完全手册8. 预训练不要停!Continue Pretraining
论文针对预训练语料和领域分布,以及任务分布之间的差异,提出了DAPT领域适应预训练(domain-adaptive pretraining)和TAPT任务适应预...
风雨中的小七 2023-01-02453 0 0 -
模型优化4. 正则化+数据增强 Mixup Family代码实现
前三章我们陆续介绍了半监督和对抗训练的方案来提高模型在样本外的泛化能力,这一章我们介绍一种嵌入模型的数据增强方案。之前没太重视这种方案,实在是方法过于朴实。。。...
风雨中的小七 2023-01-02449 0 0 -
超精准!AI 结合邮件内容与附件的意图理解与分类!⛵
对于很多企业而言,电子邮件仍然是主要沟通渠道之一,很多正式的内容也要基于邮件传达,供应商、合作伙伴和公共管理部门也每天会有大量的电子邮件。邮件的信息提取和处理可...
ShowMeAI 2023-01-02444 0 0 -
NLP手札1. 金融信息负面及主体判定方案梳理&代码实现
这个系列会针对NLP比赛,经典问题的解决方案进行梳理并给出代码复现~也算是找个理由把代码从TF搬运到torch。Chapter1是CCF BDC2019的赛题:...
风雨中的小七 2023-01-02456 0 0 -
全都会!预测蛋白质标注!创建讲义!解释数学公式!最懂科学的智能NLP模型Galactica尝鲜 ⛵
?Galactica 是 Meta AI 开源的大型语言模型,基于 Transformer 架构构建,主要使用科学文章和研究论文作为数据,并使用 ?GROBID...
ShowMeAI 2023-01-02449 0 0 -
如何在3小时快速开发上线一款chatGPT微信小程序
chatGPT是一款由OpenAI开发的聊天机器人模型,是一种高效语言模型,它能够模拟人类的语言行为,与用户进行自然的交互。它的名称来源于它所使用的技术——GP...
快乐咸鱼每一天 2023-01-02490 0 0 -
算法工程师深度解构ChatGPT技术
引言 | 本栏目特邀腾讯知名语言文本项目算法工程师冉昱、薛晨,用专业视野带你由浅入深了解ChatGPT技术全貌。它经历了什么训练过程?成功关键技术是什么?将如何...
腾小云 2023-01-02462 0 0