CSSNLP 2022第三届中国自然语言处理学生研讨会 – 活动发布 – 活动Q

CSSNLP 2022第三届中国自然语言处理学生研讨会

第三届中国自然语言处理学生研讨会将于2022年12月17日(周六)08:50-17:30于线上举办,由中国中文信息学会青年工作委员会主办。会议由中国科学院计算技术研究所冯洋研究员、山东大学任昭春教授担任大会主席,由房庆凯(中国科学院计算技术研究所)、金卓然(中国科学院自动化研究所)担任程序委员会主席。

本次会议包含特邀报告、前沿论坛、博士生论坛和学生研讨会四个环节,主要目的是为自然语言处理研究领域内的中国青年学者提供一个学术交流平台。同时鼓励更多的青年学者关注自然语言处理前沿研究,展示最新科研成果,促进国内青年学者的思想交流和学术合作,进而推动自然语言处理在中国的发展。本次研讨会邀请了中国科学院自动化研究所刘康研究员、南京大学黄书剑副教授、哈尔滨工业大学张伟男副教授担任特邀嘉宾进行学术分享,并且邀请了多位优秀博士生分享研究成果和科研心得。

感谢社区支持伙伴智源社区,及媒体支持伙伴PaperWeekly、MLNLP(机器学习算法与自然语言处理)社区的大力支持。

开幕致辞

Opening Ceremony

 
张家俊

CIPS青工委主任

中国科学院自动化研究所研究员

张家俊,中国科学院自动化研究所研究员、博士生导师,主要研究方向为机器翻译和自然语言处理,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程、中国科学院青年创新促进会优秀会员和北京智源青年科学家。发表CCF-A/B类论文80余篇,出版学术专着2部、译着1部,获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖和2020年北京市科学技术奖一等奖等。担任中国中文信息学会理事、青年工作委员会主任和机器翻译专委会副主任。担任ACL/EMNLP/COLING的(资深)领域主席,以及《自动化学报》等期刊的编委。

特邀报告

Keynote

面向自然语言处理的神经网络可解释方法与评价

Abstract

深度神经网络的可解释问题近些年逐步成为 AI 领域的研究热点。本报告面向自然语言处理任务,将介绍己有典型解释方法,以及我们针对自然语言推理任务的解释方法。此外,本报告针对目前已有解释方法的评价问题进行重点探讨。

Biography

 
刘康

中国科学院自动化研究所研究员

刘康,中国科学院自动化研究所模式识别国家重点实验室,研究员,博士生导师,中国科学院大学人工智能学院岗位教授,北京智源人工智能研宄院青年科学家。研究领域包括信息抽取、知识图谱、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在人工智能、自然语言处理、知识工程等领域国际重要会议和期刊发表多篇学术论文,Google scholar引用1.3万余次。曾获COLING 2014最佳论文奖、2019年北京市科技进步奖一等奖等多项学术奖勋。

前沿报告

Frontier

机器翻译中的数据问题探索

Abstract

机器翻译相关的任务需要从大规模平行语料中学习双语知识。而大规模数据中包含的双语翻译知识往往因为来源不同、标记方法不同等原因存在分布方面的差异。这些差异不容易进行被有效度量。直接在这些存在差异的数据上进行学习,可能会制约相关任务的学习效果。本次报告从数据分布差异问题入手,介绍研究组在通过课程学习处理数据分布差异,从而提升学习效果方面的一些尝试。

Biography

 
黄书剑

南京大学计算机科学与技术系副教授

黄书剑,博士,南京大学计算机科学与技术系副教授,博士生导师。主要研究方向包括机器翻译、文本分析与理解等。现任中文信息学会理事,中文信息学会机器翻译专委会副主任,中国计算机学会自然语言处理专委会委员,曾任中文信息学会青年工作委员会执行委员等。曾担任ACL,AAAI,IJCAI,NAACL,EMNLP等国际会议的AC、SPC、PC等,担任国内自然语言处理会议NLPCC2022、机器翻译会议CCMT2019程序委员会共同主席,CWMT2017、2018评测委员会主席等。

 
开放域对话关键技术研究及应用

Abstract

近年来,人机对话受到了学术界和工业界的广泛重视。在研究上,自然语言理解技术逐渐从序列标注向深度学习的方向发展,对话管理经历了由规则到有指导学习再到强化学习的发展过程,自然语言生成则从模板生成、句子规划,发展到端到端的深度学习模型。在应用上,基于人机对话技术的产品也层出不穷。本次报告将针对开放域人机对话中的生成、推理、角色化和对话系统评价等关键技术和应用进行介绍。

Biography

 
张伟男

哈尔滨工业大学副教授

张伟男,副教授/博士生导师,哈尔滨工业大学计算机学院院长助理,黑龙江省中文信息处理重点实验室副主任,国家重点研发计划项目负责人。研究兴趣包括自然语言处理及人机对话。在ACL、AAAI、WWW、IJCAI、IEEE TKDE、ACM TOIS等CCF A类国际会议及国际顶级期刊发表论文多篇,多次担任ACL、EMNLP领域主席、AAAI高级程序委员会委员(SPC)及多个国际会议及期刊的程序委员会成员、审稿人及期刊编委。目前为中国中文信息学会青年工作委员会副主任,中国计算机学会(CCF)术语审定工作委员会执委、CCF哈尔滨分部秘书长,中国人工智能学会教育工作委员会副秘书长,北京智源青源会会员。主导研发了智能人机对话系统“笨笨”,积累百万级人机对话数据对,2019年3月“笨笨”中的开放域人机对话功能成功落地到科大讯飞AIUI智能交互平台。曾获黑龙江省科技进步一等奖、吴文俊人工智能科技进步二等奖及黑龙江省青年科技奖等。

博士生论坛

Forum

如何训练非自回归序列生成模型

Abstract

非自回归序列生成模型对目标端的概率分布做了条件独立性假设,因此能并行生成整个序列,在解码速度上相较于自回归模型有显著优势。然而,这也导致非自回归模型无法建模多峰的概率分布,因此极大似然估计方法在训练非自回归模型时会存在理论缺陷,使非自回归模型的性能与自回归模型存在较大差距。本次报告将分享我们在改进非自回归模型训练方法上的一系列研究工作,包括对损失函数进行改进的序列级训练方法和对训练目标做调整的动态参考译文方法。通过改进模型的训练方法,非自回归模型能够达到甚至超越自回归模型的性能,同时解码速度不受影响,仍保持着相对自回归模型十倍以上的解码加速。

Biography

  
邵晨泽

中国科学院计算技术研究所博士生

邵晨泽,中国科学院计算技术研究所博士研究生,研究方向为自然语言处理和机器翻译。研究成果一作发表在ACL、EMNLP、NAACL、AAAI、NeurIPS等自然语言处理和机器学习顶级会议以及自然语言处理顶级期刊Computational Linguistics,曾在EMNLP 2022会议上开展以非自回归生成为主题的tutorial。

 
视觉语言预训练框架的演进与新发展

Abstract

视觉和语言是人类智能的重大体现,随着预训练模型在NLP的蓬勃发展,视觉语言预训练模型(Vision Language Pre-training,简称VLP)的研究也在兴起。VLP的框架也在不断地演进,视觉特征提取方面从开始的使用固定的物体检测器,到基于端到端训练的编码器如ViT等;模型结构方面从深交互的单双流、浅交互的双塔模型到两种结构的结合,从Encoder到Encoder-decoder,以及进一步结合MoE技术等;预训练数据层面从使用标注数据扩展到使用带噪声的图文对,甚至无监督情况等等;训练策略层面从设计特定自监督任务到多任务的统一表示,以及模态间的统一等等。本次报告将从多个角度简单梳理VLP框架的演进过程,并介绍一些新的研究思路,包括VLP中的多层次语义建模等。

Biography

 
李泽君

复旦大学博士生

李泽君,复旦大学2022级博士生,导师为魏忠钰教授。主要研究方向为跨视觉语言的多模态表示学习,视觉语言预训练。以第一作者身份在AAAI,ACM MM等会议发表了多篇论文。

 
端到端语音翻译中的预训练方法研究进展

Abstract

随着近些年来国际交流的增多,语音翻译任务得到了广泛的关注。相比传统联合语音识别和文本翻译模型的方式,端到端网络因其更具潜力的建模方式和更高效的计算速度,逐渐成为近期研究的主流。然而,受限于语音翻译数据的规模,端到端模型目前很难达到理想性能。如何通过预训练等技术来利用额外的数据与模型成为了问题的关键。本次分享首先介绍语音翻译的背景知识,然后对目前的预训练方法进行总结与梳理,最后讨论未来面临的挑战与研究趋势。

Biography

 
许晨

东北大学博士生

许晨,东北大学自然语言处理实验室博士四年级研究生,导师是朱靖波教授和肖桐教授。研究方向主要包括机器翻译、语音翻译和语音识别。多次参加WMT新闻翻译评测、质量评估评测与IWSLT语音翻译评测,并参与实验室自研张量计算库NiuTensor的开发与书籍《机器翻译:基础与模型》的撰写。曾获CCL2021最佳中文论文奖,相关工作发表在ACL、COLING等会议。

学生研讨会

Workshop

应用问题研究的三个视角——以虚假新闻检测为例

Abstract

不同于基础技术研究,应用问题研究往往缺少成熟的研究路线。要想找到研究问题的突破口,研究者需要拥有更宏观的视野和更多样的视角。本报告将以虚假新闻检测这一应用问题为例,介绍应用问题研究的三个视角——历史视角、理论视角和现实视角,为刚接触应用问题研究的同学提供参考。

Biography

 
盛强

中科院计算技术研究所博士生

盛强,中国科学院计算技术研究所数字内容合成与伪造检测实验室博士生,导师为曹娟研究员。其研究方向为虚假新闻检测,在ACL、WWW、TKDE、CIKM、IPM等会议或期刊发表相关论文十余篇,参与ACL、EMNLP、NAACL等会议或期刊审稿十余次,两次获“优秀审稿人”称号。

 
一名普通硕士生的NLP之旅

Abstract

不同于国内有名的大团队,本报告将从普通硕士生的视角,介绍作为平凡却立志做NLP的我,如何在导师的帮助下,在硕士阶段能够在NLP社区做出自己的一点科研和开源贡献。

Biography

  
李国趸

浙江大学硕士生

李国趸,浙江大学计算机学院三年级硕士生,导师为张寅老师。主要研究方向为文本生成和少样本学习。曾在ACMMM、COLING等国际会议发表论文。曾在GitHub以及MLNLP社区组织和维护累计超过1500星标的若干开源NLP项目。

 
科研新手入门经历与经验分享

Abstract

作为一个科研新人,在科研入门阶段,常常会遇到非常多的问题以及迷茫。在这个报告中,我希望能够和大家分享一下,我作为一个科研新手从入门到逐渐能提出一些自己的独立项目的过程和经验分享。在这个报告中,我将结合我最近在TACL和EMNLP发表的两个工作,从一个科研新人的角度,来分享我入门阶段遇到的这些问题以及如何解决这些问题。我将主要集中在三个方面:1)立项Proposal阶段,如何找到适合自己的课题;(2)项目阶段,如何更好地推进项目进度(3)论文和会议阶段,如何展示和推广自己的工作,比如在社交平台上宣传工作。

Biography

 
郑博元

约翰斯霍普金斯大学研究生

郑博元,约翰斯霍普金斯大学二年级研究生,导师是Benjamin Van Durme,研究方向是信息抽取,多语言自然语言处理以及大规模语言模型的理解与应用。曾在加拿大Queen’s University Xiaodan Zhu老师实验室和西湖大学张岳老师实验室交流访问,曾在TACL,EMNLP,NAACL,NLPCC等会议上发表论文,曾以第一作者组织SemEval-2021 Task4: Reading Comprehension of Abstract Meaning。

 
圆桌论坛

NLPer:从入门到深耕

Abstract

本届学生研讨会圆桌将以“NLPer:从入门到深耕”为主题。圆桌讨论邀请了3位优秀的NLPer作为嘉宾,分别为来自中科院计算技术研究所的盛强、约翰斯霍普金斯大学的郑博元和浙江大学的李国趸,由来自中科院计算技术研究所的张绍磊担任主持人。嘉宾们将围绕科学研究、开源项目、学术竞赛等多个问题展开经验分享、交流讨论,旨在为广大NLPer的研究之路提供启发和帮助。

Chair

 
张绍磊

中国科学院计算技术研究所博士生

张绍磊,中国科学院计算技术研究所博士生三年级,导师为冯洋研究员。主要研究方向为自然语言处理、机器翻译、同声传译。以第一作者在ACL、EMNLP等自然语言处理领域顶级国际会议中累计发表论文9篇。在第二届国际同声传译测评比赛(AutoSimTrans2021)文本到文本赛道中获得冠军。现担任中文信息学会青工委学生执委会主任。

组委会

Committees

General Chair

 
冯洋

中科院计算技术研究所研究员

冯洋,中科院计算技术研究所研究员、博士生导师、自然语言处理团队负责人、中国人工智能学会首批杰出会员,主要研究方向为自然语言处理、机器翻译和人机对话。在自然语言处理领域顶级会议ACL发表长文20多篇,担任中文信息学会青年工作委员会副主任、ARR Permanent Senior Action Editor以及ACL/EMNLP会议高级领域主席/领域主席等。机器翻译方面的工作获得ACL 2019唯一最佳长文奖,为ACL开办50多年来国内首次获得该奖项,并获CCF自然语言处理专委会 “青年新锐奖”、 “钱伟长中文信息处理科学技术奖-汉王青年创新奖”一等奖等。

 
 
任昭春

山东大学教授

任昭春,山东大学教授、博士生导师。2016年博士毕业于荷兰阿姆斯特丹大学。2016-2019年于伦敦大学学院和京东数据科学实验室工作。主要从事信息检索方面的研究,在对话式信息获取、个性化检索与推荐、文本理解与生成方面取得了多项研究成果。在国际顶级会议和期刊上发表超过100篇论文,谷歌学术引用超过4000次,获得WSDM 2018最佳学生论文和CIKM 2017最佳论文提名奖。作为项目负责人承担了包括国家重点研发计划课题在内的多项国家级科研项目,并与美团、腾讯、百度、阿里巴巴等公司开展多项合作,曾获2022中国计算机学会自然语言处理专委会青年新锐奖、腾讯2020“犀牛鸟”项目学术创新奖。长期担任多个学术期刊的编委或特刊编辑,以及多个国际知名学术会议的领域主席及程序委员会委员;同时担任中国计算机学会自然语言处理专委会委员、中国中文信息学会信息检索专委会委员、中国中文信息学会青年工作委员会执委等职务。

Program Chairs

 
房庆凯

中国科学院计算技术研究所博士生

房庆凯,中国科学院计算技术研究所二年级直博生,导师为冯洋研究员。主要研究方向为机器翻译、语音翻译、多模态翻译。曾在自然语言处理领域顶级会议ACL、EMNLP上发表论文多篇,并担任相关会议审稿人。在全国机器翻译大会(CCMT)机器翻译评测中取得第一名、第二名的成绩。曾在字节跳动AI-Lab火山翻译部门实习。现担任中文信息学会青年工作委员会学生执委。

 
 
金卓然

中国科学院自动化研究所博士生

金卓然,中国科学院自动化研究所二年级直博生,导师为赵军研究员。主要研究方向为知识图谱和信息抽取。曾在ACL、EMNLP等会议上发表论文,并参与多个自然语言处理开源项目的开发和维护。现担任中文信息学会青年工作委员会学生执委。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注