2021年

三星电子中国研究院涂眉博士来访模式识别国家重点实验室

        2021年9月10日上午,三星电子中国研究院涂眉博士来访模式识别国家重点实验室,介绍了高效度AI在三星的研究、落地和思考。

        近年来,AI模型对硬件资源的需求越来越高,比如GPT-3的参数规模达到1750亿,深度学习时代构建一流AI模型所需要的计算资源平均每3.4个月翻一番,能量需求在2012年至2018年之间增加了30万倍。AI模型的巨型化不仅造成大量的碳排放,而且阻碍了AI应用在前沿技术探索上的进展,以及在资源受限设备上的商用落地。因此,从长期角度来看,推行高效AI技术的研究,可以降低技术对地球资源和环境造成的影响;就短期而言,针对资源受限的设备开展高效AI模型的优化、训练及推理,也会让AI技术更具有可实现性和普适性,对AI技术的前瞻性研究,具备深远的意义。本报告将围绕高效AI话题,介绍三星电子中国研究院在这一领域上的研究成果,并且重点介绍该项技术在自然语言处理和相关领域商用化落地时面临和解决的技术问题,并对该项技术的未来需求做出了思考和解读。

 

                                                西湖大学张岳研究员来访模式识别国家重点实验室

        2021年7月22日上午,西湖大学张岳研究员来访模式识别国家重点实验室,并做了题为《语义分析在对话理解和生成中的作用》的学术报告。

        在这次报告中,张岳研究员介绍了三个围绕对话任务进行语义分析的工作。在篇章理解层面,介绍了如何把句子级别的amr扩展为篇章级的结构;在语言生成方面,介绍了如何通过反向结构预测提升amr到文本的性能;最后介绍了利用amr结构作为语义表示,在对话和理解生成任务上比端到端的神经网络都取得了提升。

 

英国杜伦大学郑冰寒副教授来访模式识别国家重点实验室

        2021年7月1日上午,英国杜伦大学郑冰寒副教授来访模式识别国家重点实验室,并做了题为《翻译认知过程新视角》的学术前沿报告。

        自1980年代以来,针对译者翻译过程的实验实证研究逐渐在欧陆国家发端、发展,并于本世纪初引领一次新的研究转向,学界称之为翻译学的认知转向。此类研究志在揭开翻译过程中人脑“黑匣子”神秘面纱,借鉴了心理学和认知科学的诸多研究方法,以其严谨科学的实验设计和数据分析,赢得了学界的关注和认可。本讲座首先肯定了过去十多年翻译过程研究者结合以眼动、击键和有声思维为主导的三元数据研究模式在该领域所取得的丰硕成果,为翻译的行为和认知过程研究打下了扎实的基础。然而,在此基础上,翻译过程研究还可以借助更为前沿的研究方法和手段,收集心理、生物生理和神经影像等数据,不断拓展翻译过程研究的新视角。

 

西交利物浦大学张霄军博士来访模式识别国家重点实验室

          2021年7月1日上午,西交利物浦大学张霄军博士来访模式识别国家重点实验室 ,并做了题为《Inside Out: How does metaphor tell your mental health?》的学术前沿报告。报告摘要为:

Mental health problems are prevalent and important in medicine science. However, clinical diagnosis of mental health problems is costly, time-consuming, and often significantly delayed. Previous psycholinguistic and psychiatry research has suggested that the use of metaphors in texts is linked to the mental health status of the authors. In this report, we propose a method for automatically detecting metaphors in texts to predict various mental health problems such as anxiety, depression, inferiority, sensitivity, social phobias, and obsession. We perform experiments on a composition dataset collected from second-language students and on the eRisk2017 dataset collected from Social Media. The experimental results show that our approach can help predict mental health problems of authors of written texts, and our algorithm performs better than other state-of-the-art methods. In addition, we report that the use of metaphors even in non-native languages can be indicative of various mental health problems.

 

 

 

2020年 

中科院心理所林楠副研究员来访模式识别国家重点实验室

        2020年12月29日上午,中科院心理所林楠副研究员应邀访问模式识别国家重点实验室,并做了题为《社会语义加工的脑机制》的学术前沿报告。

        语义即语言的含义,获取语义是语言加工的首要目的。“大脑如何存储和加工语义信息”一直以来都是心理学家和认知神经科学家所关注的重要问题。在已有的研究中,人们对形状、颜色、声音、运动等感觉运动类的语义信息给予了较多关注,并揭示了许多重要的规律;但是,对于另一类重要的语义信息——社会语义信息,已有的研究却少有涉及

         社会语义是关于人际关系和互动的语义信息。试想你和老友久别重逢,促膝长谈,你们先是聊家庭,再是聊工作,再又从交友、购物、聊到炒股、买房;你的朋友走了之后,你拿起了手机,开始阅读国际时事、娱乐八卦,又或者开始看小说。上述全部人们日常交谈和阅读中常见的主题,都涉及丰富的人际关系和互动,包含了丰富的社会语义信息

        人脑是如何表征一个词汇(比如“鞠躬”)所包含的社会语义信息的?在句子和语篇的理解中,人脑又是如何对社会语义信息进行保持和整合的(比如理解故事中的人物关系和互动过程)?通过一系列功能磁共振实验,林楠副研究员发现:社会语义加工与一个特定的脑网络密切相关,该脑网络在脑区分布上与负责感觉运动类语义加工的脑网络、负责语义合理性判断的脑网络三者之间存在精细的分离。最近,林楠副研究员又对社会语义工作记忆以及句子和语篇水平的社会语义加工的神经机制进行了初步揭示。这一系列的研究发现对于语言理解、社会认知和记忆等多个相关研究领域都有新的启示

 

复旦大学邱锡鹏教授来访模式识别国家重点实验室

        2020年11月17日下午,复旦大学邱锡鹏教授应邀访问模式识别国家重点实验室,并做了题为《自然语言处理中的自注意力模型》的学术前沿报告。

        邱锡鹏教授介绍了目前自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍我们在自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer、BP-Transformer等。2)Transformer模型的应用:将Transformer模型应用在文本分类、实体名识别等自然语言任务上,并通过针对性的改进来进一步提高性能。最后,对Transformer模型及其未来发展趋势进行展望。

     

 

复旦大学魏忠钰副教授来访模式识别国家重点实验室

        2020年11月9日上午,复旦大学魏忠钰副教授应邀访问模式识别国家重点实验室,并做了题为《跨模态文本生成中的视觉场景建模研究》的学术前沿报告。

        魏忠钰副教授介绍了自己课题组针对跨模态语义鸿沟问题,进行视觉场景建模以指导自动化文本生成的相关工作。基于视觉信息的自动化文本生成是结合计算机视觉和自然语言处理的一个重要课题,有广阔的应用需求,包括新闻图像附带的描述生成、儿童教育中常见的看图说话以及社交媒体中用户相册相关的故事生成等。当前的主流模型采用卷积神经网络进行图片特征的提取,并利用循环神经网络进行文本的生成,文本生成过程通过注意机制与图像表示进行关联。虽然现有的模型在自动化评价指标上取得了较大的提升,但这种仅仅依赖注意力机制进行跨模态表示关联的方法,很自然地引发文本信息和视觉场景错位的问题。

 

 

                                                           Kenneth Church教授来访模式识别国家重点实验室

        2020年1月13日下午,kenneth Church教授应邀访问模式识别国家重点实验室,并做了题为《Setting Appropriate Expectations: Are Deep Nets Too Hot? Too Cold? Or Just Right?》的学术前沿报告。

        Kenneth Church教授介绍了目前深度学习模型的进展和局限,具体来说,最近几年,深度学习模型在各种实际场景中取得了实质性的进步,尤其是在视觉和语音相关的场景中。这一进步正在以各种方式改变人们的生活,人脸识别和语音识别无处不在,机器学习会议的到了越来越多人的关注,人人都知道人工智能是什么。但是目前的深度学习模型还存在很多局限性,模型仍然不能在有噪声的情况下高效的识别语音,鸡尾酒会问题远远没有解决,现在的测试系统并不能有效检测模型的真实性能。为此,Kenneth Church教授发起了DIHARD挑战赛,包含一系列复杂的测试样例,旨在全方位评价模型的性能。最后报告引用费曼博士的一句话做为结束语“you must not fool yourself -- and you are the easiest person to fool.”。

        Kenneth Church教授在MIT获得了本科和研究生学位,并曾在AT&T, 微软, Hopkins, IBM工作,现在就职于百度美国研究院。他的研究兴趣包括语言建模、网络搜索、文本分析、拼写校正、词义消歧、手写体识别等。他是ACL 2012的大会主席,从1993年至2011年参与组织EMNLP会议。Kenneth Church教授于2001年成为AT&T Fellow,在2015年成为ACL Fellow.

          

 

麻省理工学院钱鹏来访模式识别国家重点实验室

        2020年1月10号上午,麻省理工学院钱鹏博士生应邀访问模式识别国家重点实验室,并做了题为《神经语言模型的句法泛化》的学术前沿报告。报告内容如下:

        神经网络语言模型已在诸多自然语言处理应用任务上取得了优异的表现,但是我们尚不清楚这些模型是否从语言数据中学习到像人类一样的句法泛化能力。本次报告将展示近期的研究工作,主要考察:(1)句法层级结构的监督信号是否有助于学习非局部性的句法依赖关系,(2)神经语言模型是否能够计算短语层次的语法特征,并依据所计算的特征来引导对后续语词的预期。通过基于心理语言学范式的实验研究,我们比较了一系列语言模型,评估其在“填充语-空位”依赖关系(Filler-Gap Dependencies)以及并列结构的主谓一致性关系(Subject-Verb Agreement)方面的泛化行为。实验结果表明,在少量训练数据的情况下,相比单纯基于词串信息的训练方式,句法结构监督有助于模型更高效地学习非局部性语法依赖关系。基于并列结构的实验还表明,当前考察的语言模型在表征短语成分语法特征方面,仍具有一定的局限性。

 

南京理工大学夏睿教授来访模式识别国家重点实验室

        2020年1月9日上午,南京理工大学夏睿教授应邀访问模式识别国家重点实验室,并做了题为《文本情绪检测与原因抽取》的学术前沿报告。报告内容如下:

      近年来,文本情绪分析研究得到了越来越多的关注。当前有两个主要的文本情绪分析任务:一个是情绪识别,其目标是从人类心理学的角度预测文本中人们表达的情绪(如喜怒哀乐);另一个是情绪原因抽取,其目标是抽取文本中某些情绪表达背后的潜在原因。学术界目前采用了包括规则方法、传统机器学习方法和深度神经网络在内的技术来解决这些任务。针对当前研究中存在的问题,我们首先提出了两种新的情绪原因抽取模型,并在此基础上提出一项新的任务—情绪-原因对抽取,进行同步的情绪预测与原因挖掘,在情绪原因分析基准语料库上的实验证明了任务的可行性和方法的有效性。

 

南京理工大学虞剑飞副教授来访模式识别国家重点实验室

        2020年1月9日上午,南京理工大学虞剑飞副教授应邀访问模式识别国家重点实验室,并做了题为《面向社交媒体的多模态情感分析》的学术前沿报告。报告内容如下:

      随着社交网络的飞速发展,人们在以微博、Twitter为代表的社交平台上发表的内容逐渐趋于多模态化,比如用户常以图文并茂的方式来表达自己的态度和情感。因此,如何结合社交媒体上的图片、视频等富文本信息来分析用户的情感倾向给传统的单模态文本情感分析带来了新的挑战。一方面,不同于传统的文本情感分析,多模态情感分析需要利用不同网络结构对多种模态内容进行基于情感的表示学习。另一方面,相比于单一的文本数据,多模态数据包含了多种不同信息,这些信息之间往往一一对应、互为补充,如何对齐不同模态的内容并提出有效的多模态融合机制是一个十分棘手的问题。本报告围绕多模态情感分析中的这两个核心问题,简单回顾学术界的相关工作,并介绍我们在面向社交媒体的实体级多模态情感分析上的研究进展。

 

 

2019年

日本大阪大学褚晨翚博士来访模式识别国家重点实验室

        2019年12月23日下午,日本大阪大学褚晨晖博士应邀访问模式识别国家重点实验室,并做了题为《From Multilingual to Multimodal Processing》的学术前沿报告。

        褚晨翚博士首先介绍了他们利用多语言句对构建低资源神经网络翻译模型的工作,之后介绍了他们最近在多模态处理方面的工作。

 

剑桥大学方宇星博士来访模式识别国家重点实验室

        2019年12月18日上午,剑桥大学Research Associate方宇星博士应邀访问模式识别国家重点实验室,并做了题为《语义计算的脑网络基础》的学术前沿报告。报告摘要如下:

        语义记忆是关于客体、文字、事实和人类的一般知识,是大脑的核心认知成分之一。前人研究发现,语义加工涉及多个灰质脑区以及脑区间连接,但是这些脑区和连接在语义加工中的加工机制尚不清楚。在本报告中,我们关注了语义的一系列计算机制,发现脑区间的结构和功能连接是支持这些计算的重要基础。在单个客体语义的表征方面,我们提出并验证了“语义可以表征在脑连接中”这一新理论。通过使用脑损伤病人数据和机器学习方法,我们发现表征多通道特征的灰质节点之间的脑白质结构连接是天然适合表征语义多维空间信息的结构。随后,我们进一步探索了多个语义表征,以及语义和句法表征的整合机制。利用健康成人句子理解的脑磁图数据,我们使用了主题模型(topic modeling)和长短时记忆模型语言模型(Long short-term memory (LSTM) language model)对句子中的多个语义表征和语义-句法表征分别建模,发现了涉及语义整合和语义-句法整合的关键脑功能网络。

    

 

澳大利亚墨尔本大学Tim Baldwin教授来访模式识别国家重点实验室

        2019年11月22日上午,澳大利亚墨尔本大学Tim Baldwin教授应邀访问模式识别国家重点实验室,并做了题为《Memory-Augmented Neural Networks for Better Discourse Understanding》的学术前沿报告。

        Tim Baldwin教授首先介绍了记忆网络(Memory Network)的两种类型:静态记忆网络和动态记忆网络。静态记忆网络是指一旦构建完毕后续不再变化;而动态记忆网络则指网络内容会随着模型处理需要不断变化。然后,Tim Baldwin教授利用非常形象的例子说明命名实体识别和对话状态跟踪等自然语言处理任务都需要篇章级别的理解,而记忆网络便是对篇章信息进行建模的一个有效手段。于是,Tim Baldwin教授介绍了如何针对自然语言处理中的任务优化记忆网络,并分别针对静态记忆网络和动态记忆网络提出了切实有效的优化模型,在命名实体识别和对话状态跟踪等自然语言处理任务上取得了当时最好的性能。最后,Tim Baldwin教授还提到记忆网络研究的一些未来方向。

        在报告结束后,与会师生与Tim Baldwin教授在记忆网络的设计、效率和优化方法进行了深入探讨。同时,针对记忆网络与当前流行的BERT等预训练模型的关系也进行了开放性讨论。

  

        Tim Baldwin是墨尔本大学教授、工程学院副院长。他是国际计算语言学委员会终身委员,曾是英国剑桥大学、美国华盛顿大学和日本东京科技大学等大学和研究机构的访问学者以及美国斯坦福大学的高级研究员。他的研究兴趣主要是自然语言处理,包括社交媒体分析、深度学习、计算语义学和主题建模。至今,Tim Baldwin教授已经发表超过350篇学术论文,谷歌学术引用超过11,000,H-index为52。他还是自然语言处理顶级会议COLING-2022的程序委员会主席。

 

 

法国格勒诺布尔大学Christian Boitet教授来访模式识别国家重点实验室


        2019年10月28日上午法国格勒诺布尔(Grenoble)大学Christian Boitet教授访问研究组,并做学术报告。

 

 

台湾中研院信息科学研究所 苏克毅教授来访模式识别国家重点实验室

       10月17日上午,台湾中研院信息科学研究所 苏克毅教授来访,做学术报告,并参观中科凡语公司。

 

 

新加坡技术与设计大学陆巍副教授访问模式识别国家重点实验室

 

泰国国家科学技术发展局(NSTDA)Dr. Chai Wutiwiwatchai 一行到访中国科学院自动化研究所


         5月29日上午,泰国科学技术发展局(NSTDA)国家电子学与计算机技术中心(NECTEC)泰国人类计算机通信研究中心语言与语义技术实验室(LST)主任Dr. Thepchai Supnithi一行到访中国科学院自动化研究所。模式识别国家重点实验室宗成庆研究员接待了来访人员。
        来访当日双方在前期交流的基础上,就未来在自然语言处理、模式识别、医疗机器人和在智能农业等领域的合作进行了深入探讨,并达成共识,拟定了合作备忘录。复杂系统管理与控制国家重点实验室康孟珍副研究员参与了讨论。


        之后,Dr. Thepchai Supnithi一行参观了模式识别国家重点实验室自然语言处理研究组开发的多语言机器翻译系统演示,并了解了实验室其他团队的研究工作。双方期待未来在我国“一带一路”战略支持下在更多领域开展实质性合作。


 

 

 

滴滴Kevin Knight教授访问模式识别国家重点实验室


        5月23日上午,受中科院自动化所宗成庆研究员的邀请,滴滴出行自然语言处理首席科学家Kevin Knight教授受邀做客中科院自动化所,主讲模式识别学术大讲坛讲座系列之“Studying Recurrent Neural Networks for Natural Language Processing”。讲座由宗成庆研究员主持,来自自动化所60余名学生和教师等共同听取了此次讲座。


        Kevin Knight教授围绕什么是序列深度神经网络,如何更好地理解序列神经网络;它是否有理论限制;以及其创新性这四个关键问题展开,内容涉及循环神经网络的数学基础、机器翻译、诗歌翻译等等。最后Kevin详细介绍了滴滴的人工智能现状,深入浅出的介绍了滴滴AI的布局,并欢迎学生加入滴滴。现场Kevin妙语连连,师生进行了热烈愉快的互动。


        报告结束后,多位老师与同学在自然语言处理发展趋势、机器翻译模型、生成式模型的评价等问题上进行了深入交流。主要问题包括目前机器翻译中transformer模型与RNN模型的区别是什么,利用机器翻译系统来进行自动写诗的过程中是如何评价所生成诗歌的质量等。Kevin教授一一做出解答,为大家的研究工作提供了诸多宝贵经验和思想方法。

 

 

自然语言处理团队研究方向与最新进展

        导读:自然语言处理是人工智能领域研究的核心内容之一,近年来取得了快速进展和广泛应用,在学术界和企业界备受瞩目。中科院自动化研究所自然语言处理团队负责人宗成庆研究员的报告从学科产生与发展、技术挑战、基本方法、应用举例、技术现状等多个视角对自然语言处理领域进行了全面梳理,并简要介绍了其团队近年来的主要工作,以及对该学科未来发展方向的分析和展望。我们希望这份报告能够帮助读者了解学科发展的脉络,激发研究兴趣,思考核心问题,领悟未来走向。


        2019年5月10日,中科院自动化研究所自然语言处理团队负责人宗成庆研究员在智能化大厦第1会议室模式识别国家重点实验室内部交流会上作了题为“自然语言处理方法与应用”的学术报告。马颂德研究员、刘成林研究员等老师和研究所近百名学生参加了报告会。近两个小时的报告活动座无虚席,讨论热烈,得到了很好的反响。




图1:活动座无虚席

        讲座首先对自然语言处理的基本概念、研究内容和理论方法进行了简要的梳理,介绍了自然语言处理这一学科的产生和发展,强调了计算机理解自然语言的科学意义和应用价值。接着,对自然语言处理面临的技术挑战进行了分析,包括自然语言中大量存在的未知语言现象、歧义词汇和结构、隐喻表达、以及翻译问题中不同语言之间概念的不对等性等。宗老师认为,语义概念的表示和计算、说话人意图的理解和推理、以及语用场景的分析是当前面临的核心挑战。之后,宗老师介绍了自然语言处理的基本方法,并通过两个具体实例展示了不同方法的实现过程及其存在的问题。他认为,虽然目前NLP技术在很多领域得到了成功的应用,但远未做到自然语言的深度理解,在这一领域仍然存在大量的难题和探索的空间,如现有的机器翻译系统无法准确地处理篇章范围内的指代问题、无法区分由于细微文字或句法差异造成的句子语义反转、无法从译员的译后编辑过程中自动学习翻译知识等。最后,宗老师介绍了自然语言处理团队的研究方向及部分研发成果。目前该团队的主要研究方向包括自然语言处理基础任务、机器翻译、知识图谱、信息抽取、问答系统、情感分类、基于多模态信息融合的自然语言处理、类脑启发的自然语言处理方法等。近年来团队在上述各方向上取得了较好的进展,产出了一批优秀成果,包括三部专著:《统计自然语言处理》、《文本数据挖掘》和《知识图谱》。在报告最后,宗老师对该学科未来发展的趋势和方向进行了简要分析和展望。




图2:报告现场(1)



图3:报告现场(2)



图4:团队出版主要论著

 

严睿博士访问模式识别国家重点实验室

 

王成红教授访问模式识别国家重点实验室

        2019年1月17日,自动化学会副理事长,大数据专委会副主任委员,浙江大学王成红教授受邀访问中科院自动化所,并作题为“从卡尔曼框架到智能控制框架”的主题学术报告。报告由模式识别国家重点实验室宗成庆研究员主持。

        王成红教授在报告中对现代控制理论的发展做了详细的梳理,并且指出建立在状态空间上的现代控制理论(卡尔曼框架)越来越不能满足信息时代、特别是当前智能时代人类社会发展的需求,迫切需要扩展卡尔曼框架,由此引出智能控制理论框架。王教授从控制理论及思想层面,高屋建瓴地概括了从经典的“输入、状态、输出”的卡尔曼框架,到“输入、特征、状态、输出”的智能控制理论框架的过渡,试图探索一条能够满足现代需求的控制理论发展新途径。

       报告后,王教授还与参会的师生就人工智能、认知科学等基础研究领域,以及图像识别、自然语言处理、无人驾驶等应用学科方向进行了深入的探讨,为大家的研究工作提供了诸多宝贵经验和思想方法。

2018年  

日本奈良先端科学技术大学的Yuji Matsumoto教授访问中科院自动化所

       

        12月13日,国际计算语言学协会ACL会士、日本奈良先端科学技术大学的Yuji Matsumoto教授受邀访问中科院自动化所,为自动化所的广大师生做了题为“Scientific Paper Analysis: Knowledge Discovery through Structural Document Understanding”的主题学术报告。该报告由模式识别国家重点实验室宗成庆研究员主持。

         Yuji Matsumoto教授在报告开始提到目前互联网上可以访问的学术文章超过1亿篇,并且每个月都在以数以万计的速度增长。因此,他强调从海量学术文献中发现知识、获取知识、表示知识和利用知识既具有学术研究意义、也具有实际应用价值。讲座中,Yuji Matsumoto教授从文档分析、文档检索、知识抽取、信息可视化以及决策推断等方面逐层深入,详细介绍了大规模网络文献分析系统的框架和方法设计。在文档分析部分,PDF格式、图表和公式的解析是核心和关键。文档检索模块从目标、方法和实验结果等方面设计多样化的相似/非相似文档的检索模型。在知识抽取模块中,Yuji Matsumoto教授阐述了概念、关系和事件抽取等信息抽取的困难和解决方法。依据知识抽取的结果,Yuji Matsumoto教授从文献引用关系、研究趋势和概念关系等角度向在场师生展示了各种知识的可视化效果。讲座最后,Yuji Matsumoto教授简单介绍了该项目可以为研究人员、科技工作者和研究方向决策者提供技术和知识支撑。这个项目涉及自然语言处理从词法、句法分析到信息抽取和知识表示等多个核心技术,让在场师生收获良多。

         讲座后,作为从事自然语言处理工作几十年的资深学者,Yuji Matsumoto教授还与师生进行了面对面交流。同学们根据自己在研究中遇到的问题和Yuji Matsumoto教授进行深入探讨。Yuji Matsumoto教授结合自己的研究经验给大家提供了详细实用的意见和建议。期间,他还分享了自己在求学和研究过程中的感触,为同学们的求学生涯提供了很多可供借鉴和参考的经验。

 

模式识别国家重点实验室自然语言处理研究组喜获中国中文信息学会多项大奖

          2018年11月10-11日,中国中文信息学会2018学术年会暨理事会在北京隆重举行,会上颁发了“钱伟长中文信息处理科学技术奖”、“青年创新奖”以及中国中文信息学会“优秀博士学位论文奖”。经过评奖办公室和相关领域专家评审组的初审、终审、公示后,中科院自动化所模式识别国家重点实验室自然语言处理研究组喜获“钱伟长中文信息处理科学技术奖”一等奖、“汉王青年创新奖”、“拓尔思优秀博士学位论文奖”等多项大奖。
        赵军研究员项目组完成的项目“大规模开放域文本知识获取与应用平台”(完成人:赵军研究员、刘康副研究员、何世柱助理研究员、陈玉博助理研究员)荣获“钱伟长中文信息处理科学技术奖”一等奖。该项目旨在当前大数据环境下,将已有信息结构化、知识化、关联化,构建大规模知识图谱,进而对用户需求进行深层语义解析,在此基础上进行知识查询和推理,以满足用户深层次的知识需求。相关成果已在TKDE、JMLR、ACL、IJCAI、SIGIR、AAAI、EMNLP、COLING、AAAI、CIKM、WWW
等高水平学术会议和期刊上发表学术论文51篇,论文引用次数达4300余次,单篇引用最高达420余次。著有专著1部、译著1部,申请专利11项,研发了实体识别、实体链接、关系抽取、事件抽取等系列软件工具,自动构建了百万级的百科知识图谱以及金融事件知识图谱等知识资源,进一步研发了面向百科、金融等不同领域的知识问答系统,建立了大规模开放域文本知识获取与应用平台,该平台及相关技术和系统已经在出版、金融、医疗、电商等多个领域得到应用。

 

              图1: 中国中文信息学会理事长方滨兴院士和副理事长黄河燕教授为钱伟长中文信息处理科学技术奖一等奖

“大规模开放域文本知识获取与应用平台”获奖项目团队颁奖

(左起:方滨兴院士、何世柱助理研究员、赵军研究员、刘康副研究员、陈玉博助理研究员、黄河燕副理事长)

        张家俊副研究员获得“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。张家俊博士多年来一直致力于自然语言处理与机器翻译的相关研究工作,近年来在人工智能与自然语言处理的国际顶级会议和期刊如IEEE TASLP、IEEE Intelligent Systems、TACL、AAAI、IJCAI、ACL和EMNLP上发表学术论文50余篇。在面向机器翻译的短语与句子的语义表示和低资源机器翻译方面做出了比较有影响的工作。他发表于2013年ACL上的工作是最先做无监督机器翻译的相关工作之一,并且发表了第一篇“深度学习与机器翻译”的期刊综述文章和Springer完整章节。作为核心人员研制的机器翻译系统从2008年至2017年连续在国际国内机器翻译评测IWSLT和CWMT上获得多项任务的第一名,并且成功应用于国家部门与国际公司。此外,张家俊博士还积极参与学术服务工作,曾参与北京国际计算语言学协会ACL 2015的组织工作;在中国中文信息学会担任机器翻译专委会副主任,担任青年工作委员会执委,并且担任人工智能和自然语言处理国际顶级会议AAAI、IJCAI和COLING的高级委员会委员和领域主席,参与并组织了大量的学术活动组织工作。

  图2:汉王科技总裁刘昌平和中国中文信息学会副理事长马少平教授为“钱伟长中文信息处理科学技术奖—汉王青年创新奖”获奖者颁奖。

(左1:刘昌平总裁;右1:马少平副理事长;左2:张家俊副研究员)

        王少楠助理研究员的博士论文“文本向量表示方法研究”被授予中国中文信息学会优秀博士学位论文“拓尔思优秀博士学位论文奖”。王少楠博士一直致力于自然语言理解的相关研究工作,主要研究方向包括词汇、短语和句子的表示模型,语义分析与计算、认知语言学等,在国际一流学术会议(IJCAI、AAAI、EMNLP)和国际权威期刊 ACM TALLIP 上发表论文7篇,申请国家发明专利三项、软件著作权登记一项。2017年获得国家奖学金,2018年获得中国科学院自动化所优秀毕业生,北京市优秀毕业生,中国科学院院长奖学金特别奖。

图3:“拓尔思优秀博士学位论文奖”获奖者王少楠博士和导师宗成庆研究员

注: 钱伟长中文信息处理科学技术奖是经科技部批准设立的中文信息处理领域的最高科学技术奖,主要授予该领域在基本方法或关键技术上有原始创新或重大突破,对推动我国中文信息处理事业或行业进步起到重要作用,创造出较大经济效益或社会效益的项目或个人。其中的“汉王青年创新奖”设立于2010年,主要授予在中文信息处理领域做出突出贡献的青年学者。该奖项每两年评选一次。"优秀博士学位论文奖"由北京拓尔思信息技术股份有限公司捐资设立,旨在鼓励中文信息处理领域的博士研究生在读博期间面向前沿方向、立足原始创新、开拓进取,勇创世界领先的研究成果。本奖项每两年评选一次,每届评选出不超过5篇优秀博士论文。

 

祝贺王少楠博士和宗成庆老师分别获得院长特别奖和优秀导师奖

          经中国科学院大学统一评审,我组2018届博士毕业生王少楠获得2018年度中国科学院院长特别奖,宗成庆老师获得中国科学院优秀导师奖。

   

腾讯AI Lab高级研究员涂兆鹏博士访问中科院自动化所

        2018年7月26日,腾讯AI Lab高级研究员涂兆鹏博士访问中科院自动化所,为师生带来一场精彩的学术报告,引起热烈反响。

        由于神经机器翻译是一个端到端的翻译系统,其对于输入中的微小扰动极其敏感。例如,将输入中某个词替换成其近义词,会导致输出结果发生剧烈变化,甚至修改翻译结果的极性。涂兆鹏博士介绍了对抗性稳定训练准则来同时增强神经机器翻译的编码器与解码器的鲁棒性。给定一个输入句子x,首先生成与其对应的扰动输入x’,接着采用对抗训练鼓励编码器对于x和x’生成相似的中间表示,同时要求解码器端输出相同的目标句子y。接着,涂兆鹏博士介绍了两种构造扰动输入的方法,第一种在特征级别(词向量)中加入高斯噪声,第二种在词级别中用近义词来替换原词,并解释了框架的泛化性能,即可以扩展到更多得噪声扰动方法。最后,涂兆鹏博士还根据自己的研究经历介绍了在研究中如何选题、如何寻找方法以及如何发表高水平论文的经验和方法,受到在场师生的高度赞誉。

        涂兆鹏博士是腾讯AI Lab高级研究员,主要从事自然语言处理和深度学习方面的研究。在ACL, TACL, EMNLP, AAAI, IJCAI等国际顶级会议和期刊发表论文三十余篇,长期担任CL, ACL, EMNLP等国际顶级期刊和会议的审稿人,并担任EMNLP2018机器翻译领域主席和AAAI2019高级程序委员会委员。


 

阿卜杜拉国王科技大学张响亮副教授访问模式识别国家重点实验室

苏州大学熊德意教授访问模式识别国家重点实验室

        2018年3月30日 苏州大学熊德意教授访问了模式识别国家重点实验室,做了题为“Neural Machine Translation: Beyond Attention”的学术报告,并与实验室师生进行了友好讨论。

   报告摘要(ABSTRACT):

Attention mechanisms are considered as one of the most exciting advancements in deep learning. In neural machine translation (NMT), attentional mechanisms help to learn and visualize structural correspondences between the source and target language. Particularly, they enable the decoder to "attend" to the right part of a source sentence through a context vector computed on the fly when the decoder predicts a target word. In this talk, I will present our recent efforts that try to find an alternative to the widely-used attention network in NMT. The first part of this talk will introduce a recurrent contexter in an attempt to replace the shallow attention network so as to model complex dependencies on the source and target side. The second part will go further to a new translation philosophy: translation by rereading the source language. We design a cyclic sequence-to-sequence learning model for NMT where the boundary of the encoder and decoder is vague as we share the same parameters for both of them. The attention mechanism is not necessary in this cyclic sequence-to-sequence learning model.

   报告人简介(BIOGRAPHY):

熊德意,博士,苏州大学计算机科学与技术学院教授、计算机系系主任。国家优秀青年科学基金(国家优青)获得者,牛顿高级学者基金获得者,江苏省“333工程”和“六大人才高峰”培养对象,苏州市“高等院校、科研院所紧缺高层次人才”引进对象。2007年至2012年在新加坡资讯通信研究院任研究科学家。主要研究方向为机器翻译、多语言信息获取、自然语言理解和深度学习等。在Computational Linguistics、 IEEE TASLP、 AI、JAIR、 AAAI、 IJCAI、 ACL等国际著名期刊和会议上发表论文60余篇,Springer出版英文专著一部,编著会议论文集多部。2009年获得北京市科学技术奖二等奖,2016年获得中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新奖”一等奖。曾是亚洲自然语言处理联合会AFNLP干事、新加坡中文与东方语文信息处理学会理事会成员。目前是中文信息学会理事,江苏省人工智能学会智能系统及应用专委会副主任。担任IALP 2012程序委员会共同主席、CWMT 2017程序委员会共同主席、欧盟多国联合项目QTLeap咨询专家等。

 

阿里巴巴陈博兴访问模式识别国家重点实验室

        2018年3月28日 阿里巴巴陈博兴授访问了模式识别国家重点实验室,做了题为“阿里巴巴的机器翻译研究与应用”的学术报告,并与实验室师生进行了友好讨论。

   报告摘要(ABSTRACT):

在这个报告中,我们首先简单介绍阿里巴巴以及机器翻译团队,然后介绍机器翻译技术在跨境电商领域的研究与应用。具体内容包括:机器翻译在跨境电商领域的应用场景、面临的挑战和我们在数据收集、模型选择上采取的策略;以及为了改善翻译性能和提高训练和翻译效率我们做的一些创新性研究,包括翻译干预、词尾预测、基于模型参数平均的分布式训练等等。报告的最后会介绍学术界与阿里巴巴展开合作的几种方式,包括项目合作、阿里巴巴创新研究项目、阿里巴巴博士奖学金和实习申请等。

   报告人简介(BIOGRAPHY):

陈博兴,阿里巴巴集团机器智能技术实验室的资深算法专家。他的研究方向是机器翻译,自然语言处理和机器学习。在加入阿里之前,他是加拿大国家研究委员会(NRC)的研究员(2009-2017),再之前先后是法国格勒诺布尔大学和意大利FBK-IRST的博士后,新加坡信息与通信研究所的研究员。他1998年本科毕业于北京大学,2003年博士毕业于中科院声学所。他和同事合作先后发表了50来篇会议和期刊论文,并且担任过NLP领域所有顶级会议和期刊的审稿人或程序委员会成员。他领导的团队先后在各种机器翻译评测中取得优异成绩,比如获得了2017年WMT俄语到英语第一名,NIST2012机器翻译中文到英文第一名,2007和2005年IWSLT口语机器翻译比赛第一名等等。

 

美国Google Brain的Jakob Uszkoreit访问模识实验室并作学术报告

            2月12日,美国Google Brain的Jakob Uszkoreit到访自动化所,为自动化所的广大师生做题为“Learning Representations With (Self-)Attention”的主题学术报告。报告由模式识别国家重点实验室的宗成庆研究员主持。

         Jakob 围绕自注意力机制在表征学习中的应用这一主题,首先简单叙述了在序列学习中循环神经网络并行计算、长距离依赖等缺陷,针对于这些缺陷,基于自注意力机制的序列学习应用而生。然后,Jakob对自注意力机制进行详细的介绍,并于循环神经网络和卷积神经网络的训练复杂度进行了对比,展现了自注意力机制的优越性。接着,Jakob将Google Brain团队开发的学习框架Transformer向听众进行了详尽的解释,并将模型训练的细节进行了细致入微的解读。该模型在机器翻译任务上取得了当前最好的效果。其中,在英德翻译任务上高出了之前最好的集成模型2个点以上。Jakob表示,基于自注意力机制的Transformer框架还可以应用到文本生成,图片生成等一些列任务中,Google Brain团队对于这些任务也进行了相关的对比实验,也取得了相当好的效果。最后,Jakob对于下一步的工作进行归纳,主要包括并行解码和不同分辨率的解析问题,也对他们团队开发的开源工具包Tensor2Tensor进行了简要的说明。

         提问环节,在座师生积极提问,大家就知识融合技术,词向量选择以及Google Brain团队的沟通协作问题与Jakob进行了畅所欲言的交流。这次报告加深了大家对自注意力机制概念的理解,对于后续在表征学习中继续开展研究工作提供借鉴和启发。

 

国家重点研发计划“云计算和大数据”重点专项

“大数据驱动的自然语言理解、问答和翻译”

项目启动和实施方案论证会顺利召开

         2018年1月23日,由自动化所模式识别国家重点实验室宗成庆研究员作为项目负责人承担的国家重点研发计划“云计算和大数据”重点专项“大数据驱动的自然语言理解、问答和翻译”项目启动和实施方案论证会在自动化所顺利召开,这标志着该项目正式进入全面实施和执行阶段。

        出席此次会议的专家有(按姓名发音顺序):陈景东、杜小勇、管海兵、黄河燕、李波、沈一栋、薛向阳、张文生和朱小燕。其中,杜小勇和沈一栋是科技部指定的该项目责任专家。项目牵头单位自动化研究所的刘成林副所长、科技部高技术研究发展中心的傅耀威处长、中科院科技促进发展局高技术处付广义处长和邱显杰副处长出席了会议。此外,项目的五位课题负责人以及来自清华大学、北京大学、上海交通大学、复旦大学、哈尔滨工业大学和阿里云等10余家高校、研究所和企业的项目参与人员近60人参加了会议。

        项目启动会由自动化所科技处韩伟副处长主持。首先由自动化所副所长刘成林研究员致辞,对与会领导和嘉宾表示欢迎和感谢,并表示研究所将竭尽全力为该项目的实施提供人力和物力的支持,确保项目顺利完成。随后,中科院科发局付广义处长表达了对项目的关心和支持,并表示高技术处将全程监管项目的执行过程,确保项目顺利实施。之后,科技部高技术中心傅耀威处长详细介绍了科技部关于重点研发计划重点专项的管理机制和相关政策,强调了风险防控和重点监督的重要性,阐述了项目执行过程和经费使用中需要注意的事项。

科技部高技术研究发展中心的傅耀威处长讲话

        接下来的实施方案论证会由杜小勇教授主持。项目负责人宗成庆研究员首先对该重点专项的实施方案进行了详细介绍。他从项目概要、项目任务分解及主要研究内容、项目实施关键节点与具体实施计划,以及项目组织管理机制和项目成果呈现形式等各个环节进行了全面阐述。项目将面向实用系统开发提出一套大数据驱动的自然语言处理理论和方法,研究融合常识知识和多语言语义关联的知识图谱构建方法,实现旅游、娱乐、体育和客服等领域的高鲁棒性多语言自动问答系统。专家们认真听取了实施方案汇报,在给予充分肯定的基础上提出了建设性意见和建议。

项目负责人宗成庆研究员汇报方案

        项目启动会和实施方案论证的顺利召开,使项目成员更加明确了各自的任务、目标和责任,厘清了项目关键技术模块之间的接口和关系,确定了项目实施的关键节点和成果产出形式,达到了“挂图施工”的目的,为项目顺利实施奠定了基础。

 

2017年

南京理工大学夏睿教授访问模式识别国家重点实验室

        2017年12月22日南京理工大学夏睿教授访问了模式识别国家重点实验室,做了题 为“Dual Sentiment Analysis: Considering Two Sides of One Review”的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):

Bag-of-words (BOW) is previously the most popular way to model text in statistical machine learning approaches in sentiment analysis. However, the performance of BOW sometimes remains limited due to some fundamental deficiencies in handling the polarity shift problem. We propose a model called dual sentiment analysis (DSA), to address this problem for sentiment classification. We first propose a novel data expansion technique by creating a sentiment-reversed review for each training and test review. On this basis, we propose a dual training algorithm to make use of original and reversed training reviews in pairs for learning a sentiment classifier, and a dual prediction algorithm to classify the test reviews by considering two sides of one review. We also extend the DSA framework from polarity (positive-negative) classification to 3-class (positive-negative-neutral) classification, by taking the neutral reviews into consideration. Finally, we develop a corpus-based method to construct a pseudo-antonym dictionary, which removes DSA’s dependency on an external antonym dictionary for review reversion. We conduct a wide range of experiments including two tasks, nine datasets, two antonym dictionaries, three classification algorithms, and two types of features. The results demonstrate the effectiveness of DSA in supervised sentiment classification.

报告人简介(BIOGRAPHY):

夏睿,2011年6月毕业于中科院自动化所模式识别国家重点实验室,获得工学博士学位。现任南京理工大学计算机学院教授、博导。一直从事自然语言处理、机器学习、数据挖掘、人工智能等方面的研究工作,在领域知名学术期刊和会议(IEEE TKDE, ACM TKDD, IEEE TAFFC, IEEE IS, INS, IPM, IJCAI, AAAI, ACL, EMNLP, COLING等)发表论文30余篇。曾多次担任ACL, EMNLP, COLING, IJCAI, WISDOM, SENTIRE, MABSDA, FLAIRS, CCL, NLPCC, SMP等学术会议的程序委员会委员,和IEEE TKDE, IEEE TAFFC, IEEE IS, IEEE CIM, ACM TOIT, ACM TALIP, DAMI, IPM, LREV, KBS, COGN, AIRE, JCST, PLOS ONE, 中国科学, 计算机学报, 自动化学报等学术期刊的审稿人。主持国家自然科学基金面上项目、青年基金,江苏省自然科学基金,教育部博士点基金等各类纵向课题和企事业合作项目9项。2014年入选南京理工大学紫金之星人才计划,2016年获得首届江苏省优青项目资助,2017年入选南京理工大学青年拔尖人才选聘计划。

 

中科院心理所李兴珊研究员访问模式识别国家重点实验室

         2017年11月23日中国科学院心理研究所研究员李兴珊访问了模式识别国家重点实验室,做了题为“中文阅读中句子加工的实验和建模研究”的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):

大量的认知科学研究表明, 词在阅读认知加工过程中起着非常重要的作用。因此在阅读中一个重要的过程就是把词从文本中切分出来。有别于英文等拼音文字, 中文文本的词之间没有空格分隔。在没有空格辅助的条件下, 中文阅读者是如何进行词的切分呢?在西文阅读中,读者一般将眼睛移动到词的中间位置。他们可以这样做的一个重要原因是词和词之间有空格分隔,所以读者可以将利用空格在副中央窝完成词的切分,从而眼睛移动到词的中间位置。与西文的书写体系不同,中文文本的词和词之间没有空格分隔。在这种情况下,中文读者是如何控制他们的眼动呢?近期,我们利用眼动跟踪等手段,在该领域做了一系列研究。在此基础上,我们还利用计算建模的方法,开发出中文读者阅读过程中词切分、词识别及眼动控制的过程的计算模型,成功拟合了观测到的中文阅读中重要的研究发现。本报告将介绍了我们近期针对该该研究问题取得的最新研究进展。在本报告中,我还将介绍利用计算建模的方法模拟大脑高级认知过程的方法,以及利用计算建模技术指导认知科学实验的研究思路。

报告人简介(BIOGRAPHY):

李兴珊,中国科学院心理研究所研究员,博士生导师。目前是中国科学院行为科学重点实验室主任,是Quarterly Journal of Experimental Psychology副主编。 他长期从事中文阅读的认知机理研究,利用眼动跟踪、计算建模等研究手段,在中文阅读的词切分及眼动控制领域做了一系列研究,在Cognitive Psychology, JEP: General, JEP: HPP, JEP: LMC等期刊发表学术论文五十余篇。他的一篇研究论文获得美国实验心理学会2011年度最佳论文奖。

 

出门问问NLP技术总监徐朴旸访问模式识别国家重点实验室

         2017年11月14日出门问问NLP技术总监徐朴旸访问了模式识别国家重点实验室,做了题为“口语对话管理技术产品化的思考”的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):

随着AI技术的发展,自然语言的交互方式正在改变着人们的生活。无论是以siri,alexa等为代表的智能语音助手,还是各式各样的聊天机器人(chatbot),都让我们体会着一种全新的交互体验,也把学术界和工业界更多关注的目光聚焦到了这种对话式的交互方式背后的技术,如语音识别,自然语言处理,对话管理等等。我们会在这次分享中,和大家聊一聊对话管理这个任务,以及近年来业界在对话管理领域最新的成果,同时我们也会更多地从一个创业公司的角度,谈一谈我们在对话管理技术产品化过程中的学习和体会,以及如何更好地将学术界最新的对话管理方法落地到产品中去。

报告人简介(BIOGRAPHY):

徐朴旸博士,2012年获得约翰霍普金斯大学博士学位,研究方向为语言模型,自然语言处理。2012加入微软担任资深科学家,先后任职于微软Bing和微软研究院,是Cortana语义理解和对话团队,以及 Wordflow输入法团队的主要成员。2016年10月加入出门问问,负责NLP团队的工作。在国际会议上累计发表论文20余篇,曾获得2013年ASRU会议最佳论文奖。

 

新加坡科技设计大学(SUTD)张岳博士访问模式识别国家重点实验室

         2017年10月31日新加坡科技设计大学(SUTD)张岳博士访问了模式识别国家重点实验室,做了题为“Lexical Syntactic Analysis Using Deep Learning and Heterogenous Data”的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):

Deep learning has given a substantial boost to natural language processing tasks, such as syntactic parsing, information extraction and machine translation systems. However, for domains where training data are scarce, the accuracies are still unsatisfactory. Methods have been investigated for improving system performance by leveraging heterogenous data. In this talk, I present two lexical syntactic models that leverage heterogenously annotated data sources. By exploiting neural stacking, multi-task learning and pre-training techniques, our neural models can take advantages of different resources available for better accuracies.

报告人简介(BIOGRAPHY):

Yue Zhang is currently an assistant professor at Singapore University of Technology and Design. Before joining SUTD in July 2012, he worked as a postdoctoral research associate in University of Cambridge, UK. Yue Zhang received his DPhil and MSc degrees from University of Oxford, UK, and hisBEng degree from Tsinghua University, China. His research interests include natural language processing, machine learning and artificial Intelligence. He has been working on statistical parsing, parsing, text synthesis, machine translation, sentiment analysis and stock market analysis intensively. Yue Zhang serves as the reviewer for top journals such as Computational Linguistics, Transaction of Association ofComputational Linguistics (standing review committee) and Journal of Artificial Intelligence Research. He is the associate editor for ACM Transactions on Asian and Low Resource Language Information Processing. He is also PC member for conferences such as ACL, COLING, EMNLP, NAACL, EACL, AAAI and IJCAI. He was the area chairs of COLING 2014, NAACL 2015, EMNLP 2015, ACL 2017 and EMNLP 2017. He is the TPC chair of IALP 2017.

宗成庆研究员荣获北京市优秀教师荣誉称号

        近日,北京市教委公布了2017年北京市人民教师奖及提名奖、北京市优秀教师和优秀教育工作者名单,我所宗成庆研究员荣获“北京市优秀教师”荣誉称号。

                                             

 特向宗成庆老师表示祝贺!

自动化所研究生部

2017年9月27日
 

课题组工作获NLPCC-2017唯一最佳论文奖

        注意机制模型已经成为神经机器翻译中不可或缺的部件之一,它能使模型在翻译目标语言单词时选择性地关注源语言输入中最相关的部分单词。但是,我们发现一个目标语言单词的产生不仅关注于源语言输入,也很大程度上依赖于先前生成的目标语言单词。而目前主流的循环神经网络模型没有一个明确的机制去很好地模拟目标端词语之间的依赖关系。
       为了解决上述问题,中科院自动化所周龙博士生、张家俊博士和宗成庆研究员于2017年5月份提出了一个全新的前向注意力机制模型(look-ahead attention mechanism),目的是在神经网络模型译码过程中尽可能地捕捉目标端词语之间的长距离依存关系。前向注意力机制模型在目标端当前词语和先前产生的词语之间建立一个直接的桥梁。它使得模型在译码时不仅关注源语言输入,也参照先前已经生成的目标语言单词。为了实现该目标,我们设计了三种将前向注意机制融入传统注意机制的方法。

图2: 前向注意力机制模型

        如图2所示,(a)是传统的注意机制模型;(b-d)是我们提出的三种前向注意机制模型。(b)采用简单的级联模式,首先分别计算源语言端的注意机制输出和目标语言端的注意机制输出,然后将源端注意输出、目标端注意输出、目标端当前隐层状态经过一个级联层,去预测当前目标端词语。不同于(b)中将源端隐层状态和目标端先前的隐层状态视为具有相同重要性,(c)采用层次结构来实现前向注意机制模型。首先同(a)一样,计算源端注意机制输出,然后使用该输出状态更新当前时刻的目标端状态,最后采用新的目标端状态与先前已生成的目标端状态一起计算前向注意机制的隐层输出,并利用该输出状态预测目标单词。与(c)的计算顺序相反,(d)先计算目标端的注意机制输出。在汉语到英语以及英语到德语上的大量实验表明,前向注意机制模型显著优于标注注意机制模型,并且通过分析发现该模型可以捕捉目标译文单词之间的长距离依赖关系。
        这项工作发表于第六届国际自然语言处理与中文计算会议NLPCC-2017,论文评委与评奖委员会一致认为该项工作具有很强的创新性与实用性,最终授予这项工作唯一最佳论文奖。NLPCC-2017今年共收到252篇提交论文,接收长文53篇,录用率为21%,最终评选出一篇最佳论文和一篇最佳学生论文。


 

自然语言处理团队携手出门问问共建语言智能与人机交互联合实验室

《中国科学报》 (2017-06-12 第6版 院所)    记者 彭科峰

        日前,中科院自动化所的模式识别国家重点实验室自然语言处理与机器翻译研究团队与人工智能公司出门问问进行了共建揭牌仪式,宣布正式共建“中国科学院自动化研究所——出门问问语言智能与人机交互联合实验室”(以下简称“LIHMI联合实验室”),共同致力于绿色、人文的智能化产业业态,促进科技成果转化。

那么?这个实验室有什么特色呢?主要从事哪些方面的研究呢?近日,《中国科学报》记者就此采访了自然语言处理与机器翻译研究团队的负责人宗成庆研究员。那么?这个实验室有什么特色呢?主要从事哪些方面的研究呢?近日,《中国科学报》记者就此采访了自然语言处理与机器翻译研究团队的负责人宗成庆研究员。

应用于智能化信息服务系统

宗成庆介绍,团队参与此次合作共建的主要技术包括口语对话理解、对话管理、情感分类和机器翻译等。他表示,在这些合作方向上都是团队的优势所在。1998年宗成庆就加入了模式识别国家重点实验室,开始从事自然语言处理、人机对话系统和口语翻译的研究,后来扩展到文本机器翻译、文本分类及自动文摘等相关研究,并在实验室的统一规划下成立了自然语言处理研究组。2002年,在信息检索和知识工程领域颇有研究的赵军研究员加入了团队。目前团队已有研究人员10余人,博士生和硕士生30多人。

经过近20年的发展,该团队已经具备了相当雄厚的技术积累,不仅在相关技术的基础理论研究方面取得了一批优秀成果,在本领域国际顶级学术会议和权威期刊上发表了大量有影响的学术论文,其中,关于情感分类的学术论文入选ESI高被引论文(前1%),而且在面向国家特定领域的应用系统研发中成绩卓著。

其中,多语言机器翻译系统多次在国际口语翻译评测(IWSLT)和全国机器翻译评测中取得多项评价指标和评测任务第一名的优异成绩。

团队2014年荣获中国中文信息学会最高技术奖——“钱伟长中文信息处理科学技术奖”一等奖。与百度公司等多家单位联合完成的“基于大数据的互联网机器翻译核心技术研究及产业化”成果获得2015年度国家科技进步奖二等奖、中国电子学会科技进步奖一等奖 。

攻坚语言智能与人机交互等关键技

这个实验室将着力于自然语言理解、多轮对话管理、问答系统、机器翻译等四方面的研究,为双方合作提供原创技术创新。

宗成庆介绍,在自然语言理解方面,科研人员的研究方向主要探索自然语言语义解析和表达能力,研究语义资源获取和建设方法,研发深层语义理解算法。这将把语言分析或解析到语义层面,准确实现语义表达,让机器真正理解千变万化的语言。

在多轮对话管理方面,他们研究涉及对话任务定义和状态空间表示方法,研发数据驱动的对话管理算法,研发个性化的对话管理算法,将帮助机器模仿如同人与人的对话,通过多个问答回合,确定最终的意图,消除问题中的歧义。

在问答系统方面,他们将研究基于多源数据的知识表示方法,探索基于知识的语义理解、推理方法,开发多种答案类型的问答系统算法。问答系统能够从不同来源的海量数据中找到问题的相关信息,并准确地给出一个明确的答案。由于数据来源不同,问题答案的格式差异很大,需要问答系统具备语义理解、推理等能力,才能很好地回答用户问题。

在机器翻译方面,科研人员致力于研发基于神经网络和深度机器学习方法的机器翻译模型及算法。由于自然语言复杂多变,机器翻译一直是人工智能技术中的一个难点。近年来,随着神经网络和深度机器学习方法的兴起,利用深度神经网络技术进行机器翻译逐渐成为主流并取得了很大进展。神经网络机器翻译方法主要是利用大规模神经网络对源语言句子进行编码,得到源语言句子的一个表示,再利用大规模神经网络对该表示进行展开,并生成目标语言句子。

实现产学研良性循环

        宗成庆表示,近期,团队将致力于搭建面向特定应用任务的自然语言处理系统,并在性能上达到学科内领先水平,主要研究内容包括在特定领域搭建完整语义理解和对话管理系统;在特定领域内设计应用场景,研发具有先进技术水准的语义分析和对话管理算法;搭建智能问答系统框架,在性能指标上做到学科内领先水平。随着合作取得进一步进展,之后团队还将在场景构建和算法设计上做出有影响力的创新成果,设计和实验具备演化能力的语义解析算法的自动演化方法,推动合作企业的业务迭代。

        “选择出门问问作为共建合作伙伴,一方面是因为出门问问作为一家技术驱动的人工智能领域科技公司,专注于人工智能交互技术的应用,近年来在语音交互、智能推送、手势交互等方面推出了创新产品,其快速增长的市场发展在原创技术方面有迫切需求。另一方面,是缘于与出门问问公司的创始人李志飞多年的相互了解和信任。”宗成庆说。

        宗成庆表示,这次合作是面向长远发展的一次尝试,一方面依托团队的自然语言处理与机器翻译研究,为出门问问研发提供语言智能与人机交互等技术的基础研究支持,增强出门问问产品的竞争力和市场领导力;另一方面,出门问问公司也将为团队的科学研究创建良性互动的环境,保证研究需求来源于应用、研究成果服务于应用,面向市场的关键技术难题也将促进和推动理论创新。

        宗成庆认为,产学研结合最忌讳两种情况:一是合作双方目标不统一,各打各的小算盘,同床异梦;二是对对方的期望值过高。这两方面都无疑使合作无法持续进行,往往导致“一锤子买卖”,甚至半途而废。此次LIHMI联合实验室的成立,正是在排除上述两种不利因素的基础上双方一拍即合。一方面,作为中科院自动化所的研究团队负责人,宗成庆充分认识到,虽然自然语言处理属于信息科学和技术领域的范畴,但毕竟不是纯基础的科学,而更多的是面向实际需求的应用技术研究,因此,作为应用技术研究必须面向实际需求,研究的科学问题和关键技术要源于实际,用于实际,而出门问问公司恰好能够提供这种具有挑战性的科学问题和技术难题;另一方面,作为出门问问公司创始人和CEO的李志飞博士骨子里有一种科学家的情结。这种知根知底的合作基础,为LIHMI联合实验室的未来发展排除了隐患。

        对于LIHMI联合实验室的未来,宗成庆充满了信心。他表示,双方将在互信共融、互惠共赢的基础上,努力推动语言智能与人机交互的关键技术在实用产品的应用中实现跨越式发展,形成产学研紧密配合、良性循环。

 

自然语言处理团队携手出门问问共建语言智能与人机交互联合实验室

        2017年3月29日,模式识别国家重点实验室自然语言处理与机器翻译研究团队与人工智能公司出门问问进行了共建揭牌仪式,宣布正式共建“中国科学院自动化研究所-出门问问语言智能与人机交互联合实验室”(以下简称“LIHMI联合实验室”),共同致力于绿色、人文的智能化产业业态,促进科技成果转化。近日,笔者探访了自然语言处理与机器翻译研究团队负责人宗成庆研究员,就合作的有关技术内容及未来发展进行了了解。

“参与此次共建的主要技术都是团队的优势所在”
        宗成庆介绍说,团队参与此次合作共建的主要技术包括口语对话理解、对话管理、情感分类和机器翻译等。他表示,在这些合作方向上都是团队的优势所在。1998年宗成庆就加入了模式识别国家重点实验室,开始从事自然语言处理、人机对话系统和口语翻译的研究,后来扩展到文本机器翻译、文本分类及自动文摘等相关研究,并在实验室的统一规划下成立了自然语言处理研究组。2002年,在信息检索和知识工程领域颇有研究的赵军研究员加入了团队。目前团队已有研究人员10余人,博士生和硕士生30多人。
经过近20年的发展,该团队已经具备了相当雄厚的技术积累,不仅在相关技术的基础理论研究方面取得了一批优秀成果,在本领域国际顶级学术会议和权威期刊上发表了大量有影响的学术论文,其中,关于情感分类的学术论文入选ESI高被引论文(前1%),而且在面向国家特定领域的应用系统研发中成绩卓著。多语言机器翻译系统更是多次在国际口语翻译评测(IWSLT)和全国机器翻译评测中取得多项评价指标和评测任务第一名的优异成绩,并成功应用于多个领域。
不仅如此,2014年荣获中国中文信息学会最高技术奖——“钱伟长中文信息处理科学技术奖”一等奖。与百度公司等多家单位联合完成的“基于大数据的互联网机器翻译核心技术研究及产业化”成果获得2015年度国家科技进步奖二等奖、中国电子学会科技进步奖一等奖。

“攻坚语言智能与人机交互4方面关键技术,为合作提供原创技术创新”
        据宗成庆介绍说,团队在此次合作中将着力于以下4个方面的研究,为双方合作提供原创技术创新。
一是自然语言理解:主要包括探索自然语言语义解析和表达能力,研究语义资源获取和建设方法,研发深层语义理解算法。这将把语言分析或解析到语义层面,准确实现语义表达,让机器真正理解千变万化的语言。
二是多轮对话管理:研究对话任务定义和状态空间表示方法,研发数据驱动的对话管理算法,研发个性化的对话管理算法。将帮助机器如同人与人的对话,通过多个问答回合,确定最终的意图,消除问题中的歧义。
三是问答系统:研究基于多源数据的知识表示方法,探索基于知识的语义理解、推理方法,开发多种答案类型的问答系统算法。问答系统能够从不同来源的海量数据中找到问题的相关信息,并准确的给出一个明确的答案。由于数据来源不同,问题答案的格式差异很大,需要问答系统具备语义理解、推理等能力,才能很好的回答用户问题。
四是机器翻译:研发基于神经网络和深度机器学习方法的机器翻译模型及算法。由于自然语言复杂多变,机器翻译一直是人工智能技术中的一个难点。近年来,随着神经网络和深度机器学习方法的兴起,利用深度神经网络技术进行机器翻译逐渐成为主流并取得了很大进展。神经网络机器翻译方法主要是利用大规模神经网络对源语言句子进行编码,得到源语言句子的一个表示,再利用大规模神经网络对该表示进行展开,并生成目标语言句子。
近期而言,团队将致力于搭建面向特定应用任务的自然语言处理系统,并将性能做到学科内领先水平,主要研究内容包括在特定领域搭建完整语义理解和对话管理系统;在特定领域内设计应用场景,研发具有先进技术水准(state-of-the-art)的语义分析和对话管理算法;搭建智能问答系统框架,在性能指标上做到学科内领先水平。随着合作进展,之后团队还将在场景构建和算法设计上做出有影响力的创新成果,设计和实验具备演化能力的语义解析算法的自动演化方法,推动合作企业的业务迭代。

“希望在互信共融、互惠共赢的基础上,达成产学研紧密配合、良性循环”
        宗成庆介绍说,选择出门问问作为共建合作伙伴,一方面是因为出门问问作为一家技术驱动的人工智能领域科技公司,专注于人工智能交互技术的应用,近年来在语音交互、智能推送、手势交互等方面推出了创新产品,其快速增长的市场发展在原创技术方面有迫切需求。另一方面,是缘于与出门问问公司的创始人李志飞博士多年的相互了解和信任。据介绍,宗成庆与李志飞相识多年,都在机器翻译领域取得了优异成绩,在多年的国际和国内学术活动中,双方有深入的交流,建立了深厚的友谊。宗成庆研究员对李志飞博士的科研能力和活动能力给予了高度评价。他说,李志飞在约翰霍普金斯大学攻读博士学位和在美国Google 公司工作期间就在机器翻译研究方面发表了很有影响力的学术成果,备受关注。另外,近年来双方团队的青年学者之间也有广泛而密切的接触。出门问问公司创建以来,团队成员张家俊博士与李志飞博士也成为谈得来的朋友,并多次访问出门问问公司,而出门问问公司的首席科学家雷欣博士和技术经理李理博士也曾多次访问自动化所,并做学术报告。在这次共建实验室接洽过程中,公司对团队的多个技术成果表示出了极大的兴趣,也准确定位了这些技术成果的市场应用点,这也将进一步拓展团队科研成果快速走向市场应用。
宗成庆在访谈中谈到,这次合作是面向长远发展的一次尝试,一方面依托团队的自然语言处理与机器翻译研究,为出门问问研发提供语言智能与人机交互等技术的基础研究支持,增强出门问问产品的竞争力和市场领导力;另一方面,出门问问公司也将为团队的科学研究创建良性互动的环境,保证研究需求来源于应用、研究成果服务于应用,面向市场的关键技术难题也将促进和推动理论创新。宗成庆认为,产学研结合最忌讳的两种情况:一是,合作双方目标不统一,各打各的小算盘,同床异梦;二是对对方的期望值过高。学术方希望企业方给予更多的投入,且要保留自己更多自由的研究空间,而企业方则希望学术方投入更多的时间和精力为他们的产品和技术研发尽心尽力,甚至在系统实现和工程开发方面承担更多的任务。这两方面都无疑使合作无法持续进行,往往导致“一锤子买卖”,甚至半途而废。此次LIHMI联合实验室的成立,正是在排除上述两种不利因素的基础上双方一拍即合,一方面,作为中科院自动化所的研究团队负责人,宗成庆充分认识到,虽然自然语言处理属于信息科学和技术领域的范畴,但毕竟不是纯基础的科学,而更多的是面向实际需求的应用技术研究,因此,作为应用技术研究必须面向实际需求,研究的科学问题和关键技术要源于实际,用于实际,而出门问问公司恰好能够提供这种具有挑战性的科学问题和技术难题;另一方面,作为出门问问公司创始人和CEO的李志飞博士骨子里有一种科学家的情结,他非常了解科研机构的工作特点和要求,他决不会让科学家做他们不擅长做的事情,尤其他对宗成庆研究员脚踏实地、一丝不苟,且从不失言的工作作风和为人风格非常赞赏。这种知根知底的合作基础,为LIHMI联合实验室的未来发展排除了隐患。
对于LIHMI联合实验室的未来,宗成庆充满了信心,他表示,双方将在互信共融、互惠共赢的基础上,努力推动和实现语言智能与人机交互的关键技术在实用产品的应用中跨越式发展,达成产学研紧密配合、良性循环。

2016年  

德国人工智能研究中心语言技术实验室Hans Uszkoreit教授及Feiyu Xu博士访问模式识别国家重点实验室

        

        2016年11月23日,来自德国人工智能研究中心语言技术实验室的Hans Uszkoreit教授及Feiyu Xu博士访问模式识别国家重点实验室,为师生做题为“Language Understanding cum Knowledge Yield”的报告。

        自然语言理解是帮助人们尽可能快速,轻松地获取所需信息的关键。最近的研究成果极大的刺激了网络规模的自然语言理解的研究:大型结构化知识库的出现,语言处理上的进展,新的语言知识资源和新的强大的机器学习技术。在这次演讲中,Uszkoreit教授将报告他们在关系提取领域的研究成果,特别是在他们的Google聚焦研究奖项目——LUcKY取得的成果。他们开发了一个机器学习平台,它可以利用已知事实的大集合和提到这些事实地数百万的网页,以学习人们用来表达这些事实的语言模式。在学习的模式的帮助下,在数字文本中(例如在媒体或报告中)发现新的事实。从而建立了一个名为Sar-graphs(sargraph.dfki.de)的开源网站,这是一种新型的语言知识资源,包含25个现实世界关系的依赖模式网络。 Sar-Graph还自动链接到WordNet,BabelNet和FrameNet,为链接语言开放数据(LLOD)做出了贡献。此外,他们将报告我们的实体链接和跨句事件链接的工作。关于Sar-Graph,实体链接和事件链接的工作已经在ACL 2015,Journal of Web Semantics (知识图表2016年特刊)和CoNLL 2016上发布。

        Hans Uszkoreit教授是德国人工智能研究中心(German Research Center for Artificial Intelligence,DFKI)语言技术实验室的科技总监,DFKI柏林站的站点协调员以及DFKI的部门主任。他的实验室在信息抽取,跨语言信息检索,问答系统,语言分析,机器翻译以及深度语言处理都有所建树。他至今已经发表了200多篇国际论文。他于1984年从德克萨斯州大学毕业,并在斯坦福大学,斯坦福研究员以及IBM德国获得了研究职位。从1988年到2015年间,他在萨尔布吕肯的萨尔州立大学任计算语言学与计算科学教授职位。自2002年起,Uszkoreit教授成为了欧洲科学院的成员。他同时也是计算语言学国际委员会的永久会员,柏林技术大学的荣誉教授,欧洲逻辑语言信息协会的前任主席,并在数个国际期刊中担任编辑与咨询的职位。

        Feiyu Xu博士是DFKI语言技术实验室首席研究员和文本分析研究组主任。她从1987年到1990年前在上海同济大学学习技术翻译。然后她1992年到1998年在萨尔州立大学学习计算语言学,并获得了外国硕士学位。她的博士研究方向为“从语义种子进行关系提取”。在2014年,Feiyu Xu完成了大量大文本数据分析的工作。2012年,Feiyu Xu与Hans Uszkoreit以及Roberto Navigli获得了Google的聚焦研究奖项。2014年,Feiyu Xu成为DFKI研究会员。她已经发表了90多篇杂志,发表在ACL, COLING, EMNLP, CONLL, NAACL, LREC 等杂志上。她同时也是EACL 2017文本挖掘,信息抽取以及问答系统的领域主席。

 

国家教育部语信司司长田立新来模式识别国家重点实验室调研

       

        2016年11月16日,国家教育部语言文字信息管理司(简称“语信司”)司长田立新在语信司规划协调处处长易军的陪同下,来我所模式识别国家重点实验室自然语言处理研究团队进行了调研。研究所副所长杨一平陪同调研并介绍了研究所的有关情况。

        近年来,模式识别国家重点实验室自然语言处理研究团队在自然语言处理的基础理论和方法、机器翻译、知识工程等相关领域取得了丰硕成果,在国内外引起了广泛关注。此次田司长一行来访的主要目的是了解模式识别国家重点实验室在自然语言处理相关领域的研究工作,与相关领域的研究人员探讨未来语言信息技术发展的动向,为语言文字信息领域的十三五规划制定和实施进行调研。

        调研会上田司长和易军处长听取了宗成庆研究员对自然语言处理研究团队的工作介绍,观看了张家俊副研究员和博士生刘树林分别展示的多语言文本自动翻译与分析系统和百科知识图谱系统,然后,就语言信息技术未来的发展趋势和动向、语信司对相关工作的关注和期望、我国语言资源的开发、保护和使用、高校与科研院所在相关领域的合作等若干问题与大家进行了广泛而深入的探讨。自然语言处理团队的赵军研究员和何世柱博士一同参与了讨论。

    

 

加拿大蒙特利尔大学的聂建云教授访问模式识别国家重点实验室

         2016年6月1日加拿大蒙特利尔大学的聂建云教授访问了模式识别国家重点实验室,做了题为“Latent Representations for Information Retrieval”的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):

Traditional information retrieval uses words as the basic representation units. It is known that such a representation has several problems, in particular, when dealing with synonymous and polysemous words. These problems are particularly important for information retrieval. A series of latent representations have been used to address the problems, ranging from LSA, LDA to more recent embeddings. In this talk, we will review these representations for IR applications. It will be shown that latent representations can help solve the problems to some extent, but cannot (yet) fully replace the traditional word-based representation. We will provide some analysis on this.

报告人简介(BIOGRAPHY):

Jian-Yun Nie is a professor in University of Montreal. He has been working in the areas of information retrieval and natural language processing for a long time. His research topics include information retrieval models, cross-language information retrieval, query expansion and understanding, etc. Jian-Yun Nie has published a number of papers on these topics in the top journals and conferences. His papers have been widely cited by peers. He is on the editorial board of 7 international journals, and is a regular PC member of the major conferences in these areas such as SIGIR, CIKM, ACL. He was also the general chair of SIGIR 2011.

 

美国 IBM沃森研究中心的王志国博士访问模式识别国家重点实验室

         2016年5月9日美国IBM沃森研究中心的王志国博士访问了模式识别国家重点实验室,做了题为“Deep Sentence Modeling for Question Answering”的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):

Sentence modeling is a crucial procedure for question answering. In this presentation, I will talk about applying deep learning methods for sentence modeling, including sentence clustering, sentence matching, sentence classification and sequential labeling. I will also present how to apply these technologies into real world question answering systems.

报告人简介(BIOGRAPHY):

Dr. Zhiguo Wang is a research staff member at IBM T. J. Watson Research Center working on statistical parsing, question answering, machine translation and machine learning. His current foci are to apply deep learning algorithms for multilingual question answering. Before joining IBM, he worked as a postdoctoral fellow in Brandeis University. He received his PhD degree in computer science from Institute of Automation, Chinese Academy of Sciences in June 2013.

 

“自然语言处理与深度学习”学术研讨会成功举办

        在中国科协“青年人才托举工程”项目在支持下,“自然语言处理与深度学习:问题与挑战”学术研讨会于2016年4月23日在中国科学院自动化研究召开,来自国内科研院所、高校和互联网公司的约180位专家、学生参加了这次研讨会。会议取得了圆满成功。

        中国科协于2015年设立的“青年人才托举工程”(以下简称“托举工程”)旨在“探索创新选拔机制、培养模式、评价标准,扶持职业发展和学术成长,打造国家高层次科技创新人才后备队伍”。这一托举工程为选拔出来的青年学者开阔视野、提高创新能力、促进学术交流与合作搭建了一个很好的平台。我所青年学者张家俊博士基于在自然语言处理和机器翻译领域出色的学术成绩,经中国中文信息学会推荐和自动化、信息与智能科学联合体严格的遴选,成为首批“青年人才托举工程”的入选者。借此平台他组织了以“直面自然语言处理当前的问题,应对大数据时代人工智能的未来挑战”为目的的学术研讨会,由此借机与国内同行一起探讨自然语言处理未来发展的方向和正确研发的道路,引领和帮助青年学生把握正确的学术方向,立足当下,面向未来,开展创新性理论研究和高水平技术研发。

        会议于2016年4月23日下午两点在自动化所智能大厦学术报告厅召开,中科院自动化所所长徐波研究员、中国自动化学会副理事长兼秘书长王飞跃研究员、中国中文信息学会副理事长兼秘书长孙乐研究员、北京理工大学计算机学院院长黄河燕教授、微软亚洲研究院首席研究员周明博士、苏州大学“杰青”获得者张民教授、自然语言处理和机器翻译专家哈尔滨工业大学赵铁军教授、东北大学朱静波教授和自动化所宗成庆研究员、赵军研究员,以及青年才俊北京大学的万小军教授、清华大学“优青”获得者副教授刘洋博士等众多本领域的杰出学者出席了本次研讨会。

        会议开幕式由宗成庆研究员主持,中国自动化学会副理事长兼秘书长王飞跃研究员代表自动化、信息与智能科学联合体在开幕式上做了讲话,简要介绍了中国科协“青年人才托举工程”计划,对入选者表示了祝贺,并提出了更高的希望。随后由刘洋博士主持学术报告。张家俊、万小军和来自出门问问公司的技术经理李理分别做了题为“神经网络机器翻译:寻找替身之旅”、“大数据时代的文本自动摘要”和“问答系统与深度学习”的学术报告。报告分别从自然语言处理的三大应用机器翻译、自动文摘和问答系统出发,介绍了最新的研究进展和深度学习遇到的问题与挑战。张家俊主持了主题讨论(panel discussion)环节,由周明、孙乐、张民、朱靖波、万小军、刘洋和李理7位专家组成的研讨嘉宾针对深度学习在自然语言处理中的应用前景和目前亟待解决的科学问题,以及未来研究的思路和方法等各个方面分别给出了自己的见解和看法,其中不乏思想冲撞,会场气氛十分热烈。

        专家们一致认为,深度学习是一个很好的工具和方法,但我们应该冷静地对待,针对具体问题具体分析。尤其是青年学者和学生,应该从不同的视角清晰地看待深度学习和其他热点各自的利弊,既不能闭关自守,又不可盲目跟从,在跟踪、学习和实践中不断创新才是唯一正确的学术之路。与会师生一致表示此次研讨受益匪浅。

 

美国伊利诺伊大学芝加哥分校刘兵教授访问模式识别国家重点实验室  

 

        2016年2月25日,美国伊利诺伊大学芝加哥分校刘兵教授应邀在模式识别国家重点实验室做了题为“Discovering Keywords for Search, Covariate Shift, and Lifelong Learning”的学术报告。近五十名所内外师生聆听了这场报告。

        面对海量的社交网络数据,如何获取指定主题的相关内容是用户比较感兴趣的问题。其中,最核心的问题是如何构造用于搜索的关键词集合。人工构造关键词往往费时费力,而且无法全面准确地描述主题。刘斌教授介绍了他所领导的研究组在关键词自动发现方面的最新研究成果:首先通过种子关键词获得搜索结果并进行过滤,然后从结果中提取候选关键词,通过迭代前两个步骤不断更新关键词集合。刘斌教授随后介绍了一种终生机器学习(lifelong machine learning)的思想,很好的启发了大家的思维。讲座现场气氛非常活跃,报告的最后阶段,在座师生提出了不少问题,刘斌教授针对每个问题都非常详细地做了回答。

        刘斌教授同时是ACM、IEEE与AAAI的会士,现在工作于美国伊利诺伊大学芝加哥分校计算机科学系。他博士毕业于爱丁堡大学人工智能专业。他的研究兴趣包括情感分析与观点挖掘、终生机器学习、伪观点与欺诈观点识别、数据挖掘和自然语言处理。他在顶级会议和期刊上发表了若干优秀学术论文,其中两篇文章获得知识发现与数据挖掘顶级会议KDD的10年test-of-time奖。他出版了情感分析和网络数据挖掘相关的三本著作,并且他的工作多次被媒体广泛报道,包括纽约时报的封面文章报道。他还是多个顶级数据挖掘会议KDD、ICDM、CIKM、WSDM等的程序委员会主席,以及TKDE、TWEB与DMKD等多个国际期刊的副主编。目前,他是ACM SIGKDD的主席。

        

2015年

“基于大数据的互联网机器翻译核心技术及产业化”项目荣获2015年度国家科技进步奖二等奖

          2015年度国家科学技术奖励大会于2016年1月8日上午在北京人民大会堂隆重举行,今年共有295个项目和7名外籍科技专家荣获国家科学技术奖。由百度公司牵头,中科院自动化所、哈尔滨工业大学、清华大学、中科院计算所和浙江大学联合完成的“基于大数据的互联网机器翻译核心技术及产业化”项目荣获2015年度国家科技进步二等奖。

        随着国际互联网技术的快速发展和贸易全球化时代的到来,克服语言障碍、实现跨语言自由沟通的需求日益凸显。研制国际领先的互联网机器翻译技术,实现机器翻译的大规模产业化应用,是无障碍跨语言交流与学习的基础,对促进中华文化在世界的传播具有重要意义。由百度公司牵头,中科院自动化所、哈尔滨工业大学、清华大学、中科院计算所和浙江大学联合建立的研发团队在国家“863”计划、国家自然科学基金等课题的支持下,在机器翻译系统框架、海量翻译知识获取、翻译模型与算法、多语种翻译技术等方面取得重大突破。自主研制了基于互联网大数据的机器翻译云平台,打破了国外互联网公司在本领域的垄断地位,产生了巨大的经济效益和社会效益。在多年的合作研发中,该团队在基于云计算的大规模机器翻译框架、基于互联网大数据的高质量翻译知识自动获取、基于深度语义的语言分析和翻译技术,以及枢轴语言机器翻译技术等方面,提出了一系列创新思想和方法,攻克了机器翻译语种覆盖度受限的难题,突破了传统翻译知识获取规模小、成本高的瓶颈,实现了机器翻译技术的规模化应用,翻译质量处于国际领先水平。

         中科院自动化所自然语言处理与机器翻译研究团队多年来围绕多语言机器翻译技术,在多语种自动识别、命名实体识别与翻译、多语言语义理解、译文语序优化等关键问题方面进行了深入研究,尤其在基于深度语义分析的翻译模型和翻译知识自动获取等方面对整个项目有重要贡献。为此,中科院自动化所成为本次奖励的第二获奖单位,自然语言处理与机器翻译研究团队负责人宗成庆研究员为第三获奖人。

 

哈尔滨工业大学深圳研究生院徐睿峰博士访问模式识别国家重点实验室              

        2015年6月12日,哈尔滨工业大学深圳研究生院徐睿峰博士应中科院自动化所张家俊博士邀请为中科院自动化所的师生们作了题为“Emotion Recognition Based on Electroencephalography(EEG)”的学术报告。自动化所张家俊副研究员、刘康副研究员、汪昆博士、徐立恒博士等师生参加了此次报告会。

        近年来,情感分析逐步成为自然语言处理领域的一个重要研究课题,除了传统的褒贬分析之外,情绪分析(喜、怒、哀、怨等)也是一个重要研究方向。徐睿峰老师在这一领域有着多年的积淀和优秀成果。在本次报告中,徐老师首先介绍了其课题组今年在ACL2015上有关情绪分析和表示学习的最新研究成果,其次,徐老师专门介绍了其课题组通过对人脑电波的监控从而判别目标人情绪的变化的最新工作,这一工作属于交叉学科,引人入胜。

        现场气氛热烈,徐老师对于老师同学提出的问题进行了一一解答。与会的老师和同学都对徐老师的思路开阔,工作原创表示赞叹。会后,各位老师也对于这一方向今后的发展进行了深入的交流。

 

清华大学刘洋博士访问模式识别国家重点实验室   

           

        2015年9月10日,应中国科学院自动化研究所宗成庆研究员和张家俊博士的邀请,清华大学计算机系刘洋副教授在自动化所模式识别国家重点实验室做了题为“基于非平行数据的翻译模型训练方法”的学术报告。自动化所宗成庆研究员、赵军研究员、周玉博士、张家俊博士、汪昆博士、向露以及中国传媒大学程南昌博士等30余名师生参加了此次讲座。

         目前,平行语料库是主流统计机器翻译方法的基础与核心。然而,由于平行语料库的主要来源是存在多种官方语言的政府网站,语料库的数量和领域覆盖面都受到严重制约。由于互联网上存在海量的非平行文本数据,如何利用非平行数据训练翻译模型是当前重要的研究方向。刘洋老师在本报告介绍了两种基于非平行数据的翻译模型训练方法:(1) 基于译文检索的平行语料库自动构建和(2)基于非平行数据的IBM模型训练,前者将信息检索与机器翻译相结合,从海量的非平行语料库中快速准确发现平行句对,后者采用无监督学习算法直接从非平行语料库中训练IBM模型。最后,刘洋老师介绍了几点非常有趣的正在进行中的研究工作,并对未来工作进行了展望。

        刘洋老师的报告生动形象、深入浅出,甚至不懂机器翻译的同学也表示完全听明白了。报告中,现场气氛非常活跃,刘洋老师对与会老师和同学提出的问题一一进行了细心解答。报告后,与会老师和同学纷纷对刘洋老师研究工作的深度、系统化以报告的条理性表示由衷赞叹,相信同学们会深受这次报告的启发,做出越来越出色的研究工作。

 

翟飞飞获2015年中国人工智能学会优秀博士学位论文奖

        我组翟飞飞同学的博士学位论文《基于语言结构知识的统计机器翻译方法研究》被授予2015年中国人工智能学会优秀博士学位论文奖。

        中国人工智能学会优秀博士学位论文奖是为推动中国人工智能领域的科技进步、鼓励创新性研究、促进青年人才成长、表彰做出优秀成果的中国境内博士学位获得者,由中国人工智能学会2011年设立。

        2015年度中国人工智能学会优秀博士学位论文评选工作中,学会邀请了34位国内人工智能领域的知名专家,认真负责地完成了对43篇博士学位论文的评审。根据专家评审意见,确定了20篇入围终评的候选博士学位论文,经专家终审及两轮投票,最终确定了8篇获奖论文。

2014年

“多语种信息采集处理与分析”项目获钱伟长中文信息处理科学技术奖

        12月20日中国中文信息学会在中国科技会堂召开学术年会,举行了“钱伟长中文信息处理科学技术奖”颁奖仪式,模式识别国家重点实验室完成的多语种信息采集处理与分析项目荣获一等奖。

       “钱伟长中文信息处理科学技术奖”是经国家科技部批准,面向全国中文信息处理行业的科学技术奖,旨在推动我国中文信息处理科技进步工作中有突出贡献的项目,每两年评审、颁奖一次,是目前我国中文信息处理领域的最高奖。

        模式识别国家重点实验室宗成庆研究员领导的自然语言处理团队,在多语言信息采集、处理和分析领域进行了一系列理论和技术创新,近三年来他们先后提出了基于模糊树到精确树的统计翻译模型、融合翻译记忆和短语翻译模型的统计翻译方法、以及基于互联网内容的两级平行资源自动获取框架等一系列新的理论方法,获得7项国家发明专利和1项国际发明专利,在Computational Linguistics、IEEE Transactions on Audio, Speech and Language Processing、Information Sciences等国际权威学术期刊和ACL、AAAI、IJCAI等顶级国际会议上发表论文30余篇,出版学术专著一部、译著一部。基于扎实的理论研究基础和过硬的核心技术创新,他们研制开发的英、日、德、法、朝、阿拉伯、土耳其等10多个种语言文本的自动采集、翻译和分析系统成功应用于相关部门和新闻媒体等领域,有效支撑了相关单位核心事业的发展,为推动多语言翻译和分析事业的发展发挥了重要作用。

 

又讯:自然语言处理团队和计算大脑团队共同与百度、清华大学、中科院计算所、哈尔滨工业大学联合承担的国家“863”计划重大项目“基于大数据的互联网机器翻译核心技术研究及产业化”荣获2014年中国电子学会科技进步一等奖。

 

清华大学徐佳博士访问模式识别国家重点实验室

       

        2014年12月18日,清华大学交叉信息研究院徐佳博士应模式识别国家重点实验室自然语言处理研究组邀请在中国科学院自动化研究所智能化大厦714会议室做题为“Query Lattice for Translation Retrieval”的学术报告。

         网络与全球化的发展使得我们可以获取若干语言的大规模单语数据。如何在构建机器翻译系统时充分利用这些海量单语数据成为一个极有意义并极具挑战的问题。徐佳博士介绍了一种新颖的翻译检索方法:首先借助传统机器翻译模型或短语翻译表生成源语言句子的目标译文翻译候选,然后利用搜索引擎思想将翻译候选作为Query从大规模目标语言单语数据中检索最佳答案。若目标语言单语数据的规模和覆盖面都较完备,那么作为检索结果的目标语言句子和源语言句子极有可能是互为翻译的句对。徐佳博士对比了翻译候选的存储方式(1-best vs. lattice)和生成方法(translation model vs. phrase table)对检索结果的影响。报告深入浅出、生动活泼,参会的各位老师和同学与徐佳博士进行了长达2个小时的热烈讨论与交流。

         徐佳博士是清华大学交叉信息研究院的助理教授(Assistant Professor)。加入清华大学之前,徐佳博士在德国DFKI研究所担任项目负责人和高级研究员。徐佳博士师从自然语言处理领域著名专家、德国亚琛工业大学教授Hermann Ney,并于2009年获得博士学位。博士期间,徐佳先后在IBM 沃森实验室和Microsoft雷蒙德研究院做学术访问。徐佳博士目前的研究兴趣包括机器学习和机器翻译,在AAAI、EMNLP和COLING等国际顶级会议上发表论文多篇,并领导团队多次在机器翻译评测中获得优异成绩。

 

北京师范大学毕彦超教授访问模式识别国家重点实验室   

            2014年9月11日,认知神经科学著名学者、北京师范大学认知神经科学与学习国家重点实验室毕彦超教授应模识自然语言处理研究组邀请在中科院自动化研究所智能化大厦714会议室做了题为“语义加工的认知神经基础”的学术报告。

        人们一直被这样一个问题困扰着:语义在人脑中是如何加工的?该问题涉及到语言学和认知科学。毕彦超教授在报告中主要介绍了她的团队近几年在语义加工认知神经基础方面的研究工作。毕教授利用详细的实验对比了人脑对不同语义的反映差别,从神经科学的角度分析了人脑解析语义的基础机制。各位从事自然语言处理的老师和同学都表示对语言有了更加深刻的认识,认为报告的内容将对以后设计算法自动处理和分析语言能够提供新的视角。

        毕彦超老师是北京师范大学认知神经科学与学习国家重点实验室、IDG/McGovern Institute for Brain Research 教授。于2006年获哈佛大学心理学系脑、认知、行为专业博士学位;1995年和1998年分别在东北师范大学和北京师范大学获心理学学士、心理学硕士学位。“973”青年专项首席科学家,国家优秀青年科学基金、教育部新世纪优秀人才基金获得者。获Sackler Scholars Programme in Psychobiology奖、美国心理科学学会新星奖。担任北京神经科学学会理事。

 

加拿大国家研究委员会多语言处理研究组陈博兴研究员访问模式识别国家重点实验室   

        2014年8月19日,机器翻译国际知名学者、加拿大国家研究委员会多语言处理研究组陈博兴研究员应模式识别国家重点实验室自然语言处理研究组邀请在中国科学院自动化研究所智能化大厦714会议室做题为“Domain Adaptation for SMT: Linear, Log-Linear, Non-Linear and Vector Space Model”的学术报告。

        领域自适应是基于数据驱动方法不得不面对的问题,是自然语言处理领域的一个重要问题。在机器翻译领域,由于涉及的是双语而不是单语,领域自适应问题更加突出。如何在构建统计机器翻译系统时很好地考虑领域适应成为近年来的一个热门问题,引起越来越多学者的关注。陈博兴老师介绍了他近几年来针对领域自适应所做的数据加权的研究工作。陈老师分别从短语翻译概率和短语分布两个角度探索了数据加权方法,并且详细介绍了linear Mixture、log-linear、non-linear和向量空间模型的数据加权算法以及一些对结果影响显著的平滑算法。

        陈博兴博士目前是加拿大国家研究委员会多语言处理研究组的研究员(Research Officer)。陈博兴研究员1998年本科毕业于北京大学,2003年博士毕业于中国科学院声学研究所。博士毕业后,陈老师先后在法国Grenoble 3、意大利FBK-IRST以及新加坡I2R担任博士后研究员与高级研究员。陈老师的主要研究兴趣是自然语言处理与机器翻译,在国际顶级会议ACL、COLING、NAACL等发表多篇论文,并于2013年获得MT Summit的最佳论文奖。

 

美国纽约城市大学黄亮教授教授访问模式识别国家重点实验室   

             

       2014年8月12日,机器翻译、自然语言处理领域国际知名青年学者、美国纽约城市大学黄亮教授应模式识别国家重点实验室自然语言处理研究组邀请在中国科学院自动化研究所智能化大厦第一会议室做题为“How to Write a Good Paper and How to Give a Good Talk”的学术报告。

        撰写学术论文与做学术报告是科学研究者向国际同行介绍自己工作最直接最重要的方式。然而,中国研究人员在这些方面往往没有欧美学者做得好。黄亮老师在报告一开始便提出学术论文写作的一个误区:论文的质量决定于英语水平的好坏。黄亮老师指出,学术论文的核心在于逻辑。黄老师建议大家多向国际顶级学者(例如自然语言处理领域的蒋伟教授)学习论文写作技巧。然后,黄老师分别针对学术论文结构(abstract、introduction、the problem、my idea、the details、related work、conclusion and future work)中的每一部分都提出了具体的撰写建议。其次,针对如何做学术报告,黄老师从讲稿的布局、如何形象化、以及如何与听众交互等方面给出了具体的建议。最后,黄老师总结了4句话的论文写作技巧:读者在心、起承转合、老妪能解和跃然纸上。黄老师的报告生动活泼、趣味盎然,同学和老师们与黄老师进行了热烈的讨论和交流。

        黄亮博士目前是美国纽约城市大学计算机系的助理教授(Assistant Professor)。黄亮博士2003年本科毕业于上海交通大学,2008年博士毕业于宾夕法尼亚大学。博士毕业后,黄亮老师先后在谷歌(Google)和南加州大学信息科学研究所(USC/ISI)担任研究科学家与研究助理教授。他的主要研究兴趣在于计算语言学和机器学习的理论(算法和形式化等)研究,于2008年获得自然语言处理国际顶级会议ACL的最佳论文奖,并获得ACL2007、EMNLP2008与ACL2010的最佳论文提名奖。黄亮老师获得2010年和2013年的谷歌研究奖,以及宾夕法尼亚大学2005年的研究生教学奖。

 

息检索领域国际著名学者、加拿大蒙特利尔大学聂建云教授访问模式识别国家重点实验室   

    

         2014年7月22日,信息检索领域国际著名学者、加拿大蒙特利尔大学聂建云(Jian-Yun Nie)教授应模式识别国家重点实验室自然语言处理研究组邀请在中国科学院自动化研究所智能化大厦第一会议室做题为“Understanding search users: what have been achieved and what haven’t”的学术报告。

        在信息检索和搜索引擎中,返回结果的质量强烈依赖于对用户查询的正确理解程度。在这次报告中,聂建云教授将用户查询的理解分为三个层次:词袋模型(Bag-of-Words)层次,短语、N-元组(n-gram)和词间关系层次,以及用户查询意图层次。在前两个层次的研究中,聂教授重点介绍了如何优化词、N-元组等特征的权重,特别是如何充分利用用户的查询日志。在用户查询意图的研究中,聂教授首先介绍了其中的两个难点:查询意图的定义与查询意图的检测。然后,聂教授详细介绍了怎样利用用户查询日志与知识库对用户查询进行扩展以获得多样化(diverse)的查询结果。最后,聂教授还分析了当前信息检索研究领域还未解决的一些难题,例如如何结合多个垂直领域的搜索,如何理解用户查询的语义等等。报告结束后,很多老师和同学与聂建云教授在用户查询意图的理解方面进行了深入的交流与探讨。

        聂建云教授是加拿大蒙特利尔大学的正教授(full professor)。聂教授从事信息检索、自然语言处理方面的研究工作长达25年以上,目前的研究兴趣主要包括信息检索模型,跨语言信息检索,用户查询扩展与理解等。聂教授在国际期刊和会议上发表150多篇学术论文并获得广泛的引用。聂建云教授是信息检索和自然语言处理领域7大期刊的编委会成员,担任众多国际会议的筹委会成员,并在2011年北京召开的SIGIR会议中任大会主席。

 

出门问问公司沈李斌博士访问模式识别国家重点实验室       

        2014年7月4日,Mobvoi自然语言处理负责人沈李斌博士应模式识别国家重点实验室自然语言处理研究组邀请在中国科学院自动化研究所智能化大厦第三会议室做题为“Structure and Learning in Statistical Machine Translation”的学术报告。

        刚刚召开的计算语言学国际大会(ACL)上,一篇深度学习应用于机器翻译的文章获得了ACL2014的最佳论文奖。该论文所采用的非常强大的基线系统(串到依存树翻译模型)便是由沈李斌博士负责开发的。在这次报告中,沈李斌博士介绍了两部分的内容。首先,沈李斌博士将翻译模型中规则抽取的启发式规则方法利用贝叶斯的思想进行了非常漂亮的概率理论解释;然后,沈李斌博士重点介绍了串到依存树翻译模型和若干改进,以及一些潜在的研究方向。在问答环节,各位老师和同学与沈李斌博士在机器翻译模型设计与工程实现等方面进行了深入的交流与探讨。

        沈李斌博士现为出Mobvoi(出门问问)公司自然语言处理负责人。他2000年本科毕业于上海交通大学,2006年博士毕业于宾夕法尼亚大学计算机与信息科学系。先后在BBN、IBM任研究科学家,在Akamai任首席软件工程师。他于2008年获ACL的最佳论文奖,并且开发的翻译系统从2008年起连续在美国DAPRA Gale和BOLT等重大机器翻译评测中获得第一名的成绩。2014年4月份沈李斌博士加入北京出门问问创业团队担任自然语言处理负责人。

 

出门问问公司CTO雷欣博士访问模式识别国家重点实验室

     2014年4月24日,出门问问CTO、原Google研究院科学家雷欣博士应模式识别国家重点实验室自然语言处理研究组邀请在中国科学院自动化研究所智能化大厦学术报告厅做题为“Two Recent Developments on Deep Neural Networks for Speech Processing”的学术报告。该报告吸引了来自北京各高校和研究所约100位老师和学生。

    2014年4月24日,出门问问CTO、原Google研究院科学家雷欣博士应模式识别国家重点实验室自然语言处理研究组邀请在中国科学院自动化研究所智能化大厦学术报告厅做题为“Two Recent Developments on Deep Neural Networks for Speech Processing”的学术报告。该报告吸引了来自北京各高校和研究所约100位老师和学生。

    深度学习已成为当前炙手可热的机器学习方法,而Google是第一个将深度学习成功应用于产品的公司。雷欣博士首先回顾了深度学习在Google的发展历程。然后,雷欣博士主要介绍了他们最近的两项深度学习的研究工作。其中一项工作关注深度学习在离线移动终端上的语音识别,即在保证识别效果的前提下如何精简优化深度学习模型。另一项工作关注深度学习在说话人识别领域的应用。最后,雷欣博士介绍了出门问问的系统架构(其中语音识别模块采用了深度学习方法),并成功演示了出门问问在交通、饮食、娱乐等垂直领域的语音语义搜索功能,受到在场听众的热烈好评。在问答环节,各位老师和学生与雷欣博士在深度学习的模型、应用等方面进行了深入的交流与探讨。

    出门问问语义分析技术负责人、2008年ACL最佳论文获得者沈李斌博士也一同到访,与自然语言处理研究组的研究人员在自然语言处理、机器翻译等学术问题上进行了充分热烈的探讨。

    雷欣博士现为出门问问公司CTO。他于1999年在清华大学获得双学士学位,2006年获得华盛顿大学电子工程系博士学位,曾任职于微软,SRI(前斯坦福研究所),谷歌研究院。回国前在谷歌总部任职Staff级别研究员(Staff Research Scientist)。在谷歌研究院,他领导开发了基于深度神经网络的离线语音识别系统,被广泛评为Android JellyBean版本最好的feature之一。他在语音识别领域发表过近30篇论文,拥有多项美国专利。他在谷歌研究院的主页是 http://research.google.com/pubs/XinLei.html。2014年2月份雷欣博士从谷歌总部辞职,加入北京出门问问创业团队担任CTO。

 

2013年

美国 Brandeis 大学薛念文博士访问模式识别国家重点实验室

         2013年8月12日美国Brandeis大学的薛念文(Nianwen Xue)博士访问了模式识别国家重点实验室,做了题为Hierarchical Alignment的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):

Existing word alignment standards often attempt to align everything at the level of words. This leads to complicated alignments and spurious ambiguity in some cases and severs key dependencies in others. In this talk I will describe a project where we attempt to migrate some of the alignments to phrases, thereby simplifying word-level alignments. This alignment is based on parallel treebanks and I show that this representation can support the extraction of Hiero-style rules and tree-to-tree MT models.

报告人简介(BIOGRAPHY):

Nianwen Xue is an Assistant Professor in the Computer Science Department and the Language & Linguistics Program at Brandeis University. Before joining Brandeis, Nianwen Xue was a research assistant professor in the Department of Linguistics and the Center for Computational Language and Education Research (CLEAR) at the University of Colorado at Boulder. Prior to that, he was a postdoctoral fellow in the Institute for Research in Cognitive Science and the Department of Computer and Information Science at the University of Pennsylvania. He got his PhD in linguistics from University of Delaware.

Nianwen Xue has broad interests in computational linguistics and natural language processing. He has devoted substantial efforts to developing linguistic corpora annotated with syntactic, semantic, temporal and discourse information that are crucial resources in the field of natural language processing. The other thread of his research involves using statistical and machine learning techniques in solving natural language processing problems. He has published work in the areas of Chinese word segmentation, syntactic and semantic parsing, coreference, discourse analysis, machine translation as well as biomedical natural language processing. His research has received support from the National Science Foundation (NSF), IARPA and DARPA. He serves on the editorial boards of ACM Transactions on Asian Language Information Processing, Language Resources and Evaluation, and Computer Processing of Oriental Languages.

 

新加坡科技设计大学的张岳博士来访模式识别国家重点实验室

         2013年7月31日新加坡科技设计大学(Singapore University of Technology and Design, SUTD)的张岳博士访问了模式识别国家重点实验室,做了题为“Syntax-based word ordering: a learning-guided-search approach”的学术报告,并与实验室师生进行了友好讨论。

 报告摘要(ABSTRACT):

A fundamental problem in text generation is word ordering. Word ordering is a computationally difficult problem, which can be constrained to some extent for particular applications, for example by using synchronous grammars for statistical machine translation. There have been some recent attempts at the unconstrained problem of generating a sentence from a multi-set of input words, and also some efforts to linearize unordered trees. We show that word ordering can be done using a syntax-based approach and learning-guided-search. This method tackles the factorial search space and allows state-of-the-art accuracies to be achieved given flexible input conditions.

报告人简介(BIOGRAPHY):

Yue Zhang is currently an assistant professor at Singapore University of Technology and Design(SUTD). Before joining SUTD in July 2012, he worked as a postdoctoral research associate in University of Cambridge, UK. Yue Zhang received his DPhil and MSc degrees from University of Oxford, UK, and his BEng degree from Tsinghua University, China. His research interests include natural language processing, machine learning and artificial intelligence.

 

美国的季姮博士来访模式识别国家重点实验室

          2013年6月6日纽约城市大学的季姮博士访问了模式识别国家重点实验室,做了题为“Morphed Information Extraction, Resolution and Translation” 的学术报告,并与实验室师生进行了友好讨论。

报告摘要(ABSTRACT):
Information Extraction (IE) is a task of identifying “facts”, such as the attack/arrest events, people's jobs, people's whereabouts, merger and acquisition activity from unstructured texts. In this talk, Dr. Ji defines several new extensions to state-of-the-art IE and systematically present the foundation, methodologies, algorithms, and implementations needed for more accurate, coherent, complete, concise, and most importantly, dynamic and resilient extraction capabilities. He will present an information-aware Machine Translation framework.
 

报告人简介(BIOGRAPHY):
Heng Ji is an associate professor in Departments of Computer Science and Linguistics at City University of New York. She received her Ph.D. in Computer Science from New York University in 2007. Her research interests focus on Natural Language Processing, especially on Cross-source Information Extraction and Knowledge Base Population. She has published over 90 papers. Her recent work on uncertainty reduction for Information Extraction was invited for publication in the Centennial Year Celebration of IEEE Proceedings. She received a Google Research Award in 2009, US NSF CAREER award in 2010, Sloan Junior Faculty award and IBM Watson Faculty award in 2012. She served as the coordinator of the NIST TAC Knowledge Base Population task in 2010 and 2011, the Information Extraction area chair of NAACL-HLT2012 and ACL2013 and the co-leader of the information fusion task of ARL NS-CTA program in 2011 and 2012. Her research has been funded by US NSF, ARL, DARPA, Google and IBM.

 

新加坡的张民教授来访模式识别国家重点实验室

          2013年4月18日新加坡的张民教授访问了模式识别国家重点实验室,做了题为“Document and Discourse-based SMT” 的学术报告,并与实验室师生进行了相关讨论。

报告摘要(ABSTRACT):
Current SMT methodology translates document sentence by sentence without considering any discourse and document information. In this talk, I will present our two on-going work of discourse/document-based SMT, i.e., lexical cohesion modeling for document-level SMT and topic-based coherence model for SMT. Moreover I will also give a brief discussion on how grammar induction can help SMT.


报告人简介(BIOGRAPHY):
Dr. ZHANG Min received his B.A. and Ph.D. degree from HIT in 1991 and 1997, respectively. From Dec. 1997 to Aug. 1999, he worked as a researcher in KAIST. He began his academic and industrial career as a researcher at L&H Tech Asia Pacific (Singapore) in Sep. 1999. He joined Infotalk Tech (Singapore) as a researcher in Jan 2001 and became a senior research manager in 2002. Dr. ZHANG joined the I2R/A-star of Singapore in Dec. 2003 and now is a scientist and principal investigator in the institute. Currently he leads the SMT research group and oversees the activities of SMT research in HLT/I2R. His current research interests are SMT and NLP. He has authored/co-authored more than 150 papers in leading journals and conferences. In recent years, he actively contributes to the research communities by taking different roles. He supervises Ph.D students at NUS/A-STAR, HIT and Suda.

2012年

微软亚洲研究院的刘晓华博士来访模式识别国家重点实验室

    2012年11月29日微软亚洲研究院的刘晓华博士访问了模式识别国家重点实验室,做了题为“Collective Information Extraction for Micro-blogs” 的学术报告,并与实验室师生进行了相关讨论。

报告摘要(ABSTRACT):
Within the past five years, micro-blogs have greatly developed and now become one indispensable information source. Owing to the unstructured, fragmented, informally written, noisy and real-time nature of micro-blogs, it is hard for people to effectively obtain the information of their interests from micro-blogs. In this talk, I will introduce the task of information extraction for micro-blogs, which consists of a serials of sub-tasks, including Named Entity Recognition (NER), Semantic Role Labeling (SRL) and Event Extraction (EE). One main common research challenge is the dearth of information in a single micro-blog, rooted in the short and noisy nature of micro-blogs. In this talk, I will introduce the following three kinds of collective inference algorithms, which are applied to NER, SRL and EE, respectively, achieving remarkable improvements over the baselines.1. K-nearest neighbor (KNN) classifier based joint inference that determines the output of the current input using the outputs of the inputs similar to the current input; 2. Cluster based joint inference that involves the following two-stage labeling: In the first round, one single micro-blog is processed as usual; in the second round, similar micro-blogs are first clustered, then for each cluster an enhanced model that utilizes cluster-level information is applied to each micro-blog in the cluster; 3. Graphical model based joint inference that conducts an information extraction related task on a collection of related micro-blogs, sharing information across micro-blogs and simultaneously determining the outputs for all the related micro-blogs.In the end, I will present a semantic search of micro-blogs called QuickView, which integrates various information extraction technologies and enables categorized browsing and advanced search of tweets.
 

报告人简介(BIOGRAPHY):
Dr. Liu is Project Lead and Researcher in Microsoft Research Asia, Natural Language Computing Group. His research interests include social content mining, NLP for ranking, machine learning, etc. In recent three years he published 25+ papers in ACL, AAAI, IJCAI, EMNLP, COLING, and SIGIR. At his free time, he likes coding and solving software development related challenges. He authored several programming related books, including "Detailed introduction of JSP programming" and "Mastering MFC".

百度公司的马艳军博士来访模式识别国家重点实验室

    2012年11月22日百度公司的马艳军博士访问了模式识别国家重点实验室,做了题为“Translation Recommendation for MT-TM Integration” 的学术报告,并与实验室师生进行了相关讨论。

报告摘要(ABSTRACT):
We present a translation recommendation model for integrating Machine Translation (MT) output into a Translation Memory (TM) environment to facilitate the adoption of MT technology in the localization industry. Given an input to be translated, our recommender compares the output from the MT and the TM systems, and presents the better one to the post-editor. When measured against the consensus of human judgment, the recommendation model obtains 0.91 precision at 0.93 recall. The high precision of these models ensures that MT output is only used in the TM environment when it its better than the best available TM output with high con?dence. The models thereby preserve TM assets and established fuzzy match-based cost estimation methods associated with TMs.
 

报告人简介(BIOGRAPHY):
马艳军博士现为百度公司副研究员。2009年获得爱尔兰都柏林城市大学计算机系博士学位,曾在ACL, COLING, ACM Transaction, Journal of Machine Translation等会议和期刊发表论文多篇,拥有发明专利多项,曾负责多项爱尔兰和欧盟项目的子课题。2008年至2009年担任EACL学生委员会理事,2009年在剑桥大学工程系做访问学者,2010年获得欧洲机器翻译协会最佳博士论文奖。现担任Journal of Machine Translation编委,并担任ACL, EMNLP, COLING等国际会议的程序委员会成员、分会主席等。

北京大学的王立威教授来访模式识别国家重点实验室

    2012年11月21日 、11月28日北京大学的王立威教授访问了模式识别国家重点实验室,做了题为“概率图模型:表示、推断与学习”的报告,并与实验室师生进行了相关讨论。

报告摘要(ABSTRACT):
我们通过介绍机器学习的基本思想引入概率图模型。首先描述为何概率图模型适于表示机器学习问题,以及概率图模型的表示能力,包括有向图Bayes网和无向图Markov网。接下来我们转入如何利用概率图模型进行推断。报告将深入浅出地介绍概率图模型常用推断算法,包括著名的belief propagation算法,马尔科夫链蒙特卡罗(MCMC)方法等。同时,我们还将简要指出概率图模型推断的本质困难性以及近似的必要性。最后,介绍如何从数据中学习概率图模型。
 

报告人简介(BIOGRAPHY):
王立威,北京大学信息学院智能科学系教授。分别于1999年、2002年于清华大学电子工程系获本科和硕士学位。2005年于北京大学数学学院获博士学位。自2005年起在北京大学信息学院任教。他的主要研究兴趣为机器学习理论与算法,对boosting、主动学习等开展了深入研究。在机器学习顶级会议NIPS, COLT, ICML和顶级期刊JMLR, IEEE Trans. PAMI发表论文多篇。2010年入选AI’s 10 to Watch。

IBM T.J.Watson 研究中心的黄非博士来访模式识别国家重点实验室

    2012年11月20日IBM T.J. Watson 研究中心的黄非博士访问了模式识别国家重点实验室,做了题为“Bilingual Data Clustering for SMT Domain Adaptation” 的学术报告,并与实验室师生进行了相关讨论。
 

报告摘要(ABSTRACT):
Nowadays it is a lot easier to build a statistical machine translation (SMT) system thanks to the easy access to large amount of online text and open source software. However, the general MT system outputs still have a lot of room for improvement. In this talk I will first share my view on the current status of the machine translation, then I will focus on a specific problem: SMT domain adaptation. I will present a novel approach based on multiple level of bilingual data clustering. With dynamic combination of automatically derived domain specific models, this approach demonstrates 1.0-2.0 points of gain in BLEU on various test sets over an English-to-Chinese baseline system built with general models.
 

报告人简介(BIOGRAPHY):
黄非博士目前在IBM T.J. Watson 研究中心任职研究科学家(Research Staff Member),从事多国语言自然语言处理和机器翻译方面的研究与开发。他目前的研究方向包括基于大规模文本的自然语言处理,统计机器翻译,信息抽取和语音识别等,特别在从多语言的文本和语音中抽取并翻译关键信息(命名体)方面做出了开创性的工作。黄非博士在自然语言处理和人工智能的顶级会议(包括AAAI ,ACL,EMNLP,COLING, NAACL/HLT, SIGIR 等)和期刊发表文章20 多篇(多数为第一作者或唯一作者),他引400余次。他并长期担任10 多个自然语言和语音处理方面的国际刊物和国际会议的审稿人及程序委员。黄非博士1999年于中科院自动化所获硕士学位,2006 年毕业于卡耐基-梅隆大学计算机学院语言技术研究所,获博士学位。

张家俊等获 NLP&CC 会议最佳论文奖

    2012年10月31日-11月5日第一届自然语言处理与中文计算(NLP&CC)学术会议在北京召开。张家俊、翟飞飞和宗成庆共同完成的论文“Handling Unknown Words in Statistical Machine Translation from a New Perspective” 获本届会议最佳论文奖。本届NLP&CC会议口头报告论文的录用率仅为28%,所有论文中仅有一篇论文获得最佳论文奖。

微软亚洲研究院的刘树杰博士来访模式识别国家重点实验室

    2012年10月18日华盛顿大学的微软亚洲研究院的刘树杰博士访问了模式识别国家重点实验室,做了题为“基于半监督学习的统计机器翻译方法研究” 的学术报告,并与实验室师生进行了相关讨论。
 

报告摘要(ABSTRACT):
受益于互联网的飞速发展,产生了越来越多的可用于机器翻译的双语数据,基于统计的机器翻译成为了机器翻译领域的主流方法。而半监督学习方法,能够利用未标注数据参与模型的训练和优化,提高统计模型的性能,也越来越受到重视。本报告介绍了如何利用半监督的学习方法来提高统计机器翻译的质量。内容如下:1. 将半监督的方法应用于反向转换文法的句法分析,显著地提高了基于反向转换文法的词汇对齐的性能,从而可以抽取更为准确的翻译规则,提高统计机器翻译的性能。2. 针对基于句法的统计机器翻译中词汇对齐和句法分析不一致的问题,使用基于边界集的目标化自学习方法和基于强制对齐的重训练方法来利用词对齐信息修正句法分析中的错误,改善规则抽取的质量,并提高基于句法的统计机器翻译的性能。3. 在分析特征权重领域适应问题的基础上,提出互学习的方法来解决特征权重的领域适应问题。针对训练过程非常不稳定的现象,使用基于最小贝叶斯风险的句子级系统融合方法选择合适的参与互学习的样本。4. 为解决翻译结果的一致性问题(即相似的输入句子的翻译结果也应该相似),使用基于图的半监督方法,将统计机器翻译看做结构学习问题,并针对该问题,使用结构化的标记传播算法。进一步地将结构化标记传播算法获得的一致置信度作为特征,应用于常用的对数线性模型中,并将该模型应用于统计机器翻译的重排序和解码。
 

报告人简介(BIOGRAPHY):
刘树杰博士,2005年7月本科毕业于山东大学计算机科学与技术学院,2007年7月硕士毕业于哈尔滨工业大学计算机科学与技术学院,2012年7月博士毕业于哈尔滨工业大学计算机科学与技术学院。2007年7月至2008年8月,2009年2月至2012年7月一直在微软亚洲研究院自然语言计算组实习;2012年7月至今在微软亚洲研究院自然语言计算组担任副研究员。其研究兴趣包括:自然语言处理、统计机器翻译和机器学习。近年来在自然语言处理国际顶级会议发表文章多篇,包括ACL 2篇,EMNLP 1篇,COLING 2篇;并参与了多项微软亚洲研究院的研发项目,例如最近微软推出的Engkoo中文输入法等多个Engkoo项目。

华盛顿大学的Fei Xia博士来访模式识别国家重点实验室

    2012年7月5日 华盛顿大学的Fei Xia博士访问了模式识别国家重点实验室,做了题为“Applying NLP Technologies to the Collection and Analysis of Language Data to Aid Linguistic Research” 的学术报告,并与实验室师生进行了相关讨论。
 

报告摘要(ABSTRACT):
As a vast amount of language data has become available electronically, linguistics is gradually transforming itself into a discipline where science is often conducted using corpora. In this talk, we review the process of building ODIN, the Online Database of Interlinear Text, a multilingual repository of linguistically analyzed language data. ODIN is built from interlinear text that has been harvested from scholarly linguistic documents posted to the Web, and it currently holds more than 200,000 instances of interlinear text representing annotated language data for more than 1,000 languages (representing data from more than 10% of the world's languages). ODIN's charter has been to make these data available to linguists and other language researchers via search, providing the facility to find instances of language data and related resources (i.e., the documents from which data was extracted) by language name, language family, and even linguistic constructions. Further, we have sought to enrich the collected data and extract "knowledge" from the enriched content. This work demonstrates the benefits of using natural language processing technology to create resources and tools for linguistic research, allowing linguists to have easy access not only to language data embedded in existing linguistic papers, but also to automatically generated language profiles for hundreds of languages.
 

报告人简介(BIOGRAPHY):
Fei Xia is an Associate Professor at the Linguistics Department at the University of Washington (UW) and an adjunct faculty at the Department of Biomedical Informatics and Medical Education at the UW Medical School. Her research covers a wide range of NLP tasks including morphological analysis, part-of-speech tagging, grammar extraction and grammar generation, treebank development, machine translation, information extraction, and bio-NLP. Her current research focuses on building NLP systems that combine linguistic knowledge and machine learning techniques. She is also interested in collecting data and building tools to assist linguistic study. Her work is supported by several grants from NSF, NIH, IARPA, Microsoft, and UW, including the prestigious NSF CAREER Award.
Fei Xia received her Bachelor's degree from Peking University, and Ph.D. from the University of Pennsylvania (UPenn). At UPenn, she led the effort in building the Chinese Penn Treebank, which currently has 1.2 million words and is one of the most commonly used corpora for Chinese NLP. After graduation, she worked at the IBM T. J. Watson Research Center at Yorktown Heights, New York before joining UW.

卡内基美隆大学的Joy Ying Zhang博士来访模式识别国家重点实验室

    2012年6月14日卡内基美隆大学的Joy Ying Zhang 博士访问了模式识别国家重点实验室,做了题为 “Mobile Sensing for Behavior-ware Mobile Computing: a Language Approach” 的学术报告,并与实验室师生进行了相关讨论。
 

报告摘要(ABSTRACT):
Today's smart phones come equipped with a rich range of sensors including GPS, accelerometers, WiFi, Bluetooth, NFC, microphone etc. Combined, this contextual information can tell us a great deal about a user's current activity: what is the user doing now at which location and for how long. When logged, this data can provide important information about the user's behavior patterns based on which caregivers can design effective and personalized plans to improve the user's health and wellbeings. If we can aggregate this kind of information across hundreds of volunteers in a city, it can also tell us a great deal about that city, for example, wait times for buses, how public and private places are used, what residents typically do, and so on. This kind of large-scale data collection and analysis offers a way to understand human behavior at large scale, which can have positive impact in a number of domains, including health care, traffic planning, urban design, and social network analysis.
 

报告人简介(BIOGRAPHY):
Dr. Joy Ying Zhang is an assistant research professor in Mobility Research Center at Carnegie Mellon University Silicon Valley with appointments from the department of ECE, Language Technologies Institute, and CyLab. He received his Ph.D. from Language Technologies Institute of Carnegie Mellon University. Most of his research centers around applying statistical learning on natural language processing problems, in particular, statistical machine translation systems. He has developed the Pandora translation system, a full-scale two-way phrase-based statistical machine translation engine for mobile devices. This technology has been commercialized in the Jibbigo Speech Translator for iPhone, the first and so-far only voice-to-voice translation system that does not require network connection. His current research interests include applying statistical learning methods on mobile applications for user behavior modeling and behavior-aware mobile computing including indoor positioning, geo-trace modeling, mobile lifelog. URL: http://mlt.sv.cmu.edu/joy

 

 

Sophia Ananiadou教授和Junichi Tsujii教授来访模式识别国家重点实验室


    2012年5月9日英国曼彻斯特大学的Sophia Ananiadou教授和微软亚洲研究院的Junichi Tsujii教授访问模式识别国家重点实验室,并分别做了题为 “Biomedical text mining for semantic search and knowledge discovery” 和“Parsing with an explicit semantic model”的学术报告,受到热烈欢迎。
 

报告摘要(ABSTRACT)1:
Due to increasing specialisation, silo effects and literature deluge, researchers are struggling to draw out general truths and to generate hypotheses to test. This is especially true when considering the needs of biomedicine. Natural language processing techniques are urgently needed, including aids to link the scientific literature with appropriate knowledge in scientific databases, and to provide textual evidence in hypothesis generation and semantic search. The evidence to generate hypotheses for comprehensive diagnostics, pharmacological interventions, treatments, etc., is hidden in text. In addition, the type of evidence needed is complex, requiring techniques beyond statistical keyword search mechanisms, such as question answering about facts, relations and events of biomedical relevance. The extraction of semantic metadata from text allows advanced semantic search. In my talk, I will discuss such issues and also present some of the biomedical text mining services developed at the UK National Centre for Text Mining addressing the needs of the biomedical community for semantic search and knowledge discovery.
 

告人简介(BIOGRAPHY)1:
Sophia Ananiadou is Director of the UK National Centre for Text Mining (NaCTeM, www.nactem.ac.uk), and full Professor of Computer Science in the School of Computer Science, University of Manchester, UK. She is the main designer of the text-mining tools and services currently used in NaCTeM, i.e.advanced search, information extraction and association mining. Her research projects include text mining-based visualisation of biochemical networks, data integration using text mining, building terminological resources, and automatic event extraction for pathway reconstruction and bioprocess recognition. She also leads work to support scientists in evidence finding via text mining based search, within the UK PubMed Central project, and collaborates with centres in the US and Japan to develop text mining infrastructures for the community.She has been awarded the Daiwa Adrian prize (2004) and the IBM UIMA innovation award (2006, 2007,2008) for her work on interoperability of text-mining tools in biomedicine. She has over 200 publications in journals, conferences and books.
 

报告摘要(ABSTRACT)2:
Although statistical modeling of language has made significant progress, parsing and semantic interpretation of a sentence still remain major challenges in NLP. Careful examination of parsing results reveals that the accuracy of semantically crucial problems such as PP-attachment, identification of antecedents of relative clauses, scope determination of coordinated phrases still remain less than 80%. On the other hand, recently mining technologies have provide NLP with much richer semantic/knowledge resources. In this talk, I will talk about our recent research on parsing with an explicit semantic model.
 

报告人简介(BIOGRAPHY)2:
Junichi Tsujii is Principal Researcher of Microsoft Research Asia (MSRA). Before moving to MSRA (May, 2011), he was Professor of Natural Language Processing in the Department of Computer Science, University of Tokyo and Professor of Text Mining in School of Computer Science, University of Manchester, U.K. . He remains to be scientific advisor of the UK National Centre for Text Mining (NaCTeM) as well as visiting professor of University of Manchester. He has worked since 1973 in Natural Language Processing, Question Answering, Text Mining and Machine Translation. He gave keynote speeches and invited talks at many conferences such as Coling (1986), ACL (1991), ACL (2000), LREC (2004), IWSL (2004), SMBM (2005), ICSB (2006), BioCreative(2007), IEEE-ASRU(2007), BioCreative III (2010), Cicling (2011), NIH workshop (2012) etc. He was President of ACL (Association for Computational Linguistics, 2006) and President of IAMT (International Association for Machine Translation (2002-2004). He is Permanent member of ICCL (International Committee for Computational Linguistics, 1992-).His recent research achievements include (1) Deep semantic parsing based on feature forest model, (2) Efficient search algorithms for statistical parsing, (3) Improvement of estimator for maximum entropy model, and (4) Construction of the gold standard corpus (GENIA) for Bio Text Mining and application of NLP techniques to text mining in the biomedical domain.

 

斯特灵大学的Kamran Farooq 博士来访模式识别国家重点实验室

    2012年2月27日斯特灵大学的Kamran Farooq博士访问了模式识别国家重点实验室,做了题为 “Ontology Driven Cardiovascular Decision Support Framework” 的学术报告,并与实验室师生进行了相关讨论。

报告摘要(ABSTRACT):
The industrial research project funded by the EPSRC and Sitekit Solutions Ltd paved the way for the development of next generation web based clinical decision support systems inspired by the semantic web, machine learning and advanced artificial Intelligence techniques. A novel ontology driven decision support framework was published in the IEEE pervasive health conference; this framework is primarily focussed in the cardiovascular domain however this approach could also be utilised for the risk assessment of other major chronic diseases. The proposed framework consists of a number of key components which will promote ease of reuse, scalable and cost effective web based decision support applications for healthcare authorities. This will allow secondary care authorities to reduce long waiting patients' queues by providing triage and risk assessment facilities as part of preventive care.
This framework also ensures clinical governance through the utilisation of clinical practice guidelines and standardised clinical questionnaires (for patients’ screening and history collection) which have been developed by healthcare informatics pioneer, Professor Warner Slack at the Harvard Medical School.
The proposed cardiovascular decision support framework comprises of an intelligent/user friendly/adaptive information collection system which is being developed using clinically validated questionnaires selected for the Chest Pain case study. Electronic Healthcare Records have also been provided as part of the development of the patient semantic profile component which captures patient’s episodic clinical history in OWL format in order for it to be utilised by the decision support component of the framework. The decision support component is making use of multiple risk assessment guidelines (NICE, ACC) for healthcare organisations in the UK and US. Also intelligent ontology learning and auto generation techniques are being developed as part of the proposed decision support framework which will facilitate the automatic transformation of clinical practice guidelines into risk assessment ontologies.
 

报告人简介(BIOGRAPHY):
Kamran Farooq is a second year PhD student at the University of Stirling, working in the areas of clinical decision support systems, machine learning and Natural Language processing. He is currently involved in the development of an ontology driven cardiovascular decision support/expert system in collaboration with Harvard Medical School, Raigmore Hospital, Inverness, UK, MIT US and the Chinese Academy of Sciences. At the Chinese Academy of Sciences, Kamran's recent work involves developing a domain specific novel taxonomy/ ontological knowledge base to model patient's psychological emotions (stress, anxiety, depression, suicidal etc) which is being integrated with Erik Cambria's sentiment mining and emotion analysis framework. This work is being submitted to the forthcoming ICBEB 2012 (International conference in biomedical engineering and biotechnology in Macau, China). Kamran is also involved in developing clinical predictors using data driven machine learning techniques in association with Professor Kaizhu Haung and his PhD researcher.
Kamran is also looking into the possibility to develop a dynamic knowledge base model by extracting unstructured information through on-line repositories (Wiki etc) and transforming the unstructured textual information into structured text using NLP techniques. This work will extend and apply Microsoft Needleseek framework (open-domain sentiment mining and opinion project) in a clinical domain to develop a dynamic knowledge base in the cardiovascular domain.
Kamran is also discussing the possibility of using clinical data information (patient medical history , doctor notes in the form of free text) to predict clinical outcomes through the electronic healthcare records. This will be useful for the doctors to predict diseases by taking into clinical symptoms towards build up of the diseases (predicting whether patient has history of blood pressure, diabetes, obesity etc).

 

巴黎大学的Sylvain Kahane 教授来访模式识别国家重点实验室

    2012年2月6日巴黎大学的Sylvain Kahane 教授访问了模式识别国家重点实验室,做了题为 “From text to meaning: word order, non projectivity and topological grammar” 的学术报告,并与实验室师生进行了相关讨论。

报告摘要(ABSTRACT):
We present the general architecture of a formal model for natural languages based on Meaning-Text Theory. Three levels of representation are described: the deep syntactic structure (which is a good level for paraphrasing and translation), the surface syntactic level (the classical dependency structure between words) and the topological structure (a surface constituent structure). We focus on the topology-syntax interface, that is the module dedicated to linearization and word order. A CKY parsing algorithm will be sketched. It is shown that its complexity is in O(n^(2k+3)) where k is the number of simultaneous non projective dependencies we have to deal with. Most of these works are joint works with Kim Gerdes (LPP, Université Paris Sorbonne Nouvelle).
 

报告人简介(BIOGRAPHY):
Sylvain Kahane is a professor of linguistics at Université Paris Ouest since 2003. He began his carrier by a PhD in mathematics (application of descriptive set theory to harmonic analysis) and has been assistant professor in mathematics from 1992 to 2003. He has one of the major promotor of the dependency syntax (organisation of the first ACL workshop for Dependency-based NLP in 1998) and the Meaning-text Theory (creation of the biannual international conference on MTT in 2003). He has written more than 60 papers in these fields. His most popular works concern formal dependency grammars: Pseudo-projective dependency parsing, formal topological grammar, Polarized Unification Grammar, Meaning-Text Unification Grammar, bubble tree grammars.

 

 

 

 

更多学术活动>>>

 


                       

如有问题请联系 zlu@nlpr.ia.ac.cn