◇《自然语言理解》

       本课程为中国科学院研究生院专业基础课,共40学时,包括10章内容,涉及自然语言处理的基本概念、基础理论和应用系统实现等各个方面。我从2004年起每年春季在中科院研究生院讲授 这门课程,讲义编写时尽量从“问题的提出、国内外相关工作及研究现状、解决问题的基本思路、具体实现方法和方法分析”等几个层面对自然语言处理研究中的每个问题进行阐述,力求使听众通过本课程的学习不仅对该课程的基本内容有比较全面的了解和认识,而且能够学习到分析问题、解决问题的基本思路和方法,建立科学研究正确的思维方式。

      本课程自2004年春季在中国科学院研究生院开设以来,曾多次在课程评选中被评为优秀课程,优秀课程率仅7%左右。例如, 在2004-2005学年中(春秋两个学期)信息科学与工程学院共开设了889门课程,仅66门课被评为院级优秀课程 ;在2007-2008学年中(春秋两个学期)信息科学与工程学院共开设了892门课程,仅54门被评为院级优秀课程;在2008-2009学年开设的1156门课程中,仅29门课程被评为校级优秀课程 。2009-2010学年本课程再次被评为院级优秀课程,等等。

       2008年5月本人被中国科学院研究生院授予“集中教学突出贡献奖”。2010年获中国科学院“朱李月华优秀教师”奖。

       2013-2014年本课程得到中国科学院大学“精品数字课程”项目的资助。

       2010年“超星学术视频”制作了该课程的授课视频,有兴趣的朋友可以到如下网站观看或下载:http://video.chaoxing.com/serie_400001586.shtml

       2016年获中国科学院教育教学成果奖二等奖。
      自2016年春季学期起,课程名称由《自然语言理解》改为《自然语言处理》。第5章第二讲和第11章部分课件由张家俊博士提供。衷心感谢张家俊老师提供的支持!

      无论如何,由于本人水平有限,时间仓促,讲义中难免存在疏漏甚至错误。我衷心地欢迎各位同行、专家和同学以任何方式对我的讲义提出批评指正,感谢所有选修本课程的同学对我 工作的支持!

     课程讲义

第1章:绪论

第2章:数学基础

第3章:形式语言与自动机

第4章:语料库与词汇知识库

第5章:第一讲- n-元语法
              第二讲- 神经语言模型

第6章:隐马尔柯夫模型

第7章:词法分析与词性标注

第8章:语法理论

第9章:第一讲- 句法分析基本概念,基本分析方法(线图分析法、CYK分析法),基于PCFG的分析方法及其改进,评价方法

              第二讲- 依存句法分析基本概念、方法及实现,短语结构与依存结构的关系,局部句法分析,汉英句法结构特点对比

第10章:语义分析

第11章:第一讲- 机器翻译概论

               第二讲- 统计机器翻译

             第三讲- 神经机器翻译

               第四讲- 语音翻译

               演    示- 语音翻译概念

附录1: 参考文献

附件2: 课程作业

 

◇讲授过的其他课程

    19909月至19951月在山东工业大学工作期间,曾为 计算机系的本科生讲授过如下课程: