赵军,研究员,博士生导师。1998年在清华大学计算机科学与技术系获得博士学位。1998—2002年在香港科技大学计算机科学系做博士后、访问学者。20025月至今在中科院自动化所模式识别国家重点实验室工作。目前主持国家自然科学基金、863计划、北京市自然科学基金等科研项目。研究方向为信息检索、信息提取、网络挖掘、网络知识工程等。在国内外期刊和学术会议上发表论文60多篇,其中包括ACLIJCAICIKMEMNLPCoNLLTREC等顶级国际会议。开发了一系列重要的汉语文本分析工具,其中汉语分词、词性标注和命名实体识别一体化工具、汉语依存分析器等参加863评测、SIGHANCoNLL等权威评测,名列前茅。在国际文本检索大会TREC的“新信息检索”、“高精度检索”等评测中获得优秀的成绩。

刘康,博士,助理研究员。2010年在中国科学院自动化研究所获得博士学位,毕业后应聘留在模式识别国家重点实验室任职助理研究员。攻读博士学位期间,刘康博士参与了国家自然科学基金、国家863课题等科研项目的研究,在ACLCIKM等顶级国际会议上发表论文。以刘康同学为骨干完成的国家自然科学基金项目“汉语文本中观点信息的提取和倾向性分析技术研究”结题评价为“优秀”。

中国科学院自动化研究所免试生录取工作即将开始,本课题组招收免试研究生,欢迎优秀学生加盟,请关注报名网站http://www.ia.cas.cn/qtgn/tzgg/201005/t20100520_2849824.html,具体情况可以电话或EMAIL联系。

联系方式:

       北京中关村东路95 中国科学院自动化研究所 模式识别国家重点实验室

       Telephone: +010 8261-4505

Electronic Mail: jzhao@nlpr.ia.ac.cn


研究兴趣Research Interest

网络信息抽取和集成

         产品信息挖掘和集成

         百科知识挖掘和集成

         信息服务和知识服务

信息检索

         Community QA中问答对的质量评价

        Community QA中根据已有的问答为新提问自动寻找和生成合适的答案。

文本分析

         实体识别

         概念实例化

         句法分析

         语义分析

学术任职Academic Activities

?  SIGHAN, Special Interest Group of the Association for Computational LinguisticsInformation Officer (2003-2006

?  Asian Language Resource Committee under Asian Federation of Natural Language Processing, Member, (2003-)

?  中国中文信息学会计算语言学专业委员会,委员,(2003-

?  中国中文信息学会信息检索与内容安全专业委员会,委员,(2006-

?  《中文信息学报》,编委,(2006-

?  全国术语标准化技术委员会,委员,(2004-

?  国际顶级会议SIGIREMNLPCOLINGAIRS等的程序委员会委员

承担项目 Projects

1.中国出版集团科研项目:百科在线工程(2008-2011

2.  国家自然科学基金项目:基于Web知识挖掘与融合的命名实体消歧技术研究(610701062011-2013

3.  国家自然科学基金项目:汉语依存分析的概率化决策动作模型及自适应技术研究(608750412009-2011

4.   863项目:汉英双语命名实体对应和术语对应的获取技术研究(2006AA01Z1442006-2009

5.  国家自然科学基金项目:汉语文本中观点信息的提取和倾向性分析技术研究(606730422006-2009

6.  国家自然科学基金项目:多语言智能文本处理中基于主题语义空间的文本表示研究 603720162004-2006

7.  北京市自然科学基金项目:面向异构WEB信息源的汉语问答式检索技术研究 (4052027)

8.  北京市自然科学基金项目:面向信息安全的网络文本分析技术研究 (4073043)

9.  中国大百科全书出版社科研项目:百科在线——百科全书的自动标引和问答式知识服务平台建设

10.  国际合作项目(富士通研究开发中心有限公司):汉语产品名识别和标注工具的研发

11.  国际合作项目(富士通研究开发中心有限公司):汉语分词、词性标注和命名实体标注软件工具的研发

12.  国家重点基础研究发展规划项目(973)子项:中文语言资源联盟的建设 (G1998030501A-06)

以汉语为核心的信息提取平台(tools

该平台面向以汉语为核心的信息提取和内容服务的应用要求,系统地研发文本分析和信息提取的关键技术和工具,建设相关语言资源。目前已经开发出的工具包括:汉语分词、词性标注、命名实体识别和标注、依存分析器、时间词的检测和规范化处理等,这些工具已经授权给总参、国家语言资源监测与研究中心、富士通研究开发中心有限公司、北京百科在线网络出版有限公司等多家单位使用。正在开发的工具包括:汉语术语识别、汉英命名实体翻译、汉英术语翻译、产品名识别、产品信息抽取、百科信息抽取等;已经建设的语言资源包括:通用词表、多语言命名实体库、汉语命名实体标注语料、产品名标注语料、汉英双语句子对齐语料库等。

?  现代汉语自动分词、词性标记和命名实体标注工具

   ??该工具参加2004863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。该工具参加2004863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。在2006年和2007年被国家语委重大项目“中国语言生活状况报告”所采用,由国家语言资源监测与研究中心负责对平面媒体、有声媒体、网络媒体三种类型的大规模真实语料(2006年为909,429,700字符次,2007年为1,170,367,879字符次)进行切分和标注,性能良好,运行稳定。该工具也于2007年被新加坡国立大学采用,用于“基于大规模华语语料库的新加坡常用字词调查”项目,体现了在不同题材和体裁语料库上的鲁棒性和稳定性。

?  汉语依存句法分析工具

该依存句法分析器以决策方法为基本框架,并基于“决策序列符合马尔可夫性”的假设,对整体分析过程进行建模,提高了传统的决策方法的性能。该工具参加了CoNLL-2007的多语言依存句法分析Shared Task的评测,共有23个系统参加评测,该工具在汉语分析评测中名列第5。排名前5的系统的LASLabeled Attached Score)得分分别是84.6983.8483.5182.7782.64,可以看出,我们的系统的分析正确率比第1名有两个百分点的下降。但是,排名第一和第三的系统所采用的方法都是ensemble-based方法,即多分析器投票的方法,在速度和效率方面我们的系统有优势。

?  时间检测和规范化处理工具

时间词是文本中表达信息的重要单位,是关键信息的载体,是事件提取的比不可少的元素。该系统是以中文TIMEX2为规范开发的中文时间词语检测和规范化处理工具。测试表明,该系统目前对时间词的ExtentValue识别的F-measure分别达到了94.5%86.5%,并具有良好的扩展性。

?  命名实体和领域术语的翻译工具

命名实体和领域术语是文本中承载信息的最重要的语言单位,命名实体和领域术语的翻译和多语言信息处理的核心技术之一。本课题组在国家863课题的支持下,正在研发汉英命名实体翻译和领域术语翻译工具。命名实体的翻译和领域术语翻译涉及到音译的问题、意译的问题、习惯用法的问题等,单纯利用传统的及其翻译方法性能很有限。我们的核心技术是利用网络挖掘方法和统计翻译互动进行翻译。目前已经完成几个模块,整体的翻译工具将与2008年底发布。

研究生 Students

在读:

齐振宇:直博士,Instance extraction from the Web

    黎:博士生, Query analysis

周光有:直博生,Chinese dependency parsing and semantic labeling

    涛:博士生,Attribute extraction and integration

徐立恒:直博生,Ontology mapping

   洋:直博生,Ontology mapping

   芳:博士生,   Information extraction and integration

来斯惟:直博生,Information extraction and integration

毕业研究生(以毕业时间为序):

程 葳(博士):《限定领域内汉英口语翻译方法研究》,20037月毕业,

(北京城市学院,教授,人工智能研究所负责人)

金千里(硕士):《面向文本检索的语义计算》,20047月毕业,

IBM China Company Limited, China Software Development Lab, Software Engineer)

徐 晋(硕士):《鲁棒性信息检索技术研究》,20057月毕业,

Syracuse University, New York City, USA,博士研究生)

刘非凡(博士):《汉语文本信息抽取关键技术研究》,20067月毕业,

Associate ScientistHealth Care Informatics College of Health Sciences

University of Wisconsin MilwaukeeUSA

吴友政(博士):《汉语问答系统关键技术研究》,20067月毕业,

Advanced Telecommunications Research Institute International, Japan,博士后)

吕碧波(硕士):《提高信息检索准确性的技术研究》,20067月毕业,

(北京曙光公司)

蔡勋梁(硕士),《基于多层条件随机场模型的自然语言序列标注研究》,20077月毕业,

Baidu.com);

王 根(硕士),《文本倾向性分析技术研究》,20077月毕业,

Northeastern UniversityUSA,博士生);

陆 敏(硕士),《汉英实体翻译与实体对抽取技术研究》,20077月毕业,

(美国纽约留学)

段湘煜(博士),《基于分析动作建模的汉语依存句法分析研究》,20083月毕业,

(新加坡I2R/南洋理工大学,博士后)

       邹 波(硕士),《英汉人名音译方法研究》,20087月毕业,

                                       (空中网)

杨 帆(硕士), 《借助网络信息的实体翻译技术研究》,20097月毕业,

                                Baidu.com);                 

刘 康(博士)《文本倾向性分析技术研究》,20107月毕业,

                                (中国科学院自动化研究所模式识别国家重点实验室);           

韩先培(博士)《文本倾向性分析技术研究》,20107月毕业,

                                (中国科学院软件研究所);           

论文、专利、软件著作权和标准

主要论文:

1)        ZHAO Jun, LIU Feifan, Product Named Entity Recognition in Chinese Texts, International Journal of Language Resource and Evaluation (LRE), Vol.42 No.2 132-152, 2008 (SCI).

2)        ZHAO Jun, LIU Feifan, Linguistic Theory Based Contextual Evidence Mining for Statistical Chinese Co-reference Resolution, In: Journal of Computer Science and Technology (JCST), Vol.22 No.4:608-617, 2007 (SCI)

3)        HAN Xianpei, ZHAO Jun, Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity Disambiguation, In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL- 2010), Uppsala, Sweden, July 1116, 2010.(计算语言学领域排名第1EIC value=0.9,录用率20%

4)        HAN Xianpei, ZHAO Jun, Topic-Driven Web Search Result Organization by Leveraging Wikipedia Semantic KnowledgeAccepted by: The 19th ACM Conference on Information and Knowledge Management (CIKM 2010), Toronto, Canada, October 26-30, 2010 (信息检索和知识工程国际顶级会议)

5)        YANG Fan, ZHAO Jun, LIU Kang, A Chinese-English Organization Name Translation System Using Heuristic Web Mining and Asymmetric Alignment, In: Proceedings of Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP 2009), Singapore, August 2 - 7, 2009 (计算语言学领域排名第1EIC value=0.9,录用率20%

6)        YANG Fan, ZHAO Jun, ZOU Bo, LIU Kang, Chinese-English Backward Transliteration Assisted with Mining Monolingual Web Pages, In: Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-2008), Columbus, OH, June 15-20, 2008  (计算语言学领域排名第1EIC value=0.9,录用率20%

7)        Xianpei HAN, Jun ZHAO. Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge. In: Proceedings of The 18th ACM Conference on Information and Knowledge Management (CIKM 2009), Hong Kong, November 2-6, 2009 (信息检索和知识工程国际顶级会议,EIC value=0.9, Acceptance rate=14.5%

8)        Kang LIU, Jun ZHAO. Cross-Domain Sentiment Classification using a Two-Stage Method. In: Proceedings of The 18th ACM Conference on Information and Knowledge Management (CIKM 2009), Hong Kong, November 2-6, 2009 (信息检索和知识工程国际顶级会议,EIC value=0.9

9)        Duan Xiangyu, Zhao Jun, Word Sense Disambiguation through Sememe Labeling, In: Proceedings of Twentieth International Joint Conference on Artificial Intelligence (IJCAI-2007), Hyderabad, India, 2007: 1594-1599   (人工智能领域顶级会议,EIC value=0.96

10)     ZHAO Jun, LIU Kang, WANG Gen, Adding Redundant Features for CRFs-based Sentence Sentiment Classification, In: Proceedings of The Conference on Empirical Methods in Natural Language Processing (EMNLP 2008), Waikiki, Honolulu, Hawaii, 2008 (计算语言学国际顶级会议,录用率18%

11)     Youzheng Wu, Jun Zhao, Xu BoChinese Named Entity Recognition Model Based on Multiple Features. In: Proceedings of the Joint Conference of Human Language Technology and Empirical Methods in Natural Language Processing (HLT/EMNLP 2005), Vancouver, 2005:427~434

12)     Xiangyu Duan, Jun Zhao, Probabilistic Parsing Action Models for Multi-Lingual Dependency Parsing, In: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL-2007), Prague, Czech Republic, 940-946, 2007 (计算语言学国际顶级会议,录用率18%左右)

13)     Xiangyu Duan, Jun Zhao, Probabilistic Models for Action-based Chinese Dependency Parsing, In: Proceedings of the 18th European Conference on Machine Learning and the 11th European Conference on Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD-2007), Warsaw, Poland, September 17-21, 2007 (机器学习国际重要会议,录用率: 19.93%

14)     Xiangyu Duan, Jun Zhao, Ungreedy Methods for Chinese Deterministic Dependency Parsing. In: Proceedings of Twenty-second Conference of Association for Artificial Intelligence Student Session (AAAI-2007). Vancouver, Canada, July 22-23, 2007 (人工智能领域国际顶级会议,EIC value=0.99

15)     赵军,命名实体识别、排歧和多语言关联,《中文信息学报》(特约论文),第23卷第2 2009:3-17

国家发明专利

1)        一种汉英反向音译方法及装置(申请号:200810113294.9)(中国科学院自动化研究所,赵军,杨帆,邹波)

2)        一种借助网络知识辅助的汉英机构名翻译方法及装置(200810222335.2)(中国科学院自动化研究所,赵军,杨帆)

国家软件著作权登记

1)        现代汉语自动分词、词性标记和命名实体标注工具(登记号:2008SRBJ0833)(中国科学院自动化研究所,赵军,吴友政,杨帆)

2)        汉语依存句法分析工具(登记号:2008SRBJ1154)(中国科学院自动化研究所,赵军,段湘煜)

国家标准立项

《百科知识描述体系》,由中国标准化研究院立项,(中科院自动化所、北京大学、中国大百科全书出版社、中国标准化研究院)

 

 

最 新 动 态

2011218日,课题组独立完成的两篇论文被ACL-HLT2011长文录用。ACL(The 49th Annual Meeting of the Association for Computational Linguistics)是国际计算语言学领域排名第一的国际会议。ACL-HLT2011将于2011619-24日在美国波特兰举行。大会共收到投稿634篇,录用regular论文164篇,录取率为25.9%,其中oral presentation的录用率为18.3%。两篇论文是PHRASE-BASED TRANSLATION MODEL FOR QUESTION RETRIEVAL IN COMMUNITY QUESTION ANSWER ARCHIVES (Author: Guangyou Zhou, Li Cai, Jun Zhao and Kang Liu)EXPLOITING WEB-DERIVED SELECTIONAL PREFERENCE TO IMPROVE STATISTICAL DEPENDENCY PARSING  (Author: Guangyou Zhou, Jun Zhao & Kang Liu)。此外,2010年毕业的博士生韩先培的论文A GENERATIVE ENTITY-MENTION MODEL FOR LINKING ENTITIES WITH KNOWLEDGE BASE也被长文录用。这是本课题组连续四年在ACL上发表论文。

2010819日,课题组申请的国家自然科学基金项目 “基于Web知识挖掘与融合的命名实体消歧技术研究(61070106)”获得批准立项。

2010818日,课题组承担的国家自然科学基金项目 “汉语文本中观点信息的提取和倾向性分析技术研究”结题,结题评价为优秀。

2010717日,论文“Topic-Driven Web Search Result Organization by Leveraging Wikipedia Semantic Knowledge (韩先培、赵军)”被CIKM-2010 录用。CIKM是国际信息检索和知识工程领域的顶级会议,将于201010月在多伦多召开。

2010622日,课题组承担的“百科在线工程二期项目”通过由中国出版集团组织的验收。来自北京大学、清华大学、中国科学院、中国中文信息学会、国家新闻出版署、中国出版集团和中国大百科全书出版社等单位的专家对项目成果进行了认真讨论,充分肯定了课题组在百科知识库建设和知识服务方面的研究成果,并对百科在线工程的下一期工作提出了建设性的意见。

20106月,刘康同学通过博士论文答辩,论文题目是“文本倾向性分析技术研究”,论文得到答辩委员会的一致好评。在读期间,刘康同学参与了国家863课题、国家自然科学基金等科研项目,在ACLCIKM等顶级国际会议上发表论文。毕业后,刘康同学应聘留在中国科学院自动化研究所模式识别国家重点实验室任职助理研究员。

20106月,韩先培同学通过博士论文答辩,论文题目是“基于语义知识挖掘与融合的实体消歧技术研究”,论文得到答辩委员会的一致好评。在读期间,韩先培同学参与了国家863课题、中国出版集团等科研项目,在ACLCIKM等顶级国际会议上发表论文。毕业后,韩先培同学应聘去中国科学院软件研究所任职助理研究员。

2010420日,论文“Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity Disambiguation(韩先培,赵军)”被计算语言学领域最高学术会议ACL-2010长文录用。这是本课题组连续三年在ACL上发表论文。ACL-2010将于711-16日在瑞典举行。

2009727日,论文“Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge(韩先培、赵军)”被CIKM-2009 录用为Full Regular Oral paper; Cross-Domain Sentiment Classification using a Two-Stage Method (刘康、赵军)”录用为Short paperCIKM是国际信息检索和知识工程领域的顶级会议,CIKM-2009的录用率为full papers (14.5%)short paper (20.2%)

200965日,杨帆同学通过硕士论文答辩,论文《借助网络信息的实体翻译技术研究》获得答辩委员会老师的好评。杨帆同学毕业后去百度任职。

2009415日,论文Chinese-English Organization Name Translation System Using Heuristic Web Mining and Asymmetric Alignment(杨帆赵军,刘康)被国际顶级会议ACL-2009录用为full regular paper

20081025日,刘康同学的论文“基于‘产生/判别’混合模型的分类器领域适应性问题研究”获得2008年全国模式识别学术会议最佳学生论文奖。

2008822日,论文“Adding Redundant Features for CRFs-based Sentence Sentiment Classification”(赵军、刘康、王根被国际顶级会议EMNLP-2008会议录用为full regular paper (oral)。会议将于20081025-28日在美国夏威夷召开。

2008229日,论文“Chinese-English Backward Transliteration Assisted with Mining Monolingual Web Pages”(杨帆、赵军、邹波、刘康、刘非凡被国际顶级会议ACL-2008会议录用为full regular paper

 


如有问题请联系 jzhao@nlpr.ia.ac.cn