赵军,研究员,博士生导师。1998年在清华大学计算机科学与技术系获得博士学位。1998年—2002年在香港科技大学计算机科学系做博士后、访问学者。2002年5月至今在中科院自动化所模式识别国家重点实验室工作。目前主持国家自然科学基金、863计划、北京市自然科学基金等科研项目。研究方向为信息检索、信息提取、网络挖掘、网络知识工程等。在国内外期刊和学术会议上发表论文60多篇,其中包括ACL、IJCAI、CIKM、EMNLP、CoNLL、TREC等顶级国际会议。开发了一系列重要的汉语文本分析工具,其中汉语分词、词性标注和命名实体识别一体化工具、汉语依存分析器等参加863评测、SIGHAN、CoNLL等权威评测,名列前茅。在国际文本检索大会TREC的“新信息检索”、“高精度检索”等评测中获得优秀的成绩。
刘康,博士,助理研究员。2010年在中国科学院自动化研究所获得博士学位,毕业后应聘留在模式识别国家重点实验室任职助理研究员。攻读博士学位期间,刘康博士参与了国家自然科学基金、国家863课题等科研项目的研究,在ACL、CIKM等顶级国际会议上发表论文。以刘康同学为骨干完成的国家自然科学基金项目“汉语文本中观点信息的提取和倾向性分析技术研究”结题评价为“优秀”。
中国科学院自动化研究所免试生录取工作即将开始,本课题组招收免试研究生,欢迎优秀学生加盟,请关注报名网站http://www.ia.cas.cn/qtgn/tzgg/201005/t20100520_2849824.html,具体情况可以电话或EMAIL联系。
联系方式:
北京中关村东路95号 中国科学院自动化研究所 模式识别国家重点实验室
Telephone: +010
8261-4505
Electronic Mail: jzhao@nlpr.ia.ac.cn
研究兴趣(Research Interest)
网络信息抽取和集成
−
产品信息挖掘和集成
−
百科知识挖掘和集成
−
信息服务和知识服务
信息检索
−
Community QA中问答对的质量评价
−
Community QA中根据已有的问答为新提问自动寻找和生成合适的答案。
文本分析
−
实体识别
−
概念实例化
−
句法分析
−
语义分析
学术任职(Academic Activities)
? SIGHAN, Special Interest Group of the Association for
Computational Linguistics,Information Officer (2003-2006
? Asian Language Resource Committee under Asian Federation of Natural
Language Processing, Member, (2003-)
? 中国中文信息学会计算语言学专业委员会,委员,(2003-)
? 中国中文信息学会信息检索与内容安全专业委员会,委员,(2006-)
? 《中文信息学报》,编委,(2006-)
? 全国术语标准化技术委员会,委员,(2004-)
? 国际顶级会议SIGIR、EMNLP、COLING、AIRS等的程序委员会委员
承担项目 (Projects)
1.中国出版集团科研项目:百科在线工程(2008-2011)
2. 国家自然科学基金项目:基于Web知识挖掘与融合的命名实体消歧技术研究(61070106,2011-2013)
3. 国家自然科学基金项目:汉语依存分析的概率化决策动作模型及自适应技术研究(60875041,2009-2011)
4.
863项目:汉英双语命名实体对应和术语对应的获取技术研究(2006AA01Z144,2006-2009)
5. 国家自然科学基金项目:汉语文本中观点信息的提取和倾向性分析技术研究(60673042,2006-2009)
6. 国家自然科学基金项目:多语言智能文本处理中基于主题语义空间的文本表示研究 (60372016,2004-2006)
7. 北京市自然科学基金项目:面向异构WEB信息源的汉语问答式检索技术研究
(4052027)
8. 北京市自然科学基金项目:面向信息安全的网络文本分析技术研究
(4073043)
9. 中国大百科全书出版社科研项目:百科在线——百科全书的自动标引和问答式知识服务平台建设
10. 国际合作项目(富士通研究开发中心有限公司):汉语产品名识别和标注工具的研发
11. 国际合作项目(富士通研究开发中心有限公司):汉语分词、词性标注和命名实体标注软件工具的研发
12. 国家重点基础研究发展规划项目(973)子项:中文语言资源联盟的建设
(G1998030501A-06)
以汉语为核心的信息提取平台(tools)
该平台面向以汉语为核心的信息提取和内容服务的应用要求,系统地研发文本分析和信息提取的关键技术和工具,建设相关语言资源。目前已经开发出的工具包括:汉语分词、词性标注、命名实体识别和标注、依存分析器、时间词的检测和规范化处理等,这些工具已经授权给总参、国家语言资源监测与研究中心、富士通研究开发中心有限公司、北京百科在线网络出版有限公司等多家单位使用。正在开发的工具包括:汉语术语识别、汉英命名实体翻译、汉英术语翻译、产品名识别、产品信息抽取、百科信息抽取等;已经建设的语言资源包括:通用词表、多语言命名实体库、汉语命名实体标注语料、产品名标注语料、汉英双语句子对齐语料库等。
? 现代汉语自动分词、词性标记和命名实体标注工具
??该工具参加2004年863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。该工具参加2004年863评测,在简体汉语人名、地名、机构名识别三项任务中获得第一。在2006年和2007年被国家语委重大项目“中国语言生活状况报告”所采用,由国家语言资源监测与研究中心负责对平面媒体、有声媒体、网络媒体三种类型的大规模真实语料(2006年为909,429,700字符次,2007年为1,170,367,879字符次)进行切分和标注,性能良好,运行稳定。该工具也于2007年被新加坡国立大学采用,用于“基于大规模华语语料库的新加坡常用字词调查”项目,体现了在不同题材和体裁语料库上的鲁棒性和稳定性。
? 汉语依存句法分析工具
该依存句法分析器以决策方法为基本框架,并基于“决策序列符合马尔可夫性”的假设,对整体分析过程进行建模,提高了传统的决策方法的性能。该工具参加了CoNLL-2007的多语言依存句法分析Shared
Task的评测,共有23个系统参加评测,该工具在汉语分析评测中名列第5。排名前5的系统的LAS(Labeled
Attached Score)得分分别是84.69,83.84,83.51,82.77,82.64,可以看出,我们的系统的分析正确率比第1名有两个百分点的下降。但是,排名第一和第三的系统所采用的方法都是ensemble-based方法,即多分析器投票的方法,在速度和效率方面我们的系统有优势。
? 时间检测和规范化处理工具
时间词是文本中表达信息的重要单位,是关键信息的载体,是事件提取的比不可少的元素。该系统是以中文TIMEX2为规范开发的中文时间词语检测和规范化处理工具。测试表明,该系统目前对时间词的Extent和Value识别的F-measure分别达到了94.5%和86.5%,并具有良好的扩展性。
? 命名实体和领域术语的翻译工具
命名实体和领域术语是文本中承载信息的最重要的语言单位,命名实体和领域术语的翻译和多语言信息处理的核心技术之一。本课题组在国家863课题的支持下,正在研发汉英命名实体翻译和领域术语翻译工具。命名实体的翻译和领域术语翻译涉及到音译的问题、意译的问题、习惯用法的问题等,单纯利用传统的及其翻译方法性能很有限。我们的核心技术是利用网络挖掘方法和统计翻译互动进行翻译。目前已经完成几个模块,整体的翻译工具将与2008年底发布。
研究生 (Students)
在读:
齐振宇:直博士,Instance
extraction from the Web
蔡 黎:博士生, Query
analysis
周光有:直博生,Chinese dependency parsing and semantic labeling
张 涛:博士生,Attribute
extraction and integration
徐立恒:直博生,Ontology mapping
刘 洋:直博生,Ontology
mapping
刘 芳:博士生, Information extraction and
integration
来斯惟:直博生,Information extraction and integration
毕业研究生(以毕业时间为序):
程 葳(博士):《限定领域内汉英口语翻译方法研究》,2003年7月毕业,
(北京城市学院,教授,人工智能研究所负责人)
金千里(硕士):《面向文本检索的语义计算》,2004年7月毕业,
(IBM
China Company Limited, China Software Development Lab, Software Engineer)
徐 晋(硕士):《鲁棒性信息检索技术研究》,2005年7月毕业,
(Syracuse
University, New York City, USA,博士研究生)
刘非凡(博士):《汉语文本信息抽取关键技术研究》,2006年7月毕业,
(Associate
Scientist,Health
Care Informatics ,College of Health Sciences,
University of Wisconsin Milwaukee,USA)
吴友政(博士):《汉语问答系统关键技术研究》,2006年7月毕业,
(Advanced
Telecommunications Research Institute International, Japan,博士后)
吕碧波(硕士):《提高信息检索准确性的技术研究》,2006年7月毕业,
(北京曙光公司)
蔡勋梁(硕士),《基于多层条件随机场模型的自然语言序列标注研究》,2007年7月毕业,
(Baidu.com);
王 根(硕士),《文本倾向性分析技术研究》,2007年7月毕业,
(Northeastern
University,USA,博士生);
陆 敏(硕士),《汉英实体翻译与实体对抽取技术研究》,2007年7月毕业,
(美国纽约留学)
段湘煜(博士),《基于分析动作建模的汉语依存句法分析研究》,2008年3月毕业,
(新加坡I2R/南洋理工大学,博士后)
邹 波(硕士),《英汉人名音译方法研究》,2008年7月毕业,
(空中网)
杨 帆(硕士), 《借助网络信息的实体翻译技术研究》,2009年7月毕业,
(Baidu.com);
刘 康(博士),《文本倾向性分析技术研究》,2010年7月毕业,
(中国科学院自动化研究所模式识别国家重点实验室);
韩先培(博士),《文本倾向性分析技术研究》,2010年7月毕业,
(中国科学院软件研究所);
论文、专利、软件著作权和标准
主要论文:
1)
ZHAO Jun, LIU Feifan,
Product Named Entity Recognition in Chinese Texts, International Journal of
Language Resource and Evaluation (LRE),
Vol.42 No.2 132-152, 2008 (SCI).
2)
ZHAO Jun, LIU Feifan,
Linguistic Theory Based Contextual Evidence Mining for Statistical Chinese
Co-reference Resolution, In: Journal of Computer Science and Technology (JCST), Vol.22 No.4:608-617, 2007 (SCI)
3)
HAN Xianpei, ZHAO Jun,
Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity
Disambiguation, In: Proceedings of the 48th Annual Meeting of the
Association for Computational Linguistics (ACL-
2010), Uppsala, Sweden, July 11–16, 2010.(计算语言学领域排名第1,EIC value=0.9,录用率20%)
4)
HAN Xianpei, ZHAO Jun,
Topic-Driven Web Search Result Organization by Leveraging Wikipedia
Semantic Knowledge,Accepted by: The 19th ACM Conference on Information and Knowledge
Management (CIKM 2010), Toronto, Canada,
October 26-30, 2010 (信息检索和知识工程国际顶级会议)
5)
YANG Fan, ZHAO Jun, LIU
Kang, A Chinese-English Organization Name Translation
System Using Heuristic Web Mining and Asymmetric Alignment, In:
Proceedings of Joint Conference of the 47th Annual Meeting of the
Association for Computational Linguistics and the 4th International Joint
Conference on Natural Language Processing of the Asian Federation of
Natural Language Processing (ACL-IJCNLP 2009),
Singapore, August 2 - 7, 2009 (计算语言学领域排名第1,EIC value=0.9,录用率20%)
6)
YANG Fan, ZHAO Jun, ZOU
Bo, LIU Kang, Chinese-English Backward Transliteration Assisted with Mining
Monolingual Web Pages, In: Proceedings of the 46th Annual Meeting of the
Association for Computational Linguistics: Human Language Technologies (ACL-2008), Columbus, OH, June 15-20, 2008 (计算语言学领域排名第1,EIC value=0.9,录用率20%)
7)
Xianpei HAN, Jun ZHAO.
Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge. In:
Proceedings of The 18th ACM Conference on Information and Knowledge
Management (CIKM 2009), Hong Kong,
November 2-6, 2009 (信息检索和知识工程国际顶级会议,EIC value=0.9, Acceptance rate=14.5%)
8)
Kang LIU, Jun ZHAO.
Cross-Domain Sentiment Classification using a Two-Stage Method. In:
Proceedings of The 18th ACM Conference on Information and Knowledge Management
(CIKM 2009), Hong Kong, November 2-6,
2009 (信息检索和知识工程国际顶级会议,EIC value=0.9)
9)
Duan Xiangyu, Zhao Jun,
Word Sense Disambiguation through Sememe Labeling, In: Proceedings of
Twentieth International Joint Conference on Artificial Intelligence (IJCAI-2007), Hyderabad, India, 2007:
1594-1599 (人工智能领域顶级会议,EIC value=0.96)
10) ZHAO Jun, LIU Kang, WANG Gen, Adding Redundant Features for CRFs-based
Sentence Sentiment Classification, In: Proceedings of The Conference on
Empirical Methods in Natural Language Processing (EMNLP 2008),
Waikiki, Honolulu, Hawaii, 2008 (计算语言学国际顶级会议,录用率18%)
11) Youzheng Wu, Jun Zhao, Xu Bo,Chinese Named Entity Recognition Model Based on Multiple Features. In: Proceedings
of the Joint Conference of Human Language Technology and Empirical Methods
in Natural Language Processing (HLT/EMNLP 2005),
Vancouver,
2005:427~434
12) Xiangyu Duan, Jun Zhao, Probabilistic Parsing Action Models for Multi-Lingual
Dependency Parsing, In: Proceedings of the 2007 Joint Conference on
Empirical Methods in Natural Language Processing and Computational Natural
Language Learning (EMNLP-CoNLL-2007),
Prague, Czech Republic, 940-946, 2007 (计算语言学国际顶级会议,录用率18%左右)
13)
Xiangyu Duan, Jun Zhao,
Probabilistic Models for Action-based Chinese Dependency Parsing, In:
Proceedings of the 18th European Conference on Machine Learning and the
11th European Conference on Principles and Practice of Knowledge Discovery
in Databases (ECML/PKDD-2007), Warsaw,
Poland, September 17-21, 2007 (机器学习国际重要会议,录用率: 19.93%)
14)
Xiangyu Duan, Jun Zhao,
Ungreedy Methods for Chinese Deterministic Dependency Parsing. In:
Proceedings of Twenty-second Conference of Association for Artificial
Intelligence Student Session (AAAI-2007).
Vancouver, Canada, July 22-23, 2007 (人工智能领域国际顶级会议,EIC value=0.99)
15)
赵军,命名实体识别、排歧和多语言关联,《中文信息学报》(特约论文),第23卷第2期 2009:3-17
国家发明专利
1)
一种汉英反向音译方法及装置(申请号:200810113294.9)(中国科学院自动化研究所,赵军,杨帆,邹波)
2)
一种借助网络知识辅助的汉英机构名翻译方法及装置(200810222335.2)(中国科学院自动化研究所,赵军,杨帆)
国家软件著作权登记
1)
现代汉语自动分词、词性标记和命名实体标注工具(登记号:2008SRBJ0833)(中国科学院自动化研究所,赵军,吴友政,杨帆)
2)
汉语依存句法分析工具(登记号:2008SRBJ1154)(中国科学院自动化研究所,赵军,段湘煜)
国家标准立项
《百科知识描述体系》,由中国标准化研究院立项,(中科院自动化所、北京大学、中国大百科全书出版社、中国标准化研究院)
|