当前位置:首页 > RESUME- 哈工大社会计算与信息检索研究中心- 哈尔滨工业大学
李维刚的简历
哈尔滨工业大学
计算机科学与技术学院
信息检索研究室
地址 哈尔滨工业大学321信箱 计算机科学与技术学院 信息检索研究室,150001 联系方式 电话: 0451-86413683 Ext 805 手机: +86-13936297356 传真: +86-451-86413683 Ext 812 电邮: lee@ir.hit.eu.cn 个人信息 ? 出生日期: 5月8日, 1979 ? 性别: 男 ? 健康情况: 良好 ? 婚姻状况: 已婚 ? 国籍:中国 研究兴趣 ? 复述技术 ? 机器翻译 ? 信息检索 ? 信息抽取 ? 自动问答 教育经历 ? 2002-present 博士,哈尔滨工业大学 (计算机应用技术) ? 2000-2002 硕士,哈尔滨工业大学 (焊接专业) 1996-2000 本科,哈尔滨工业大学 (材料加工工程专业) 荣誉奖励 ? 2000-2006 哈尔滨工业大学三好学生(3次) ? 1997-2000 哈尔滨工业大学一等人民奖学金 (1次); 二等人民奖学金(2 次) 论文情况 ? 李维刚, 刘挺, 李生. 多义词复述抽取及在词义消歧上的应用. 自动化学报, 2007, (Submitted) ? Weigang LI, Ting Liu, Sheng Li. Bootstrapping Entity Relation Tuples from the Web. ACM Transactions on Asian Language Information Processing, 2007, (Submitted) ? 李维刚, 刘挺, 李生. 基于网络挖掘的实体关系元组自动获取. 电子学报, 2007, (Accepted) ? 李维刚, 刘挺, 李生. 基于双语语料库的短语复述实例获取研究. 全国第七届计算语言学联合学术会议, 2007, (被推荐发表在 中文信息信息学报,2007) (Accepted) ? Weigang Li, Ting Liu and Sheng Li. Bootstrapping for Extracting Relations from Large Corpora. Journal of Electronics (China). 2006, (Accepted) ? 李维刚, 刘挺, 张宇, 李生. 基于长度和位置信息的双语句子对齐方法. 哈尔滨工业大学学报, 2006, (Accepted) ? 刘挺, 李维刚, 张宇, 李生. 复述技术研究综述, 中文信息学报, 2006, 40(4): 25-33 PDF ? Weigang Li, Ting Liu, Yu Zhang, Sheng Li and Wei He. Automated generalization of phrasal paraphrases from the Web. IJCNLP 2005,Third International Workshop on Paraphrasing (IWP2005), 2005 PDF PPT ? Weigang Li, Ting Liu, Sheng Li. Combining Sentence Length with Location Information to Align Monolingual Parallel Texts. Asia Information Retrieval symposium (AIRS2004), 2004, pages 71-77 (Lecture Notes in Computer Science, Volume 3411/2005, Pages118-128) PDF ? Weigang Li, Ting Liu, Zhen Wang, Sheng LI. Aligning Bilingual Corpora Using Sentences Location Information. Sighan2004, 2004, PDF ? 李维刚, 刘挺, 王震, 李生. 双语语料库段落重组对齐方法研究. 全国第七届计算语言学联合学术会议, 2003, PDF PPT 毕业论文 ? 中文复述实例与复述模板抽取技术研究(博士论文) 导师:李生教授 刘挺教授 ? 2024-T4Al搅拌摩擦焊焊缝成型工艺及力学性能研究(硕士论文) 导师:杨士勤教授 ? 高清晰度弧焊图像的采集和处理(本科论文) 导师:杨春利教授 教学经验 ? 2004, 哈尔滨工业大学·中国, 助教 ? 计算机导论 ? C语言编程 ? 2001, 哈尔滨工业大学·中国, 年级辅导员助理 ? 学生管理 参与项目 ? 2006-, 中文短语及简单句的复述技术研究, 60503072, 国家自然科学基金面上项目[主笔申请人] ? 2006-, 网页地理与新闻信息抽取, NEC中国研究院 ? 2005-2006, 英文复述技术研究, 微软亚洲研究院 ? 2005-, 问答式信息检索技术理论与方法, 60435020, 国家自然科学基金重点项目“问题理解与答案抽取”子课题 ? 2004-2006, 金山在线客服系统, 北京金山软件公司 ? 2003-2004, 开放域问答式信息检索技术研究, 国家自然科学基金 ? 2003,双语语料库加工, 东芝中国研发中心 ? 2002-2003,英语辅助写作系统 英语技能 ? 英语六级 ? 流利的读写 其他信息 ? 性格开朗 ? 热爱运动 期望职位 ? 和自然语言处理、机器翻译、信息检索、信息抽取、网络挖掘等领域相关的研究职位 附:博士论文摘要 [中文复述实例与复述模板抽取技术研究]
复述是自然语言中非常普遍的一个现象,它集中反映了语言的多样性,已经被应用到信息检索、自动问答、信息抽取、自动文摘、机器翻译等多个领域。本文从相关语料库出发,运用多种自然语言处理技术和数据挖掘方法,对复述实例和复述模板的抽取进行了深入研究。主要研究内容包括以下几个方面:
1. 复述研究的起点是复述实例语料库的构建。本文基于两种类型的相关语料库,名著的多个译本构成的篇章级单语平行语料库和对同一事件的不同新闻报道组成的可比新闻语料库,分别从中抽取句子级的复述实例。
2. 与句子级复述实例相比,短语级复述实例具有更细粒度的知识,因此本文针对短语级复述实例的获取进行了专门的研究。本文分别从两种语料库中抽短语复述实例:一种是对齐的句子级复述实例语料库,一种是汉英双语平行语料库。
3. 复述模板具有更强的抽象与表达能力,能够被用来生成大量的复述实例。对于复述模板的研究主要存在两个问题,第一是复述模板的表示,第二是复述模板的抽取。本文在分析了多种复述模板表示方法的基础之上,提出了一种基于语义信息的复述模板表示方法,该方法结合一部中文语义词典《同义词词林(扩展版)》,利用互联网上的丰富信息,对复述实例进行泛化以获取复述模板,并从多个角度对泛化后的复述模板进行了评测。
4. 本文提出了一种面向特定关系的复述模板抽取方法,该方法不需要首先抽取出准确的复述实例,而是面向某一特定关系,只需给定一个简单易得的种子,利用网络挖掘的方法就可以自动抽取出描述该关系的大量模板,这些模板之间由于都具有描述该特定关系的先验知识,因此具备了一种近似的复述模板关系。
本文界定复述研究的对象是短语或者句子的同义现象,需要用到多种自然语言处理的底层技术,因此,自然语言处理各种底层技术的不断发展和成熟,能够为复述技术进一步深入的研究提供基础。反过来,复述研究的成果,也能够有效的促进各种底层技术的发展,最终使计算机更为精确的理解自然语言。
共分享92篇相关文档