新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 研友的交流园地,讨论关于计算机考研的方方面面。
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机理论与工程『 计算机考研交流 』 → 欢迎报考北京大学计算语言研究所 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 2816 个阅读者  浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 欢迎报考北京大学计算语言研究所 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     Supremgoooo 帅哥哟,离线,有人找我吗?
      
      
      等级:大四下学期(考上研究生啦!)
      文章:201
      积分:1872
      门派:XML.ORG.CN
      注册:2006/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Supremgoooo发送一个短消息 把Supremgoooo加入好友 查看Supremgoooo的个人资料 搜索Supremgoooo在『 计算机考研交流 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看Supremgoooo的博客楼主
    发贴心情 欢迎报考北京大学计算语言研究所

    这是一个充满激情的地方.70岁的俞教授在每周的讨论班上激情澎湃,不时博得大家的阵阵喝彩...
    这是一个和谐民主的地方,有时候,教授会谦虚的向同学请教问题...
    这是一个朝气蓬勃的地方,这里研究的领域将来会越来越火...

    NLP核心功课:
    计算语言学(CL)
    机器学习(ML)
    信息检索(IR)

    发展方向:
    搜索引擎
    机器翻译
    人工智能领域等

    没听说源自不了解...msra实习的李同学说:"我在msra期间,发现身边的很多人都是搞这个的..."下面是msra有关NLP的研究领域:

    语料的收集、分类和标注


         建设一个大型文本语料库作为支持统计学习的基础架构,是一项持续的努力。语料可以从各种文件中获取。最近几年,利用互联网获取大规模的语言数据越来越重要。依据主题和写作风格进行文本分类有益于建造一个平衡语料库以及领域相关的语料库。语料库标注则是一项具有挑战性的任务。它包括分词、命名实体识别、词性标注、句法、语义标注、及指代关系的标注。不同的标注工具可以直接应用于很多自然语言的应用。不同标注的语料库可以作为有监督的训练数据,用于学习面向不同用途的各种统计语言模型。

    -------------------------------------------------------------------------------

    统计语言模型及其应用


         研究的目标是获取不同层次的语言知识;并且对线性符号序列和结构化对象进行建模。目前,我们的项目重点是基于单词的n-gram语言建模及其应用,例如,对中文IME的拼音——汉字转换、日文IME的假名——汉字转换、中文单词的切分、文本校对(拼写错误的检查以及建议)、文本信息检索。我们也研究基于类的n-gram建模(例如,对命名实体的识别)以及远距离依赖关系的处理。

    -------------------------------------------------------------------------------

    亚洲语言的自然语言处理


         文本信息挖掘和提取(TIME)是一个平台,用于从以不同语言表示的各种文件,譬如网页, Word文件,PowerPoint提取关键的信息。提取的信息可以用来支持信息检索,搜索引擎,机器翻译,自动文摘。这一创新的技术平台涵盖了多种技术,如tokenization,命名实体识别,语义标记或句子的骨架信息提取、关键术语的提取和自动文摘。

    -------------------------------------------------------------------------------

    统计机器翻译
        

         统计机器翻译项目的重点放在帮助和指导非英语母语的用户,如中国人、日本人和韩国人,自由自在地搜索、阅读和书写英语。为了这个目的,自然语言计算组应用统计机器翻译技术,在不同的层次(词汇、短语、搭配和句子)提供有意义的翻译。在机器翻译技术的支持下,这个研究小组正在把新的技术应用到搜索引擎中。比如,基于词汇的检索查询的翻译,基于句子的搜索结果snippet的翻译。

    -------------------------------------------------------------------------------

    信息检索
        

         我们的目标是利用自然语言技术在索引、拼写改正、网页相关性排序等各个方面改善传统的信息检索的性能。我们将首先在若干垂直领域进行深层NLP支持的搜索引擎,然后将逐步扩展到通用领域的搜索。我们已经研究了适合中文搜索的最佳索引方案、新型的检索式的扩展方法、相关词的抽取、词汇相似度的计算。来自多种搜索引擎的信息融合、基本名词短语抽取、使用基于统计和基于实例方式进行的精确的检索式翻译。我们曾经参加过TREC-9,NTCIR-III等跨语言检索的技术比赛并且获得过最佳的成绩。我们也曾经参加了TREC-10的web 检索。

    -------------------------------------------------------------------------------

    自动问答


         自动问答系统对于正在开发的下一代搜索引擎是一项关键技术。给定一个问题,搜索引擎的用户希望得到一个确切的答案,而不需要面对大量的查询结果。自然语言处理小组正在进行问题形成、问题改写、各种提取问题答案的技术开发。基于这项工作,该小组还希望能建立特定领域的聊天机器人,并且通过对论坛、博客网站和其他网络资源,自动挖掘聊天机器人的知识。

    -------------------------------------------------------------------------------

    语言游戏
        

         自然语言组在世界上首先提出一项技术实现了自动对联。这是一项重要的人工智能创新。本系统可以作为一项语言游戏,供互联网和手机用户使用。本软件接收用户提出的上联,然后生成下联和横批,用户利用本技术可用来在娱乐过程中学习中国语文和传统文化。

    个人感受:计算语言学真难,一个算法3个小时讲不完,讲完后没几个同学听明白.语言处理涉及大量的数学知识,例如统计学,信息论,线性代数.NLP是交叉学科,上课的同学有些来自中文系,还有来自地球空间技术专业的同学.

    最后,再次欢迎大家报考计算语言所.祝大家成功!


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/8 15:20:00
     
     liubin1114 帅哥哟,离线,有人找我吗?双鱼座1987-2-25
      
      
      等级:大二期末(汇编考了97分!)
      文章:51
      积分:343
      门派:IEEE.ORG.CN
      注册:2006/9/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liubin1114发送一个短消息 把liubin1114加入好友 查看liubin1114的个人资料 搜索liubin1114在『 计算机考研交流 』 的所有贴子 点击这里发送电邮给liubin1114 引用回复这个贴子 回复这个贴子 查看liubin1114的博客2
    发贴心情 
    你不早点贴出来,现在都该确认了。
    你们那儿跨专业的有吗,多吗?

    ----------------------------------------------
    屡败屡考!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/8 23:21:00
     
     datoubaicai 帅哥哟,离线,有人找我吗?
      
      威望:5
      等级:大一(高数修炼中)
      文章:181
      积分:2214
      门派:XML.ORG.CN
      注册:2006/3/28

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给datoubaicai发送一个短消息 把datoubaicai加入好友 查看datoubaicai的个人资料 搜索datoubaicai在『 计算机考研交流 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看datoubaicai的博客3
    发贴心情 
    我知道去年有从软工调剂的,但分数不能太低,因为语言所只招两,三个人,而且优先考虑第一志愿
    报考哪个实验室关键是看你硕士毕业后打算做什么,是直接工作,还是继续读博以后走学术道路,不要人云亦云。
    如果是直接工作,考哪个实验室是无所谓的,关键看你自己的能力,而且你所从事的工作很可能和你硕士期间的方向不吻合,我认识一个北大信息安全实验室毕业的,现在在微软亚洲研究院做web search。
    如果是后者,尽量选个学术氛围好的实验室,在硕士阶段为以后从事的研究打好基础。
    其实,不管怎样,最重要的是选个好导师,同一个实验室的不同老师也千差万别,选一个对学生好,设身处地为学生着想的老师。
    以上只是个人看法,大家觉得不对可以直接忽略:)
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/9 10:14:00
     
     cleverdol 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:37
      积分:229
      门派:XML.ORG.CN
      注册:2007/10/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给cleverdol发送一个短消息 把cleverdol加入好友 查看cleverdol的个人资料 搜索cleverdol在『 计算机考研交流 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看cleverdol的博客4
    发贴心情 
    我好像报的是计算机感知与学习吧/...
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/11/9 21:15:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 计算机考研交流 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/7/18 8:15:52

    本主题贴数4,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms