中文XML论坛 - 专业的XML技术讨论区--显示贴子

以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『计算机考研交流』   (http://bbs.xml.org.cn/list.asp?boardid=67)
----  欢迎报考北京大学计算语言研究所  (http://bbs.xml.org.cn/dispbbs.asp?boardid=67&rootid=&id=55050)

--  作者：Supremgoooo
--  发布时间：11/8/2007 3:20:00 PM

--  欢迎报考北京大学计算语言研究所
这是一个充满激情的地方.70岁的俞教授在每周的讨论班上激情澎湃,不时博得大家的阵阵喝彩...
这是一个和谐民主的地方,有时候,教授会谦虚的向同学请教问题...
这是一个朝气蓬勃的地方,这里研究的领域将来会越来越火...

NLP核心功课:
计算语言学(CL)
机器学习(ML)
信息检索(IR)

发展方向:
搜索引擎
机器翻译
人工智能领域等

没听说源自不了解...msra实习的李同学说:"我在msra期间,发现身边的很多人都是搞这个的..."下面是msra有关NLP的研究领域:

语料的收集、分类和标注

建设一个大型文本语料库作为支持统计学习的基础架构，是一项持续的努力。语料可以从各种文件中获取。最近几年，利用互联网获取大规模的语言数据越来越重要。依据主题和写作风格进行文本分类有益于建造一个平衡语料库以及领域相关的语料库。语料库标注则是一项具有挑战性的任务。它包括分词、命名实体识别、词性标注、句法、语义标注、及指代关系的标注。不同的标注工具可以直接应用于很多自然语言的应用。不同标注的语料库可以作为有监督的训练数据，用于学习面向不同用途的各种统计语言模型。

-------------------------------------------------------------------------------

统计语言模型及其应用

研究的目标是获取不同层次的语言知识；并且对线性符号序列和结构化对象进行建模。目前，我们的项目重点是基于单词的n-gram语言建模及其应用，例如，对中文IME的拼音——汉字转换、日文IME的假名——汉字转换、中文单词的切分、文本校对（拼写错误的检查以及建议）、文本信息检索。我们也研究基于类的n-gram建模（例如，对命名实体的识别）以及远距离依赖关系的处理。

-------------------------------------------------------------------------------

亚洲语言的自然语言处理

文本信息挖掘和提取(TIME)是一个平台，用于从以不同语言表示的各种文件，譬如网页， Word文件，PowerPoint提取关键的信息。提取的信息可以用来支持信息检索，搜索引擎，机器翻译，自动文摘。这一创新的技术平台涵盖了多种技术，如tokenization，命名实体识别，语义标记或句子的骨架信息提取、关键术语的提取和自动文摘。

-------------------------------------------------------------------------------

统计机器翻译

统计机器翻译项目的重点放在帮助和指导非英语母语的用户，如中国人、日本人和韩国人，自由自在地搜索、阅读和书写英语。为了这个目的，自然语言计算组应用统计机器翻译技术，在不同的层次（词汇、短语、搭配和句子）提供有意义的翻译。在机器翻译技术的支持下，这个研究小组正在把新的技术应用到搜索引擎中。比如，基于词汇的检索查询的翻译，基于句子的搜索结果snippet的翻译。

-------------------------------------------------------------------------------

信息检索

我们的目标是利用自然语言技术在索引、拼写改正、网页相关性排序等各个方面改善传统的信息检索的性能。我们将首先在若干垂直领域进行深层NLP支持的搜索引擎，然后将逐步扩展到通用领域的搜索。我们已经研究了适合中文搜索的最佳索引方案、新型的检索式的扩展方法、相关词的抽取、词汇相似度的计算。来自多种搜索引擎的信息融合、基本名词短语抽取、使用基于统计和基于实例方式进行的精确的检索式翻译。我们曾经参加过TREC-9，NTCIR-III等跨语言检索的技术比赛并且获得过最佳的成绩。我们也曾经参加了TREC-10的web 检索。

-------------------------------------------------------------------------------

自动问答

自动问答系统对于正在开发的下一代搜索引擎是一项关键技术。给定一个问题，搜索引擎的用户希望得到一个确切的答案，而不需要面对大量的查询结果。自然语言处理小组正在进行问题形成、问题改写、各种提取问题答案的技术开发。基于这项工作，该小组还希望能建立特定领域的聊天机器人，并且通过对论坛、博客网站和其他网络资源，自动挖掘聊天机器人的知识。

-------------------------------------------------------------------------------

语言游戏

自然语言组在世界上首先提出一项技术实现了自动对联。这是一项重要的人工智能创新。本系统可以作为一项语言游戏，供互联网和手机用户使用。本软件接收用户提出的上联，然后生成下联和横批，用户利用本技术可用来在娱乐过程中学习中国语文和传统文化。

个人感受:计算语言学真难,一个算法3个小时讲不完,讲完后没几个同学听明白.语言处理涉及大量的数学知识,例如统计学,信息论,线性代数.NLP是交叉学科,上课的同学有些来自中文系,还有来自地球空间技术专业的同学.

最后,再次欢迎大家报考计算语言所.祝大家成功!

--  作者：liubin1114
--  发布时间：11/8/2007 11:21:00 PM

--
你不早点贴出来，现在都该确认了。
你们那儿跨专业的有吗，多吗？

--  作者：datoubaicai
--  发布时间：11/9/2007 10:14:00 AM

--
我知道去年有从软工调剂的，但分数不能太低，因为语言所只招两，三个人，而且优先考虑第一志愿
报考哪个实验室关键是看你硕士毕业后打算做什么，是直接工作，还是继续读博以后走学术道路，不要人云亦云。
如果是直接工作，考哪个实验室是无所谓的，关键看你自己的能力，而且你所从事的工作很可能和你硕士期间的方向不吻合，我认识一个北大信息安全实验室毕业的，现在在微软亚洲研究院做web search。
如果是后者，尽量选个学术氛围好的实验室，在硕士阶段为以后从事的研究打好基础。
其实，不管怎样，最重要的是选个好导师，同一个实验室的不同老师也千差万别，选一个对学生好，设身处地为学生着想的老师。
以上只是个人看法，大家觉得不对可以直接忽略：）

--  作者：cleverdol
--  发布时间：11/9/2007 9:15:00 PM

--
我好像报的是计算机感知与学习吧/...

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

46.875ms