钟崇光博士参与了数据派THU于6月5日和6月8日发布的《逐步提升Kaggle竞赛模型准确度,以美国好事达保险公司理赔为例》一文的校正工作,并提出了许多建设性的意见。在此,数据派翻译组向钟博士表达诚挚的感谢!
作者:Melanie Tosik
翻译:闵黎
校正:丁楠雅
本文长度约为1100字,建议阅读时间约3分钟。
Melanie Tosik目前任职于旅游搜索公司WayBlazer,专注于利用自然语言处理技术提供个性化的旅游推荐服务。回顾她的学习历程,她为希望入门自然语言处理的初学者整理了一份学习资源清单。
Dan Jurafsky 和 Chris Manning 的自然语言处理:这是一系列非常优秀的视频介绍课程。
斯坦福大学CS224d:自然语言处理的深度学习:这门课程涵盖了高级机器学习算法、深度学习及NLP的神经网络架构。
Coursera:自然语言处理简介:这门课程由密西根大学提供。
spaCy:这是一个新兴的开源库,附带了炫酷的用法示例、API文档和演示应用。
自然语言工具包(NLTK):这是一个适用于教学目的的NLP编程介绍。
斯坦福CoreNLP:这是一个由Java开发的高质量自然语言分析工具包。
《语言和语言处理》(Daniel Jurafsky 和 James H. Martin):这是一本经典的NLP教材,涵盖了所有基础知识点,第3版即将出版。
《统计自然语言处理基础》(Chris Manning 和 Hinrich Schütze):这是一本关于高级统计NLP方法的书籍。
《信息检索简介》(Chris Manning, Prabhakar Raghavan 和 Hinrich Schütze):这是一本关于排名和搜索的优秀参考书。
《自然语言处理中的神经网络方法》(Yoav Goldberg):这是一本深入介绍NLP的神经网络方法的书籍,附带入门书籍。
如何在TensorFlow中构建Word2Vec模型:这是一份学习指南。
NLP深度学习资源:这是关于深度学习的顶尖资源的概述。
最后的话:计算语言学和深度学习——论自然语言处理的重要性(Chris Manning)
对自然语言理解中分布式表示的理解(Kyunghyun Cho)
带泪水的贝叶斯推论(Kevin Knight)
国际计算语言学协会(ACL)
果壳问答网站(Quora):如何学习自然语言处理?
Nicolas Iderhoff 创建的NLP数据集列表
基于隐马尔可夫模型(HMM)的词性标注(POS tagging)
使用CYK算法执行上下文无关的语法解析
在文本集合中计算两个单词之间的语义相似度,例如点互信息(PMI,Pointwise Mutual Information)
使用朴素贝叶斯分类器过滤垃圾邮件
基于单词之间的编辑距离进行拼写检查
实现一个马尔科夫链文本生成器
使用LDA进行主题建模
使用Word2Vec从大型文本语料库,例如维基百科,生成单词嵌入
Twitter:#nlproc,NLPers上的文章列表(由Jason Baldrige提供)
Reddit 社交新闻站点:/r/LanguageTechnology
Medium发布平台:NLP
希望以上资源能帮助您更好地学习自然语言处理。