nltk 系列学习:http://www.burnelltek.com/blog/24026f94f7e611e6841d00163e0c0e36
NLTK是由许多许多的包来构成的
官方的nltk.download()老是下载失败。无数遍了。浪费了很多很多时间。
python命令行:
>>>import nltk>>>nltk.download()
下载某个包,很慢,例如punkt ,我就用nltk.download()试着下载了一个,观察他的文件位置,这才发现原来有好几个文档目录。
https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
官方下载http://nltk.org/nltk_data/
另外,也可以到nltk.code.google.com 下载,
nltk 这个package会按照以下目录顺序查找需要的data,
C:\\Python27\\nltk_data\ C:\\nltk_data D:\\nltk_data E:\\nltk_data 所以,下载好了我的压缩包之后,解压放入以上任何一个目录就可以了├─chunkers #这一级为nltk_data下的文件夹│ └─maxent_ne_chunker #这一级为相对应文件夹下的数据文件├─corpora #这一级为nltk_data下的文件夹│ ├─abc #这一级为相对应文件夹下的数据文件│ ├─alpino│ ├─basque_grammars│ ├─biocreative_ppi│ ├─book_grammars│ ├─brown│ ├─brown_tei│ ├─cess_cat│ ├─cess_esp│ ├─chat80│ ├─city_database│ ├─cmudict│ ├─comtrans│ ├─conll2000│ ├─conll2002│ ├─conll2007│ ├─dependency_treebank│ ├─europarl_raw│ │ │ ├─floresta│ ├─gazetteers│ ├─genesis│ ├─gutenberg│ ├─hmm_treebank_pos_tagger│ ├─ieer│ ├─inaugural│ ├─indian│ ├─jeita│ ├─kimmo│ ├─knbc│ │ │ ├─langid│ ├─large_grammars│ ├─machado│ │ │ ├─mac_morpho│ ├─maxent_ne_chunker│ ├─maxent_treebank_pos_tagger│ ├─movie_reviews│ │ │ ├─names│ ├─nombank.1.0│ │ │ ├─nps_chat│ ├─oanc_masc│ │ │ ├─paradigms│ ├─pe08│ ├─pil│ ├─pl196x│ ├─ppattach│ ├─problem_reports│ ├─propbank│ │ │ ├─ptb│ ├─punkt│ ├─qc│ ├─reuters│ │ │ ├─rslp│ ├─rte│ ├─sample_grammars│ ├─semcor│ │ │ ├─senseval│ ├─shakespeare│ ├─sinica_treebank│ ├─smultron│ ├─spanish_grammars│ ├─state_union│ ├─stopwords│ ├─swadesh│ ├─switchboard│ ├─tagsets│ ├─timit│ ││ ├─toolbox│ │ │ ├─treebank│ │ │ ├─udhr│ ├─udhr2│ ├─unicode_samples│ ├─verbnet│ ├─webtext│ ├─wordnet│ ├─wordnet_ic│ ├─words│ └─ycoe├─grammars│ ├─basque_grammars│ ├─book_grammars│ ├─large_grammars│ ├─sample_grammars│ └─spanish_grammars├─help│ └─tagsets├─stemmers│ └─rslp├─taggers│ ├─hmm_treebank_pos_tagger│ ├─maxent_ne_chunker│ └─maxent_treebank_pos_tagger└─tokenizers└─punkt