以下是我處理好的開源自然語言處理資料集以及預訓練的詞向量檔
- 100維 Skip-gram 繁中詞向量 | wiki2019tw_word2vec_Skip-gram_d100.zip | 811 MB | https://drive.google.com/uc?export=download&id=1ZJui-EuBUx-NLy9NjQy_peWo5NX2dxCY
- 視覺化詞彙為現代漢語語料庫詞頻統計(https://elearning.ling.sinica.edu.tw/CWordfreq.html) 排名80-200 的Na 和 Nc 且詞彙長度大於等於2,並使用PCA降維到2D
- 200維 Skip-gram 繁中詞向量 | wiki2019tw_word2vec_Skip-gram_d200.zip | 1.6 GB | https://drive.google.com/uc?export=download&id=1BFyOux4dYFTC-mbQjoWU4D5lGEEFspGb
- 300維 Skip-gram 繁中詞向量 | wiki2019tw_word2vec_Skip-gram_d300.zip | 2.3 GB | https://drive.google.com/uc?export=download&id=1CGDtuE2iy4ebZYvAjDO1e6E8-seFGMx2
本文允許重製、散布、傳輸以及修改,但不得為商業目的之使用
使用時必須註明出處自:楊明翰 , 台灣人工智慧與資料科學研究室 https://aistudio.tw