first project

aa5a6c20 · 20200203098 · 4ec16fce · 68595987 · aa5a6c20 · 4ec16fce
Commit aa5a6c20 authored May 03, 2020 by 20200203098
21 changed files
--- a/README.md
+++ b/README.md
--- a/课件/0314/slide.pptx
+++ b/课件/0314/slide.pptx
--- a/课件/0321郑老师slide_note - clear.pptx
+++ b/课件/0321郑老师slide_note - clear.pptx
--- a/课件/0322 LP, DP and duality.pptx
+++ b/课件/0322 LP, DP and duality.pptx
--- a/课件/0404文本表示郑老师.pptx
+++ b/课件/0404文本表示郑老师.pptx
--- a/课件/0405review3 - paper3(1).pptx
+++ b/课件/0405review3 - paper3(1).pptx
--- a/课件/0405文本相似度韩老师.pptx
+++ b/课件/0405文本相似度韩老师.pptx
--- a/课件/0411Skip-gram源码讲解/.gitkeep
+++ b/课件/0411Skip-gram源码讲解/.gitkeep
++ "b/\350\257\276\344\273\266/0411Skip-gram\346\272\220\347\240\201\350\256\262\350\247\243/.gitkeep"
--- a/课件/0411Skip-gram源码讲解/Skip-gram源码讲解(1).pptx
+++ b/课件/0411Skip-gram源码讲解/Skip-gram源码讲解(1).pptx
--- a/课件/0411Skip-gram源码讲解/word2vec.c
+++ b/课件/0411Skip-gram源码讲解/word2vec.c
--- a/课件/NLP60229.zip
+++ b/课件/NLP60229.zip
--- a/课件/NLP60314.pptx
+++ b/课件/NLP60314.pptx
--- a/课件/Project1-master-5db594a1ca8abe8d7c541c2cce831979640929fc.zip
+++ b/课件/Project1-master-5db594a1ca8abe8d7c541c2cce831979640929fc.zip
--- a/课件/Project1-master/a_list.json
+++ b/课件/Project1-master/a_list.json
--- a/课件/Project1-master/qlist.json
+++ b/课件/Project1-master/qlist.json
--- a/课件/Project1-master/related.py
+++ b/课件/Project1-master/related.py
+#!/usr/bin/env python3
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Created on Thu Apr 23 11:53:12 2020
+
+@author: youngwells
+"""
+
+# 加载转化后的文件
+import json
+import codecs
+from collections import defaultdict
+from gensim.test.utils import datapath,get_tmpfile
+from gensim.models import KeyedVectors
+
+from gensim.scripts.glove2word2vec import glove2word2vec
+
+glove_file=datapath("/Users/youngwells/Downloads/course-info/课件/Project1-master/glove.6B.200d.txt")
+tmp_file =get_tmpfile( 'word2vec.txt')
+glove2word2vec(glove_file, tmp_file)
+
+model = KeyedVectors.load_word2vec_format(tmp_file)
+
+# 获取所有词向量表
+word_list = []
+for word in model.vocab.keys():
+    print(word)
+    word_list += [word]
+# print(len(word_list))
+
+similar_list = []
+# 获取每个词的前10大相关
+for word_temp in word_list:
+
+    # 建构成字典
+    similar_word = []
+
+    # 取模型最相似的前10个单词和向量，参数默认为10
+    similar_top = model.most_similar(word_temp)
+
+    for similar_top_word in similar_top:
+        similar_word += [similar_top_word[0]]
+
+    similar_list += [similar_word]
+
+# 转换成字典
+
+zip_list = zip(word_list, similar_list)
+d = defaultdict(list)
+for key, value in zip_list:
+    d[key].append(value)
+
+
+##########################保存成txt檔####################################
+
+# 相关词字典写成txt
+file = codecs.open('/Users/youngwells/Downloads/course-info/课件/Project1-master/related_words.txt', 'w', 'utf-8-sig')
+
+# 将每项元素的key和value分拆组成字符串，添加分隔符和换行符
+for k, v in d.items():
+    file.write(str(k) + ' ' + str(v) + '\n')
+
+# 注意关闭文件
+file.close()
+print('the file has been wrote')
+##########################保存成json檔####################################
+# 相关词字典存成json
+
+file_name = '/Users/youngwells/Downloads/course-info/课件/Project1-master/related_words.json'
+with open(file_name, 'w') as file_object:
+    json.dump(d, file_object)
+print('txt_file has been wrote')
\ No newline at end of file
--- a/课件/Project1-master/related_words.json
+++ b/课件/Project1-master/related_words.json
--- a/课件/Project1-master/related_words.txt
+++ b/课件/Project1-master/related_words.txt
--- a/课件/Project1-master/starter_code.ipynb
+++ b/课件/Project1-master/starter_code.ipynb
--- a/课件/nlp 6 0229Lecture2.pptx
+++ b/课件/nlp 6 0229Lecture2.pptx
--- a/课件/nlp6 0322王老师核函数.pptx
+++ b/课件/nlp6 0322王老师核函数.pptx