## 利用信息抽取技术搭建知识库

在这个notebook文件中,有些模板代码已经提供给你,但你还需要实现更多的功能来完成这个项目。除非有明确要求,你无须修改任何已给出的代码。以**'【练习】'**开始的标题表示接下来的代码部分中有你需要实现的功能。这些部分都配有详细的指导,需要实现的部分也会在注释中以'TODO'标出。请仔细阅读所有的提示。

>**提示:**Code 和 Markdown 区域可通过 **Shift + Enter** 快捷键运行。此外,Markdown可以通过双击进入编辑模式。

---

### 让我们开始吧

本项目的目的是结合命名实体识别、依存语法分析、实体消歧、实体统一对网站开放语料抓取的数据建立小型知识图谱。

在现实世界中,你需要拼凑一系列的模型来完成不同的任务;举个例子,用来预测狗种类的算法会与预测人类的算法不同。在做项目的过程中,你可能会遇到不少失败的预测,因为并不存在完美的算法和模型。你最终提交的不完美的解决方案也一定会给你带来一个有趣的学习经验!


---


## 步骤 1:实体统一

实体统一做的是对同一实体具有多个名称的情况进行统一,将多种称谓统一到一个实体上,并体现在实体的属性中(可以给实体建立“别称”属性)

例如:对“河北银行股份有限公司”、“河北银行公司”和“河北银行”我们都可以认为是一个实体,我们就可以将通过提取前两个称谓的主要内容,得到“河北银行”这个实体关键信息。

公司名称有其特点,例如后缀可以省略、上市公司的地名可以省略等等。在data/dict目录中提供了几个词典,可供实体统一使用。
- company_suffix.txt是公司的通用后缀词典
- company_business_scope.txt是公司经营范围常用词典
- co_Province_Dim.txt是省份词典
- co_City_Dim.txt是城市词典
- stopwords.txt是可供参考的停用词

### 练习1:
编写main_extract函数,实现对实体的名称提取“主体名称”的功能。

In [1]:
import jieba
import jieba.posseg as pseg
import re
import datetime


# 从输入的“公司名”中提取主体
def main_extract(input_str,stop_word,d_4_delete,d_city_province):
 # 开始分词并处理
 seg = pseg.cut(input_str)
 seg_lst = remove_word(seg,stop_word,d_4_delete)
 seg_lst = city_prov_ahead(seg_lst,d_city_province)
 return [s.word for s in seg_lst]

 
#TODO:实现公司名称中地名提前
def city_prov_ahead(seg,d_city_province):
 city_prov_lst = []
 seg_lst = []
 set_d_city_province = set(d_city_province)
 # TODO ...
 for s in seg:
 if s.word in set_d_city_province:
 city_prov_lst.append(s)
 else:
 seg_lst.append(s)
 
 return city_prov_lst+seg_lst




#TODO:替换特殊符号
def remove_word(seg,stop_word,d_4_delete):
 # TODO ...
 set_stop_word = set(stop_word)
 set_d_4_delete = set(d_4_delete)
 seg_lst = []
 for s in seg:
 if s.word in set_stop_word or s.word in set_d_4_delete:
 continue
 seg_lst.append(s)
 return seg_lst


# 初始化,加载词典
def my_initial():
 fr1 = open(r"../data/dict/co_City_Dim.txt", encoding='utf-8')
 fr2 = open(r"../data/dict/co_Province_Dim.txt", encoding='utf-8')
 fr3 = open(r"../data/dict/company_business_scope.txt", encoding='utf-8')
 fr4 = open(r"../data/dict/company_suffix.txt", encoding='utf-8')
 #城市名
 lines1 = fr1.readlines()
 d_4_delete = []
 d_city_province = [re.sub(r'(\r|\n)*','',line) for line in lines1]
 #省份名
 lines2 = fr2.readlines()
 l2_tmp = [re.sub(r'(\r|\n)*','',line) for line in lines2]
 d_city_province.extend(l2_tmp)
 #公司后缀
 lines3 = fr3.readlines()
 l3_tmp = [re.sub(r'(\r|\n)*','',line) for line in lines3]
 lines4 = fr4.readlines()
 l4_tmp = [re.sub(r'(\r|\n)*','',line) for line in lines4]
 d_4_delete.extend(l4_tmp)
 #get stop_word
 fr = open(r'../data/dict/stopwords.txt', encoding='utf-8') 
 stop_word = fr.readlines()
 stop_word_after = [re.sub(r'(\r|\n)*','',stop_word[i]) for i in range(len(stop_word))]
 stop_word_after[-1] = stop_word[-1]
 stop_word = stop_word_after
 return d_4_delete,stop_word,d_city_province


In [2]:
# TODO:测试实体统一用例
d_4_delete,stop_word,d_city_province = my_initial()
company_name = "河北银行股份有限公司"
lst = main_extract(company_name,stop_word,d_4_delete,d_city_province)
company_name = ''.join(lst) # 对公司名提取主体部分,将包含相同主体部分的公司统一为一个实体
print(company_name)

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.226 seconds.
Prefix dict has been built succesfully.


河北银行


## 步骤 2:实体识别
有很多开源工具可以帮助我们对实体进行识别。常见的有LTP、StanfordNLP、FoolNLTK等等。

本次采用FoolNLTK实现实体识别,fool是一个基于bi-lstm+CRF算法开发的深度学习开源NLP工具,包括了分词、实体识别等功能,大家可以通过fool很好地体会深度学习在该任务上的优缺点。

在‘data/train_data.csv’和‘data/test_data.csv’中是从网络上爬虫得到的上市公司公告,数据样例如下:

In [3]:
import pandas as pd
train_data = pd.read_csv('../data/info_extract/train_data.csv', encoding = 'gb2312', header=0)
train_data.head()

Unnamed: 0,id,sentence,tag,member1,member2
0,6461,"与本公司关系:受同一公司控制 2,杭州富生电器有限公司企业类型: 有限公司注册地址: 富阳市...",0,0,0
1,2111,三、关联交易标的基本情况 1、交易标的基本情况 公司名称:红豆集团财务有限公司 公司地址:无...,0,0,0
2,9603,"2016年协鑫集成科技股份有限公司向瑞峰(张家港)光伏科技有限公司支付设备款人民币4,515...",1,协鑫集成科技股份有限公司,瑞峰(张家港)光伏科技有限公司
3,3456,证券代码:600777 证券简称:新潮实业 公告编号:2015-091 烟台新潮实业股份有限...,0,0,0
4,8844,本集团及广发证券股份有限公司持有辽宁成大股份有限公司股票的本期变动系买卖一揽子沪深300指数...,1,广发证券股份有限公司,辽宁成大股份有限公司


In [4]:
import pandas as pd
test_data = pd.read_csv('../data/info_extract/test_data.csv', encoding = 'gb2312', header=0)
test_data.head()

Unnamed: 0,id,sentence
0,9259,"2015年1月26日,多氟多化工股份有限公司与李云峰先生签署了《附条件生效的股份认购合同》"
1,9136,"2、2016年2月5日,深圳市新纶科技股份有限公司与侯毅先"
2,220,"2015年10月26日,山东华鹏玻璃股份有限公司与张德华先生签署了附条件生效条件的《股份认购合同》"
3,9041,"2、2015年12月31日,印纪娱乐传媒股份有限公司与肖文革签订了《印纪娱乐传媒股份有限公司..."
4,10041,"一、金发科技拟与熊海涛女士签订《股份转让协议》,协议约定:以每股1.0509元的收购价格,收..."


我们选取一部分样本进行标注,即train_data,该数据由5列组成。id列表示原始样本序号;sentence列为我们截取的一段关键信息;如果关键信息中存在两个实体之间有股权交易关系则tag列为1,否则为0;如果tag为1,则在member1和member2列会记录两个实体出现在sentence中的名称。

剩下的样本没有标注,即test_data,该数据只有id和sentence两列,希望你能训练模型对test_data中的实体进行识别,并判断实体对之间有没有股权交易关系。

### 练习2:
将每句句子中实体识别出,存入实体词典,并用特殊符号替换语句。


In [5]:
# 处理test数据,利用开源工具进行实体识别和并使用实体统一函数存储实体

import fool
import pandas as pd
from copy import copy


test_data = pd.read_csv('../data/info_extract/test_data.csv', encoding = 'gb2312', header=0)
test_data['ner'] = None
ner_id = 1001
ner_dict_new = {} # 存储所有实体
ner_dict_reverse_new = {} # 存储所有实体
set_company = set()

for i in range(len(test_data)):
 sentence = copy(test_data.iloc[i, 1])
 # TODO:调用fool进行实体识别,得到words和ners结果
 # TODO ...
 words, ners = fool.analysis([sentence])
 
 ners[0].sort(key=lambda x:x[0], reverse=True)
 for start, end, ner_type, ner_name in ners[0]:
 if ner_type=='company' :
 # TODO:调用实体统一函数,存储统一后的实体
 # 并自增ner_id
 # TODO ...
 company_main_name = main_extract(ner_name,stop_word,d_4_delete,d_city_province)
 company_main_name = ''.join(company_main_name)
 if company_main_name not in ner_dict_new:
 ner_dict_new[company_main_name] = ner_id
 ner_dict_reverse_new[ner_dict_new[company_main_name]] = company_main_name
 ner_id += 1
 set_company.add(ner_id)
 
 # 在句子中用编号替换实体名
 sentence = sentence[:start] + ' ner_' + str(ner_dict_new[company_main_name]) + '_ ' + sentence[end-1:]
 elif ner_type=='person':
 if ner_name not in ner_dict_new:
 ner_dict_new[ner_name] = ner_id
 ner_dict_reverse_new[ner_dict_new[ner_name]] = ner_name
 ner_id += 1
 
 # 在句子中用编号替换实体名
 sentence = sentence[:start] + ' ner_' + str(ner_dict_new[ner_name]) + '_ ' + sentence[end-1:]
 test_data.iloc[i, -1] = sentence

X_test = test_data[['ner']]
print(X_test)


W0803 17:53:50.497887 140437070104320 deprecation_wrapper.py:119] From /home/xiayulong/anaconda3-2019.07/lib/python3.7/site-packages/fool/predictor.py:32: The name tf.gfile.GFile is deprecated. Please use tf.io.gfile.GFile instead.

W0803 17:53:50.499367 140437070104320 deprecation_wrapper.py:119] From /home/xiayulong/anaconda3-2019.07/lib/python3.7/site-packages/fool/predictor.py:33: The name tf.GraphDef is deprecated. Please use tf.compat.v1.GraphDef instead.

W0803 17:53:50.748158 140437070104320 deprecation_wrapper.py:119] From /home/xiayulong/anaconda3-2019.07/lib/python3.7/site-packages/fool/predictor.py:53: The name tf.Session is deprecated. Please use tf.compat.v1.Session instead.



 ner
0 2015年1月26日, ner_1002_ 司与 ner_1001_ 峰先生签署了《附条件生...
1 2、2016年2月5日, ner_1004_ 司与 ner_1003_ 毅先
2 2015年10月26日, ner_1006_ 司与 ner_1005_ 华先生签署了附条件生...
3 2、2015年12月31日, ner_1008_ 司与 ner_1007_ 革签订了《印纪娱...
4 一、 ner_1010_ 技拟与 ner_1009_ 涛女士签订《股份转让协议》,协议约定:...
5 同日, ner_1012_ 司与 ner_1011_ 琳先生在上海签署了《股权转让协议》和《...
6 截至本公告日, ner_1014_ 林持有 ner_1013_ 司股份354,418,300...
7 本次交易完成后,上市公司将由传统的医药制造业转变成为“企业互联网服务业务为主导,制造业务为支...
8 2015年1月20日, ner_1018_ 司与 ner_1017_ 飞先生签署《万鸿集团股...
9 一、(一) ner_1020_ 司(以下简称“公司”)拟以非公开发行方式向 ner_1019...
10 2、 ner_1022_ 司于2014年12月12日与 ner_1021_ 睿先生签订了《成...
11 于2015年4月24日, ner_1024_ 司与鲜言先生签订了股权转让协议,鲜言先生按注册...
12 ner_1026_ 司于2015年11月26日与 ner_1025_ 华先
13 2015年6月17日, ner_1028_ 峰先生、 ner_1027_ 份高管资管计划分别...
14 一、 ner_1002_ 司拟向包括 ner_1001_ 峰先生在内的不超过10名特定对象非...
15 截止2016年12月31日, ner_1018_ 司已向 ner_1017_ 飞归还上述欠款
16 若公司A股股票在定价基准日至发行日期间发生派发股利、送红股、转增股本、增发新股或配股等除权、...
17 2015年6月28日, ner_1032_ 司在福建省厦门市与 ner_1031_ 斌先生签...
18 ner_1013_ 司控股股东、实际控制人 ner_1014_ 林与非关联方分别以自有资金...
19 2015年4月2日, ner_1034_ 司

In [6]:
# 处理train数据,利用开源工具进行实体识别和并使用实体统一函数存储实体
train_data = pd.read_csv('../data/info_extract/train_data.csv', encoding = 'gb2312', header=0)
train_data['ner'] = None

for i in range(len(train_data)):
 # 判断正负样本
 if train_data.iloc[i,:]['member1']=='0' and train_data.iloc[i,:]['member2']=='0':
 sentence = copy(train_data.iloc[i, 1])
 # TODO:调用fool进行实体识别,得到words和ners结果
 # TODO ...
 
 words, ners = fool.analysis([sentence])
 ners[0].sort(key=lambda x:x[0], reverse=True)
 for start, end, ner_type, ner_name in ners[0]:
 if ner_type=='company' :
 # TODO:调用实体统一函数,存储统一后的实体
 # 并自增ner_id
 # TODO ...
 company_main_name = main_extract(ner_name,stop_word,d_4_delete,d_city_province)
 company_main_name = ''.join(company_main_name)
 if company_main_name not in ner_dict_new:
 ner_dict_new[company_main_name] = ner_id
 ner_dict_reverse_new[ner_dict_new[company_main_name]] = company_main_name
 ner_id += 1
 set_company.add(ner_id)

 # 在句子中用编号替换实体名
 sentence = sentence[:start] + ' ner_' + str(ner_dict_new[company_main_name]) + '_ ' + sentence[end-1:]

 elif ner_type=='person':
 if ner_name not in ner_dict_new:
 ner_dict_new[ner_name] = ner_id
 ner_dict_reverse_new[ner_dict_new[ner_name]] = ner_name
 ner_id += 1

 # 在句子中用编号替换实体名
 sentence = sentence[:start] + ' ner_' + str(ner_dict_new[ner_name]) + '_ ' + sentence[end-1:]
 train_data.iloc[i, -1] = sentence
 else:
 # 将训练集中正样本已经标注的实体也使用编码替换
 sentence = copy(train_data.iloc[i,:]['sentence'])
 for company_main_name in [train_data.iloc[i,:]['member1'],train_data.iloc[i,:]['member2']]:
 # TODO:调用实体统一函数,存储统一后的实体
 # 并自增ner_id
 # TODO ...
 company_main_name = ''.join(company_main_name)
 if company_main_name not in ner_dict_new:
 ner_dict_new[company_main_name] = ner_id
 ner_dict_reverse_new[ner_dict_new[company_main_name]] = company_main_name
 ner_id += 1
 set_company.add(ner_id)


 # 在句子中用编号替换实体名
 sentence = re.sub(company_main_name, ' ner_%s_ '%(str(ner_dict_new[company_main_name])), sentence)
 train_data.iloc[i, -1] = sentence
print(train_data) 
y = train_data.loc[:,['tag']]
train_num = len(train_data)
X_train = train_data[['ner']]

# 将train和test放在一起提取特征
X = pd.concat([X_train, X_test])


 id sentence tag \
0 6461 与本公司关系:受同一公司控制 2,杭州富生电器有限公司企业类型: 有限公司注册地址: 富阳市... 0 
1 2111 三、关联交易标的基本情况 1、交易标的基本情况 公司名称:红豆集团财务有限公司 公司地址:无... 0 
2 9603 2016年协鑫集成科技股份有限公司向瑞峰(张家港)光伏科技有限公司支付设备款人民币4,515... 1 
3 3456 证券代码:600777 证券简称:新潮实业 公告编号:2015-091 烟台新潮实业股份有限... 0 
4 8844 本集团及广发证券股份有限公司持有辽宁成大股份有限公司股票的本期变动系买卖一揽子沪深300指数... 1 
5 8722 二、被担保人基本情况被担保人:上海同济建设有限公司 住所:上海市杨浦区中山北二路 1121 ... 0 
6 9200 2014年12月12日,绵阳市国资委出具了<关于同意转让绵阳国虹通讯数码集团有限责任公司股权... 0 
7 3723 特变电工股份有限公司 2015 年第十二次临时董事会会议 证券代码:600089 证券简称:... 0 
8 3964 变更 完成后,本公司持有翔通动漫 100%的股权,翔通动漫已成为公司全资子公司。 0 
9 9547 根据上市公司与浦发银行达成的并购贷款意向函,浦发银行合肥分行愿意提供不高于50%交易金额的并... 0 
10 3177 特此公告广东四通集团股份有限公司董事会 2015 年 11 月 8 日备查文件<广东四通集团... 0 
11 7137 证券代码:600348 股票简称:阳泉煤业 编号:临 2015-056阳泉煤业(集团)股份有... 0 
12 5169 附件:上海申达股份有限公司董事会 2015 年 11 月 17 日1、 上海申达股份有限公司... 0 
13 4728 根据以上评估结果,经交易各方协商确定本次天安财险 26.96%股权交易价 格为 6,907,... 0 
14 1810 资产出售和资产购买方案简要介绍如 下:(一)资产出售公司拟向控股股东金诚实业出售双鹿实业 1... 0 
15 9598 根据京东方集团实际投资额,在2012年6月11日和2013年8月12日,内蒙古自治区人民政府... 0 
16 4788 五、本公司保证将依照西水股份章程

## 步骤 3:关系抽取


目标:借助句法分析工具,和实体识别的结果,以及文本特征,基于训练数据抽取关系,并存储进图数据库。

本次要求抽取股权交易关系,关系为无向边,不要求判断投资方和被投资方,只要求得到双方是否存在交易关系。

模板建立可以使用“正则表达式”、“实体间距离”、“实体上下文”、“依存句法”等。

答案提交在submit目录中,命名为info_extract_submit.csv和info_extract_entity.csv。
- info_extract_entity.csv格式为:第一列是实体编号,第二列是实体名(实体统一的多个实体名用“|”分隔)
- info_extract_submit.csv格式为:第一列是关系中实体1的编号,第二列为关系中实体2的编号。

示例:
- info_extract_entity.csv

| 实体编号 | 实体名 |
| ------ | ------ |
| 1001 | 小王 |
| 1002 | A化工厂 |

- info_extract_submit.csv

| 实体1 | 实体2 |
| ------ | ------ |
| 1001 | 1003 |
| 1002 | 1001 |

### 练习3:提取文本tf-idf特征

去除停用词,并转换成tfidf向量。

In [7]:
# code
from sklearn.feature_extraction.text import TfidfTransformer 
from sklearn.feature_extraction.text import CountVectorizer 
from pyltp import Segmentor
import os


# 实体符号加入分词词典
# with open('../data/user_dict.txt', 'w') as fw:
# for v in ['一', '二', '三', '四', '五', '六', '七', '八', '九', '十']:
# fw.write( v + '号企业 ni\n')

with open('../data/user_dict.txt', 'w',encoding='utf-8') as fw:
 for v in ner_dict_new.values():
 fw.write('ner{}\n'.format(str(v)))

LTP_DATA_DIR = '/home/xiayulong/work/pyltp.d/models/ltp_data_v3.4.0' # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型路径,模型名称为`cws.model`
 
# 初始化实例
segmentor = Segmentor() 
# 加载模型,加载自定义词典
segmentor.load_with_lexicon(cws_model_path, '../data/user_dict.txt') 

# 加载停用词
fr = open(r'../data/dict/stopwords.txt', encoding='utf-8') 
stop_word = fr.readlines()
stop_word = [re.sub(r'(\r|\n)*','',stop_word[i]) for i in range(len(stop_word))]

# 分词
# f = lambda x: ' '.join([word for word in segmentor.segment(x) if word not in stop_word and not re.findall(r'ner\_\d\d\d\d\_', word)])
# print(X['ner'].array[0])
# print([word for word in segmentor.segment('ner1001是个公司')])
# corpus=X['ner'].map(f).tolist()

corpus = []
for sen in X['ner'].array:
 for replace in re.findall(r'ner\_\d\d\d\d\_', sen):
 sen = re.sub(replace,replace.replace('_',''),sen)
 tmp = ' '.join([word for word in segmentor.segment(sen) if word not in stop_word and not re.findall(r'ner\d\d\d\d', word)])
 corpus.append(tmp)



from sklearn.feature_extraction.text import TfidfVectorizer
# TODO:提取tfidf特征
# TODO ...
tfidf = TfidfVectorizer()
vec = tfidf.fit_transform(corpus)
print(corpus[:5])
print(vec[:5])
print(X['ner'].array[:2])



['公司 受 同一 公司 控制 2 司 企业 类型 有限公司 注册 地址 富阳市 东洲 街道 东洲 工业 功能 区九号路 1 号 法定 代表人 明 注册 资本 16 000万 元 经营 许可 经营 制造 高效 节能 感应 电机 ; 普通 货运', '三 关联 交易 标的 1 交易 标的 公司 名称 司 地址 无锡市 锡山区 东港镇 锡港东路 2 号 企业 类型 责任 公司 法定 代表人 燕 注册 资本 50000万 元 整 财务 公司 公司 参股 公司 成立 2008年 11月 经营 成员 单位 财务 融资 顾问 信用 鉴证 咨询 代理 业务 ; 成员 单位 交易 款项 收付 ; 批准 保险 代理 业务 ; 成员 单位 担保 ; 成员 单位 委托 贷款 委托 投资 ; 成员 单位 票据 承兑 贴现 ; 成员 单位 转账 结算 结算 清算 方案 设计 ; 吸收 成员 单位 存款 ; 成员 单位 贷款 融资 租赁 ; 同业 拆借 ; 承销 成员 单位 企业 债券 ; 金融 机构 股权 投资 ; 有价证券 投资 股票 二级 市场 投资 除外 ; 成员 单位 产品 买方 信贷', '2016年 支付 设备 款 人民币 4 515 770.00 元', '证券 代码 600777 证券 简称 公告 编号 2015-091 司 第八 届 监事会 第十一 次 会议 决议 公告 公司 监事会 全体 监事 公告 不 虚假 记载 误导性 陈述 遗漏 真实性 准确性 完整性 承担 个别 连带 责任', '集团 持有 股票 本期 变动 系 买卖 一揽子 沪 深 300 指数 成份股 致']
 (0, 4103)	0.2114565894485973
 (0, 3022)	0.1567445046668198
 (0, 3469)	0.20447702741373694
 (0, 2712)	0.22045480991774755
 (0, 3894)	0.2114565894485973
 (0, 4498)	0.22045480991774755
 (0, 1855)	0.16809558961226798
 (0, 4023)	0.15290970636043075
 (0, 3754)	0.19454004856814155
 (0, 5)	0.11077546570621795
 

### 练习4:提取句法特征
除了词语层面的句向量特征,我们还可以从句法入手,提取一些句法分析的特征。

参考特征:

1、企业实体间距离

2、企业实体间句法距离

3、企业实体分别和关键触发词的距离

4、实体的依存关系类别

In [24]:
# -*- coding: utf-8 -*-
from pyltp import Parser
from pyltp import Segmentor
from pyltp import Postagger
import networkx as nx
import numpy as np
import pylab
import re
import os

LTP_DATA_DIR = '/home/xiayulong/work/pyltp.d/models/ltp_data_v3.4.0' # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model') # 分词模型路径,模型名称为`cws.model`
pos_path = os.path.join(LTP_DATA_DIR, 'pos.model')


postagger = Postagger() # 初始化实例
postagger.load_with_lexicon(pos_path, '../data/user_dict.txt') # 加载模型
segmentor = Segmentor() # 初始化实例
segmentor.load_with_lexicon(cws_model_path, '../data/user_dict.txt') # 加载模型
parser = Parser() # 初始化实例
parser.load(os.path.join(LTP_DATA_DIR, 'parser.model')) # 加载模型



# 以实体对为中心,提取特征是否会更好?
# 因为每句话中的实体数量不确定,有关系的实体数量更是不确定。以实体对为中心,可以明确观察这对实体在句法依存树中的关系,以及从实体1到实体2的路径
# 上是否有关键词,例如这里的"支付",再辅以某些token级别的特征,例如某个size窗口内的tfidf的特征。这样,一句话可以生成多个样本,目标变成预测每
# 一对实体所构成的样本的关系


relations = ["SBV",
 "VOB",
 "IOB",
 "FOB",
 "DBL",
 "ATT",
 "ADV",
 "CMP",
 "COO",
 "POB",
 "LAD",
 "RAD",
 "IS",
 "HED"]


def parse(s):
 """
 对语句进行句法分析,并返回句法结果
 """
 tmp_ner_dict = {}
 num_lst = ['一', '二', '三', '四', '五', '六', '七', '八', '九', '十']

 # 将公司代码替换为特殊称谓,保证分词词性正确
# for i, ner in enumerate(list(set(re.findall(r'(ner\_\d\d\d\d\_)', s)))):
# try:
# tmp_ner_dict[num_lst[i]+'号企业'] = ner
# except IndexError:
# # TODO:定义错误情况的输出
# # TODO ...
 
 
# s = s.replace(ner, num_lst[i]+'号企业')
 for i, ner in enumerate(list(set(re.findall(r'(ner\_\d\d\d\d\_)', s)))):
 s = re.sub(ner,ner.replace('_',''),s)
 words = segmentor.segment(s)
 tags = postagger.postag(words)

 arcs = parser.parse(words, tags) # 句法分析
 arcs_lst = list(map(list, zip(*[[arc.head, arc.relation] for arc in arcs])))
 # 句法分析结果输出
 parse_result = pd.DataFrame([[a,b,c,d] for a,b,c,d in zip(list(words),list(tags), arcs_lst[0], arcs_lst[1])], index = range(1,len(words)+1))
 

 # TODO:提取企业实体依存句法类型
 # TODO ...
 # 句子只有两个实体(俩公司或一公司一人名)
 # 找前两个实体间
 dict_of_relation = {relation:0 for relation in relations}
 ners = list()
 for i in list(parse_result.index):
 word = parse_result.loc[i,0]
 relation = parse_result.loc[i,3]
 if re.findall(r'(ner\d{4})', word):
 if word not in ners:
 ners.append(word)
 ner_id = word[3:]
 if ner_id.isdigit() and int(ner_id) in set_company:
 dict_of_relation[relation] += 1
 
 count_of_relation = list(dict_of_relation.values())
 
 

 # 投资关系关键词
 key_words = ["收购","竞拍","转让","扩张","并购","注资","整合","并入","竞购","竞买","支付","收购价","收购价格","承购","购得","购进",
 "购入","买进","买入","赎买","购销","议购","函购","函售","抛售","售卖","销售","转售"]
 # TODO:*根据关键词和对应句法关系提取特征(如没有思路可以不完成)
 # TODO ...
 # distances[0]: 实体之间距离
 # distances[1]: 实体1和关键词之间距离
 # distances[2]: 实体2和关键词之间距离
 distances = [0,0,0]
 if len(ners) >= 2:
 # 实体1
 entity1 = ners[0]
 # 实体2
 entity2 = ners[1]
 distances[0] = shortest_path(parse_result,entity1,entity2)[0]
 for i in parse_result.index:
 word = parse_result.loc[i,0]
 if word in key_words:
 distances[1] = shortest_path(parse_result,entity1,word)[0]
 distances[2] = shortest_path(parse_result,entity2,word)[0]
 
 

 
 
 # parser.release() # 释放模型
 return count_of_relation + distances


def get_weight(type):
 return 1.

def print_graph(G):
 for n, nbrs in G.adj.items():
 for nbr, eattr in nbrs.items():
 wt = eattr['weight']
 print(f"({n}, {nbr}, {wt:.3})")




def shortest_path(arcs_ret, source, target):
 """
 求出两个词最短依存句法路径,不存在路径返回-1
 arcs_ret:句法分析结果
 source:实体1
 target:实体2
 """
 G=nx.DiGraph()
 # 为这个网络添加节点...
 for i in list(arcs_ret.index):
 G.add_node(i)
 # TODO:在网络中添加带权中的边...(注意,我们需要的是无向边)
 # TODO ...
 for cur in list(arcs_ret.index):
 predecessor = arcs_ret.loc[cur,2]
 if predecessor == 0:
 continue
 weight = get_weight(arcs_ret.loc[i,3])
 G.add_edge(predecessor,cur,weight=weight)
 undirected = nx.Graph(G)
 try:
 # TODO:利用nx包中shortest_path_length方法实现最短距离提取
 # TODO ...
 path = nx.shortest_path(undirected,source,target)
 distance = len(path)
 
 return (distance,path)
 except:
 return (-1,None)


def get_feature(X,tfidf_vec):
 """
 汇总上述函数汇总句法分析特征与TFIDF特征
 """
 # TODO:汇总上述函数汇总句法分析特征与TFIDF特征
 # TODO ...
 syntactic_features = []
 for sentence in X['ner'].array:
 syntactic_features.append(parse(sentence))
 features = np.concatenate([tfidf_vec.toarray(), syntactic_features],axis=1)
 return features
sen = X['ner'].array[0]

result = parse(sen)
print(sen)
print(result)
print(vec.shape)
features = get_feature(X,vec)


与本公司关系:受同一公司控制 2, ner_1646_ 司企业类型: 有限公司注册地址: 富阳市东洲街道东洲工业功能区九号路 1 号 法定代表人: ner_1645_ 明注册资本: ?16,000 万元经营范围: 许可经营项目:制造高效节能感应电机;普通货运。
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, -1, 0, 0]
(1269, 4522)


### 练习5:建立分类器

利用已经提取好的tfidf特征以及parse特征,建立分类器进行分类任务。

In [59]:
# 建立分类器进行分类
from sklearn.ensemble import RandomForestClassifier
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# TODO:定义需要遍历的参数
parameters = { 'penalty':('l1', 'l2'), 'C':[1, 10]}

# TODO:选择模型
lr = LogisticRegression(random_state=0)
clf = GridSearchCV(lr, parameters)

# TODO:利用GridSearchCV搜索最佳参数
clf.fit(features[:train_num], y[:train_num])
print(clf.cv_results_)
best_param = clf.cv_results_["params"][clf.cv_results_["rank_test_score"][0]-1]
print(best_param)
# print(clf.cv_results_["params"])
# print(clf.cv_results_["rank_test_score"])

# TODO:对Test_data进行分类
print(train_num)
print(len(features),len(y))
result = clf.predict(features[train_num:])
result = result.reshape([len(result),1])


# TODO:保存Test_data分类结果
# 答案提交在submit目录中,命名为info_extract_submit.csv和info_extract_entity.csv。
# info_extract_entity.csv格式为:第一列是实体编号,第二列是实体名(实体统一的多个实体名用“|”分隔)
# info_extract_submit.csv格式为:第一列是关系中实体1的编号,第二列为关系中实体2的编号。
sentenceWithNerIdAndMembers = []
info_extract_entity = dict()
info_extract_submit = []
for sentenceWithNerId in X['ner'].array[train_num:]:
 nerids = []
 for i, ner in enumerate(list(set(re.findall(r'(ner\_\d\d\d\d\_)', sentenceWithNerId)))):
 if ner[4:8].isdigit() and int(ner[4:8]) not in nerids:
 nerids.append(int(ner[4:8]))
 info_extract_entity[int(ner[4:8])] = ner_dict_reverse_new[int(ner[4:8])]
 entity1 = "0"
 entity2 = "0"
 if len(nerids) >= 2:
 entity1 = ner_dict_reverse_new[nerids[0]]
 entity2 = ner_dict_reverse_new[nerids[1]]
 sentenceWithNerIdAndMembers.append([sentenceWithNerId,entity1,entity2])

test_sentences = test_data.values[:,1].reshape([len(test_data),1])

pred_results = np.concatenate([test_sentences,sentenceWithNerIdAndMembers,result],axis=1)
print(pred_results[:5])
for i in range(len(pred_results)):
 if int(pred_results[i,-1]) == 1 and int(pred_results[i,2]) != 0 and int(pred_results[i,3]) != 0:
 info_extract_submit.append([ner_dict_new[pred_results[i,2]],ner_dict_new[pred_results[i,3]]])
df_info_extract_entity = pd.DataFrame(list(info_extract_entity.items()),columns=["实体编号","实体名"])
df_info_extract_submit = pd.DataFrame(info_extract_submit,columns=["实体1","实体2"])

df_info_extract_entity.to_csv("../submits/df_info_extract_entity.csv")
df_info_extract_submit.to_csv("../submits/df_info_extract_submit.csv")

 

 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)
 y = column_or_1d(y, warn=True)


{'mean_fit_time': array([0.02740773, 0.02587167, 0.03985373, 0.02955047]), 'std_fit_time': array([0.00234381, 0.00048195, 0.00140094, 0.00162232]), 'mean_score_time': array([0.00247908, 0.00247018, 0.00244745, 0.00244482]), 'std_score_time': array([4.81680276e-05, 3.60999287e-05, 4.03044161e-05, 1.54933354e-05]), 'param_C': masked_array(data=[1, 1, 10, 10],
 mask=[False, False, False, False],
 fill_value='?',
 dtype=object), 'param_penalty': masked_array(data=['l1', 'l2', 'l1', 'l2'],
 mask=[False, False, False, False],
 fill_value='?',
 dtype=object), 'params': [{'C': 1, 'penalty': 'l1'}, {'C': 1, 'penalty': 'l2'}, {'C': 10, 'penalty': 'l1'}, {'C': 10, 'penalty': 'l2'}], 'split0_test_score': array([0.89788732, 0.88732394, 0.92605634, 0.92253521]), 'split1_test_score': array([0.93309859, 0.92957746, 0.94014085, 0.95774648]), 'split2_test_score': array([0.90070922, 0.92198582, 0.96099291, 0.94326241]), 'mean_test_score': array([0.91058824, 0.91294118, 0.94235294, 0.94117647]), 'std_test

ValueError: invalid literal for int() with base 10: '李云峰'

### 练习6:操作图数据库
对关系最好的描述就是用图,那这里就需要使用图数据库,目前最常用的图数据库是noe4j,通过cypher语句就可以操作图数据库的增删改查。可以参考“https://cuiqingcai.com/4778.html”。

本次作业我们使用neo4j作为图数据库,neo4j需要java环境,请先配置好环境。

将我们提出的实体关系插入图数据库,并查询某节点的3层投资关系,即三个节点组成的路径(如果有的话)。如果无法找到3层投资关系,请查询出任意指定节点的投资路径。

In [None]:

from py2neo import Node, Relationship, Graph

graph = Graph(
 "http://localhost:7474", 
 username="neo4j", 
 password="person"
)

for v in relation_list:
 a = Node('Company', name=v[0])
 b = Node('Company', name=v[1])
 
 # 本次不区分投资方和被投资方,无向图
 r = Relationship(a, 'INVEST', b)
 s = a | b | r
 graph.create(s)
 r = Relationship(b, 'INVEST', a)
 s = a | b | r
 graph.create(s)

In [None]:
# TODO:查询某节点的3层投资关系


## 步骤4:实体消歧
解决了实体识别和关系的提取,我们已经完成了一大截,但是我们提取的实体究竟对应知识库中哪个实体呢?下图中,光是“苹果”就对应了13个同名实体。
<img src="../image/baike2.png", width=340, heigth=480>

在这个问题上,实体消歧旨在解决文本中广泛存在的名称歧义问题,将句中识别的实体与知识库中实体进行匹配,解决实体歧义问题。


### 练习7:
匹配test_data.csv中前25条样本中的人物实体对应的百度百科URL(此部分样本中所有人名均可在百度百科中链接到)。

利用scrapy、beautifulsoup、request等python包对百度百科进行爬虫,判断是否具有一词多义的情况,如果有的话,选择最佳实体进行匹配。

使用URL为‘https://baike.baidu.com/item/’+人名 可以访问百度百科该人名的词条,此处需要根据爬取到的网页识别该词条是否对应多个实体,如下图:
<img src="../image/baike1.png", width=440, heigth=480>
如果该词条有对应多个实体,请返回正确匹配的实体URL,例如该示例网页中的‘https://baike.baidu.com/item/陆永/20793929’。

- 提交文件:entity_disambiguation_submit.csv
- 提交格式:第一列为实体id(与info_extract_submit.csv中id保持一致),第二列为对应URL。
- 示例:

| 实体编号 | URL |
| ------ | ------ |
| 1001 | https://baike.baidu.com/item/陆永/20793929 |
| 1002 | https://baike.baidu.com/item/王芳/567232 |


In [None]:
import jieba
import pandas as pd

# 找出test_data.csv中前25条样本所有的人物名称,以及人物所在文档的上下文内容
test_data = pd.read_csv('../data/info_extract/test_data.csv', encoding = 'gb2312', header=0)

# 存储人物以及上下文信息(key为人物ID,value为人物名称、人物上下文内容)
person_name = {}

# 观察上下文的窗口大小
window = 10 

# 遍历前25条样本
for i in range(25):
 sentence = copy(test_data.iloc[i, 1])
 words, ners = fool.analysis(sentence)
 ners[0].sort(key=lambda x:x[0], reverse=True)
 for start, end, ner_type, ner_name in ners[0]:
 if ner_type=='person':
 # TODO:提取实体的上下文
 



# 利用爬虫得到每个人物名称对应的URL
# TODO:找到每个人物实体的词条内容。

# TODO:将样本中人物上下文与爬取词条结果进行对比,选择最接近的词条。



# 输出结果
pd.DataFrame(result_data).to_csv('../submit/entity_disambiguation_submit.csv', index=False)
