小规模金融并购、投资事件图谱设计概述与数据构成解析

大邓和他的Python

共 5011字,需浏览 11分钟

 · 2022-11-22

作者

刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。


事件图谱是当前的一个十分有趣的话题,我们在前面的事件图谱系列文章中对事件图谱进行了论述。

例如文章《技术思考:面向落地应用的事件类图谱划分、关键问题及其与知识图谱的对比辨析》、《事件图谱应用:智能金融与情报分析中的七大应用潜在场景概述》、《事件图谱技术:基于触发词的事件句识别方法与关键流程总结》等。

同样本着技术具像化的原则,为了让大家对具体事件图谱有个清晰的直观的认识,本文我们介绍一个自建的金融事件图谱,涵盖并购和投资两大类事件类型,从金融事件图谱设计概述、投资事件图谱数据介绍以及并购事件图谱数据介绍三个角度进行论述,供大家一起参考。


一、金融事件图谱设计概述

事件知识图谱EKG(event knowledge graph)是当前事件类图谱的一种,在这里,我更倾向于认为这个图谱本身更倾向于为一个事件知识库,而非实体知识图谱。

事件知识图谱的工作主要围绕事件知识本身进行展开,关注点在于事件内部信息,如ACE中的8大类事件,将这几类事件中的信息进行抽取和填充就能够得到一个以特定事件类型作为分类标准的事件知识库,如婚姻事件库、爆炸事件库等。

而相对应的,领域事件图谱显得更为重要,金融领域作为一个需求较为明显的领域,其建模能力更具代表性,例如,我们可以对事件图谱进行本体定义:

事件类型事件要素事件关系
投资事件融资方、投资方、金额、轮次、融资时间、所属行业顺承/时序
并购事件并购方、被并购方、并购状态、所属行业、涉及股权、并购开始时间、并购结束时间、是否VC/PE支持顺承/时序

在这样一个本体框架之下,我们要构建起一个事件图谱,可以有两种方式:

1、从已经结构化好的数据源中直接获取。 例如,目前针对投融资领域已经出现了许多垂类网站,如投资界、IT橘子中直接获取,并做清洗。这种方式最为快捷,但受制于人,其中的数据有限,并存在字段不全的问题。当我们想建成一个实时动态的金融事件图谱库,在捕捉实时数据时,及时处理时候,就需要采用抽取的思路。

2、基于模型的非结构化文本抽取。 为了避免方法1带来的拿来主义缺陷,我们可以转换为标准的事件抽取任务,针对实时的实时新闻流,进行论元识别、事件要素抽取。

例如,给定文本:

8日消息,总部位于墨西哥的在线批发平台Miferia获得了700万美元种子轮融资,该轮融资由贝恩资本风险投资公司和Tiger Global共同领投。Miferia批发平台将墨西哥的独立零售店与化妆品、食品和饮料以及家居装饰等类别的品牌联系起来。该平台拥有来自500多个品牌的数千种产品,每周有30多个新品牌上线。(Latamlist)

我们可以从中检测出融资事件:

8月8日消息,总部位于墨西哥的在线批发平台Miferia获得了700万美元种子轮融资,该轮融资由贝恩资本风险投资公司和Tiger Global共同领投。

并识别出一下结构化信息:

融资方:Miferia
金额:700万美元
轮次:种子轮以及投资方贝恩资本风险投资公司、Tiger Global;
融资时间:8月8日、所属行业:在线批发等信息

下图展示了一个金融领域的一个典型投资领域事件图谱:

其中包括“君度德瑞、新余凯信投资、深圳市立德富盈投资等投资信濠光电20%股权”、“东莞中科中广基金(领投)、中广创投、紫宸创投等投资信濠光电5%股权”两个投资事件,每个投资事件由投资方、融资方、金额、日期、轮次几个事件要素构成,而若以一个融资方为中心进行融资历程的刻画,就可以根据日期发展的先后顺序,在两个事件之间形成一条边。

需要注意的是,现在的事件抽取任务中,是不包含事件名称的抽取的,但如果要星辰恶搞事件图谱,就必须保证该事件的唯一性和友好性,可以使用md5值来表示,但并不直观,图中给出了一个较好的例子,用一个短句来表示。

二、投资事件图谱数据介绍

我们以投资界为数据源,通过解析整理,形成了9093条投资事件,包括融资方、投资方、金额、轮次、融资时间、所属行业共5个要素。

数据样例:

{
    "name":"苏州聚源铸芯创投基金(领投)、创世一期、高捷资本等投资英彼森",
    "event_type":"投资事件",
    "融资方":"英彼森半导体(珠海)有限公司",
    "投资方":[
        "聚源资本",
        "高捷资本",
        "创世伙伴",
        "绿河投资",
        "珠海科技创投"
    ],
    "金额":"RMB数亿",
    "轮次":"A轮",
    "融资时间":"2021年06月29日",
    "所属行业":"半导体及电子设备-半导体"
}

{
    "name":"Esta Investments、DD Asset Holdings、DST China EC XI等投资滴滴集团6.08%股权",
    "event_type":"投资事件",
    "融资方":"滴滴",
    "投资方":[
        "Esta Investments",
        "腾讯投资",
        "THL A11",
        "纪源资本",
        "数字天空技术"
    ],
    "金额":"USD7.5亿",
    "轮次":"B轮",
    "融资时间":"2014年12月02日",
    "所属行业":"电信及增值业务-无线互联网服务"
}

三、并购事件图谱数据介绍

同样的,我们得到了3865条并购事件数据,包括并购方、被并购方、并购状态、所属行业、涉及股权、并购开始时间、并购结束时间以及是否VC/PE支持等事件要素。

数据样例:

{
    "name":"友睦口腔收购友睦三九60%股权",
    "event_type":"并购事件",
    "并购方":"深圳市友睦口腔股份有限公司",
    "被并购方":"深圳友睦三九口腔门诊部有限公司",
    "并购状态":"已完成",
    "所属行业":"生物技术/医疗健康-医疗服务",
    "涉及股权":"60.00 %",
    "并购开始时间":"2017年03月21日",
    "并购结束时间":"2017年03月21日",
    "是否VC/PE支持":"是"
}

{
    "name":"我享科技收购我享网络",
    "event_type":"并购事件",
    "并购方":"上海我享网络信息科技股份有限公司",
    "被并购方":"上海我享网络科技有限公司",
    "并购状态":"已完成",
    "所属行业":"互联网-电子商务-C2C",
    "涉及股权":"N/A",
    "并购开始时间":"2017年03月01日",
    "并购结束时间":"2017年03月24日",
    "是否VC/PE支持":"是"
}

总结

本文我们介绍l额一个自建的金融事件图谱,涵盖并购和投资两大类事件类型,从金融事件图谱设计概述、投资事件图谱数据介绍以及并购事件图谱数据介绍三个角度进行论述,这对加深我们对事件图谱的具象化认识具有一定的意义。

关于具体的数据,可以关注 公众号:老刘说NLP,并加入技术社区,与技术社区的朋友一同分享获取。


精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

支持开票 | Python实证指标构建与文本分析

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

从符号到嵌入:计算社会科学的两种文本表示

资料 | 量化历史学与经济学研究

转载 | 金融学文本大数据挖掘方法与研究进展

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

长期征稿 | 欢迎各位前来投稿

17G数据集 | 深交所企业社会责任报告

70G数据集 | 上市公司定期报告数据集

27G数据集 | 使用Python对27G招股说明书进行文本分析

百度指数 | 使用qdata采集百度指数

Maigret库 | 查询某用户名在各平台网站的使用情况

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Wordify | 发现和区分消费者词汇的工具

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

BERTopic库 | 使用预训练模型做话题建模

tomotopy | 速度最快的LDA主题模型

Wow~70G上市公司定期报告数据集

100min视频 | Python文本分析与会计

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

R语言 | 使用posterdown包制作学术会议海报
R语言 | 使用ggsci包绘制sci风格图表
R语言 | 使用word2vec词向量模型

R语言 | 将多个txt汇总到一个csv文件中

浏览 25
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报