* 以下内容是在学习过程中的一些笔记,难免会有错误和纰漏的地方。如果造成任何困扰,很抱歉。*

* 本篇大部分内容基本都来自于:金融学文本大数据挖掘方法与研究进展(姚加权等,2020)。只是在阅读过程中,把其中自己觉得重要的东西提取出来,方便理清文章脉络。推荐大家阅读原文。下面过程中提到的“这篇文章”皆指此文。*

这篇文章讲了3个问题:

金融学领域文本大数据挖掘步骤和方法金融学文本大数据的研究进展未来金融学文本大数据的研究方法和研究内容展望1. 金融学领域文本大数据挖掘步骤和方法

语料获取+文本的预处理+文档表示+文档的特征抽取 +(最后的)具体问题分析

第一部分关于挖掘步骤和方法所有内容都是基于下图在进行详细说明。

文本大数据分析流程图。图源:金融学文本大数据挖掘方法与研究进展(姚加权等,2020)

1.1 语料获取

两种方式:(1)手工收集+(2)网络抓取/爬取

1.2 文本的预处理

预处理包括以下五个步骤:(1)文档解析+(2)文本定位与数据清洗+(3)文本的分词标注+(4)词性的标注(part-of-speech tagging)+(5)停用词去除(stop words)

1.2.1 文档解析

文档解析就是指从“富格式文档(richly formatted documents)”中获取需要的文本信息的过程。简单点说,绝大多数金融市场要求的信息披露文档格式为pdf,所以我们拿到的原始文件可能是pdf格式。处理过pdf格式的人应该都知道,它并不像txt或者word文件那样容易处理,所以从原始文件中提取需要的文本信息,慎重选择文档结构的解析工具。【文中脚注:我们详细举例说明了选择精准PDF解析工具的重要性,详见本文的在线附录,有兴趣的读者可以联系作者获取。】

1.2.2 文本定位与数据清洗

文本定位是指对需要的文本信息进行定位,进而将该内容提取出来。比如,我们下载了A公司的财务报表,并进行了过程(1)文档解析,但实际上可能我们并不需要其中全部内容,只需要其中的MD&A部分(MANAGEMENT DISCUSSION AND ANALYSIS,管理层讨论与分析,是上市公司年报第八节——董事会报告的重要组成部分),所以我们需要定位到这部分内容,并且提取出来。

数据清洗就是指对文本中视为噪音的内容进行清洗和删除。比如广告、超文本标记语言(HTML)、直译式脚本语言(JavaScript)等代码和图片等。

1.2.3 文本的分词

对于英文来说:单词通过空格就可以实现分词。加之“词形还原(lemmatization)”和“词干提取(stemming)”还可以对单词进一步处理;

对于中文来说:,大多数学者采用Python开源的“jieba”中文分词模块来进行分词。此外,在使用“jieba”分词时为提高分词精度,应当选择精准分词模式;针对新词(例如公司名称、产品名称和姓名等),还可以添加自定义词库。

1.2.4 词性的标注

词性就是指这个词属于名词、动词还是连接词等。。词性标注就是对切分后词语的词性做标记。

对于英文来说:通过词尾来判断词性,比如“-ing”、“-ness”和“-ment”等;

对于中文来说:主要靠语法和语义来识别。(文中也没有详细介绍,就提了这么一句。。。)

1.2.5 停用词去除

停用词因为本身传达意义较少,而且增加了文本数据的维度。所以去除了可以降低分析成本。

对于英文来说:停用词主要包括冠词(the,a)、连词(and,or)和动词(to

be)等;

对于中文来说:标点符号+特殊符号+连接词(和、然而等)+俚语等。

不过针对研究问题,比如研究文本情感时,其实就应该保留语气词和特定的标点符号。

1.3 文档表示

因为文本数据属于稀疏的高维度数据,计算机处理存在困难,因此对文本数据进行预处理后,还需要将文档中的信息以特定的方式表示出来。具体方法有:(1)词云(word cloud)、(2)词袋模型(bag of words, BOW),(3)词嵌入(word embedding)和(4)主题模型(topic model)。

1.3.1 词云

词云就是讲文本大数据可视化。词云技术能够描述词语在文本中出现的频率,当词语出现频率较高时,会以较大且醒目的形式呈现。

2018年数字经济年度关键词词云(阿里研究院)

1.3.2 词袋模型

词袋模型是一种建立在文字词组语序不重要的假设之上,将文本看作是若干个词语的集合,只计算每个词语出现次数的一种文本向量化的表示方法。该模型又包括:独热表示法(one-hot representation)和词频-逆文档频率法(term frequency-inverse document frequency, TF-IDF)。

举例说明独热表示法:假设有两个文档“文本大数据在经济学中的应用”和“文本大数据在金融学中的应用”,,基于这两个文本文档可以构建如下词表:[“文本”,“大数据”,“在”,“经济学”,“金融学”,“中”,“的”,“应用”],,按照该顺序进行词袋化后得到两个文档的词袋向量分别为:[1,1,1,1,0,1,1,1]和[1,1,1,0,1,1,1,1],,其中,“1”和“0”分别表示文档中有无出现这个词。

举例说明TF-IDF表示方法:首先公式如下,

idf_i=log\frac{N}{df_i} \\

tf-idf_{i,j}=\left \{\begin{eqnarray}&\frac{(1+log(tf_{i,j}))}{(1+log(a_j))}log\frac{N}{df_{i}}& \qquad&若tf_{i,j}\geq1 \\ &0& \quad &其他 \end{eqnarray} \right. \\

其中, df_i 表示包含词语 i 的文档数量, N 表示文档集合中的文档总数。 idf_i 为逆文档频率; tf_{i,j} 表示词语 i 在第 j 个文档中出现的总次数, a_j 为第 j 个文档中包含的词语数。 tf-idf_{i,j} 则为第 j 个文档中词语 i 的权重。

TF-IDF方法与独热表示法相比,就是给予不同单词不同的权重。而TF-IDF赋予权重的思想就是:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降

1.3.3 词嵌入

词嵌入是将维数为所有词的数量的高维空间嵌入到低维连续向量空间中的技术。在金融学文本分析中,Word2vec技术是常用的词嵌入技术(词语word to 向量vector),其包括CBOW(continuous bag of words)和Skip-Gram神经网络模型,可以通过训练使神经网络捕捉到更多词语之间的上下文信息,从而将每个词语映射成更低维度、稠密且包含更多语义信息的向量。最经典的例子就是“king-queen=man-woman”。

词嵌入模型。图源:金融学文本大数据挖掘方法与研究进展(姚加权等,2020)

1.3.4 主题模型

最常用的主题模型就是LDA(Latent dirichlet allocation)模型。LDA模型是在大规模语料集中提取主题信息的无监督机器学习方法。关于LDA就不再这里介绍,之前也写过关于LDA的内容。

1.4 文档的特征抽取

文档的特征抽取包括四个方面:(1)文本可读性(textual readability)+(2)文本情绪(textual sentiment)+(3)语义关联性(textual relatedness)+(4)文本相似性(textual similarity)

1.4.1 文本可读性

文本的可读性反映了读者理解文本信息的难易程度,文本可读性较低时,投资者会难以理解文本编辑者所传达的信息,进而会影响到投资者的投资行为。以往多数研究采用迷雾指数来衡量文本可读性(Li,2010b;Lehavy et al., 2011),也有研究利用年报中的字数(You et al., 2009)和年报电子文档的大小(Lounghran,2014)来衡量年报的可读性。

1.4.2 文本情绪

文本情绪提取方法有两种:(1)词典法(dictionary-based approach)+(2)有监督机器学习方法(supervised machine learning)

(1)词典法是指运用情绪词典来研究文本情绪或者语气语调的方法。针对英文文本大数据,已经形成多部具有影响力的词典,例如Henry词典、LM词典、哈佛大学通用调查词典、文辞乐观和悲观词典等;针对中文文本大数据,大多数学者是参考英文词典及其他词库的基础上构建自己的词典展开研究(王昌云和武佳薇,2015;曾庆生等,2018),此外,,姚加权等(2019)通过词典重组和深度学习算法构建了针对金融领域正式文本和非正式文本的中文情绪词典。

Jegadeesh &Wu(2013)指出,在词典法中选择合适的加权方法至少跟选择准确的词典一样重要。在金融学领域中,多数学者采用了简单比例加总权重法衡量文本情绪,具体公式为:

Pos = 积极、正面词的个数/文本总次数 \\ Neg = 消极、负面词的个数/文本总词数\\ Tone = \frac{Pos-Neg}{Pos+Neg} \\

其中, Tone 为管理层净正面语调指标, -1\leq Tone \leq 1 ,当 Pos 大于 Neg 时, Tone 越大,从而说明管理层语调更加正面。,词典法的局限性在于,一方面,构建针对特定文本的词典时,需要相关领域的专业知识,这样就导致构建出来的特定词典无法简单地应用于其他文本。另一方面,词典法仅关注特定的关键词,从而会忽略文档的上下文关系。

(2)有监督机器学习方法是指将有标签的数据集分为训练集和测试集。,利用训练集来训练模型,然后将训练的模型应用到测试集中,使用测试集的预测结果来评估模型。在金融学文本情绪分类中,学者常用的有监督机器学习方法为朴素贝叶斯和支持向量机。

朴素贝叶斯(naive Bayesian)是一种基于贝叶斯理论的有监督机器学习算法。首先,输入训练集学习文档词语归类关系,得到文档归类的先验概率以及条件概率分布。其次,根据贝叶斯条件概率公式计算已知文档属于不同文档类别的条件概率。最后,基于最大后验假设把该文档归为具有最大后验概率的一类。

支持向量机(Support Vector Machine,SVM)。其基本思想为,将语料库中的文档通过核函数映射为高维度特征空间中的一个样本点,然后根据训练集,在特征空间中找到最优分类的超平面,使得它能尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离超平面最远。之前也有一篇笔记详细介绍SVM。

1.4.3 语义关联性

语义关联性就是根据某一类词语去识别文本语义特征的过程。具体而言,首先依照某一类关键词构建词表,然后计算词表中词语在文档中的词频,进而识别出文本中与关键词语义相关的语义特征。此外,学者还可以运用词嵌入技术,根据空间中词向量之间的距离(即语法和语义的相似性)来处理词语语义关联性问题。

1.4.4 文本相似性

目前,较多学者运用了余弦相似度指标来衡量财务报告的相似性和专利文本的相似程度。余弦相似度计算公式如下:

cosine similarity(d_1,d_2) = \frac{a \times b}{||a|| \times ||b||}= \frac{\sum_1^{n} w_{ai} \times w_{bi}}{\sqrt{\sum_1^{n} w_{ai}^2}\times \sqrt{\sum_1^{n} w_{bi}^2}} \\

其中, n 为特征个数, w_{ai}w_{bi} 为特征 i 在两个文本中的权重。该公式取值在0到1之间,数值越大表示文档相似度越大。

2. 金融学文本大数据的研究进展

金融学文本研究的文本类型主要包括:(1)上市公司披露的文本信息(如财务报表、电话会议、招股说明书等)+(2)财经媒体新闻+(3)社交网络+(4)搜索指数等+(国内比较火的)P2P网络借贷文本

【原文中列举了很多已有文献的研究进展,本笔记以脉络为主,所以每个方面可能只摘录一到两个比较有趣的例子。】

2.1 对上市公司披露文本信息的研究

2.1.1 上市公司披露文本的可读性研究。Lehavy et al.(2011)指出提高企业财务报告的可读性能够降低分析师盈余预测的离散度,提高分析师盈余预测的准确度.

2.1.2 上市公司披露文本的语气语调研究。在语气语调的研究方面,学者们认为公司披露文本的语气语调能够用于预测企业表现和股票市场的变化。Bochkay et al(2020)开发了一个极端语气词典,研究发现,管理者在电话会议中使用极端词汇后,企业的股票交易量会显著增加,股价反应会更加强烈。Jiang et al(2019)基于公司财务报告以及电话会议文本构建了经理情绪指标,指出该经理情绪指标能够有效预测股票收益,且该指标的预测能力超过常用的宏观经济变量及投资者情绪。曾庆生等(2018)研究了年报语调与年报披露后内部人交易行为之间的关系,发现企业管理者在编制年报时存在“口是心非”的现象,积极的年报语调却伴随着管理者较高的股票卖出规模。

2.1.3 上市公司披露文本的相似性研究。相似性也是公司披露文本信息的重要特征,一方面,基于企业之间财务报告内容的相似性可以研究不同企业之间的关系。另一方面,企业之间和企业不同时期财务报告的相似性也为研究企业披露行为模板化提供了契机。

2.1.4 上市公司披露文本的语义特征研究。Hanley&Hoberg(2019)将LDA模型和Word2Vec技术相结合,从银行年报中提取与风险相关的语义主题,并结合投资者的交易模式研究发现,金融行业新显露的风险信号有助于监管金融市场的稳定性。

2.2 对财经媒体报道的研究

常见的英文媒体报道有:《华尔街日报》、《纽约时报》以及《金融时报》;而在中国,证监会规定上市公司必须在《上海证券报》、《中国证券报》、《证券时报》、《金融时报》、《经济日报》、《中国改革报》、《中国日报》、《证券市场周刊》“七报一刊”中公布企业重大信息。

2.2.1 媒体关注和媒体情绪研究。Frank&Sanati(2018)研究发现,股票市场存在对好消息反应过度、对坏消息反应不足的现象,正面新闻冲击后股价会出现反转,负面新闻冲击会引起股价漂移。还有文献研究了媒体情绪对未来房价的预测作用(Soo,2018)。游家兴和吴静(2012)以财经报纸为研究文本进行研究发现,媒体情绪越高涨或越低落时,资产定价偏误的现象越严重。

2.2.2 经济政策不确定性研究。Baker et al(2016)根据多个主要经济体中具有代表性的媒体报道,运用文本挖掘技术构建了经济政策不确定性指数(economic policy uncertainty, EPU),该指数能够连续且定量地描述经济政策的不确定性。Bonaime et al(2018)基于该指数研究了经济政策不确定性对企业并购的影响,发现经济政策不确定性的上升会减少并购交易的价值和数量。

2.2.3 媒体偏向、谣言和假新闻研究。财经媒体报道还存在本地偏向现象。Gurun&Butler(2012)指出媒体在报道本地公司新闻时使用更少的否定词,出现该现象的原因在于本地公司投入了更多广告支出。

2.3 对社交网络文本的研究。

2.3.1 社交网络文本情绪研究。,Antweiler& Frank(2004)以雅虎财经网络论坛中的帖子研究对象,发现以帖子数量衡量的关注度指标能够有效地预测股票收益率和市场波动情况,帖子情绪分歧与同期股票交易量正相关。Huang et al(2016)基于东方财富股吧发帖信息发现,中国投资者也存在“本地偏见”现象,这种偏见在欠发达地区、大型公司、非沪深300指数、低成交量且名称表明公司所在地的股票中尤其明显。

2.3.2 策略性信息披露研究。研究表明,社交网络作为信息传播的途径,能够优化投资者获取信息的能力,降低投资者信息搜寻成本。Blankespoor et al(2014)发现公司在Twitter上发布新闻的链接能够降低公司股票的买卖差价,提高交易深度。

2.4 对搜索指数的研究

在互联网技术不断发展的背景下,网络搜索指数是衡量投资者对股票关注程度的有效指标。Da et al(2011)获取了单个股票每周的谷歌搜索指数,利用股票的搜索频率直接测量了投资者关注度。研究指出,运用搜索指数能够更及时地度量投资者关注度,搜索指数的增加能够预测未来两周股价的上涨以及一年内的股价反转。

2.5 其他文本(英文)

还有学者针对其他文本进行了研究。例如分析师报告(De Franco et al,2015)、员工对雇主的评级信息(Green et al,2019)和美国专利文本(Chen et al,2019)等。

2.5 P2P网络借贷文本

与国外相比,随着国内P2P网络借贷的兴起,该类文本成为国内文本分析的研究重点之一。陈霄等(2018)发现可读性较强的借款描述能够向投资者传递积极信息,提高借款的成功率。

3. 未来金融学文本大数据的研究方法和研究内容展望

针对金融学文本大数据分析,这篇文章认为还可以从以下几个方面进一步深入讨论:

3.1 丰富研究内容,开拓更多文本数据来源。一方面,可以在已有研究主体上进一步细分,例如在财经媒体报道方面,研究者可以不仅对媒体报道的数量和情绪进行分析,还可以对报道事件类型进行判断;另一方面,还可以开拓更多的本文大数据,比如微信公众号、政府工作报告、国务院政策文件、法院裁判文书、招聘网站、企业发布的业绩修正公告、社会责任鉴证意见、内部控制评价报告等。

3.2 运用新的文本信息提取方法。目前,在金融学领域的文本分析研究中,应用较为广泛的仍是无法反映上下文含义的“词袋”方法。但实际上,在自然语言处理领域(natural language procesiing, NLP)有许多新的方法非常有潜力,例如:(1)命名实体识别(named entity recognition, NER);(2)关系提取(relation extraction);(3)文本摘要(summarization)

3.3 将深度学习引入文本领域的学术研究。深度学习方法在NLP领域得到迅猛发展。深度学习模型主要包括:卷积神经网络(convolutional neural networks, CNN)模型、循环神经网络(recurrent neural networks, RNN)模型以及其变体长短记忆网络(long short term memory networks, LSTM)模型,生成对抗网络(GAN),强化学习,以及目前在NLP领域流行的BERT、XLNet等模型

图源:金融学文本大数据挖掘方法与研究进展(姚加权等,2020)

3.4 构建具有针对性的中文情绪词典。多数学者选择已有的英文情绪词典以及词库作为参照来构建中文文本情绪词典,这就导致了构建的词典缺乏针对中文语境的问题。此外,,应当针对不同的中文文本内容构建具有针对性的中文文本情绪词典(例如,企业年报中专业术语较多,社交网络媒体中俚语和表情符号使用较多)。

3.5 改进文本可读性指标。目前在文本可读性的衡量方面,多数学者参考迷雾指数展开分析。但是,语言的语序和逻辑关系是影响可读性的重要因素,如果仅考虑句子的长度和复杂字词的比例而忽略语序和逻辑,仍无法准确衡量读者对文本的理解程度。另外,在以往的研究中,一般会将文档中的表格删除,只分析文本段落中的内容,然而,表格内容包含的数字化信息往往比文字信息更加客观和容易理解。因此,基于文本中表格内容的统计信息可能会构造出更有效的可读性指标

3.6 提高研究的可复制性。文本大数据的非结构化特征使得将其转化为结构化数据的过程比较复杂,其转变方法会影响研究的可复制性。在未来的文本分析中,为了提高研究的可复制性,作者应当详细记录文档的预处理过程、文档表示以及特征的抽取方式。无论是使用词典法还是使用较为复杂的机器学习和深度学习方法,研究者都应当详细地揭示影响研究结果的关键词、词典以及具体思路和算法等。

参考文献

姚加权 张锟澎 罗平,2020:《金融学文本大数据挖掘方法与研究进展》,《经济学动态》第4期。

(苏州铁艺楼梯)