数市

 找回密码
 立即注册
查看: 72|回复: 0

上市公司数字技术风险暴露数据

[复制链接]

96

主题

369

帖子

1563

积分

版主

Rank: 7Rank: 7Rank: 7

积分
1563
发表于 前天 16:30 | 显示全部楼层 |阅读模式
本帖最后由 中国资料 于 2025-10-12 16:42 编辑

上市公司数字技术风险暴露数据

最新版数据已整理为Excel格式,数据的时间区间为2007-2024年,内含数据+计算方法+数据来源+参考文献,欢迎下载!



采用FinBERT 大语言模型对企业年度报告中的管理层讨论与分析(Management Discussion and Analysis,以下简称MD&A)部分涉及数字技术安全的相关论述进行文本情感识别,从而构建企业—年份层面的数字技术风险指标。

大语言模型是指用于处理自然语言信息的大型人工智能模型,其中,FinBERT是国内首个在金融领域大规模语料上训练的开流模型。这类模型利用注意力机制,得出对每个词上下文敏感的表示,能够捕获文本中的长距离依赖性和复杂关系,从而更细致地理解和生成语言。

选择企业年度报告MD&A部分的文本作为识别数字技术风险暴露程度的信息基础基于以下两方面的考虑:第一,大量文献证实MD&A部分具有客观有效的信息含量,存在风险揭示功能,并能增强财务报告的有用性。我们发现在MD&A中,部分企业会以独立段落重点写明企业面临的技术风险。例如,某企业指出:“公司技术革新风险:公司互联网视频业务对互联网的依赖程度较高,运营的安全易受到电讯故障、黑客攻击、病毒等因素的影响。”第二,基于MD&A部分信息识别企业风险暴露情况的做法在国内外众多文献中已经得到应用。

企业数字技术风险暴露变量的具体构造方式如下:

1.抓取数字技术风险相关的文本论述
首先从MD&A 部分的大量文本中识别出与数字技术风险相关的论述。对此,先构建出数字技术风险相关的关键词列表,并将关键词所在的句子提取出来作为后文训练和预测的基础。我们从技术风险的两大来源(数据风险和网络风险)分别选取了相关关键词。关键词的选取基础参考《工业和信息化领域数据安全风险信息报送与共享工作指引》(试行)和国家互联网信息办公室印发的《国家网络安全事件应急预案》中对数据风险和网络风险的定义和具体分类。此外,考虑到企业应用数字技术类型的差异,还包括了各种数字技术的具体风险。为提高关键词的普适性,还采用Word2vec模型扩展每个子类中涉及的关键词词典。

2.标注训练集
我们从经过关键词筛选后的句子论述中随机抽取了10% 的样本进行标注,以判断每条论述是否反映出企业在数字技术风险方面的暴露或采取了相应的防范措施,从而为下一步模型的预训练提供数据支持。为了提高标注的效率和准确性,采用GPT 和人工标注相结合的办法。考虑到语言差异因素,选取美国OpenAI公司的ChatGPT 和国内智谱清言公司的ChatGLM两种人工智能模型对数据进行识别分析。在标注过程中,通过提问“该论述是否反映了企业面临数字技术风险的暴露?”和“该论述是否反映了企业采取措施对数字技术风险进行了防范?”来获取ChatGPT Chat⁃GLM 的判断结果。对于两种人工智能模型判断不一致的句子或给出“不确定”判断的句子,我们进行了人工复核,以提高最终标注的准确性。我们将涉及因数字技术风险而可能对公司运营产生负面影响的相关论述界定为数字技术安全风险暴露,并同时将反映企业采取的数字技术风险防范措施的论述纳入变量计算过程。

3.模型预训练和预测识别
我们首先将标注的数据转化为适用于情感分类模型的训练集。具体来说,对于标注结果为“风险暴露”的文本赋值为-1,表示“负面”情感;对于标注结果为“风险防范”的文本赋值为1,表示“正面”情感。我们将数据按0.60.4 划分为训练集和验证集,以此对模型进行预训练。模型的参数设置参考以往研究。在此基础上,设置模型评价的一系列指标,训练得到最终模型,并对预测集进行预测,得到全部数据的标注结果。

4.构建数字技术风险暴露程度指标
企业数字技术风险的最终暴露程度取决于以下两方面的差值:一是企业所披露的数字技术的最大风险点,即企业在数字技术应用中可能遭遇的最严重风险;二是企业在应对这些风险方面所积累的防范能力,这有助于降低其整体的数字技术风险水平,从而在一定程度上减少潜在的负面影响。我们将企业数字技术风险暴露(Digi_Risk_Exposure)定义为企业每年MD&A部分涉及数字技术风险的文本中,负面文本的负面情感概率最大值与正面文本的正面情感概率平均值之间的差值。这一构造使用最大风险点来捕捉企业的极端技术风险敞口,使用平均风险防范水平衡量企业的整体应对能力。进一步地,根据文本涉及的关键词差异,构建了数据安全风险(Data_Risk_Exposure)和网络安全风险(Cyber_Risk_Exposure)两个次级指标,为后文提供了细化的分析基础。

为了检验数字技术风险暴露指标的有效性,我们采用了以下方法:一是验证技术风险暴露与其他风险的相关性。数字技术风险不仅直接影响企业的生产和服务能力,还与其整体运营、财务结构和市场环境相互交织,从而对经营稳定性带来深远影响。我们发现技术风险暴露与企业财务风险、经营风险等其他风险之间存在显著正向关联。二是验证算法的准确率。我们在涉及数字技术风险的文本中多次随机抽取样本进行标注,并对模型判断结果进行人工审核,发现模型在处理数字技术风险相关的情感分析任务中表现出较高的准确性,尤其是在情感倾向明显的句子中。

数据来源权威、可靠、详实,并由中国经济研究资料室精心整理。



数字技术风险暴露1.png
数字技术风险暴露2.png
数字技术风险暴露3.png
数字技术风险暴露5.png

数字技术风险暴露4.png

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|数市

Email:2791600291@qq.com

版权所有 © 数市 保留所有权利

京ICP备05065075号-1 京公网安备110402430047号

数市

版主QQ:2791600291

http://idata.work-专业数据市场

专注于分享新颖、独特和优质的数据

快速回复 返回顶部 返回列表