数市

 找回密码
 立即注册
查看: 5|回复: 0

上市公司人工智能数据

[复制链接]

122

主题

430

帖子

1793

积分

版主

Rank: 7Rank: 7Rank: 7

积分
1793
发表于 1 小时前 | 显示全部楼层 |阅读模式
本帖最后由 中国资料 于 2026-1-19 17:32 编辑

上市公司人工智能数据

最新版数据已整理为Excel格式,数据的时间区间为2007-2024年,内含“数据+计算方法+数据来源+参考文献”,欢迎下载!


1.人工智能应用水平构建方法
采用Mikolov et al.2013)提出的Word2Vec机器学习技术,构建相对客观完备的人工智能术语词典,从而得到全面反映企业人工智能应用水平的高质量文本指标。具体步骤如下:
第一步,人工阅读大量管理层讨论与分析MD&A)语料以获取中文文本信息的特点,确定企业人工智能应用的维度以及各维度的种子词汇,邀请业界和学术界专家对种子词汇进行核验和调整,最终确定三个维度:(1)智能识别与验证,种子词汇包括:图像识别”“模式识别”“声纹识别”“人脸识别”“身份验证;(2)数据处理与分析,种子词汇包括:数据挖掘”“分布式计算”“特征提取;(3)人工智能商业应用,种子词汇包括:人工智能”“智能家居”“无人驾驶”“虚拟现实”“人机交互
第二步,通过Python提取所有上市公司年报的MD&A部分,来构建人工智能应用水平指标,选取该部分的理由如下:(1MD&A是企业高管对公司经营现状和战略规划的描述部分,通常包含人工智能等前沿技术的投资与应用信息,能够反映企业对人工智能发展的重视程度与部署情况;(2)与财务报表等其他部分相比,MD&A采用自然语言编写,信息连贯且内容较为详尽,适合进行文本分析。本文对MD&A文本进行Jieba分词并删除停用词,停用词表综合了百度停用词表、哈工大停用词表、四川大学机器智能实验室停用词库、中国人民大学信息学院的中文停用词表以及作者手工整理的停用词表。
第三步,利用Word2Vec机器学习技术对种子词汇进行扩充。Word2Vec是基于神经网络的词向量表示方法,依据上下文语义信息将词汇表示成多维向量,使语义相关度高的词语在向量空间中距离更近。首先,计算每个维度种子词汇的平均词向量,并据此计算所有词语与该向量的余弦相似度,作为其与该人工智能维度的相关程度指标。将词语按相似度从高到低排序,保留每个维度前2000个词汇,并确保不同维度之间词语不重复。若某词语在多个维度上相关度都高,则分配至最接近的维度。为剔除语义相近但非人工智能相关的词语,研究团队分为三组独立进行人工筛选,仅保留获得至少两组一致认可(支持率达到66.7%)的词语。经过上述步骤,原始种子词汇被扩展为包含530个词汇的人工智能词典,其中智能识别与验证维度116个词语,数据处理与分析维度237个词语,人工智能商业应用维度177个词语。
第四步,通过词典法计算MD&A报告中人工智能相关词汇出现频数与总词数的比值,以此衡量企业人工智能应用水平。本文使用词频逆文档频率加权法来调整词汇的重要性,赋予在文档中出现频率高但在其他文档中出现频率低的词语更高的权重。相比于简单统计人工智能相关词语的出现频次,该指标能够更好地保证不同长度文本的可比性,刻画不同词语对人工智能主题的区分度。

2.人工智能暴露度指标构建方法
第一,需要识别《中国专利数据库》中所有人工智能专利,具体识别步骤如下:(1)根据机器之心开源的《人工智能术语库v3.1》收录的2442个人工智能关键词创建词典;(2)在1985—2024年的《中国专利数据库》中已申请的(或已授权的)有效专利摘要信息中遍历搜索词典内的关键词,以识别出人工智能专利授权数量。
第二,根据Webb2020)和Acemoglu et al.2022)的研究,按照基于职业任务与人工智能专利任务相似度的方法测算企业维度的人工智能暴露度指数。这一方法的核心思想是,一个工作任务出现在人工智能专利摘要中的次数越多,就代表这个工作任务越容易受到人工智能技术的冲击。具体测算方法如下:(1)利用Python Jieba字符串分词库,将人工智能专利摘要文本切分,提取其中全部的动词名词对(例如,开发算法”“组装机器人)。(2)同样地,利用Python Jieba字符串分词库,将《职业大典》中的职业细类主要工作任务文本切分,提取其中全部的动词名词对,构成一套相对规范化和标准化的基准任务表述词库。(3)根据这套基准任务表述词库中的动词名词对,利用Python Jieba字符串分词库中内置的近义词替换功能,修正人工智能专利摘要中提取的动词名词对。(4)逐年计算职业细类主要工作任务中的动词名词对在人工智能专利摘要描述中的动词名词对中出现的相对比例。这里设定人工智能专利对照的窗口为10年,即计算t年的相对比例时,使用t年以前10年的人工智能专利摘要中提取的动词名词对作对照。(5)将动词名词对维度的相对比例以平均值(或中位数)加总到职业维度,得到每一个职业的基于专利摘要的人工智能暴露度。(6)根据网络招聘信息与《职业大典》的匹配字段,得到每一条招聘岗位对应的人工智能暴露度,并将招聘岗位维度的人工智能暴露度按年份以预期招聘人数加总到企业维度,得到企业层面的人工智能暴露度。在实证分析中,将企业人工智能暴露度指数进行标准化,以便解释其经济学含义。

3.生成式AI和行业大模型变量的构建方法

企业在当期及以前完成了生成式人工智能的算法备案,取值为1否则0

企业所在的行业已经存在行业大模型,取值为1否则0

数据来源权威、可靠、详实,并由中国经济研究资料室精心整理。


1.png


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|数市

Email:2791600291@qq.com

版权所有 © 数市 保留所有权利

京ICP备05065075号-1 京公网安备110402430047号

数市

版主QQ:2791600291

http://idata.work-专业数据市场

专注于分享新颖、独特和优质的数据

快速回复 返回顶部 返回列表