数市

 找回密码
 立即注册
查看: 7|回复: 0

上市公司自媒体关注度数据

[复制链接]

51

主题

370

帖子

1768

积分

版主

Rank: 7Rank: 7Rank: 7

积分
1768
发表于 1 小时前 | 显示全部楼层 |阅读模式
本帖最后由 北大科研团 于 2026-1-19 17:37 编辑

上市公司自媒体关注度数据


数据丰富度:十分丰富
是否已更新:是
数据形式:Excel
时间:2007到2024
文件内容:数据数据来源计算方法、引用文献


载地址:点击这里



1. 自媒体文章的爬取和处理
使用网络爬虫方法,通过关键字检索和结果提取的方式获取微信公众号文章,并在此基础上构建自媒体关注度变量。具体步骤如下
第一,按照个股简称(包含历史简称)加上“股”作为关键词,在微信公众平台的专用搜索引擎搜狗微信搜索网站上进行搜索,将得到的所有结果内容导出,由此形成近40万篇微信公众号文章构成的初始文章库。
第二,去除单纯模糊匹配的结果;由于搜狗微信搜索使用的是模糊匹配、按相关度优先机制,因此部分文章实际上并不涉及任何个股简称,通过在正文中进行遍历检索,删除未提及到任何个股简称的文章。
第三,剔除掉非财经类发布的公众号文章;由于本文主要关注自媒体信息对金融市场的影响,因此主要关注财经类自媒体发布的文章。
第四,剔除由上市公司自身、金融或监管机构、传统媒体所运营的公众号。由于本文重点关注与上市公司无关的个人或非新闻机构市场化运营的公众号,因此对上述主体予以剔除。
第五,剔除影响力过小的公众号;由于影响力过小的公众号其覆盖人群较少、内容质量也有待市场进一步检验,因此为了减少度量噪音,将影响力过小的公众号进行了剔除。
经过上述步骤,初始文章库中还剩余131152篇文章,来自于3643个公众号。
对上述自媒体文章进行内容识别,统计提及的个股简称,从而将其与上市公司对应。从个股角度,可将提及其的所有自媒体文章数目加总,用于构造自媒体关注度变量。

2. 自媒体文章的分类
我们将公众号文章根据内容和形式划分为基本面分析类”“短期策略类以及新闻归集类
基本面分析类(后简称“分析类”)文章是指通过对宏观信息、行业信息、以及公司维度的各方面信息进行分析和整理,从而对公司的财务信息进行解读,对公司的发展前景进行分析,对公司的相关事件进行点评的文章。该类文章与分析师的分析报告较为类似,在生产这类信息时,自媒体需要花费大量的时间和精力,通过整理相关资料,提供有深度的分析等,从而最终完成内容输出。典型的生产基本面分析类文章的微信公众号如“功夫财经”“起点财经”“市值风云”等。
短期策略类(后简称“短期类”)文章是指根据市场大盘走势、当前热点题材等内容,通过使用短期技术分析,从而对个股短期走势进行判断并进行观点输出的文章。与分析类文章相比,这类文章的更新频率更高、篇幅更短、信息生产成本也显著更低。典型的生产短期策略类文章的微信公众号如好运哥2008”“午间明道”等。
新闻归集类(后简称“新闻类”)文章是指对当前新闻事件进行整合、归集后所进行的内容输出。新闻归集类文章一般会对宏观、行业、上市公司等相关新闻进行汇总,但也存在对重要新闻进行全文转载的情况。与基本面分析类文章相比,该类文章的生产成本和生产门槛显著更低,更新频率显著更高。典型的生产新闻归集类文章的微信公众号如财经早餐”“荣茂读报等。
为了对样本文章库中的文章进行类别划分,我们采用如下步骤:
第一,随机选取样本文章库中的文章进行阅读,人工判定其是否属于分析类文章。重复该操作,直至选出200篇分析类文章。将这200篇分析类文章作为分析类文章的代表性样本。利用python软件对该代表性样本进行分词处理,将处理后的分词按出现频率排序,人工剔除常见词语后,得到对应的分析类词语列表。使用该列表,可以对样本文章库中的所有文章进行分析类词语的词频统计,得到库内每一篇文章的分析类词语词频数量。
第二,初步筛选短期类文章;短期类文章一般会出现技术分析的相关术语(如K线”“短线”“乖离率”“大盘”等)、或者对热点题材的股票进行推荐。鉴于此,本文通过统计文章内容中是否出现超过3个技术分析相关术语、或标题中是否出现“荐股”“附股等词语,从而对短期类文章进行判断,对于满足上述标准的文章,将其初步划分为短期类。
第三,初步筛选新闻类文章;新闻类文章的标题中一般会出现“新闻”“要闻”“财经”“头条”以及具体的日期等,对于满足该标准的文章,将其初步划分为新闻类。
第四,对样本库内所有未被初步划分为短期类和新闻类的剩余文章,进行人工阅读分类,过程中使用每篇文章的分析类词语词频数量作为辅助判断标准。在经过人工阅读后,将库内剩余文章按照三类文章的特征进行分类。
第五,由于分析类自媒体文章与分析师的分析报告在文章性质上较为相似(即同属于分析类文章),并且具有最高的信息生产成本,为了最大限度地找全样本库中的分析类文章,本文挑选出第二和第三步中被初步筛选为短期类和新闻类、且分析类词语词频数量位于样本前20%的文章,对这部分文章再次进行人工阅读分类。
最后,随机抽取5%的文章,对文章的分类情况进行人工二次核查。该步骤一方面可以检验前序步骤的分类准确率,另一方面也可以对部分划分不正确的情况进行纠正。再次核查结果显示,之前的分类工作准确率非常高,错误划分的情况低于1%
值得说明的是:其一,由于所有分析类文章都经过仔细的人工筛选,所以该分类下的文章具有较高的准确性,这为后期对该类文章内容进行文本分析提供了坚实基础。其二,对于样本库内的任意一篇文章而言,其要么是分析类,要么是非分析类(即短期类或新闻类),不存在该文章同时为分析类且为短期类(或新闻类)的可能。其三,由于部分文章既符合新闻类的判断标准,又符合短期类的判断标准,因此,在计算公司维度新闻类自媒体关注度和短期类自媒体关注度时,这部分文章都会纳入计算。


数据的整理花费了很多功夫,里面有很详细的介绍,欢迎使用!


1.png

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|数市

Email:2791600291@qq.com

版权所有 © 数市 保留所有权利

京ICP备05065075号-1 京公网安备110402430047号

数市

版主QQ:2791600291

http://idata.work-专业数据市场

专注于分享新颖、独特和优质的数据

快速回复 返回顶部 返回列表