经济学拔尖基地举办“学术研究方法系列讲座”第三讲：经济学研究中的文本大数据分析-中央财经大学经济学院

学院快讯

当前位置: 首页 -> 学院快讯 -> 正文

经济学拔尖基地举办“学术研究方法系列讲座”第三讲：经济学研究中的文本大数据分析

阅读次数：次日期：2026-03-31

2026年3月25日，中央财经大学数字经济时代经济学拔尖学生培养基地“学术研究方法系列讲座”第三讲，在学院楼11号楼209教室顺利举办。本次讲座特邀经济学院方海东老师担任主讲人，围绕“经济学研究中的文本大数据分析”这一核心主题，为基地学子带来了一场兼具理论深度与实践指导意义的学术分享。

讲座开篇，方海东老师以“文本即数据”为核心切入点，结合数字化发展浪潮下的学术研究趋势，深刻指出文本数据已成为当代经济学研究领域不可或缺的核心资源，为经济学研究拓展了全新的视角与维度。他着重强调，文本分析研究始终无法脱离经济学因果推断的核心命题，必须牢牢树立“相关性不等于因果性”的研究思维，避免陷入研究逻辑误区。同时，方老师系统阐释了内部有效性与外部有效性的核心区别：内部有效性聚焦于验证观察到的因果关系是否真实成立，是研究结论严谨性的基础；外部有效性则关注研究结论能否推广至其他人群、不同地区或不同时期，是研究价值普适性的关键，为同学们搭建了严谨的学术研究逻辑框架。

在传统文本分析方法讲解环节，方老师进行了系统性梳理，逐一详解词袋模型、TF-IDF、n-gram模型与主题模型的核心原理、应用场景及内在局限。针对词袋模型，他点明其存在中文分词难度大、停用词干扰研究精度等突出问题；TF-IDF算法虽能通过权重调整，弱化高频无区分度词汇对分析结果的影响，却依旧难以攻克一词多义、数据高维稀疏性的行业难题；n-gram模型虽保留了词汇序列信息，有效弥补了词袋模型的不足，但随之而来的维度爆炸问题极大限制了其应用范围；主题模型更适用于宏观研究趋势的把握，却缺乏精准的因果识别能力。此外，方老师还深入讲解了文本回归中的Lasso模型，针对“特征数远大于样本数”这一文本分析常见困境，对比分析了普通最小二乘法无法求解、易出现过拟合的弊端，阐明Lasso模型通过正则化手段实现高效特征选择与数据降维的优势，让模型具备更优异的泛化能力，为传统文本分析提供了可行的优化路径。

进入深度学习模型板块，方海东老师带领同学们完整回顾了文本分析模型的演进脉络，从传统循环神经网络（RNN），到革命性的Transformer架构，再到BERT、GPT等前沿大模型，层层递进拆解技术发展逻辑。他详细解读了注意力机制、多头注意力机制、位置编码、前馈网络结合残差连接与层归一化等核心关键技术，打破了同学们对深度学习模型“黑箱”的固有认知，明确指出这类前沿模型是提取文本可解释特征、构建科学因果推断框架的重要工具，为文本分析与经济学研究的深度融合筑牢了技术基础。

讲座临近尾声，方海东老师系统梳理了经济学研究领域常见的文本数据来源，涵盖报纸新闻、企业年报、政策文件等多元载体。他进一步强调，文本数据的核心价值不仅体现在规模体量上，更蕴藏于其丰富的语义信息与独特的时间维度之中，合理挖掘这些价值是开展高质量经济学研究的关键。最后，方老师寄语在场学子，开展学术研究既要扎实掌握各类文本分析方法与技术工具，更要聚焦真实经济问题，注重研究问题的精准提出与理论框架的科学构建，始终坚守“方法服务于问题，数据服务于现实”的学术初心，让研究成果真正贴合经济社会发展实际。

本次讲座全面梳理了文本分析从传统方法到前沿模型的完整方法谱系，清晰阐释了技术演进的内在逻辑，帮助同学们夯实了文本分析与因果推断的理论基础，为后续开展相关学术研究、撰写专业学术成果提供了系统且清晰的方法论指引，有效提升了拔尖学生的学术研究素养与科研实践能力。

撰稿人：陈音妙

审核人：郭冬梅胡志安

上一条：马海涛校长为经济学拔尖基地讲授明德至善通识课——构建中国财政学自主知识体系
下一条：与院士对话，为学途引航 | 经济学院首场“院士面对面”活动精彩回顾