DC娱乐网

基于BERTopic建模的青少年健康需求主题研究

摘要【目的/意义】本研究利用BERTopic模型实现对青少年健康需求的主题挖掘,可为相关政府部门、医疗机构开展健康需求服

摘要

【目的/意义】本研究利用BERTopic模型实现对青少年健康需求的主题挖掘,可为相关政府部门、医疗机构开展健康需求服务提供参考和依据。【过程/方法】本研究以知乎平台中有关青少年健康问题下方的回答数据为研究对象,通过BERTopic建模提取主题及主题词,进行主题词优化和主题命名后,结合马斯洛需求层次理论对青少年健康需求进行演化分析,梳理各需求层次对应的文档数量分布,并深入探究青少年健康需求的时间演化路径,为满足青少年的健康需求,给予青少年更多的支持和关注。【结果/结论】研究结果表明,青少年健康需求包含了心理调适、世界和平、游戏娱乐、伤痛文学、心理治疗、体像认知、文娱作品、就业形势、头发保养、法律法规、消极思想、地域文化12个主题。主题演化与突发公共卫生事件、国家政策出台密切相关,并存在时间特性。【创新/局限】本研究将BERTopic模型与知乎平台数据相结合,探索青少年健康需求。未来可拓展多源数据,进一步深入挖掘青少年健康需求的具体侧重点。

关键词

马斯洛需求层次理论;青少年健康需求;主题词分析;主题演化;BERTopic模型

Abstract

[Purpose/Significance] This study uses the BERTopic model to realize the theme mining of adolescent health needs, which can provide reference and basis for relevant government departments and medical institutions to carry out health needs services. [Process/Method] The research object of this study is the answer data under the health problems of teenagers in Zhihu platform. The topic and keywords are extracted through BERTopic modeling, and the topic words are optimized and named. Combined with Maslow’s hierarchy of needs theory, this study analyzes the evolution of teenagers’ health needs, sorts out the total number of documents corresponding to each level of needs, and deeply explores the time evolution path of teenagers’ health needs, so as to give more support and attention to teenagers in order to meet their health needs. [Result/Conclusion] The research results showed that the health needs of adolescents included 12 themes, including psychological adjustment, world peace, game and entertainment, literature on trauma, psychotherapy, body image cognition, entertainment works, employment situation, hair maintenance, laws and regulations, negative thoughts, and regional culture. Theme evolution is closely related to public health emergencies and national policies, and has time characteristics. [Innovation/Limitations] This study combines the BERTopic model with Zhihu platform data to explore the health needs of adolescents. It is expected to further explore the specific focus of adolescent health needs from more data sources.

Keywords

Maslow’s hierarchy of needs theory; adolescent health needs; keywords analysis; theme evolution; BERTopic model

1 引言

我国青少年人口基数庞大,是国家发展的中坚力量[1]。青少年时期作为个体身心发展的关键阶段,其健康状况影响个体终身发展,攸关国家长远竞争力。党中央、国务院高度重视青少年健康成长[2],并印发《中长期青年发展规划(2016—2025年)》[3]和《“十四五”国民健康规划》[4]明确要求加强青少年健康促进工作。

伴随社会经济的发展和信息技术的渗透,青少年的健康观念和信息获取渠道呈现出新的特征。然而,当前关于青少年健康需求的研究,较多聚焦于心理健康、近视防控等特定议题,对青少年在网络表达的健康需求及其演变规律的挖掘仍显不足。基于此,本研究以知乎为例,获取并分析该平台青少年健康相关问题的回答文本,运用BERTopic模型进行主题挖掘,识别青少年健康讨论中的核心议题及其演变趋势,为相关部门制定健康促进政策、优化健康服务提供决策和参考。

2相关理论和文献综述

2.1 马斯洛需求层次理论及应用

马斯洛需求层次理论由马斯洛于1943年首次系统提出,人类需求被划分为生理需求、安全需求、社交与归属感需求、尊重需求、自我实现需求五个递进层次[5]。

该理论为理解人类行为动机提供了重要框架,被学界广泛运用。国内学者将该理论应用于老年人在数字时代的适应问题[6]、急诊科护士工作满意度提升[7]、灾后心理危机干预模式构建[8]、月球人类栖息地建设规划[9]、档案馆用户需求服务[10]、城乡居民文化消费差异[11]以及农民工信息需求分析[12]等方面。

国外学者则将其与住宅福祉框架构建[13]、老年人对社交辅助机器人的需求分析[14]、低碳出行方式选择[15]、家庭能源系统优化调度[16]以及水资源管理框架改进[17]相结合。这表明该理论为解决不同层面的个体与群体问题提供适应性的理论基础。

2.2 青少年健康需求相关研究

青少年健康需求研究更侧重于其多方面的具体需求:

燕凌等基于社会行动理论视角,关注体卫融合对青少年健康促进的影响[18]。汪瑞等系统梳理了艺术教育视域下青少年健康研究的核心理论,揭示了艺术教育对青少年健康的作用机制[19]。储莉婷等利用群组轨迹模型研究健康生活方式对青少年超重/肥胖及近视共患的影响[20]。徐结晶等运用结构方程模型探究校园环境对青少年健康促进的影响,结果显示影响青少年健康促进的校园环境包括环境品质、功能服务、活动支持三方面[21]。刘爽等探讨青少年体育活动与健康状况的关系及学业压力和睡眠质量的中介作用,揭示了学业压力和睡眠质量对健康状况的作用机制[22]。孙浩等从电子竞技行为入手探究其对青少年健康的影响[23]。喻晶等则探讨青少年体育参与中家长教育的内涵与价值[24]。

国外方面,Han等研究识别了青春期后期情绪障碍的预测性生物标志物[25]。Fassi等揭示了青少年社交媒体使用模式因其心理健康状况而异[26]。Hirshberg等提出数字技术为促进青少年健康提供了潜在途径[27]。Wang等揭示健康风险行为与多种心理症状呈显著正相关[28]。Hu等研究发现热浪暴露与青少年抑郁、焦虑症状呈显著相关[29]。

综上所述,关于马斯洛需求层次理论的研究,主要是其跨学科的广泛应用与实证检验。关于青少年健康需求的研究,呈现出多维度、跨因素的特点,涉及心理、行为及社会环境对健康的综合影响。

3 研究设计BERTopic主题建模和数据搜集

3.1 BERTopic主题建模流程

BERTopic是一种基于预训练语言模型的主题建模方法,结合深度学习语义理解和传统聚类算法,能够高效地从大规模文本数据中提取语义相关的主题[30]。其核心优势在于利用深度学习模型理解上下文语义,同时生成可解释的主题。建模流程如图1所示:

(1)词嵌入生成

采用all-MiniLM-L12-v2预训练语言模型生成文档语义嵌入向量。该模型基于Transformer架构,在语义表征能力、计算效率和通用性之间取得良好平衡[31]。

(2)降维处理

采用UMAP算法将文档嵌入降至二维空间,该算法可在降低数据集的维度时保留数据集的局部和全局结构[32]。研究表明UMAP在灵活性、适应性、计算效率以及泛化能力方面,显示出相较于PCA、LLE、LPP等常用降维方法的显著优越[33]。

(3)聚类分析

选用HDBSCAN算法进行聚类,该算法是DBSCAN算法[34]的扩展和改进,可基于密度与层次结构进行聚类,能自动确定簇数量并处理噪声点与离群值[35]。

(4)主题建模与加权

采用改进的c-TF-IDF加权方法,该算法是对TF-IDF算法[36]的改进,表征了特征词在技术主题中的相关性,c-TF-IDF得分越高表示该特征词的语义信息越相关[37]。

(5)主题词优化

运用KeyBERT[38]和MMR[39]对主题词进行优化。二者在本次研究中用于提升主题词的多样性,减少重叠内容。

(6)数据可视化

对主题词优化后,根据主题词表生成主题条形图,展示各主题内最具代表性的词汇及其得分。

(7)主题词分析和主题演化

对得到的主题词进行分析,并利用搜集到的数据绘制DTM图,探究各主题文档数量随时间演变趋势。

3.2数据搜集和预处理

3.2.1 数据搜集

本研究选取知乎作为数据来源,以“青少年健康”为关键词,通过爬虫技术获取该平台相关问题下方的回答数据共18169条,采集内容包括回答内容和发布时间。

3.2.2 数据预处理

数据预处理包括去除停用词、特殊字符、数字等步骤。本研究对获取的数据进行预处理,删除与研究无关的数据信息,通过Python中的Jieba库进行分词,并利用百度停用词表结合自定义停用词过滤低信息密度词汇。

4BERTopic主题模型分析

4.1青少年健康需求主题词分析

4.1.1 主题词分析

本研究识别出青少年健康需求的12个主题,使用c-TF-IDF算法评估主题词重要性,提取各主题核心主题词并统计文档数量,结果如表1所示。从文档数量分布来看,主题0、主题1、主题2热度最高,均超过1000条;主题9、主题10、主题11相对较少,均未超过100条。

4.1.2 主题词优化和主题提炼

为了优化主题解释性和主题表征多样性,将表1中的主题词视为候选主题词,在BERTopic模型实例化时,增加representation_model的设置,通过KeyBERT和MMR对主题词进行微调。微调后的结果如表2所示。

基于微调后的结果,对每个主题下概率排在前五的主题词进行可视化,得到主题词—概率分布(见图2)。相较于表2,图2更直观地展示了各主题的核心主题词及其贡献率。

根据原始主题词和微调后主题词,可提炼出每个主题的表示,主题0为心理调适,主题1为世界和平,主题2为游戏娱乐,主题3为伤痛文学,主题4为心理治疗,主题5为体像认知,主题6为文娱作品,主题7为就业形势,主题8为头发保养,主题9为法律法规,主题10为消极思想,主题 11 为地域文化。可见,各个主题意义分明,涵盖青少年身心发展、文化娱乐等多个健康需求方面。

4.2青少年健康需求层次分析

马斯洛需求层次理论属于基础性理论,可以在一定程度上解释和归纳青少年健康需求,本文识别的主题与马斯洛需求层次的对应关系如表3所示。

生理需求是人进行正常生活的基础生物需求[40]。对应本研究的主题为头发保养。安全需求是避免痛苦、得到保护的需求[41]。对应本研究主题为心理治疗、就业形势、消极思想。社会认同理论认为,个体通过对自我和已有群体成员的特性认知,会自动归属到具有相似特性的群体中,并做出类似于该群体成员的行为[42]。伤痛文学、游戏娱乐、文娱作品增强个人的社会性关联和群体分享,地域文化提升群体凝聚力和民族自豪感,心理调适驱动个体调节情绪以适应群体,五者被划分为社交与归属感需求。社会成员的尊重需求得到满足,会有更多责任感[43]。体像认知体现了寻求外在认可的内心需求,归属于尊重需求。自我实现需求,其往往在于实现自我理想抱负,发挥个人价值等目标[44]。对应本研究的主题为世界和平和法律法规。

由表3可知,各需求层次对应的文档总数差异显著。社交与归属感需求最为强烈;自我实现需求次之;安全需求和尊重需求居中;生理需求最弱。这表明青少年在知乎平台上的健康讨论主要围绕社交互动、群体归属和心理调适展开,同时对世界和平、法律法规等宏观议题保持较高关注。

4.3青少年健康需求主题演化

根据所收集数据绘制DTM图,分析各主题文档数量随时间演变趋势。在整个演化过程中,不同主题呈现出差异化的发展轨迹。

社交需求相关的主题中,主题0“心理调适”频率波动最为显著:初始阶段保持增长,于2021年达到局部高点,2022年有所下降,随后两年急剧上升,于2024年突破600篇。主题2“游戏娱乐”整体处于上升趋势,2019年至2022年间持续增长,随后保持平稳并再次小幅上升。主题3“伤痛文学”仅2022年出现显著峰值,随后两年持续下降。主题6“文娱作品”和主题11“地域文化”变化相对平缓。

自我实现需求方面,主题1“世界和平”呈现持续稳定增长态势,2022年至2023年增长近200篇;主题9“法律法规”频率始终稳定且偏低。安全需求中,主题7“就业形势”自2022年起出现稳定上升态势;主题4“心理治疗”和主题10“消极思想”变化相对平稳。尊重需求对应的主题5“体像认知”和生理需求对应的主题8“头发保养”整体波动不大。

主题演化与突发公共卫生事件、国家政策出台密切相关。2022年末公共卫生事件对青少年学习和生活产生重大影响,导致部分青少年出现心理健康问题[45]。不仅如此,调查显示,我国初中生的自杀意念检出率高达18.81%,学龄儿童心理问题发生率为5%~30%[46]。在此背景下,国家卫生健康委员会等部门强调要落实《健康中国行动——儿童青少年心理健康行动方案》,旨在加强儿童青少年心理健康工作,促进其心理健康和全面素质发展[47]。这解释了主题0“心理调适”在2022年后显著增长的现象。主题2“游戏娱乐”尽管略有起伏但整体处于上升趋势。截至2023年6月,我国网络游戏用户达5.50亿人,占整体网民的51.0%[48]。为预防青少年沉迷虚网络,国家于2021年出台《关于进一步严格管理切实防止未成年人沉迷网络游戏的通知》[49]。2025年开始实行《信息技术 网络游戏未成年人监护系统技术要求》,加强对未成年人保护[50]。主题7“就业形势”尽管变化幅度不大,但在近些年出现增长苗头。“十四五”时期我国就业形势基本稳定,但仍存在青年失业率偏高、结构性就业矛盾突出等挑战[51]。国务院于2021年发布《“十四五”就业促进规划》,推动实现更加充分、更加高质量的就业[52]。

新型冠状病毒肺炎疫情相关压力使得全球青少年焦虑、抑郁、创伤后应激障碍的患病率和严重程度增加[53],关注青少年情绪状态和心理健康、提供合理的发泄渠道非常必要。同时,要保障青少年德智体美劳全面发展,不断完善青少年健康需求服务。

5 结论

本研究利用BERTopic模型挖掘知乎平台青少年健康需求主题,探索其演化规律,为相关部门开展健康服务提供依据。研究发现青少年健康需求涵盖12个主题,基于马斯洛需求层次理论可将其划分为五个层次,其中社交与归属感需求最为强烈。主题演化存在时间特性,与突发公共卫生事件、国家政策出台密切相关。

青少年健康发展状况直接关系国家长远竞争力。未来需持续关注青少年健康需求,尤其是心理健康方面,构建支持青少年健康发展的友好环境。同时也期待其他学者从更多数据来源进一步深入挖掘青少年健康需求的具体侧重点。

作者信息

曹传颖 管理学院管理科学与工程专业硕士研究生

参考文献