基于BERT的民生问题文本分类模型——以浙江省政务热线数据为例
基于 2017-2021 年浙江省 12345 政务热线数据,从居民视角构建细粒度的民生问题三级分类体系,并利用 BERT 预训练模型来构建文本分类模型,将居民诉求文本转化为民生问题标签.研究结果表明,在政务热线数据中加入 30%的人工生成诉求样本,可以使模型的分类准确率提升约 10 个百分点,准确率最高可达84.59%.对浙江省各类民生问题占比的分析结果表明,环境保护、违规经营和市政服务等诉求的比例呈现下降趋势,而公共服务、交通问题、购房问题和新兴消费模式的诉求比例呈上升趋势.研究结果有助于加强政府对于民情民意的了解,提升数据驱动的社会治理能力....
Saved in:
| Published in | 北京大学学报(自然科学版) Vol. 59; no. 3; pp. 456 - 466 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
之江实验室, 人工智能社会治理研究中心, 杭州 311121
20.05.2023
浙江省发展规划研究院, 城镇发展研究所, 杭州 310030 北京大学深圳研究生院, 城市规划与设计学院,深圳 518055%之江实验室, 人工智能社会治理研究中心, 杭州 311121%北京大学深圳研究生院, 城市规划与设计学院,深圳 518055 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 0479-8023 |
| DOI | 10.13209/j.0479-8023.2023.030 |
Cover
| Summary: | 基于 2017-2021 年浙江省 12345 政务热线数据,从居民视角构建细粒度的民生问题三级分类体系,并利用 BERT 预训练模型来构建文本分类模型,将居民诉求文本转化为民生问题标签.研究结果表明,在政务热线数据中加入 30%的人工生成诉求样本,可以使模型的分类准确率提升约 10 个百分点,准确率最高可达84.59%.对浙江省各类民生问题占比的分析结果表明,环境保护、违规经营和市政服务等诉求的比例呈现下降趋势,而公共服务、交通问题、购房问题和新兴消费模式的诉求比例呈上升趋势.研究结果有助于加强政府对于民情民意的了解,提升数据驱动的社会治理能力. |
|---|---|
| ISSN: | 0479-8023 |
| DOI: | 10.13209/j.0479-8023.2023.030 |