当前位置：首页>>科研动态>>科研机构>>中国金融科技研究中心>>中心动态>>正文

基于机器学习模型的糖尿病带病人群医疗风险保费测算

[发布日期]:2020-12-30 [浏览次数]:

这篇文章是在“医险创新”的大背景下聚焦于糖尿病带病人群医疗风险保费测算，是中国金融科技研究中心一系列健康财富融合研究的一部分。

这篇文章主要利用广义线性模型和机器学习模型——Lasso、RF、LightGBM、XGboost，对糖尿病带病人群住院费用进行估算。文章还对住院率、社保支付比例进行测算，并结合不同的免赔额和自付比例，对年龄、性别、并发症、主要合并症做敏感性分析，预测保费。

模型

一、费用预测模型：

本文使用的模型是：广义线性模型、Lasoo、RF、XGBoost和LightGBM。

广义线性模型基于指数族分布，通过联结函数将自变量的线性组合和因变量联系起来，是常用的非寿险定价模型。而且广义线性模型的因变量的方差是其均值的函数，这一特点也很适合保险公司的数据。

Lasso回归在目标函数中通过添加正则项（L1范式）有效地解决过拟合、多重共线性问题，还可以实现特征选择的功能。

随机森林、XGBoost和LightGBM都是集成学习方法（若对集成学习不了解，可翻至公众号1月19号推文）。RF属于bagging集成学习方法，XGBoost、LightGBM属于boosting集成学习方法。RF简单、容易实现、计算开销小，还可以处理高维度数据，被广泛应用于风险因子重要性测度、准备金相关测算等领域。XGBoost是Chen和Guestrin(2016)提出的一种集成学习模型，是GBDT算法(GradientBoostingDecisionTree，GBDT)的工程实现。XGBoost对损失函数进行二阶泰勒展开，并加入了正则项来防止过拟合，从而进一步提高了模型泛化能力。LightGBM基于GBDT数据模型，同时加入了梯度单边采样技术和独立特征合并技术，采用更高效率的叶子生长算法，速度得到很大提升。