R语言：3 种常用的数据缺失插补方法当前动态

来源：医学论文与统计分析时间：2023-04-01 02:06:24

现实生活中我们遇到的数据通常是杂乱无章并且有很多缺失值的，这样就使得我们要花费很多的时间和精力在数据清洗和数据准备上。因此，今天我们一起学习使用R进行数据插补的3种方法，希望可以为你以后的数据清洗节省时间。
今天介绍三种R常用的数据插补方法：1. R内置函数的简单值插补；2.MICE包插补缺失值；3.使用 missForest 包进行插补。使用到的数据集是Titanic。

1library(ggplot2)2library(dplyr)3library(titanic)4library(cowplot)5library(titanic)

首先查看一下数据集：本篇推文以titanic_train数据集的Age变量为例进行填补，查看Age变量：

(资料图)

1titanic_train$Age

可看到有较多的缺失。在进行数据插补之前，我们先看一下要填补数据的分布：

1library(ggplot2)2ggplot(titanic_train,aes(Age))+3geom_histogram(color=\"#000000\",fill=\"#0099F8\")+4ggtitle(\"Variabledistribution\")+5theme_classic()+6theme(plot.title=element_text(size=18))

注意，这里查看数据分布的目的是为了对比数据插补前后的分布是否一致。接下来我们开始插补。

1. R内置函数的简单值插补

简单插补可以用（1）任意常数插补：用0或其他数据插补；（2）均数插补；（3）中位数插补，代码如下：

1value_imputed<-data.frame(2original=titanic_train$Age,3imputed_zero=replace(titanic_train$Age,is.na(titanic_train$Age),0),4imputed_mean=replace(titanic_train$Age,is.na(titanic_train$Age),mean(titanic_train$Age,na.rm=TRUE)),5imputed_median=replace(titanic_train$Age,is.na(titanic_train$Age),median(titanic_train$Age,na.rm=TRUE))6)7value_imputed

接着我们看一下插补之后数据分布是否有变化，代码如下：

1h1<-ggplot(value_imputed,aes(x=original))+ 2geom_histogram(fill=\"#ad1538\",color=\"#000000\",position=\"identity\")+ 3ggtitle(\"Originaldistribution\")+ 4theme_classic() 5h2<-ggplot(value_imputed,aes(x=imputed_zero))+ 6geom_histogram(fill=\"#15ad4f\",color=\"#000000\",position=\"identity\")+ 7ggtitle(\"Zero-imputeddistribution\")+ 8theme_classic() 9h3<-ggplot(value_imputed,aes(x=imputed_mean))+10geom_histogram(fill=\"#1543ad\",color=\"#000000\",position=\"identity\")+11ggtitle(\"Mean-imputeddistribution\")+12theme_classic()13h4<-ggplot(value_imputed,aes(x=imputed_median))+14geom_histogram(fill=\"#ad8415\",color=\"#000000\",position=\"identity\")+15ggtitle(\"Median-imputeddistribution\")+16theme_classic()1718plot_grid(h1,h2,h3,h4,nrow=2,ncol=2)19

可以看到以上三种填补均对数据分布产生严重的影响。因此这种方法不是很好。

2.使用 MICE 包插补缺失值

MICE 包填补假定缺失值是随机缺失的 (MAR)，该算法背后的基本思想是将每个具有缺失值的变量视为回归中的因变量，将其并他变量视为独立变量（预测变量）。

MICE包提供了许多单变量插补方法，但我们只使用少数几种。首先将所需要的变量从titanic_train数据集挑选出来：

1library(mice)2titanic_numeric<-titanic_train%>%3select(Survived,Pclass,SibSp,Parch,Age)4md.pattern(titanic_numeric)#数据缺失可视化

现在进行插补，我们将使用以下 MICE 插补方法：（1）pmm：预测均值匹配；（2）cart：分类和回归树；（3）laso.norm：Lasso线性回归。

1mice_imputed<-data.frame(2original=titanic_train$Age,3imputed_pmm=complete(mice(titanic_numeric,method=\"pmm\"))$Age,4imputed_cart=complete(mice(titanic_numeric,method=\"cart\"))$Age,5imputed_lasso=complete(mice(titanic_numeric,method=\"lasso.norm\"))$Age6)7mice_imputed

如果单从表格数据很难判断插补后对原来数据的影响，这种情况我们还是依旧做直方图进行可视化：

1h1<-ggplot(mice_imputed,aes(x=original))+ 2geom_histogram(fill=\"#ad1538\",color=\"#000000\",position=\"identity\")+ 3ggtitle(\"Originaldistribution\")+ 4theme_classic() 5h2<-ggplot(mice_imputed,aes(x=imputed_pmm))+ 6geom_histogram(fill=\"#15ad4f\",color=\"#000000\",position=\"identity\")+ 7ggtitle(\"pmm-imputeddistribution\")+ 8theme_classic() 9h3<-ggplot(mice_imputed,aes(x=imputed_cart))+10geom_histogram(fill=\"#1543ad\",color=\"#000000\",position=\"identity\")+11ggtitle(\"cart-imputeddistribution\")+12theme_classic()13h4<-ggplot(mice_imputed,aes(x=imputed_lasso))+14geom_histogram(fill=\"#ad8415\",color=\"#000000\",position=\"identity\")+15ggtitle(\"lasso-imputeddistribution\")+16theme_classic()17plot_grid(h1,h2,h3,h4,nrow=2,ncol=2)18

插补后的数据看起来更接近原始分布。但应注意的是，使用laso.norm的插补方法会使得年龄值低于零，这跟我们实际情况不一致。因此如果您选择这种插补技术，则需要手动更正负值。

3.使用 missForest 包进行插补

Miss Forest 插补技术基于随机森林算法。它是一种非参数插补方法，这意味着它不会对函数形式做出明确的假设，而是尝试以最接近数据点的方式来估计函数。

换句话说，它为每个变量建立一个随机森林模型，然后使用该模型来预测缺失值。您可以通过阅读此文章了解更多信息。

同样的，只对年龄进行插补：

1library(missForest)2missForest_imputed<-data.frame(3original=titanic_numeric$Age,4imputed_missForest=missForest(titanic_numeric)$ximp$Age5)6missForest_imputed

可视化插补后的数据分布与原来的数据对比：

MissForest 插补后与原来的数据分布差别很大，MissForest 插补有点类似于常数值插补，因为大部分值都在 35 左右。这意味着 Miss Forest 不是我们今天看到的最好的插补技术。

小结：掌握了以上几种常见的数据插补方法，这几种技术可用于你的数据清洗和整理过程，赶紧用起来吧。

更多实战课程

2022年以来，我们召集了一批富有经验的高校专业队伍，着手举行短期统计课程培训班，包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、结构方程模型、孟德尔随机化等10门课。如果您有需求，不妨点击查看：

美国今年已有1万多人死于枪支暴力超400名未成年遇难焦点关注

<< 上一篇

最后一页

下一篇 >>

X 关闭

太阳能

东莞高规格举办2022全球招商大会 “强支柱”与“立新柱”两手抓

2022-08-29 13:31:57
黄河源头玛多县突降大雪民警抗雪保畅

2022-02-14 15:26:32
西藏林芝救护一只闯入民居被困雪豹

2022-02-14 15:26:30
东莞高规格举办2022全球招商大会 “强支柱”与“立新柱”两手抓

2022-08-29 13:31:57
广西德保设立“黄码医院” 为全域内红、黄码人员就医开通“绿色通道”

2022-02-14 15:26:33
广西百色：12日共核酸采样3849118人次

2022-02-14 15:26:33
新疆开都河呈现冰裂景观镜面翡翠镶嵌河面

2022-02-14 15:26:32
黄河源头玛多县突降大雪民警抗雪保畅

2022-02-14 15:26:32
秦皇岛山区留守儿童寒假见闻：年味不“淡” 关爱不“断”

2022-02-14 15:26:32
R语言：3 种常用的数据缺失插补方法当前动态

2023-04-01 02:06:24
美国今年已有1万多人死于枪支暴力超400名未成年遇难焦点关注

2023-03-31 22:50:29
征信空白有什么影响征信空白是好还是不好当前快看

2023-03-31 21:27:22
甜白酒多吃了会醉?

2023-03-31 20:11:49
最新消息：2023年福州春季住房展销会活动介绍（线上+线下）

2023-03-31 19:22:44
天天微资讯！“毒虫”仿妆引争议，这个视频告诉你：什么都试只会害了你！

2023-03-31 18:27:56
中国银行发布2022年报：实现净利润2274.39亿元同比增5.02%

2023-03-31 17:45:56
精彩看点：创意海报丨苍穹巨灵·候鸟篇

2023-03-31 16:53:24
最新快讯!房地产开发板块涨0.4% 海南高速涨6%居首

2023-03-31 15:52:52
每日快讯!艾菲尔丁父亲：希望他在瑞超站稳脚跟学成归来在亚运为国争光

2023-03-31 15:20:07
世界快报:停止运营？美国维珍轨道公司预计裁员90%

2023-03-31 14:16:24
在哪里查养老金账户总额？养老金要怎么算？焦点

2023-03-31 13:08:22
每日快播：高开低走！《他是谁》剧情逐渐离谱网友：刑侦秒变狗血爱情剧！

2023-03-31 12:08:44
一次性金融服务是什么意思？一次性金融服务办理需要什么文件？

2023-03-31 11:38:34
正阳县“慢吞吞”品牌大米获河南首届优质渔米银奖|全球消息

2023-03-31 10:50:43
Windows帐户密码：破解NTLM认证

2023-03-31 09:55:16
清明1天假如何玩？“2小时高铁圈”短途出游最热

2023-03-31 09:15:22
外媒：美国边指责TikTok边用谷歌监视世界

2023-03-31 07:57:22
上古卷轴5loot怎么安装（上古卷轴5loot怎么用）_天天新消息

2023-03-31 06:21:06
指甲里有黑线竖纹是怎么了(大拇指指甲有竖纹黑线是怎么回事)

2023-03-31 04:42:14
本以为它要卖20万，结果只需要12万！

2023-03-30 23:57:48
每日看点！煤油心目中的魅族王者归来三年回到国内中高端市场TOP5

2023-03-30 22:04:06
栏板立柱_关于栏板立柱简述|天天热消息

2023-03-30 20:59:17
金奈玛特选茶

2023-03-30 19:49:18
全国四级法院均已开通诉讼服务热线，日均解决诉求5.9万件—— 12368热线传递司法温度_全球球精选

2023-03-30 18:51:41
新疆省造大清银币价格（2023年03月30日）_前沿热点

2023-03-30 17:57:55
拉塔科夫斯基与哈卷恋情曝光并请求好友原谅每日报道

2023-03-30 17:12:02
北京朝阳区举办首届职业培训高峰大会

2023-03-30 16:12:08
美参议院表决通过结束新冠疫情“国家紧急状态”法案

2023-03-30 15:33:30
全球微动态丨广发聚丰基金净值(600289股吧)

2023-03-30 14:53:49
速递！和讯个股快报：2023年03月30日华峰化学（002064）13:44分，股价快速拉升

2023-03-30 13:46:26
焦点观察：美国再现校园枪击案！纳什维尔居民：为什么没人对孩子的死负责

2023-03-30 12:20:22
环球动态:长沙尖山印象公租房有家具吗？

2023-03-30 11:40:07
小小勇者怎么开启神树小小勇者神树的开启方法

2023-03-30 10:49:34
【聚看点】106场活动打造多个“首次” 第十届网络视听大会今日在蓉启幕

2023-03-30 10:16:31
世体谈法蒂父亲言论：他是垃圾车司机+露宿过街头，怕法蒂走下坡

2023-03-30 09:31:44
“万事好通·惠企通”平台智能匹配省时省力

2023-03-30 08:57:31
房地产市场预期正在改善

2023-03-30 07:15:59
3亿罚款已还完！郑爽自曝不雅照欲求复出？网友：这回是真疯了？_全球热资讯

2023-03-30 05:02:58
瑞士政府提交瑞信案担保计划，称对“大到不能倒”监管机制启动“全面评估”

2023-03-30 00:57:07
“3·15”市民消费满意度调查颁奖大会召开环球报道

2023-03-29 22:32:18
全球最新：雷柏键盘怎么调灯光模式？雷柏键盘灯光设置教程

2023-03-29 21:21:46
工业和信息化部副部长王江平：5G红利不是近入尾声而是刚刚开始-世界最新

2023-03-29 20:10:46
保利置业披露附属公司16.46亿元关联交易事项世界今日讯

2023-03-29 19:12:06
全国创新百强区，广州天河位列第三

2023-03-29 18:13:06
众多品牌云集星城!长沙国际名品博览会开幕|环球快消息

2023-03-29 17:11:40
“和睦系统”首次应用于“华龙一号” 我国三代核电自主基因获强化|滚动

2023-03-29 16:33:15
动态焦点:艾滋病会通过唾液传播有血液的伤口吗_艾滋病会通过唾液传播

2023-03-29 15:37:38
质量问题突出，二手车当新车卖，新能源汽车质量问题纠纷增多

2023-03-29 14:40:08
弘信电子：新华海通已取得相关军工资质和客户认证目前已获取部分军工产品研发打样及量产订单机会滚动

2023-03-29 13:45:51