“60及格不公平!”——聚类分析

2023
03/28

+
分享
评论
王丹-中国人民大学
A-
A+

进入大数据时代,这种聚类的意识和方法日益重要,已经成为科研和管理人员的必备技能。

区别对待很重要!

几乎所有的排名工作,事先都得分类,解决“不可比”的问题,比如考试要分成文科、理科;事后又得分级,解决“分数线”的问题,比如优、良、中、差。

不管是分类还是分级,专业的说法都叫“聚类”(Clustering)。名字挺吓人,其实就是把相似的东西放到一堆儿。

进入大数据时代,这种聚类的意识和方法日益重要,已经成为科研和管理人员的必备技能。比如下图中每个点(+或o)代表一个人,那么图形显示,脚越大越容易超速。这是不是说,以后我们就不要给脚大的人发驾照?(补充一句,大数据的三大标志之一就是跨库共享,比如网购鞋子数据库和交通违章数据库)

74661679997760576

你我都知道,这样做很荒唐!因为只要在做数据分析之前,先把男女分开,比如下图的蓝色o和红色+,你就会发现车速跟鞋码其实并无关系。只是因为男性(o)普遍比女性(+)开车更快,而且男性(o)普遍比女性(+)脚大,所以让我们造成误解。

48291679997760667

六十及格不公平!

从小到大我们不知道经历了多少考试,这些考试经常以60分作为及格线。很多时候,就是这线上线下一分之差,改变了我们的命运。这样做公平吗?

39271679997760811

上图是一个班级30位学生的高数成绩,横轴代表分数,每个点代表一个学生(点阵图)。我们明显看出:以40分为界限把大家分成两个等级,显然比60分更公平(看来此次考试太难了!)。推而广之,这就颠覆了我们习惯上的“优(≥90)、良(≥80)、中(≥70)、及格(≥60)、不及格(≥60)”评级体系。

点几下鼠标的事!

信息时代确实好,有了计算机的帮助,“聚类”比“聚餐”还容易(北京太堵了!)。还是求助我们的老朋友SPSS,这次使用“K-均值聚类法”,又叫“快速分类法”。之所以有此美誉,就是因为只需告诉计算机准备分成几(K)类,剩下就自动搞定!

以医院排名工作为例,我们希望能像酒店业一样,把全国的医院分成五个等级,分别给出一星到五星的认证。你只需这么操作:

打开软件SPSS;选择【分析】→【K平均值聚类分析】,进入主对话框:

  1. 把医院得分拖到【变量】

  2. 把医院代号拖到【标注个案】

  3. 填写【聚类数】为5

点【确定】吧。

是不是so easy?

“聚类分析”是一种基于数据(与人无关)、自动计算(不用人干)的科学分类方法。既不用担责任,又不用费力气,这不是躺赢吗?收了吧!

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
SPSS,数据库,计算机,大数据,聚类法,分析,医院

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 医生交流群 加入
  • 医院运营群 加入
  • 医技交流群 加入
  • 护士交流群 加入
  • 大健康行业交流群 加入

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!