申请认证 退出

您的申请提交成功

确定 取消

“60及格不公平!”——聚类分析

2023-03-28 18:06

进入大数据时代,这种聚类的意识和方法日益重要,已经成为科研和管理人员的必备技能。

区别对待很重要!

几乎所有的排名工作,事先都得分类,解决“不可比”的问题,比如考试要分成文科、理科;事后又得分级,解决“分数线”的问题,比如优、良、中、差。

不管是分类还是分级,专业的说法都叫“聚类”(Clustering)。名字挺吓人,其实就是把相似的东西放到一堆儿。

进入大数据时代,这种聚类的意识和方法日益重要,已经成为科研和管理人员的必备技能。比如下图中每个点(+或o)代表一个人,那么图形显示,脚越大越容易超速。这是不是说,以后我们就不要给脚大的人发驾照?(补充一句,大数据的三大标志之一就是跨库共享,比如网购鞋子数据库和交通违章数据库)

74661679997760576

你我都知道,这样做很荒唐!因为只要在做数据分析之前,先把男女分开,比如下图的蓝色o和红色+,你就会发现车速跟鞋码其实并无关系。只是因为男性(o)普遍比女性(+)开车更快,而且男性(o)普遍比女性(+)脚大,所以让我们造成误解。

48291679997760667

六十及格不公平!

从小到大我们不知道经历了多少考试,这些考试经常以60分作为及格线。很多时候,就是这线上线下一分之差,改变了我们的命运。这样做公平吗?

39271679997760811

上图是一个班级30位学生的高数成绩,横轴代表分数,每个点代表一个学生(点阵图)。我们明显看出:以40分为界限把大家分成两个等级,显然比60分更公平(看来此次考试太难了!)。推而广之,这就颠覆了我们习惯上的“优(≥90)、良(≥80)、中(≥70)、及格(≥60)、不及格(≥60)”评级体系。

点几下鼠标的事!

信息时代确实好,有了计算机的帮助,“聚类”比“聚餐”还容易(北京太堵了!)。还是求助我们的老朋友SPSS,这次使用“K-均值聚类法”,又叫“快速分类法”。之所以有此美誉,就是因为只需告诉计算机准备分成几(K)类,剩下就自动搞定!

以医院排名工作为例,我们希望能像酒店业一样,把全国的医院分成五个等级,分别给出一星到五星的认证。你只需这么操作:

打开软件SPSS;选择【分析】→【K平均值聚类分析】,进入主对话框:

  1. 把医院得分拖到【变量】

  2. 把医院代号拖到【标注个案】

  3. 填写【聚类数】为5

点【确定】吧。

是不是so easy?

“聚类分析”是一种基于数据(与人无关)、自动计算(不用人干)的科学分类方法。既不用担责任,又不用费力气,这不是躺赢吗?收了吧!

不感兴趣

看过了

取消

SPSS,数据库,计算机,大数据,聚类法,分析,医院

不感兴趣

看过了

取消

相关阅读

相关推荐

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交