“60及格不公平!”——聚类分析
区别对待很重要!
几乎所有的排名工作,事先都得分类,解决“不可比”的问题,比如考试要分成文科、理科;事后又得分级,解决“分数线”的问题,比如优、良、中、差。
不管是分类还是分级,专业的说法都叫“聚类”(Clustering)。名字挺吓人,其实就是把相似的东西放到一堆儿。
进入大数据时代,这种聚类的意识和方法日益重要,已经成为科研和管理人员的必备技能。比如下图中每个点(+或o)代表一个人,那么图形显示,脚越大越容易超速。这是不是说,以后我们就不要给脚大的人发驾照?(补充一句,大数据的三大标志之一就是跨库共享,比如网购鞋子数据库和交通违章数据库)
你我都知道,这样做很荒唐!因为只要在做数据分析之前,先把男女分开,比如下图的蓝色o和红色+,你就会发现车速跟鞋码其实并无关系。只是因为男性(o)普遍比女性(+)开车更快,而且男性(o)普遍比女性(+)脚大,所以让我们造成误解。
六十及格不公平!
从小到大我们不知道经历了多少考试,这些考试经常以60分作为及格线。很多时候,就是这线上线下一分之差,改变了我们的命运。这样做公平吗?
上图是一个班级30位学生的高数成绩,横轴代表分数,每个点代表一个学生(点阵图)。我们明显看出:以40分为界限把大家分成两个等级,显然比60分更公平(看来此次考试太难了!)。推而广之,这就颠覆了我们习惯上的“优(≥90)、良(≥80)、中(≥70)、及格(≥60)、不及格(≥60)”评级体系。
点几下鼠标的事!
信息时代确实好,有了计算机的帮助,“聚类”比“聚餐”还容易(北京太堵了!)。还是求助我们的老朋友SPSS,这次使用“K-均值聚类法”,又叫“快速分类法”。之所以有此美誉,就是因为只需告诉计算机准备分成几(K)类,剩下就自动搞定!
以医院排名工作为例,我们希望能像酒店业一样,把全国的医院分成五个等级,分别给出一星到五星的认证。你只需这么操作:
打开软件SPSS;选择【分析】→【K平均值聚类分析】,进入主对话框:
把医院得分拖到【变量】
把医院代号拖到【标注个案】
填写【聚类数】为5
点【确定】吧。
是不是so easy?
“聚类分析”是一种基于数据(与人无关)、自动计算(不用人干)的科学分类方法。既不用担责任,又不用费力气,这不是躺赢吗?收了吧!
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读