申请认证 退出

您的申请提交成功

确定 取消

一份数据分析,一览人类70年太空征程史

2021-03-21   学术头条
我行我show!中国医院管理案例评选,医院卓越管理实践大秀场。点击查看

探索性数据分析(Exploratory data analysis,EDA)与探索宇宙

52581616281876267

作者:John Ade-Ojo(数据科学家)

译者:蒋笑

原文:An Exploratory Analysis on 7 Decades of Space Exploration Data

探索性数据分析(Exploratory data analysis,EDA)是数据分析科学家们必备的关键技能之一。

因为数据往往是枯燥的,为了吸引人们对某个领域产生兴趣,我们就需要将大量的数据转换为浅显而有趣的故事,毕竟,大家都喜欢听好的故事。

为了说明它的力量,我以人类在过去 70 年中对宇宙的探索为例,制作了一份探索性数据分析。在这篇文章中,我将和大家分享一些出乎我们预料的见解(注:在这篇文章中,我将用 “宇航员” 这个词来指代所有去过太空的人)。

制作一份 EDA 的思路、数据集和工具

为了更加清晰地展现分析成果,我会从大量数据中总结我个人的见解,并将它们以 “前十”、“记录” 和 “显著成就” 的内容形式展现在大家面前。

为了使文章的语境顺序更加连贯,我会以时间顺序为基准,逐步展开这 70 年中人类探索宇宙的任务和大事件。

虽然火箭、卫星和各种航天公司是人类探索宇宙的重要组成部分,但我的分析避开了它们,选择关注宇航员在人类航天史中创造的成就上。一些从数据中得到的精彩见解,甚至和你不敢想象人类能达成的成就有关。

好的故事往往都是建立在拥有个性鲜明的人物的基础之上,这一点是所有数据科学家都要牢牢记住的。所以在这个分析中,人物将是至关重要的一环。

在我进行探索的过程中,我使用了两个公开的数据集,它们分别与太空任务、宇航员相关。这里要注意的是,我们拿到的数据并不一定是完全准确的,所有的数据都要经过合理的检查。正是因此,我才在这些数据集中发现了一些质量问题。

首先是宇航员数据集。它包含所有在 2020 年 1 月 15 日之前参与过太空任务的宇航员。数据来源于美国国家航空航天局 (NASA)、俄罗斯航天局 (Roscosmos) 和趣工厂 (Fun-made websites)。数据集是以宇航员为轴,涵盖每个宇航员的详细信息和特定任务的详细信息,共包括 517 个独立的任务,其中任意一个任务都可以通过串联任务年份,任务名称和执行航天飞机来确定。

其次是任务数据集。这是从网上搜集的任务相关的数据,涵盖自 1957 年开始的所有太空任务,并对各项任务的成本、执行火箭、发射时间、地点等多方面都有详细的描述。在 4324 条任务数据中,3879 次任务是成功的。

通过对两个数据集中所有出现的任务进行统计,我发现两者的任务总数存在较大的差异。对此有较强可信度的解释是,任务数据集中出现的许多任务是没有宇航员参与的,猎人无人驾驶的太空探索任务。

在数据探索过程中,我使用了 Python 编程,并利用 NumPy 和 Pandas 库的进行数据整理。

为更加明显地展现数据,我使用了 Matplotlib 和 Seaborn 制作图表。代码不会在文章中出现,但我会将完整的代码上传到 GitHub 上。

接下来来看看我都发现了什么。

太空探索潮的起起伏伏

64821616281876551

自 1957 年人类第一次开展太空探索到 1978 年,太空探索任务数量逐年上升,到 1971 年到达了顶峰 119 次。其中 1971 年到 1978 年期间,每年的任务数量一直保持在 97 次以上。而在 1979 年,当年的任务数量骤降到了 49 次。此后的 30 年里每年的任务数量再也没有出现从前那般的高峰。直到 2018 年,它才再次恢复,当年共完成了 117 次任务。

到底是什么力量在背后推动着这些数字的起伏?

以下是一些可能的原因:

1971 年,Soyuz 11 的机组人员在从 Salyut 1 空间站离开后遇难;

1975 年,美国和苏联的一次太空合作结束了两国的太空竞赛;

1986 年,挑战者号航天飞机在发射的 73 秒后坠机,机上 7 名机组人员全部遇难。

2018 年,SpaceX 和中国航天科技集团公司因在太空探索领域取得的成就而屡屡登上头条,而太空探索也可能正是因此得到新一轮复苏。仅在 2020 年 1 月,中国航天科技集团公司就完成了 19 次发射,SpaceX 完成了 14 次。

那么,如果想成为一名宇航员,需要花费多长时间呢?

数据统计,一名宇航员从选拔(开始训练)到第一次执行任务的平均时间约为 6.3 年。75% 的宇航员从他们最初入选开始,到第 8 年完成了他们的第一次任务,另外的是 25% 的人则是在 4 年内就完成了第一次任务。

那些完成太空行走的人们

相比于在月球表面行走,太空行走可能更酷一些,它指的是在地球大气层之外、并在飞行器外度过的时间。在宇航员数据中,太空行走被记录为舱外时间。

63891616281876620

阿纳托利・索洛维耶夫 (Anatoly Solovyev) 是一名退休的俄罗斯(苏联)宇航员,他共进行了 16 次太空行走,是太空行走次数世界纪录的保持者。但阿纳托利舱外时间数据的真实性可能存在一些问题。比如,在一次任务中,关于他太空行走的时间记录比他在所有任务中的总时间还要多,我们不禁要对这份数据的可信度打上一个问号。这就是为什么我们不能完全相信拿到的数据。

所以,我不会对他最长的太空行走时间或总时间发表任何观点。据官方统计,他的记录是 82 小时。

24811616281876687

阿纳托利是一位军事指挥官,在 1997 年执行了他的最后一次任务。但一想到在太空中累计行走时间最多的人竟然是军事人员,就不自觉地后背发凉——他太空行走的时候在做什么?

目前,进行过太空行走的人群中,年龄最大的是帕维尔・维诺格拉多夫,他在太空行的时候已经 60 岁了,并且他累计共行走了 6.62 个小时。

47611616281876849

宇航员第一次执行任务的平均年龄为 39 岁,而其中四分之一的宇航员年龄超过了 43 岁,仅有四分之一的宇航员在第一次执行任务时年龄在 31 岁以下。这说明,宇航员似乎不是年轻人能够胜任的。

22701616281876895

年纪最大的的太空旅行者是 John H.Glenn jr,他离开地球大气层时已经 77 岁了。

671616281876961

目前在役的航天器

国际空间站是所有在轨航天器中执行任务最多的,共执行约 125 个任务,是和平号空间站执行任务次数的两倍多(和平号空间站由苏联运营,于 2001 年坠毁解体)。

52451616281877125

国际空间站是一个绕地球运行的大型航天器。它绕轨道运行一次大约需要 90 分钟,时速约 17500 英里。美国国家航空和宇宙航行局 (NASA) 目前使用该飞船来了解人们如何在太空生活和工作。顾名思义,几个国家合作维护和使用空间站。这就解释了相对而言向它派出的任务数量如此之多。

空间站的体积相当于一座有五间卧室的房子 (或者两架波音 747 飞机)。

我们的数据显示,在所有对轨道上的航天器执行的任务中,发生了两次爆炸。事实上,这只是一次爆炸:1986 年挑战者号灾难。显然,这里也出现了一些数据质量问题。

89951616281877192

1986 年的爆炸事故

单次任务中在太空中待的最长时间记录,这项记录由前宇航员瓦列里・波利亚科夫 (Valeri Polyakov) 保持,他在和平号空间站上一次性度过了 1 万多个小时,这相当于完成了一次 14 个月的旅行。

9181616281877272

太空任务趣闻

美国共完成了 283 次太空任务,是世界上完成太空任务最多的国家。俄罗斯、日本和加拿大这三个国家是仅次于美国的国家,但这三个国家完成的任务总数之和都没有美国多。

而在失败上,美国海军的任务失败率最高,到目前为止共进行了 17 次任务,但失败率高达 82%。这正应征了一句话,鱼与熊掌不可兼得,尽管他们征服了了海洋,却在太空中遭遇了滑铁卢。当然也可能是,他们对自己的要求更加严苛才会记录为失败。

83491616281877360

通过上面的图表,我们不难发现,任务总数和失败率之间有一个微弱的负增长,约为 - 0.26。这吸引了我的兴趣,不禁想去进一步调查一下,是什么推动了太空任务成功率的增长,我想这将是一个很有趣的故事。

太空第一人:第一个进入太空的人是苏联空军飞行员尤里加加林,他在 1961 年首次进入了外太空,那时他只有 27 岁,在上过太空的宇航员的年龄排名中,位于第 25 位。

47991616281877496

第一位进入太空的女性:1963 年,26 岁的瓦伦蒂娜・捷列什科娃 (Valentina Tereshkova) 独自搭乘 Vostok 6 执行任务,自此,她成为了第一个,也是最年轻的女太空宇航员。

62221616281877736

斯维特拉娜・斯维茨卡娅是第二位进入太空的女性,也是第一位进行太空行走的女性。1984 年,在 Salyut 7 的任务中,她步行了 3.58 小时。当时她 36 岁。

另一个值得一提的是凯瑟琳・d・沙利文 (Kathryn D. Sullivan),她在同一年进行了 3.45 小时的太空行走,成为第一位在太空行走的美国女性。

如果这份报告要进一步分析的话,可以怎么做?

观察任务成本的趋势会很有收获。但有很多丢失的数据和字段非常混乱,成本表示为字符串。即使在尝试将它们转换为浮点数之后,仍然有几个实例会导致生成异常。

为了进一步分析,我希望生成一个每年任务平均费用的时间序列。在所有缺失值中,只有一个成本样本可用,因此,我将在 95% 的置信区间内推断总体平均值。

还有预测模型。并非所有的太空任务都是成功的。可能有一些常见的失败原因。也许可以用任务数据来做一些预测模型,以了解是什么驱动任务成功或失败。在数据中没有足够的特征,我必须产生一个有用的模型。‍‍‍然而,我只有获取更多的任务数据来扩展分析,或者甚至利用数据集中的一些高基数字段来进行特性工程。‍

Reference:

https://towardsdatascience.com/an-exploratory-analysis-on-7-decades-of-space-exploration-data-f0f2b78a6bb2

做简单、真实的科普

宇航员,空间站,航天器,数据,人类,太空,探索,EDA

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报