D(ata) S(cience)

1.

苏珊·克拉克在讲台前挥舞着双手。

“在段视频中,这些丰富的结构是组成我们星系绝大多数质量的尘埃与气体所释放出的弥散辐射。” 她面带笑容看着听众,微微仰着头,挑了挑眉,做出一副陶醉的样子。“这些结构所展示出的形态学多样性是超乎人们的想象的。”

会议室前方的大幕布上,视频正缓缓横向移动。那些飘忽的形象不断地出现、变化,像是八十年代吸烟室里的烟雾,或是门忽然被打开时桑拿室里的水气。忽然,图像的颜色开始变化,从温暖的淡黄色变成紫色,而后是蓝色,最终变成了阴冷的绿色。

“与此同时,我们的数据还揭示了这些结构在不同波段下的变化。这……” 她一边说着,一边摊开手掌冲向前面,接着前后推动手臂,“给予了我们纵深的视角,让我们对于星系组份的性质运动有了更全面的认识。”

她讲得激情澎湃,每句话里都有一两个重音词。而我却一直在想,她说话的风格什么时候变成这样的?她原来说话就是这样的吗?她是不是在模仿瑞萨……

2.

这是一场关于数据科学(Data Science, DS)和天体物理宇宙学(Astrophysics/Cosmology)的跨界合作研讨会。可首先出现在我脑子里的机器学习(Machine Learning, ML)应用竟是如何利用用户数据给他们推荐小视频。

3.

自由讨论环节,第一个话题是:“激动人心的合作可能!”

主持人说,现在是大家提出想法或问题的好机会。我们或许可以根据刚刚听到的几场讲座,提出相关的合作设想,并进行讨论。

沉默。

主持人尴尬地笑了几声,然后说,那么让我来抛砖引玉吧。比方说我们建立一个模型,然后过了几年,许多更大更好的望远镜上线了。我们想要利用这些新的数据来强化既有的模型,而不是一直建立新的模型。如果大家感兴趣,我们可以来探索这样做的可能性。

沉默震耳欲聋。

我很满意。迷茫的不止我一个吧,我这样想着。那些有一搭无一搭的想法,说起来有很多。利用ML复现这个,复现那个,理解这个,预言那个。可是,到要当众阐述时候,大家都扭捏了起来,因为谁也不知道自己脑子里的到底是什么。

4. 

这是天文巡天时代。天文学家声称,现在我们不再需要先定义问题,甚至不需要理解望远镜是如何运作的。我们只需用不同的仪器对天体广泛地进行观测,并将数据尽力简化,而后公开。所有的天文学家都可以使用这些数据、做出发现!

嗯。

每个天文学家都是一个核。天文学变成了一个性能局促的机群(cluster)。天文学和大数据科学真的是绝配!尝试吧,燃烧经费。数据量有多大,梦想就有多大。

谁来阻止他们。(Somebody stop them.)

留下评论