我们过去曾报道过 Gaia 令人难以置信的数据收集能力。 最近,它发布了最新的数据集 DR3,其中包含超过 18 亿个对象。 需要筛选大量数据,而最有效的方法之一就是通过机器学习。 一组研究人员通过使用监督学习算法对数据集中发现的特定类型的对象进行分类来做到这一点。 其结果是世界上最全面的被称为变星的天体类型目录之一。
根据定义,变量会随着时间改变它们的亮度。 盖亚长期监测着天空的广阔区域,尤其擅长发现它们。 事实上,它发现了大约 1240 万个可变源,其中大约 900 万个是恒星。 超过 300 万个左右要么是活跃的星系核,要么是星系本身。 在盖亚对它们的观察过程中,所有这些物体的亮度都在某个时刻或另一个时刻发生了变化。
诚然,18 亿中的 1240 万只占 DR3 中观测到的物体总数的 0.6% 左右。 然而,仍有大量数据需要处理,它们可能包含天文学家想要了解导致某些类型变化的原因的信息。
Gaia DR3 发布与 Martin Barstow 博士的讨论。
根据研究人员的说法,这些原因导致了非常不同的变异性——准确地说是 25 种不同的变异性。 他们在 arXiv 上发布的论文包括脉动、日食、旋转、微透镜和灾难性等类别。 最后一个听起来很令人兴奋,数据集中有 7306 个事件,尽管这些事件的亮度甚至在个别类别中也有很大差异。
为了将 1240 万个对象分类到每个类别中,研究人员求助于最有用的算法之一——机器学习。 特别是,他们使用了一种称为“监督分类”的技术。 基本上,这意味着他们让人类帮助 AI 算法识别特定类别的特征,然后提供关于对象是否符合分类标准的人工反馈。
最终,算法可以选择定义不同类别的特征,并将人类从未见过的对象相对准确地分类到这些类别中。 本文还定义了定义每个类别的具体特征。 为了 example灾难性变量比数据集中的其他对象具有更高水平的变异概率。
关于盖亚数据收集奇迹的 UT 视频。
尽管在 105 页的论文中也进行了详细讨论,但最终收集了大量的手动数据处理。 然而,盖亚怎样观察可能从该集合中消除一些潜在变量的物体存在一些基本问题。 为了 example, Gaia 不会一直对整个天空进行采样,因此如果 Gaia 在变化期间没有碰巧观察到它们的方式,则可能会错过可变性持续时间少于设定时间的变量。 这不太可能是大量变量,但毫无疑问,该数据集中遗漏了一些变量。
不过,该数据集所代表的是世界上最全面的可变天文物体目录以及对它们进行科学研究的工具。 这些类型的数据发布正是推动天文学向前发展的里程碑。 盖亚还有更多的东西要来,DR4 将在 2025 年之后的某个时候出现。因此,天文学家将有足够的时间在下一次大规模数据发布之前详细介绍所有 DR3 数据。