全球数据集以最精细的细节捕捉地球

arXiv(2022 年)。 DOI: 10.48550/arxiv.2207.06418″ width=”800″ height=”530″>
总结 WorldStrat 数据集的构造和类。 图片来源:arXiv (2022)。 DOI: 10.48550/arxiv.2207.06418

由 UCL 领导的专家利用欧洲航天局 (ESA) 的数据开发了一个全球开源地球高分辨率图像数据集——同类中最广泛和最详细的数据集。

免费数据集 WorldStrat 将在新奥尔良举行的 NeurIPS 2022 会议上展示。 它包括近 10,000 平方公里的免费卫星图像,显示从农业、草原和森林到各种规模的城市和极地冰盖的各种类型的位置、城市区域和土地利用。

该数据集包括全球南方地区和需要人道主义援助的地区,这些地区在卫星图像中的代表性往往不足,因为这些数据通常是为了商业利益而收集的,因此不成比例地以较富裕的地区为特色。

科学家们表示,该系列能够对全球地形进行分析,以应对全球挑战,例如应对自然和人为灾害、管理自然资源和城市规划。

WorldStrat 的工作始于 2021 年,自 2022 年 6 月推出以来,下载量已超过 3,000 次。

项目负责人 Julien Cornebise 博士(伦敦大学学院计算机科学学院)说,“高分辨率商业图像和机器学习的结合具有巨大的潜力,可以进行全球分析,这有助于应对各种全球挑战——问题在于商业数据通常被锁定在付费墙后面。”

“ESA 的 TPM 计划通过提供对通常非常昂贵的数据的免费访问,使我们的项目成为可能。”

该团队使用了由 ESA 委托并分别于 2012 年和 2014 年发射的空中客车 SPOT 6 和 SPOT 7 卫星的数据。 这些卫星可以提供分辨率高达每像素 1.5m 的图像,这意味着每个像素代表地面上 1.5m x 1.5m 的区域。

科学家们使用了来自 SPOT 卫星的大约 4,000 张高度详细的图像。 即使这些图像具有高(空间)分辨率,它们的时间分辨率也很低,这意味着在这种情况下,每颗卫星都不会定期重新访问和重新捕获每个站点。 这是因为卫星拍摄的图像最初旨在用于特定的商业应用,而不是长期分析。

为了解决这个问题,该团队还使用了来自哥白尼哨兵 2 号卫星的免费低分辨率图像。 这些具有更高的时间分辨率,这意味着它们每五天在更规律的时间点被捕获。 他们将每张 SPOT 图像与来自哥白尼前哨 2 号的 16 张图像进行匹配,总共使用了大约 64,000 张。

研究人员开发数据集还支持机器学习应用程序的开发,以扩展和增强它,因为 example 进一步提高图像分辨率。 为了开发更多的应用程序,科学家们开发了一个人工智能工具箱以及完整的源代码,使开发人员能够复制、扩展和转换工作。

Cornebise 博士继续说道,“来自世界各地的数以千计的数据用户已经下载了 WorldStrat——我们期待看到他们使用机器学习技术扩展和改进它的方式。”

arXiv 上提供了该研究的预印本。