LLM360 MegaMath:一个拥有370B Tokens的开源数学预训练数据集,为数学相关的人工智能模型提供强大的数据支持。 数据量庞大,包含3700亿个标记;数据来源多样,涵盖网页数据、代码数据和合成数据;提供多种数据变体,满足不同训练需求