智源研究院发中文互联网语料库3.0，含1000GB高质量数据

新京报贝壳财经讯（记者白金蕾）9月20日，在2024北京文化论坛“文化潮流：新兴业态与技术融合”平行论坛上，智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。中文互联网语料库3.0具有规模空前，来源广泛；精细标注，赋能应用；效果突破，更懂中文等特点。目前中文互联网语料库3.0（CCI3. 0）数据量高达1000GB，包含2.68亿网页；中文互联网语料库3.0高质量子集（CCI3. 0 HQ）数据量达498GB。每条语料从10多个维度进行分析标记，附有安全分数、质量分数、信息密度等参数，方便用户选择高价值数据，满足企业可行化需求，更好发挥数据效能。据刘广介绍，数据是大模型发展的基石与瓶颈，目前模型训练对数据规模需求大幅增加，互联网站源占比导致中文数据短缺。而有标注的高质量数据才能释放人工智能的价值，如果业界将更多精力放在数据质量上，人工智能的发展才会更快。这是中文互联网语料库3.0的推出背景。编辑阎侠校对王心