新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行论坛上,智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。 中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点。目前中文互联网语料库3.0(CCI3. 0)数据量高达1000GB,包含2.68亿网页;中文互联网语料库3.0高质量子集(CCI3. 0 HQ)数据量达498GB。每条语料从10多个维度进行分析标记,附有安全分数、质量分数、信息密度等参数,方便用户选择高价值数据,满足企业可行化需求,更好发挥数据效能。 据刘广介绍,数据是大模型发展的基石与瓶颈,目前模型训练对数据规模需求大幅增加,互联网站源占比导致中文数据短缺。而有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展才会更快。这是中文互联网语料库3.0的推出背景。 编辑 阎侠 校对 王心