首先,大公开数据集往往存在场景单一、与实际需求脱节的问题。
很多大公开数据集是为了方便学术研究或技术验证而构建的,数据场景相对理想化,比如图像识别领域的公开数据集,大多是在光线充足、背景简单的环境下拍摄的图片,物体特征清晰,干扰因素少;自然语言处理领域的公开数据集,文本内容也多是规范、无歧义的,很少包含现实中常见的口语化表达、错别字或上下文模糊的情况。
但实际应用中,AI 技术面临的场景要复杂得多,比如工业质检场景下的图像,可能存在光线昏暗、物体表面有污渍、拍摄角度多变等问题;客服对话系统处理的文本,会有大量口语化表达、方言词汇,甚至用户表达混乱的情况。
如果只在公开数据集上练习,模型只能适应理想化场景,遇到实际中的复杂数据就会表现不佳,比如在公开数据集上训练的图像识别模型,放到工业质检场景中可能连基本的缺陷识别都做不好,这样的练习效果显然无法满足实际需求。

