LOADING

星环科技孙元浩:语料已经是大模型最大的挑战

2024/06/16 机器之心
39

星环科技孙元浩:语料已经是大模型最大的挑战

AIGC动态欢迎阅读

原标题:星环科技孙元浩:语料已经是大模型最大的挑战
关键字:语料,模型,报告,数据,企业内部
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
作者:Esther「原来以为语料已经匮乏了,大模型训练已经没有语料了,实际上不是的,数据还远远没有跑光」。
作为大数据领域超过十年的创业者,「星环科技」创始人及CEO孙元浩并不认同「大模型已经将人类互联网数据穷尽」的说法。
根据他的观察,如今在各行各业企业内部的数据还远远未被足够利用,人类在互联网上的存量数据远远大过目前大模型能够利用的量级。拥有了这些来自各行各业内部高质量的数据,大模型可以在如今的基础上,大大提高准确性。
而关键问题就在于,怎样可以高效地开发这些数据?
大模型时代,语料的开发遇到了新的挑战。孙元浩分享称,目前企业内部的数据往往多是非结构化的、海量的、不同形式的、以小文件居多的,同时标注和校正这些专业数据还有较高的门槛。这对文件系统、知识库系统、语料开发系统等都提出了新的要求。
比如,面对数据量巨大的问题,对企业内部各种文档、PPT的处理,意味着存储和计算资源有更高的要求;在数据多样性方面,对于企业内部不同类型的文档,如媒体文章、政府公文、设计文档等,都需要用训练模型进行识别和解析,这就要求数据处理工具具备强大的多模态数据处理能力。
对于数据安全和隐私问题


原文链接:星环科技孙元浩:语料已经是大模型最大的挑战

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台