上海数交所总经理汤奇峰:构建大模型时代语料库数据生态 推动数据要素市场创新

7月8日,在由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛上,上海数交所总经理汤奇峰作题为“大模型时代下的语料库”的主旨演讲,带来关于国内语料库建设挑战的观察,并从语料库质量和开放程度两个维度给出建设建议。

汤奇峰认为大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。


(资料图)

“语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”汤奇峰说。

当天活动上,上海数交所正式启动语料数据生态创新合作伙伴计划,携手首批合作伙伴丰富语料库,推动数据要素市场建设。

关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?”由此,汤奇峰指出可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。

上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议可以从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向建设大模型时代下的语料库。

汤奇峰指出,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题。”

此外,上海数据交易所语料库还将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放数据积极性。

针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道提高数据质量。

汤奇峰介绍,上海数交所在建设语料库时考虑的两个维度与数交所对企业数据发展进程四个阶段的观察密切相关。对于这四个阶段,汤奇峰解释,第一个阶段是企业数据自产自用阶段。随着企业数据的内部供给有限时,企业数据需求逐步转向外部,进入到第二阶段,在该阶段,大平台和大企业通过资本纽带在体系内部形成数据流通。到了第三个阶段,企业累积的数据将开放给整个行业,产业内形成标准。第四个阶段,数据使用在资产化过程中会产生新的更高阶业态。

汤奇峰说:“语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。”

上海数交所官网已经于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。

(文章来源:证券时报网)

关键词:

为您推荐

上海数交所总经理汤奇峰:构建大模型时代语料库数据生态 推动数据要素市场创新

7月8日,在由上海数据交易所、大数据流通与交易技术国家工程实验室承办

来源:证券时报网2023-07-08

原子团是什么意思初中化学 原子团是什么

1、在许多化学反应里,作为一个整体参加反应,好像一个原子一样,一般

来源:城市网2023-07-08

法院|八旬老人健身房摔倒受伤,谁担责?

民主与法制网讯(□尤来安通讯员樊岚张焕静)河南洛阳市民牛奶奶就是健

来源:民主与法制网2023-07-08

机器人首次在联合国答记者问:我们不会抢走工作、反抗人类

IT之家7月8日消息,据路透社报道,昨日在日内瓦举行的“AIforGood”会

来源:搜狐号-IT之家2023-07-08

原神虹彩蔷薇采集一览

在原神中,很多玩家不清楚原神虹彩蔷薇采集一览怎么办。这个问题其实还

来源:互联网2023-07-08

《雷雨》再登曹禺剧场 经典新排精彩绽放

​昨晚(7号),新排版的《雷雨》登上曹禺剧场的舞台,开启第二轮演出

来源:BRTV特别关注2023-07-08

低保户查到有7万存款怎么办 解决办法如下

低保户是指因家庭成员存在重度残疾或疾病丧失劳动力,享受最低生活保障

来源:互联网2023-07-08

警力最大限度摆上街面!北京开展夏夜治安巡查统一行动

根据全国公安机关夏夜治安巡查宣防集中统一行动安排,7月7日起,北京市

来源:千龙网2023-07-08