上海数交所总经理汤奇峰:构建大模型时代语料库数据生态 推动数据要素市场创新
2023-07-08 17:57:34来源:证券时报网
7月8日,在由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛上,上海数交所总经理汤奇峰作题为“大模型时代下的语料库”的主旨演讲,带来关于国内语料库建设挑战的观察,并从语料库质量和开放程度两个维度给出建设建议。
汤奇峰认为大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。
“语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”汤奇峰说。
(相关资料图)
当天活动上,上海数交所正式启动语料数据生态创新合作伙伴计划,携手首批合作伙伴丰富语料库,推动数据要素市场建设。
关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?”由此,汤奇峰指出可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。
上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议可以从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向建设大模型时代下的语料库。
汤奇峰指出,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题。”
此外,上海数据交易所语料库还将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放数据积极性。
针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道提高数据质量。
汤奇峰介绍,上海数交所在建设语料库时考虑的两个维度与数交所对企业数据发展进程四个阶段的观察密切相关。对于这四个阶段,汤奇峰解释,第一个阶段是企业数据自产自用阶段。随着企业数据的内部供给有限时,企业数据需求逐步转向外部,进入到第二阶段,在该阶段,大平台和大企业通过资本纽带在体系内部形成数据流通。到了第三个阶段,企业累积的数据将开放给整个行业,产业内形成标准。第四个阶段,数据使用在资产化过程中会产生新的更高阶业态。
汤奇峰说:“语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。”
上海数交所官网已经于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
责任编辑:hnmd003
精彩推荐
- 物美启用便利店双品牌 北京市场格局生变
- 南水北调河南供水范围将扩大
- 内地房企海伦堡拟赴港上市
- 双“11”大数据出炉了 洛阳人爱买啥?
- 京津冀多地遭遇大气重污染 专家为您详...
- 郑州新密一家具厂发生火灾,厂房被毁
最近更新
- 上海数交所总经理汤奇峰:构建大模型时...
- 湘西自治州北部局地等发生山洪灾害的可...
- d3dx9(39.dll下载)
- 炒原油关注的因素越多越容易盈利吗?
- 蓉宝、蓉光、蓉火 记者带你逛成都大运...
- 7.8全国保险公众宣传日|多措并举整治“...
- 铜陵有色股价本周涨逾4%
- 【能够穿越周期的基金】华商新趋势优选...
- 2023中国数字经济创新发展大会8月在汕头召开
- 佳能sx200(is)
- 校地联动 讲好“八八战略”故事
- 无花果搭配什么食材炖汤最滋润?6款家常...
- 容联云发布大语言模型“赤兔”,赋能沟...
- 大运知多少?一起了解成都大运会火炬“...
- “谢邀,匿了”成绝唱 知乎下线匿名功能
- 《如果,爱》嘉玲主动和乔植提出离婚,...
- 唐山市人事考试中心网上报名服务平台(...
- 千亿市值化工龙头重磅布局 新材料子公...
- 蒂花之秀母公司名臣健康收监管函,事涉...
- 消费金融公司发展报告发布
- 小米手环nfc录入实体公交卡
- 【何以中国】世界遗产@中国|一组海报领...
- 直击WAIC丨达观“曹植”大模型、优刻得A...
- 揪心!惠州一小孩右脚被商场扶梯紧紧“...
- 2019年税务申报按年度怎么操作(2019年...
- 超重磅!公募基金降费方案落地
- 官宣!上半年全国机动车保有量达 4.26...
- 巴西废弃楼房坍塌事故已致5死7伤
- 智能机械化技术助力广西提高葡萄种植经...
- 黄金桂鱼怎么做好吃(黄金桂鱼怎么做好...
阅读排行
-
7.8全国保险公众宣传日|多措并举整治“代理退保”黑产,切实保护消费者权益
上一篇2023-07-08 17:02:09