股票之声

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1038|回复: 0

国产大模型困境有解了?开放算料联盟成立

[复制链接]
发表于 2023-7-27 09:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?注册

x
  面对中文语料数据不足的困境,国内多方主体决定抱团聚力。

  
  7月25日,深圳数交所联合近50家单位成立“开放算料联盟” 。参与公司不仅有联通、电信两大运营商以及腾讯云,还有多家A股公司,包括云天励飞、奥比中光、优必选、华大基因、海天瑞声等。

  
  其中,海天瑞声是数据资源服务商,云天励飞是视觉智能芯片研发商,华大基因是基因测序龙头之一。奥比中光、优必选为机器人产业相关公司,前者深耕机器视觉,后者是机器人制造商。

  
  联合发起单位华傲数据董事长贾西贝认为,目前芯片行业已经被证实了要走“三分协作”的模式,即分段创新、分域竞争、分工协作,未来AI领域也将走向这样的模式。

  
  据介绍,该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加大模型相关的新品类和新专区。

  
  各成员将共同贡献、整理、倡导贡献自然语言、图像视频、语音音乐、程序代码、生物信息、合成数据等多模态训练数据,为解决人工智能和数字经济的数据荒问题,特别是解决多模态数据荒、中文数据荒、中国文化、中国价值观数据荒等问题提供强有力支撑。

  
  数据是AI胜负手 丰富中文数据库迫在眉睫
  
  大模型、算力、数据是生成式人工智能发展的三大支柱。数据是关键生产要素和生产资料,也可以说是AI的算料。

  
  马斯克在现身xAI团队首秀时就提及其重要性,在他看来,随着产品更好地理解问题,所需的算力将减少几个数量级,而“数据荒”更难解决,“在某个时候,AI训练会耗尽人类数据,最终人工智能将不得不自己生成数据。”

  
  虽然现在未到人类数据用无可用的时刻,但数据资源高昂的费用往往让人工智能企业望而止步。消息称,由于Reddit、推特等公司的数据采集要价太高,微软、OpenAI和Cohere等公司,已使用合成数据来训练AI模型。

  
  对于国内企业而言,更是存在有钱也买不到、买不合适的情况。原因无他,中文语料库中的内容依然匮乏。此前中国工程院院士高文在演讲中提到,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。

  
  正因为如此,解决数据瓶颈问题被提上日程的同时,丰富高质量中文训练数据迫在眉睫。

  
  天风证券分析师缪欣君认为,AI三要素(算法、算力、数据)中数据是直接影响AI大模型在垂直行业落地效果的关键。垂类数据通常由政府和行业机构掌握,相比于模型和算力,数据稀缺性明显。

  
  东吴证券分析师王紫敬也表示,数据是AI的胜负手。该分析师还点出了数据更深层次的含义——语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀。

  
  从投资角度看,公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。该机构看好以下三个环节:
  
  1)数据运营:预计医保数据将有望成为公共数据放开的第一站,相关公司包括久远银海、山大地纬、中科江南等。

  
  2)数据基础设施:有望成为最先放量兑现的环节。相关公司包括深桑达A、易华录、云赛智联、中国电信等。

  
  3)数据安全:看好具备央国企背景和数据安全业务积累的相关厂商。相关公司包括启明星辰、奇安信、安恒信息、电科网安等。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|股票之声 ( 京ICP备09051785号 )

GMT+8, 2024-5-6 04:12 , Processed in 0.042683 second(s), 6 queries , MemCache On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表