本文转自:人民网-上海频道爱配资
人民网“行进中国”上海调研采访团
在上海的一家基层医院里,一台体积接近登机行李箱大小的设备正悄然改变着医生的工作方式。这台医疗语料终端不仅能完成临床信息录入、病历自动生成,遇到疑难问题时还能提供专科医生级别的辅助诊断能力。
这台设备背后的专业知识的集成者,是一家成立时间不足一年的企业——上海库帕思科技有限公司。
7月26日,2025年世界人工智能大会在上海开幕。顾海民摄
上周,全球人工智能热浪滚滚,汇聚在上海举办的世界人工智能大会。从“程序员们的游戏”到全民热议的衣食住行话题,AI早已渗透到了人类生产生活的方方面面。
当大多数人的目光聚焦于算力、算法时,位于上海黄浦江畔徐汇西岸“模速空间”的库帕思却将焦点放在了人工智能的另一关键环节——高质量语料数据。
这家由上海市信息投资股份有限公司牵头,联合人民网等11家单位共同组建的企业,正致力于成为中国首家专业人工智能语料公司,打造基于世界知识体系和价值对齐的大模型语料“超级工厂”。
爱配资
库帕思位于徐汇西岸“模速空间”。钱尤祎摄
何谓“语料”?
所谓语料,某种意义上就是AI大模型的“教材”,是经过精心筛选、清洗和标注的高质量训练数据,包括文字、图片、声音等多种形态,专门用来教会AI大模型理解人的思想以及物理世界。缺乏语料,模型训练就会变成“无米之炊”;如果只有低质量数据,就可能让训练成本大幅飙升。
有统计显示,对大模型创业企业而言,目前花在语料上的成本超过企业运营开销,仅次于算力支出。语料作为战略资源,其价值和短板都在大模型热潮中越来越清晰。正是在这样的背景下,上海市委市政府部署组建了库帕思公司,它成为国内第一家专注AI语料的战略性功能平台企业。
库帕思CEO黄海清介绍,库帕思自2024年3月运营以来,短短几个月就在行业内首次完成了语料战略平台“四梁八柱”的搭建。这个体系被称作“1125”语料工作框架,包含了1个语料基座、1个语料运营平台、2大战略基础体系以及5中可持续发展能力。
库帕思搭建起语料战略平台“四梁八柱”。钱尤祎摄
黄海清说,这一框架的核心是“采、洗、标、测、用”五位一体的工具体系。每天,在库帕思平台上,数百个AI自动算子会按照工程师们对语料的设计,对数据进行多道加工。目前,库帕思面向基础大模型及行业垂类大模型已经语料化了众多高质量语料数据集,覆盖了多模态、金融、教育、医疗、工业、文旅、城市治理、具身智能、自动驾驶以及科学智能等10多个行业。
这样的高质量语料数据供应体系,正给行业带来积极改变。比如,在基础模型领域,一些创业公司因为库帕思的存在,开始精简自己的语料团队,从而将有限的精力和资金集中在算法层面。
随着库帕思在人工智能产业中的不断实践,语料作为战略资源,其价值和短板都在大模型热潮中越来越清晰。
黄海清在AI超级联赛上海分会场发言。顾海民摄
在医疗领域,库帕思与上海市卫生健康委员会、市疾病预防控制局合作,发布了上海市卫生健康行业语料库(临床医学)1.0版和上海市卫生健康行业语料库(公共卫生)1.0版。临床医学语料库覆盖100多个二、三级专科科目,适配智能化就医咨询、门急诊分诊、辅助诊疗等近20种应用场景,语料规模达5TB。公共卫生语料库则聚焦基础资源、业务资源、主题资源三大类,细分至传染病动态监测、慢性病及其危险因素等61个科目。
在具身智能领域,库帕思联合国地中心、漕河泾园区等多家企业启动了具身智能语料专项工程。该工程一期着力打造生产伴随、物理场遥操作、仿真合成等3种语料数据采集模式,聚焦工厂、医疗、零售、办公、家居等12类场景,覆盖动作技能250余项,构建起规模达5000万条的具身智能语料数据库。
上海市经信委副主任张宏韬前不久在接受采访时表示,上海已全面战略布局人工智能大模型产业,加速推进“模塑申城”行动方案,为大模型提供强大的基础底座赋能和丰富的应用场景支持。
AI赋能千行百业超级联赛海报。钱尤祎制图
就在7月19日,AI赋能千行百业超级联赛启动。在北京、上海、浙江杭州、广东深圳、香港特别行政区、曼谷、吉隆坡等7个城市,来自科研院所、知名企业代表也共同参与启动仪式。
在上海分会场爱配资,黄海清表示:“库帕思将持续支持行业垂类大模型和智能体的发展,一起共创这些行业高质量语料数据的标准与数据集建设,支持更多的中国基础大模型和行业大模型出海。”(李君、轩召强、马作鹏)
红腾网提示:文章来自网络,不代表本站观点。