![]()
这项由浙江大学计算机科学与技术学院、软件技术学院、海洋学院及浙江大学舟山海洋研究中心联合主导,依托海洋感知国家重点实验室完成的研究,以预印本论文形式发布于2026年4月25日的arXiv平台,论文编号为arXiv:2605.00877。有兴趣深入查阅的读者可通过该编号在arXiv上找到完整内容。
地球表面超过70%被海水覆盖,海洋既是气候的调节器,也是无数生物赖以生存的家园,更藏着人类尚未完全揭开的秘密。然而,尽管人工智能技术在最近几年取得了惊人的进展——可以写文章、画图、聊天、做题——真正能"读懂"海洋的AI系统却几乎是一片空白。这背后的原因,并不是研究人员不够努力,而是卡在了一个根本性的难题上:数据。
关于海洋的数据,散落在世界各个角落。有来自船载声呐仪器扫描海底地形的声学图像,有科考船和潜水器拍摄的水下生物照片,有海洋学家发表在期刊上的研究论文,还有各类教科书和科普网站上的文字资料。这些数据之间互不相连,格式各异,质量参差不齐,就像一座城市里的书籍全部被随意堆放在不同街道的角落,没有任何编目,没有任何统一语言。对于需要"喂大量数据才能学聪明"的AI来说,这种状态几乎是致命的。
正是为了打破这个僵局,浙江大学的研究团队花费大量精力,系统性地构建了一座专门服务于海洋人工智能的"大型图书馆",并将其命名为OCEANPILE。这个项目的目标,是把原本七零八落的海洋数据,整理成AI可以高效学习的统一格式,并配套提供训练指南和考试卷,从而让AI真正具备处理海洋科学问题的能力。
一、海洋数据的困境:一座没有目录的图书馆
要理解这个研究为何重要,不妨先想象这样一个场景:你要备考一场涉及海洋知识的考试,但考试资料被分散藏在全城数千个不同的地方,有些是手写的草稿,有些是外文原版、没有翻译,有些已经破损模糊,有些内容虽然相关但语言和格式完全不同。在这种情况下,即使是最勤奋的学生,也很难系统复习。
这正是现有海洋AI面临的处境。现有的海洋数据集大多只覆盖某一个子领域——有些只有声呐图像,有些只有水下拍摄的鱼类图片,有些只有文本形式的研究报告。更严重的是,这些数据集大多是为特定的传统检测任务设计的,根本没有考虑到大型语言模型的训练需求。以OceanGPT为代表的早期尝试虽然走出了重要一步,但它只能处理文本,看不懂图片;而MarineGPT等多模态系统虽然引入了图像,却主要聚焦在水下场景理解这一个方向,忽略了物理海洋学、化学海洋学、生物海洋学等其他大量领域的知识。
研究团队把这种困境总结为"模态鸿沟"和"语义错位"。通俗说来,声呐图像里的信息、水下照片里的信息、科学论文里的信息,三者讲的虽然都是"大海",但就像三个人分别用手语、英语和中文描述同一件事,彼此之间根本无法直接沟通。要让AI真正理解海洋,就必须架设一座翻译桥梁,让这三种"语言"能够对话。
二、三件套:语料库、训练题集、考试卷
OCEANPILE的设计思路,可以类比为建立一套完整的教育体系:先给学生提供教材(语料库),然后给他们做练习题(训练指令数据集),最后用标准化考试来检验学习效果(评测基准)。三个部分缺一不可。
第一部分叫做OCEANCORPUS,是整个体系的基础教材库。它将海洋领域的多种类型数据统一整合在一起,共包含五大类内容。第一类是海洋学教科书和学术论文,覆盖化学海洋学、生物海洋学、地质海洋学和物理海洋学等多个分支,这些是最权威的知识来源,相当于精心编撰的教科书。第二类是海洋相关的网页内容,包括科学新闻、教育门户和专业论坛,这些提供了更贴近实际应用场景的背景知识。第三类是声呐探测数据集,来自侧扫声呐和多波束测深仪等设备,记录的是声波在水下传播后"听"到的图像,是一种人眼看不到的水下感知方式。第四类是水下图像数据集,包含大量有标注的海洋生物高清照片,覆盖不同种类和不同栖息地的水下生物。第五类是最独特的部分——团队自己实地采集的数据。研究人员在中国舟山海域部署了搭载声呐系统和高清光学摄像头的自主水下潜航器(AUV),同步采集真实海洋环境中的声呐图像和光学图像,这种数据包含了自然光线变化、复杂海底背景等真实条件,远比实验室环境中采集的数据更有代表性。整个OCEANCORPUS最终处理后形成了超过50亿个词元(可以理解为文字或图像片段)的规模,同时保存了超过30万份原始PDF文档。
第二部分叫做OCEANINSTRUCTION,是配套的练习题集,共包含约14万条高质量的问答训练对。这些数据分为纯文本版本和多模态版本两大类:纯文本版本包含69,192条问答对,专门用于强化模型的海洋科学文字理解能力;多模态版本则包含71,932条问答对,每一条都配有一张相关的海洋图像,覆盖声呐分析、海洋生物物种识别和海洋科学图表解读等不同任务类型。
第三部分叫做OCEANBENCHMARK,是检验AI学习成果的标准化考试卷。它由人工精心整理而成,共包含1,469道题目,分为文本题和多模态题两大类别。文本题部分叫做"海洋科学问答",共102道,专门测试模型对海洋领域事实知识的掌握和推理能力。多模态题则进一步细分为三个专项:"海洋科学视觉问答"有99道,考查模型对海洋主题图表和图像的理解;"声呐视觉问答"有796道,测试模型解读声呐图像的能力;"海洋生物视觉问答"有472道,专门考察模型对海洋物种的精细识别能力。
三、建图书馆的工程:如何把零散资料变成有用知识
收集数据只是第一步,更关键的是如何把这些来自不同渠道、格式各异的原始资料,转化成AI能够高效学习的标准化内容。研究团队为此设计了一套专门的数据预处理流程。
对于教科书和学术论文,处理方式是这样的:如果文档有LaTeX或Markdown等结构化原始格式,就直接转换成干净文本,同时保留原有的章节层次;如果只有PDF格式,则使用专门的PDF转Markdown工具提取文字、图表、标题等信息,确保数学公式、科学符号和专业术语都能准确保留。之后还要进行多轮清洗,删除页眉、页脚、页码、出版元数据等无关内容,并借助大语言模型对冗余或高度重复的内容进行语义层面的去重,最终保留真正有价值的科学知识。
对于网页内容,处理过程同样分多个阶段。首先用改良的HTML解析器提取核心文本和图片,同时剔除导航菜单、广告、嵌入脚本等干扰信息。然后对文本质量进行过滤,去掉过短、过长或明显是占位符的段落。对于网页上附带的图片,则使用多模态大语言模型评估其视觉相关性和质量是否达标。最后,所有文档还要经过基于文本相似度的去重处理。
对于声呐图像和水下目标检测数据,处理起来更为复杂。不同数据集的标注格式五花八门,研究团队首先将所有边界框统一转换为标准的坐标格式,并对不同数据集中语义相近但表达不同的类别标签进行合并,比如"立方体"和"方形箱"被统一为同一类别。在此基础上,还采用了两种策略为声呐数据生成更丰富的文字描述:对于有精确边界框标注的数据,用视觉语言模型生成描述特定目标位置和类别的文字;对于只有图像级标签的数据,则生成描述大类特征和整体场景的文字。这样处理的结果,是把原本只有简单标签的视觉数据,扩展成了包含丰富语义描述的多模态数据集。
四、练习题是怎么出的:知识图谱引导的指令合成
OCEANPILE最具创新性的部分之一,是其生成训练问答数据的方式。通常,给AI准备训练数据的方法是让大模型随机生成问答,但这种方法在专业领域有明显缺陷——生成的问题可能浮于表面,缺乏对核心概念的深度覆盖,也容易遗漏该领域最重要的知识节点。
研究团队为此专门构建了一个叫做"海洋概念知识图谱"的结构化知识框架。这个知识图谱的建设过程可以用编制一本精密的课程大纲来理解。首先,团队请领域专家从教材分类体系和学科共识出发,确定海洋科学的几个主要一级学科,例如海洋生物学、物理海洋学、海洋化学等。然后,针对每个一级学科,使用GPT-4o对大量教材和专家整理的文献进行分析,自动提取候选的二级子类别,比如在海洋生物学下提取"藻类爆发"、"硅藻"、"赤潮"、"海洋生态区"等具体概念节点。接下来,再次使用GPT-4o对这些候选子类别进行合并和筛选,去掉含义重复的节点,并剔除在文献中出现频率过低的概念,最终形成一个层次清晰、覆盖全面的知识结构网络。
有了这个知识图谱之后,问答数据的生成就有了明确的方向。对于每一段输入数据——无论是一段教材文本、一张科学图表还是一张有标注的水下图像——系统都会先将其映射到知识图谱中最相关的学科节点和具体概念,再从权威文献中检索相关背景知识,然后由GPT-4o综合所有这些信息,生成一个问题和对应的标准答案。这个过程确保了生成的训练数据不是泛泛而谈,而是紧扣海洋科学的真实知识体系。对于文本数据,生成的问题侧重考察关键概念和基础知识;对于图像数据,问题侧重视觉解读和科学描述;对于检测标注数据,则生成针对物种识别或目标分析等具体应用任务的指令。
五、质量把关:AI审核加上专家人工复核
数据质量的把控是整个流程中最不能马虎的环节。研究团队为此设计了一套两阶段的质量控制机制,就像一份报告既要经过机器审核,又要经过人工评审一样。
第一阶段是AI自动审核。每一条生成的问答对,都会被多个不同的大语言模型作为独立评审员,从事实准确性、与问题的相关性、表述清晰度三个维度各自打分,分值区间为0到10分。最终取所有评审员打分的平均值作为该条数据的综合质量分,低于预设阈值的数据直接被过滤掉。
第二阶段是人工专家审核。研究团队专门开发了一个审核平台,让经过培训的海洋科学领域专家随机抽取过滤后的数据样本,逐条检查是否存在事实错误、表述模糊或不适合海洋科学教学的内容,并进行相应的修正。为了衡量专家之间判断的一致程度,团队计算了"注释者间一致性"指标,最终得分为0.86分(满分为1),这个数字在学术界被认为代表了很强的可靠性,意味着不同专家对同一条数据的判断高度吻合。
OCEANBENCHMARK的构建同样经过严格把关。每道题目由专业海洋科学人士基于精选的权威文献和多模态样本独立设计。每道题再由多位标注员独立评审,只有获得过半数评审员认可的题目才能最终入选。这种"少数服从多数"的筛选机制,最大限度地保证了考试题目本身的正确性和科学性。
六、成绩单:训练后的AI学到了多少
所有这些工作最终都要用实验结果来说话。研究团队选择了两个开源基础模型进行微调测试:文本模型Qwen3-30B-A3B-Instruct和多模态模型Qwen3-VL-8B-Instruct。同时,他们还拉来了几个业界顶级的闭源模型作为参照对象,包括Gemini-3-Flash、GPT-4o和GPT-5,让它们直接在OCEANBENCHMARK上作答,看看这些模型在没有经过专门海洋训练的情况下能得多少分。
在文本测试项"海洋科学问答"上,用OCEANPILE数据微调后的Qwen3-30B得分从25.49上升到了26.47,超过了GPT-5的16.67分和GPT-4o的6.86分,并且非常接近Gemini-3-Flash的24.51分。这说明一个本来水平相近的开源模型,在经过针对性的海洋知识训练后,表现可以达到甚至超越规模大得多的通用顶级模型。
多模态测试的结果更加令人印象深刻。用OCEANPILE微调后的Qwen3-VL-8B在"海洋科学视觉问答"上从21.21分提升到29.29分,在"声呐视觉问答"上从8.04分大幅跃升到19.97分,在"海洋生物视觉问答"上则从9.96分飙升至48.52分,整体多模态综合得分从13.07分上升到32.59分。这个综合分数超过了GPT-5的9.67分、GPT-4o的14.35分,甚至略微超过了Gemini-3-Flash的31.21分。一个8B参数规模的小型开源模型,经过OCEANPILE数据的专项训练,在海洋科学的多模态综合评测上能够超越那些规模庞大、训练资源消耗巨大的闭源通用模型,这个结果本身就说明了高质量领域专属数据的巨大价值。
案例分析部分进一步生动展示了这种差异。在一道关于海洋化学的文本选择题上,GPT-5和Qwen3(未微调版)都选错了,而微调后的版本和Gemini给出了正确答案。在一道需要解读卫星干涉测量图的视觉题上,GPT-5、Gemini和未微调的Qwen3都选错了,只有微调后的版本得出了正确结论。在声呐图像识别题上,所有对比模型要么无法给出有意义的答案,要么判断为飞机,只有微调后的版本正确识别出图中是水下遥控载具(ROV)。在海洋生物物种识别题上,类似的情况再次出现——通用模型纷纷给出错误或不确定的答案,而经过专项训练的版本准确辨认出了珊瑚物种。
归根结底,OCEANPILE这个项目解决的是一个比技术本身更根本的问题:数据。无论AI模型的架构多么精巧、参数规模多么庞大,如果没有高质量、覆盖全面、多种模态相互对齐的领域专属数据,模型就永远只能在海洋科学的门口徘徊,无法真正走进去。通过把原本七零八落的声呐数据、水下图像、科学文献整合成一个体系严密的多模态语料库,并配套知识图谱引导的训练指令和人工精审的评测基准,这项研究为海洋AI的发展铺设了一条真正可以走通的路。
对于普通人来说,这意味着未来的海洋监测、海洋生物保护、气候变化研究乃至海洋资源管理,都可能借助这类技术实现效率上的大幅提升。当AI能够准确"读懂"一张声呐图像、"认出"一种珊瑚、"理解"一篇海洋学论文,人类探索海洋的能力就不再受限于研究人员的数量和工作时间。
这个研究也引发了一个值得继续思考的问题:在医学、地质学、气象学等同样存在大量专业数据但缺乏统一整理的领域,是否也需要类似的"专业图书馆"工程?高质量的领域专属数据与模型本身的技术改进,哪个对最终性能的影响更大?OCEANPILE的结果给出了一个颇具说服力的参考答案。有兴趣深入了解完整研究方法和数据细节的读者,可以在arXiv上通过论文编号2605.00877查阅完整论文,数据集和相关代码也已在Hugging Face平台和GitHub上公开发布。
Q&A
Q1:OCEANPILE包含哪些类型的数据?
A:OCEANPILE包含五类数据:海洋学教科书和学术论文、海洋相关网页内容、声呐探测数据(侧扫声呐和多波束测深仪)、有标注的水下生物图像数据集,以及研究团队在舟山海域用自主水下潜航器实地采集的同步声呐和光学图像数据。整个语料库经处理后超过50亿词元,并保存了超过30万份原始PDF文档。
Q2:海洋概念知识图谱是怎么构建的?
A:首先由领域专家确定海洋科学的主要一级学科(如海洋生物学、物理海洋学、海洋化学),再用GPT-4o对教材文献进行分析,自动提取每个学科下的候选子类别概念节点,然后再次用GPT-4o合并重复节点、筛除低频概念,最终形成一个层次清晰的知识结构网络。这个知识图谱随后被用于引导训练问答数据的生成,确保覆盖核心概念。
Q3:用OCEANPILE训练后的模型比GPT-5、GPT-4o强在哪里?
A:在OCEANBENCHMARK的多模态综合评测上,经OCEANPILE微调的Qwen3-VL-8B综合得分为32.59分,高于GPT-5的9.67分、GPT-4o的14.35分,甚至略超Gemini-3-Flash的31.21分。在声呐图像识别和海洋生物物种辨认等专项任务上,通用大模型经常给出错误或模糊答案,而专项训练后的模型能准确识别水下目标和珊瑚物种。





京公网安备 11011402013531号