在理解这条主线里,模型不再是「只看视频」或「只听语音」,而是要在统一表示下做对齐、grounding与推理;AV-LLM的崛起让long-formvideo understanding、AVQA等任务有了…
谷歌I/O 2026大会综述:Gemini 3.5、AI搜索、Android XR眼镜等
06/25 00:17
06/25 00:16
06/25 00:15