有开发者用最简单粗暴的方式创建了一个 Claude Code 插件,让它能够理解视频(包括声音)。 通过 ffmpeg 提取视频帧,然后使用另外的后端模型(Gemini API、本地 Whisper 或 OpenAI API)处理音频。 最终 Claude Code 接收到图像帧,和带有时间戳的音频转文本,理解了视频。