Kimi-VL: 月之暗面推出的开源视觉语言模型

AI工具2周前更新 AI小助手

66 0

Kimi-VL是什么？

Kimi-VL 是由北京月之暗面公司推出的一款开源视觉语言模型（VLM），具备原生分辨率图像理解、多模态推理和128K长上下文处理能力。其基于轻量化的 MoE 架构语言模型 Moonlight 和自研视觉编码器 MoonViT，可处理图像、视频、图文混合、屏幕快照等多种多模态输入场景，支持复杂任务中的高效视觉感知与推理。模型性能在多个 VLM 基准上表现优越，兼具推理深度与执行效率。

Kimi-VL: 月之暗面推出的开源视觉语言模型

Kimi-VL 的功能特性

原生多模态输入支持：可处理图像、视频、图文长文档、屏幕快照等丰富视觉语言组合。
128K 长上下文推理：具备大上下文窗口，在长视频理解与长文档摘要中表现优异。
高保真视觉感知能力：MoonViT 编码器保留图像原始分辨率，提升 OCR、细节感知与图像理解能力。
轻量高效的 MoE 架构：采用 16B 总参数、2.8B 激活参数的 Moonlight 模型，实现推理效率与多模态表达兼得。
支持长链式思维版本（Kimi-VL-Thinking）：通过强化学习激活思维链推理（Long CoT），在复杂任务中效果超越部分超大模型。
完整开源、易于部署：模型已在 Hugging Face 与 GitHub 完全开源，支持本地运行与二次开发，适合社区研究与产品快速集成。

Kimi-VL 的模型架构

Kimi-VL 的整体架构由三大核心模块组成：原生分辨率视觉编码器 MoonViT、桥接视觉与语言的 MLP 投影模块，以及轻量高效的 MoE 架构语言模型 Moonlight。这三个部分共同构建了一个高性能、长上下文、强视觉理解能力的多模态模型。

Kimi-VL: 月之暗面推出的开源视觉语言模型

1️⃣ MoonViT：支持原生分辨率的视觉编码器

专为 Kimi-VL 设计，具备处理原始分辨率图像的能力，无需图像分割或拼接。
借鉴 NaViT 的打包方法，将图像划分为块后展平成一维序列，提升编码效率。
与语言模型共享 FlashAttention 支持的变长序列处理能力，保证在处理不同大小图像时训练吞吐量不受影响。

2️⃣ MLP Projector：视觉与语言模态的桥接层

采用两层 MLP 模块连接 MoonViT 与语言模型，实现特征维度对齐。
首先通过 像素重排（Pixel Shuffle） 对视觉特征进行 2×2 下采样，并扩展通道维度。
再通过 MLP 将下采样后的特征投影到与语言模型输入一致的嵌入维度，确保多模态信息无损融合。

3️⃣ Moonlight：自研 MoE 架构语言模型

总参数量 16B，有效激活参数 2.8B，采用混合专家（MoE）机制提升推理效率。
初始化自 Moonlight 预训练中间 checkpoint，已处理 5.2T 纯文本数据、支持 8K 上下文。
在多模态阶段进一步使用 2.3T token 的图文混合数据进行训练，显著增强模型跨模态对齐与长文本理解能力。

Kimi-VL 的适用场景

多模态问答系统开发：支持图文混合、视频帧、屏幕截图等多模态输入，适用于构建具备视觉理解能力的 AI 助手或教育问答系统。
长文档和长视频理解：凭借 128K 上下文窗口能力，可精准提取、总结和推理超长内容，适用于合同审阅、视频摘要、研究报告分析等任务。
OCR 与图像细节分析：在高分辨率图像、表格、票据等场景中表现出色，适合金融文档识别、表单解析、图像标注等任务。
多步骤视觉推理与数学理解：结合图像信息与链式思维能力，可用于图形题、多图推理、数学可视化问题等教育或科学研究类场景。
智能体控制与屏幕交互：在支持高分辨率屏幕截图解析的基础上，适合接入多模态 Agent 系统，执行跨应用控制、UI 元素识别等任务。

如何使用 Kimi-VL

Kimi-VL 为开源模型，支持 Hugging Face 上直接加载模型权重，也支持 GitHub 本地部署。可通过推理 API 或集成进多模态任务链中运行。Kimi-VL-Thinking 版本支持推理更深的思维链任务，适用于逻辑推理与多步骤复杂问答。

ArXiv 论文：https://arxiv.org/abs/2504.07491v1
Github 代码：https://github.com/MoonshotAI/Kimi-VL
Hugging Face 模型下载：https://huggingface.co/collections/moonshotai/kimi-vl-a3b-67f67b6ac91d3b03d382dd85

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

吐司AI – 免费在线生成图像的模型分享社区

吐司AI – 免费在线生成图像的模型分享社区

2个月前

Trae功能上新：支持自定义主题，你的专属智能开发环境来了

Trae功能上新：支持自定义主题，你的专属智能开发环境来了

1个月前

CopyWeb – AI网页克隆工具，将截图和网站链接转换为代码

CopyWeb – AI网页克隆工具，将截图和网站链接转换为代码

2个月前

Grok 3：xAI发布的新一代大语言模型

2个月前

暂无评论

none

暂无评论...