当前位置：首页 > 旅游 > 正文内容

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

admin2年前 (2024-08-07)旅游383

面壁发布MiniCPM-V 2.6，端侧视频理解全面超越GPT-4V

近日，面壁公司正式发布了MiniCPM-V 2.6，这款新模型在端侧性能上实现了对GPT-4V的全面超越。MiniCPM-V 2.6在单图、多图、视频理解等多模态核心能力上取得了显著突破，三项能力均达到了20B以下的SOTA成绩。该模型的单图理解能力已经可以与Gemini 1.5 Pro和GPT-4o mini相媲美。

此次发布的MiniCPM-V 2.6不仅在性能上有所提升，还在视觉token方面进行了优化，比同类模型低75%。这使得MiniCPM-V 2.6在编码像素密度上取得了两倍于GPT-4o的成绩。更重要的是，面壁将“实时”视频理解、多图联合理解、多图ICL等能力首次搬到了端侧，使大模型具备了实时看到真实世界的能力，这对于实现AGI具有重要意义。

MiniCPM-V 2.6的端侧内存占用仅为6GB，端侧推理速度达到18tokens/s，比上一代模型快33%。该模型还支持llama.cpp、ollama、vllm推理，并且兼容多种语言。此外，MiniCPM-V 2.6还具备强大的视频OCR功能，能够识别视频画面中的密集文字，为用户提供关键信息总结。

通过这些创新，面壁公司展示了其在端侧视频理解领域的技术优势，推动了多模态大模型在实际应用中的发展。未来，随着技术的不断进步，我们可以期待更多类似的技术突破，为人工智能的发展注入新的动力。