当前位置:首页 > 旅游 > 正文内容

让「GPT-4V」跑在手机上,这家中国大模型公司做到了

admin1年前 (2024-08-07)旅游207

面壁发布MiniCPM-V 2.6,端侧视频理解全面超越GPT-4V

让「GPT-4V」跑在手机上,这家中国大模型公司做到了

近日,面壁公司正式发布了MiniCPM-V 2.6,这款新模型在端侧性能上实现了对GPT-4V的全面超越。MiniCPM-V 2.6在单图、多图、视频理解等多模态核心能力上取得了显著突破,三项能力均达到了20B以下的SOTA成绩。该模型的单图理解能力已经可以与Gemini 1.5 Pro和GPT-4o mini相媲美。

此次发布的MiniCPM-V 2.6不仅在性能上有所提升,还在视觉token方面进行了优化,比同类模型低75%。这使得MiniCPM-V 2.6在编码像素密度上取得了两倍于GPT-4o的成绩。更重要的是,面壁将“实时”视频理解、多图联合理解、多图ICL等能力首次搬到了端侧,使大模型具备了实时看到真实世界的能力,这对于实现AGI具有重要意义。

MiniCPM-V 2.6的端侧内存占用仅为6GB,端侧推理速度达到18tokens/s,比上一代模型快33%。该模型还支持llama.cpp、ollama、vllm推理,并且兼容多种语言。此外,MiniCPM-V 2.6还具备强大的视频OCR功能,能够识别视频画面中的密集文字,为用户提供关键信息总结。

通过这些创新,面壁公司展示了其在端侧视频理解领域的技术优势,推动了多模态大模型在实际应用中的发展。未来,随着技术的不断进步,我们可以期待更多类似的技术突破,为人工智能的发展注入新的动力。

扫描二维码推送至手机访问。

版权声明:本文由文雀网发布,如需转载请注明出处。

本文链接:https://www.360wq.com/index.php/post/2060.html

分享给朋友:

“让「GPT-4V」跑在手机上,这家中国大模型公司做到了” 的相关文章

视频生成的“ChatGPT时刻”究竟有没有到来?

视频生成的“ChatGPT时刻”究竟有没有到来?

视频生成的“ChatGPT时刻”何时到来?近日,关于视频生成技术的发展引发了广泛关注。据悉,视频生成技术正逐步迈向新的高度,但是否已达到“ChatGPT时刻”仍是一个备受争议的话题。今年2月,Sora的发布让许多人认为视频生成的“ChatGPT时刻”即将到来。OpenAI使用的基于Transform...

网文作者拒绝投喂AI

网文作者拒绝投喂AI

番茄小说AI条款风波:作者权益受挑战近日,字节跳动旗下的网络文学平台番茄小说因其合同中的AI条款引发了作者们的强烈不满和抵制。据悉,该条款允许番茄小说将作者的作品用于人工智能开发等新技术领域,而这一做法并未事先通知作者。刘空,一位在番茄小说写作三年的作者,表示如果早知有这样的新增条款,他绝不会签约。...

当年背过的课文,还记得吗

当年背过的课文,还记得吗

国风音乐助力古文记忆,你还在为背书发愁吗?近日,一对90后国风音乐人奇然和沈谧仁凭借将高考必备古文改编成歌曲而走红网络。他们创作的《琵琶行》、《出师表》、《爱莲说》等60多首古文歌曲,以其独特的曲调和唯美的唱腔,吸引了大量粉丝。这种新颖的学习方式不仅让背诵变得轻松愉快,还帮助许多学生增强了记忆。回忆...

Coatue重磅报告解读:空间大模型与通用机器人

Coatue重磅报告解读:空间大模型与通用机器人

Coatue重磅报告:空间大模型与通用机器人能否引领未来?全球顶级对冲基金Coatue近日发布了一份关于“具身智能”的深度报告,揭示了AI机器人行业的现状与前景。报告指出,尽管机器人行业面临商业化难题,但通过空间大模型实现通用机器人的可能性正在增加。同时,机器人训练数据的缺乏是一个重大挑战,但远程操...

全揭秘:OpenAI自研芯片帝国

全揭秘:OpenAI自研芯片帝国

OpenAI自研芯片帝国:颠覆未来的科技革命?近日,据The Information援引知情人士消息,OpenAI正在秘密打造一个自研芯片帝国,这一举动引发了全球科技界的广泛关注。据悉,OpenAI正在积极招募谷歌TPU部门的前成员,旨在开发新型AI服务器芯片。这一计划的核心团队由谷歌TPU前工程高...

被退货率重伤的头部女装网店,正在集体退网

被退货率重伤的头部女装网店,正在集体退网

头部女装网店因高退货率集体退网,电商行业面临新挑战近日,众多头部女装网店因高退货率纷纷选择关闭,这一现象引发了广泛关注。电商平台实行的“仅退款”政策导致退货率飙升,网购女装存在的“货不对版”和长时间预售等问题,使得消费者耐心下降,退货率居高不下。开店仅4个月的服装网店店主小刘在社交平台晒出后台交易数...