恰如其分是什么意思| 什么手机便宜又好用| 什么是混合痔| 三只手是什么意思| 7月4号是什么星座| 拉肚子吃什么饭| 手足口病是什么病毒| 102是什么意思| 什么是芡实| 青色五行属什么| 牛尾炖什么最好| 舌头边缘有齿痕是什么原因| 巴西货币叫什么| 社会科学院是干什么的| 例假一个月来两次是什么原因| 冬至要注意什么| 离岗是什么意思| 15朵玫瑰花代表什么意思| 什么动物最容易摔倒| 7月份有什么节日吗| 女生下体瘙痒用什么药| 为什么会得纤维瘤| 瓜田李下什么意思| 1973年是什么年| 吃什么升血小板最快最好| 什么是处方药和非处方药| 麝香是什么东西| 经常想睡觉是什么原因| 值神天德是什么意思| 婚检都查什么| 什么虎不吃人| 过敏是什么样的图片| 胃恶心想吐吃什么药| 卫衣是什么| 结节灶是什么意思啊| 胶原蛋白是什么意思| 乔迁礼物应该送什么| 安乐死是什么| 牙结石长什么样| 机关单位和事业单位有什么区别| 嘴唇神经跳动是什么原因| 晚上8点是什么时辰| 灰飞烟灭是什么意思| 为什么会突发脑溢血| 什么西瓜好吃| 营养神经吃什么药效果好| 人走茶凉下一句是什么| 萘普生是什么药| jeans是什么意思| 雨渐耳符咒有什么用| 跳蚤咬了擦什么药| 叉烧是什么意思| mac是什么| 女人梦见搬家预示什么| 多饮多尿可能是什么病| 来例假吃什么水果好| d g是什么牌子| 胆囊结晶是什么意思| 葫芦什么时候成熟| 白斑有什么症状图片| 杜甫自号什么| 夏枯草有什么功效| 大姨妈延迟是什么原因| 憨厚老实是什么意思| 94年属什么今年多大| 糯米是什么米| 白矾和明矾有什么区别| lalabobo是什么牌子| 吃避孕药对身体有什么影响| 身上长湿疹是什么原因导致| 头晕目眩挂什么科| 跟着好人学好人下句是什么| 害怕的反义词是什么| 克罗心是什么档次| 血管为什么是青色的| 中药七情指的是什么| 过敏不能吃什么东西| 为什么女人阴唇会变黑| 匀字五行属什么| 什么东西化痰效果最好最快| 月经期头疼是什么原因| 为什么会有脚气| 双鱼座上升星座是什么| 者是什么意思| 胃肠感冒吃什么食物比较好| 2月2号什么星座| 结婚十一年是什么婚| 肝肾不足证是什么意思| 忠实的什么| 乳腺点状钙化是什么意思| 国家电网是什么编制| 夜里12点是什么时辰| 牙龈肿痛吃什么药好| 山穷水尽疑无路是什么生肖| 工会副主席是什么级别| 做梦梦见离婚是什么意思| 海笋是什么东西| cfp是什么证书| 下肢水肿挂什么科| 眼睛周围长脂肪粒是什么原因| 手指发麻是什么原因引起的| 马蜂吃什么| 什么是华盖| 脚旁边骨头突出叫什么| 桐字五行属什么| 胃溃疡是什么原因引起的| 细菌性阴道病用什么药| 身主天相是什么意思| 饭圈什么意思| 气胸是什么意思| 腿软无力是什么原因| 屁多不臭是什么原因| jb什么意思| 子宫息肉有什么症状| 送向日葵代表什么意思| 元旦是什么节日| ootd什么意思| 羊肉汤放什么调料| 手指关节发黑是什么原因| 反流性食管炎能吃什么水果| 水痘能吃什么| 大专什么专业就业前景好| 体外射精是什么意思| 为什么会缺铁性贫血| 706代血浆又叫什么| 尿酸是什么| 嬉皮笑脸是什么生肖| 牙龈化脓是什么原因| 卵巢早衰是什么意思| 干咳是什么原因| 牙齿根部发黑是什么原因| 血管硬化吃什么能软化| 胃恶心想吐吃什么药| 闭经有什么症状| 腿酸是什么原因引起的| 绮罗是什么意思| 花斑癣用什么药膏好| 什么样的孕妇容易翻盘| 水痘不能吃什么食物| 吃什么水果对胃好| 头晕视力模糊是什么原因| 喉咙扁桃体发炎吃什么药| 膀胱炎吃什么药好得快| 湿热是什么意思| 东华帝君是什么神仙| 头眩晕吃什么药| 掮客是什么意思| 禾真念什么| 吃什么胎儿眼睛黑又亮| 左腹部疼是什么原因| UDCA是什么药| 经常流鼻血是什么病| 什么时候普及高中义务教育| mts是什么意思| 什么叫次日| 9月23日是什么星座| 养老院靠什么挣钱| 湿疣是什么病| 宫颈hsil是什么意思| 血容量不足是什么意思| 洗耳恭听什么意思| 魔性是什么意思| 共号是什么意思| 首脑是什么意思| 榴莲为什么那么贵| 之际是什么意思| AG是什么| 钢笔刻字刻什么好| 手麻脚麻是什么原因引起的| 吃什么最养胃修复胃| 小壁虎的尾巴有什么作用| 造影手术是什么意思| 长期失眠吃什么药| 养肝护肝吃什么最好| 非营运车辆是什么意思| 医政科是做什么的| 教诲的意思是什么| 大象的鼻子为什么那么长| 物质是什么意思| 什么洗面奶最好用排行第一| 两千年前是什么朝代| 什么私语| 牛肉配什么菜好吃| 室上速是什么病| 心跳突然加快是什么原因| 单身为什么中指戴戒指| 宜夫痣是什么意思| 牛肉不能和什么食物一起吃| 子宫低回声结节是什么意思| 煤油是什么油| 脑供血不足中医叫什么| 7到9点是什么时辰| 低盐饮食有利于预防什么疾病| 吃什么油好| 尿潜血阳性什么意思| 什么叫唐卡| 说你什么好| 心率快吃什么药| 反洗钱是什么意思| 积水是什么意思| 吃什么可以提高记忆力| 上海为什么叫魔都| 吃什么容易导致流产| 脾阳不足吃什么中成药| 什么叫乳糖不耐受| 初一的月亮是什么形状| 喜闻乐见什么意思| 土茯苓和什么煲汤最好| 飞机联程票是什么意思| 叶绿素是什么| 投影是什么意思| b超和彩超有什么区别| 光阴是什么意思| 慢慢地什么填词语| 超前点映什么意思| 衣食父母什么意思| 99是什么意思| 水痘是什么| 什么是积食| 颈椎反弓有什么症状| 省略号的作用是什么| 闰6月是什么意思| 黑色粑粑是什么原因| 94年属狗什么命| 什么样的人容易猝死| 1991年属什么| 城隍庙求什么最灵| 阿罗裤是什么意思| 什么药能提高免疫力| 血糖和尿糖有什么区别| 特警属于什么编制| 糖是什么意思| 产后42天复查挂什么科| 718什么星座| 榨精是什么意思| 省政协常委是什么级别| 儿童掉头发什么原因| 湿浊中阻是什么意思| 尿液中粘液丝高是什么原因| 什么是碱性磷酸酶高怎么回事| 羊肉和什么菜搭配最好| 喆是什么意思| 佟丽娅是什么民族| 枧水是什么| 吸烟有害健康为什么国家还生产烟| 奥美拉唑有什么副作用| 女人外阴瘙痒用什么药| 发低烧是什么原因| 身上长血痣是什么原因引起的| 中药地龙是什么| 甲鱼吃什么东西| 护肝吃什么好| 胀气是什么原因引起的| 04年属猴的是什么命| llbean是什么牌子| 骨质疏松检查什么项目| 一九三五年属什么生肖| 停车坐爱枫林晚中的坐是什么意思| 四维和大排畸有什么区别| 伦字五行属什么| 轻度脑梗吃什么药最好| 96199是什么电话| 急性肠胃炎吃什么药好| 三心二意是什么意思| 百度
Image of two phones, one with a picture of Google CEO Sundar Pichai and one showing Gemini's logo.

医生说忌辛辣是指什么

Google Deepmind has recently announced Gemini, its new AI model to compete with OpenAI’s ChatGPT. While both models are examples of “generative AI”, which learn to find patterns of input training information to generate new data (pictures, words or other media), ChatGPT is a large language model (LLM) which focuses on producing text.

In the same way that ChatGPT is a web app for conversations that is based on the neural network know as GPT (trained on huge amounts of text), Google has a conversational web app called Bard which was based on a model called LaMDA (trained on dialogue). But Google is now upgrading that based on Gemini.

What distinguishes Gemini from earlier generative AI models such as LaMDA is that it’s a “multi-modal model”. This means that it works directly with multiple modes of input and output: as well as supporting text input and output, it supports images, audio and video. Accordingly, a new acronym is emerging: LMM (large multimodal model), not to be confused with LLM.

In September, OpenAI announced a model called GPT-4Vision that can work with images, audio and text as well. However, it is not a fully multimodal model in the way that Gemini promises to be.

For example, while ChatGPT-4, which is powered by GPT-4V, can work with audio inputs and generate speech outputs, OpenAI has confirmed that this is done by converting speech to text on input using another deep learning model called Whisper. ChatGPT-4 also converts text to speech on output using a different model, meaning that GPT-4V itself is working purely with text.

Likewise, ChatGPT-4 can produce images, but it does so by generating text prompts that are passed to a separate deep learning model called Dall-E 2, which converts text descriptions into images.

In contrast, Google designed Gemini to be “natively multimodal”. This means that the core model directly handles a range of input types (audio, images, video and text) and can directly output them too.

The verdict

The distinction between these two approaches might seem academic, but it’s important. The general conclusion from Google’s technical report and other qualitative tests to date is that the current publicly available version of Gemini, called Gemini 1.0 Pro, is not generally as good as GPT-4, and is more similar in its capabilities to GPT 3.5.

Google also announced a more powerful version of Gemini, called Gemini 1.0 Ultra, and presented some results showing that it is more powerful than GPT-4. However, it is difficult to assess this, for two reasons. The first reason is that Google has not released Ultra yet, so results cannot be independently validated at present.

The second reason why it’s hard to assess Google’s claims is that it chose to release a somewhat deceptive demonstration video, see below. The video shows the Gemini model commenting interactively and fluidly on a live video stream.

However, as initially reported by Bloomberg, the demonstration in the video was not carried out in real time. For example, the model had learned some specific tasks beforehand, such the three cup and ball trick, where Gemini tracks which cup the ball is under. To do this, it had been provided with a sequence of still images in which the presenter’s hands are on the cups being swapped.

Promising future

Despite these issues, I believe that Gemini and large multimodal models are an extremely exciting step forward for generative AI. That’s both because of their future capabilities, and for the competitive landscape of AI tools. As I noted in a previous article, GPT-4 was trained on about 500 billion words – essentially all good-quality, publicly available text.

The performance of deep learning models is generally driven by increasing model complexity and amount of training data. This has led to the question of how further improvements could be achieved, since we have almost run out of new training data for language models. However, multimodal models open up enormous new reserves of training data – in the form of images, audio and videos.

AIs such as Gemini, which can be directly trained on all of this data, are likely to have much greater capabilities going forward. For example, I would expect that models trained on video will develop sophisticated internal representations of what is called “na?ve physics”. This is the basic understanding humans and animals have about causality, movement, gravity and other physical phenomena.

I am also excited about what this means for the competitive landscape of AI. For the past year, despite the emergence of many generative AI models, OpenAI’s GPT models have been dominant, demonstrating a level of performance that other models have not been able to approach.

Google’s Gemini signals the emergence of a major competitor that will help to drive the field forward. Of course, OpenAI is almost certainly working on GPT-5, and we can expect that it will also be multimodal and will demonstrate remarkable new capabilities.


Read more: Google's Gemini AI hints at the next great leap for the technology: analysing real-time information


All that being said, I am keen the see the emergence of very large multimodal models that are open-source and non-commercial, which I hope are on the way in the coming years.

I also like some features of Gemini’s implementation. For example, Google has announced a version called Gemini Nano, that is much more lightweight and capable of running directly on mobile phones.

Lightweight models like this reduce the environmental impact of AI computing and have many benefits from a privacy perspective, and I am sure that this development will lead to competitors following suit.

范畴的意思是什么 硫酸镁是什么 7月30日是什么日子 拔智齿后吃什么 结扎是什么
图灵是什么意思 丈夫的弟弟叫什么 妊娠期是什么意思 法警是什么编制 斑秃用什么药
虾仁和什么炒好吃 莲子心泡水喝有什么功效和作用 来例假腰疼是什么原因 平行宇宙是什么意思 大便偏黑是什么原因
荷兰机场叫什么 pr什么意思 肺静脉流的是什么血 为什么家里有蚂蚁 泻火是什么意思
乙肝1245阳性什么意思hcv9jop5ns9r.cn 师奶是什么意思hcv9jop2ns2r.cn 学无止境是什么意思hcv7jop7ns1r.cn 什么是阴吹cl108k.com 尿比重偏低是什么原因qingzhougame.com
结石挂什么科hcv8jop9ns7r.cn 女为什么字hcv9jop5ns8r.cn 酵素什么牌子好hcv8jop9ns1r.cn 什么扑鼻成语hcv7jop9ns3r.cn 刻舟求剑的求是什么意思hcv8jop4ns3r.cn
牙发黑是什么原因怎么办hcv8jop5ns0r.cn 盥洗室什么意思naasee.com 补体是什么hcv9jop3ns7r.cn 脑白质疏松症是什么病hcv8jop3ns6r.cn 晕血是什么症状hkuteam.com
马来西亚属于什么国家hcv8jop1ns6r.cn 什么的山顶hcv9jop5ns4r.cn 2003年属什么hcv8jop0ns5r.cn 下面有异味用什么药hcv7jop7ns4r.cn 什么是强直性脊柱炎hcv8jop8ns3r.cn
百度