fbpx

Google Gemini 1.0 正式登場:功能強大,教你如何用

Google Gemini 1.0 正式登場:功能強大,教你如何用
                                       

Google 的 AI 智慧模型 Gemini 現在正式帶來 Gemini 1.0 版本。 Gemini 1.0 也依照處理難度的不同分為 Ultra、Pro 和 Nano 三種,這邊我們不僅要來看看 Gemini Ultra、Gemini Pro 和 Gemini Nano 有什麼不同,還要來看看實際上的應用可以做些什麼!

Gemini 1.0 能做些什麼?

在正式介紹 Gemini 1.0 前讓我們先來看一段 Google 示範的影片:

沒錯,在影片中我們可以看到 Gemini 1.0 能夠具體的回答出提問者的問題,甚至是延續問題的繼續回答下去。像是一開始在紙上先畫出了一條線,接著開始完成鴨子的圖案。過程中 Gemini 1.0 會依照筆畫的增加後回答他看到的樣子,最後更能介紹鴨子的生活型態。當提問者接著問這隻鴨子能不能浮起來的時候,Gemini 1.0 還會提出「必須依照材質來決定,但它“看起來”是塑膠」這樣相當有判斷力的回答方式。

提問者後續進一步的請 Gemini 1.0 教他「鴨子」的其他語言時,也能教導提問者「鴨子」的發音(很剛巧的,影片中就用我們熟悉的中文來示範)。或是後面畫了一張圖,有左右兩條叉路,問 Gemini 要走哪條時,Gemini 還能做出「右邊的熊對鴨子來說是有危險,左邊的鴨子較為安全,建議走左邊。」這樣有邏輯性的推斷建議。

影片後面還示範了不斷地對 Gemini 1.0 提供兩個物品,它能夠說出它們的相似點、藉由桌面上的地圖來設計新遊戲、給它兩個顏色的毛線球來請它給出可以做什麼的建議… 更驚人的還有竟然能跟它玩猜球在哪個杯子的遊戲!

看完是不是覺得很神奇?這就是即將出現在你我生活上的 AI 應用?是的,Gemini 就是一個能夠流暢理解自然圖像、音訊和視訊,到數學推理,還能結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊做出回應的人工智慧模型。

Google 說 Gemini 1.0 會依照模型的大小不同有 Ultra、Pro 和 Nano 三種。所謂的模型大小會影響的就是能做到的指令複雜程度。

  • Gemini Ultra:是規模最大、功能最強大的模型,專為高度複雜的任務而設計。
  • Gemini Pro:最適合擴展、橫跨各種類型的任務。
  • Gemini Nano:處理裝置上的任務最有效率的模型。

因此可以理解成 Gemini Ultra 是 Google Gemini 中最強的模型,是為處理高度複雜的任務而設計,因此能夠相當快速理解並處理包括文字、圖像、音訊、影片和程式碼等不同類型的資訊,主要對象會像是程式設計師、製圖師與開發者、企業用戶等專業人士來使用。使用者未來可以透過 Bard Advanced 來體驗 Gemini Ultra 模型。Google 也預告會在明年初正式向更多用戶開放 Bard Advanced 的測試計畫。

Gemini Pro 也已經開放到 Bard 上,主要是用來處理像是理解、歸納總結、推理、程式設計跟規劃等多面向的處理需求,可以想成 Gemini Pro 會讓 Bard 變成更好聊天的機器人。目前 Gemini Pro 模型的 Bard 會先以英文版本在超過 170 多個國家和地區開放使用,台灣也在其中,並先支援以文字為主的指令提示。日後也會持續新增對於不同語言和地區的支援。

至於最小的 Gemini Nano,有提到它主要是用來處理「裝置」上的任務,沒錯,所以它會先在 Pixel 8 Pro 上推出,只要用戶將手機切換成英文的介面就能使用。目前 Gemini Nano 能夠支援錄音機應用程式中的「摘要」-把錄音的內容作出重點整理;另一個是支援 Gboard 中的智慧回覆,使用者現在能透過 Whatsapp 應用程式中試用此項功能。

Gemini 是 Google 設計的人工智慧模型,有別於一般多模態模型是針對不同的模態去訓練個別的元件,再把元件組合在一起,來大致模擬出一部分的多模態功能的方式。Gemini 則是一開始就以多模態的模式來訓練,後續再透過額外的多模態資料進行微調,進一步提升效能。這樣可以幫助 Gemini 從一開始就能順暢地理解和推理各種輸入的資訊。

簡單來說就像是把一個很會畫圖的人與邏輯超好的人放在一起,然後當請他們完成一項任務,像是拿出一個橘子和一塊餅乾時,他們兩方看到要描述或是推理這兩個物件的時候就會出現 “需要溝通” 的不順暢情況。可是 Gemini 可以想成本身就是一個已經被訓練成很會畫畫,邏輯又強的人,因此當他看到一個橘子和一塊餅乾時,他就可以馬上依照自己的經驗判斷做出回應。

因此我們可以理解到 Gemini 1.0 是被設計來流暢理解自然圖像、音訊和視訊,到數學推理,還能結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊做出回應。

所以如果對你我來說,想要直接體驗感受 Gemini 的能力,最快的方式就是透過 Bard 來輸入想要問的句子,或是上傳圖片問他這兩個東西有什麼關係等來進行,甚至就連在 emoji kitchen 中創造出來的 emoji,也能請 Gemini 猜猜是由哪兩個 emoji 組出來?又建議可以怎麼用呢!

Android 軟體

一個喜歡簡簡單單生活、相信著科技是我們的好幫手、追尋著科技與溫度平衡點的數位科技編輯

More in Android 軟體

語音社群平台Airchat-不只用說的發文,還能自動幫你輸入文字!

Ladycat2024-04-23

YouTube 影片下載一鍵完成!網頁版也能輕鬆下載 YT 影片 【iMyFone TopClipper 完整指南】

AD2024-04-23

只有台灣看得到!元宵節聊天室特效登場

Candice Chao2024-02-24

三星將於 One UI 6.1 加入 AI 功能 3 月底開放特定機種更新

Candice Chao2024-02-23
Google 2024 春節出遊排行

Google公布春節最受歡迎的出遊城市排行榜:泰國曼谷衝上第三!

Candice Chao2024-01-31
LINE

檔案類訊息加入 LINE「回覆」功能再進化!

Candice Chao2024-01-29