Gemini 2.0 Flash實測｜真的懂推理！電車難題、雞兔同籠難不倒它：1 秒生成最佳解

摘要： Google（谷歌）近日在AI Studio平台上推出一款名為「Gemini 2.0 Flash Thinking Experimental」的實驗性人工智慧（AI）模型，旨在提升AI在多模態理解、推理和程式碼編寫方面的能力。

0000

據Google描述，這款新模型在經過訓練後，可產生模型在回覆時會經歷的「思考過程」。因此，Gemini 2.0 Flash Thinking的回覆，會比 Gemini 2.0 Flash基礎模型更能發揮推理能力。

更懂推理的AI：可以把大問題拆解成小問題

Google DeepMind 首席科學家 Jeff Dean 於社群平台X發文進一步表示，該模型還受益於更快的 Gemini Flash 2.0 模型帶來的速度。Dean也展示了 Gemini 2.0 Flash Thinking 如何透過一系列步驟「思考」來回答物理問題，然後再提供解決方案。從其示範影片來看，模型的推理過程與人類執行「推理」方式仍有差異。但關鍵是，這已經展示AI有能力將人類下的指令分解為「更小的任務」，從而產生更理想的結果。事實上，Google於台灣時間11日深夜發布的Gemini 2.0 Flash實驗版，表現確實超出上一代的最高版本1.5 Pro不少，不但速度更快，面對問題的生成內容品質也大幅進步。以下為《數位時代》的實測結果：

測試一：「雞兔同籠」數學題

「雞兔同籠」幾乎是所有台灣學生必定會遇到的一次方程式數學考題。假設題目如下：一個農場養了雞與兔子共15隻，兔子與雞加總後共有40隻腳，請問雞與兔各有幾隻？以下為Gemini 2.0 Flash Experimental回答：方法一：假設法 (最常用) 假設全部都是雞：如果15隻全部都是雞，那麼總共有15 * 2 = 30隻腳。計算差距：實際上有40隻腳，比假設的少了40 - 30 = 10隻腳。轉換：一隻兔子比一隻雞多2隻腳 (4 - 2 = 2)。計算兔子數量：因為少了10隻腳，而每隻兔子可以補上2隻腳，所以兔子有10 / 2 = 5隻。計算雞數量總共有15隻動物，兔子有5隻，所以雞有15 - 5 = 10隻。結論：兔子有5隻，雞有10隻。 **方法二：方程式法 ** (代數解) 設定變數：假設雞有x隻，兔子有y隻。建立方程式：頭的數量：x + y = 15 腳的數量：2x + 4y = 40 解方程式：從第一個方程式得到 x = 15 - y 將x代入第二個方程式：2(15 - y) + 4y = 40 簡化方程式：30 - 2y + 4y = 40 繼續簡化：2y = 10 解出y：y = 5 將y代回 x = 15 - y，得到 x = 10 結論：兔子有5隻，雞有10隻。測驗一小結：相同的結果，其實提供給ChatGPT 4o會直接得到代數解法的推論過程。但差異在於，Gemini 2.0提供三種以上的推論方案，其中第一種為國小以下可用的「假設法」，第二種才是國中以上的代數解。換句話說，AI已有假設提問者未必具有代數觀念，因此進一步提供多種解題方案。此外，Gemini 2.0對於自然語言的掌握度更高（更會說人話），因此推論過程說明的更仔細，對於沒有數理基礎的學生而言，應更有解題上的參考價值。

測試二：「電車難題」的法律見解

除了不會就是不會的數學題，Gemini 2.0對於抽象的倫理或法務問題能有見解嗎？答案是可以。題目如下：一輛失控的列車在鐵軌上行駛。在列車正行進的軌道上，有五個人被綁起來，無法動彈。列車將要碾壓過他們。你站在改變列車軌道的操縱杆旁。如果拉動此杆，則列車將切換到另一條軌道上。但是，另一條軌道上也有一個人被綁著。你有兩種選擇： 1. 什麼也不做，讓列車按照正常路線碾壓過這五個人。 2. 拉下操縱杆，改變為另一條軌道，使列車壓過另一條軌道上的那個人。請問就法規層面，以上哪個選項更理想？以下為Gemini 2.0 Flash Experimental回答：這個問題並沒有簡單的答案，尤其在法律層面上更是複雜。以下我將從法律的角度來分析這兩種選擇，並說明為何沒有一個絕對「理想」的答案：選項一：什麼也不做，讓列車碾壓五人法律觀點：在大多數法律體系中，「不作為」通常不會構成犯罪，除非法律有明確規定必須採取行動的義務。例如，消防員有義務救火，醫護人員有義務救治病人。在電車難題的情境中，你原本並沒有責任去阻止列車，因此，若你選擇什麼都不做，法律上通常不會追究你的責任。道德爭議：雖然法律上可能沒有責任，但在道德層面上，許多人會認為你眼睜睜看著五個人死去，是一種道德上的缺失。選項二：拉下操縱杆，改變軌道，使列車碾壓一人法律觀點：此選項涉及「主動行為」，你主動選擇犧牲一個人來拯救五個人。這在法律上可能會構成犯罪，例如「殺人罪」。即使你的目的是為了拯救更多人，但你仍然直接導致了一個人的死亡。例外情況：在極少數情況下，法律可能會考慮「緊急避難」原則。此原則允許在為了避免更大的損害時，採取一些看似違法的行為。然而，要符合緊急避難的條件非常嚴格，通常需要證明：存在迫在眉睫的危險。沒有其他可行的解決方案。所造成的損害必須小於所避免的損害。在電車難題的情境中，是否符合緊急避難原則存在爭議。法律很難界定「五條人命」是否一定比「一條人命」更重要。此外，你是否真的「沒有其他選擇」也可能受到質疑。總結：從法律層面來看，兩個選項都存在爭議，沒有一個絕對「理想」的答案：選項一（不作為）：法律責任較小，但可能面臨道德譴責。選項二（主動作為）：可能觸犯法律，但或許在某些極端情況下可主張緊急避難。測驗二小結：就此問題而言，若使用GPT-4o，會無法辨識題目，無法得到解答。但若切換到最新的o1模型，ChatGPT的結論則未有定論。但有解釋「行為與不作為的區別」，拉動操縱杆可能會被視為積極行為；若不作為，除非有特定的法律義務，否則不作為通常不會構成犯罪責任。其生成品質可說雷同，但在聚焦爭議問題的癥結上，仍是Gemini 2.0的闡述方式相對清晰。

測試三：台灣人年均手搖飲消費估算

第三題，為了測驗AI真實的推論、資料蒐集，以及假設能力，題目如下：根據最新數據，台灣2024年手搖飲產值有多少？換算下來，台灣人一年平均喝多少杯？以下為Gemini 2.0 Flash Experimental回答：要精確得知2024全年手搖飲的產值，需要等到年底或隔年初相關機構的完整統計出爐。目前，我們能參考的是一些趨勢和部分已公布的數據來推估。預估：有新聞報導指出，基於國人對飲料的喜愛，手搖飲品牌及品項持續推陳出新，預估2024年飲料店全年營業額可能突破1300億元。推估2024年產值與人均杯數：由於缺乏2024全年完整數據，我們只能基於現有資訊進行推估。產值推估：若以新聞報導預估的1300億元為基準，這包含所有飲料店的營業額，手搖飲佔其中大部分。假設手搖飲佔總營業額的70%（這是一個假設，實際比例可能更高或更低），則2024年手搖飲的產值可能約為910億元。人均杯數推估：要換算成人均杯數，需要知道平均每杯手搖飲的價格。假設平均每杯價格為60元（這也是一個假設，實際價格因品項和地區而異），則 910億元的產值約可換算成15.17億杯手搖飲。以台灣2350萬人口計算，平均每人每年喝掉約64.5杯手搖飲。測驗三小結：相同的題目，ChatGPT 4-o與o1的答案略有不同。以4-o來說，其指出台灣2024年手搖飲市場的產值預計將達到 500億元新台幣（與實際預估值差異頗大）。如果將這個數字換算為每位台灣人的年均消費量，根據台灣人口約為2,300萬人，假設每杯手搖飲的平均價格為50元新台幣，那麼每人每年大約會喝43杯手搖飲。至於o1，則依照2023年產值推論2024年手搖飲市場產值約為3,000億，但實際計算時，反而假設「平均每人每月飲用手搖飲4杯」，直接換算12個月，因此每人年均48杯，其推論基礎顯然與先前數據不符。

結論：Gemini 2.0 Flash優於GPT4-o / o1

總結而言，推測Gemini 2.0 Flash基於對繁體中文的深度學習較為完整，因此似乎更能理解使用者的提問，因此可提供更為理想的生成結果。除了語言能力較佳之外，Gemini 2.0 Flash對於資料蒐集的能力也較為出色。以上述測驗三為例，後續查證2024年手搖飲估計可達1300億元的數據，為經濟部統計處於8月時提供。因此確有其事。反觀，GPT4-o / o1在數據蒐集階段就有誤，且並未依照數據推論人均杯數。而在假設能力上，Gemini 2.0 Flash在測驗一更為突出（假設使用者未必懂代數），在測驗三，也在1300億元中假設可能僅7成為飲品本身產值。但話說回來，本次實測僅以三題判斷，確實可能有遺漏ChatGPT強項之處，例如：難度更高的數理、物理難題測試，抑或是編寫程式碼的能力等等。而AI工具目前堆陳出新不斷，今天落後的模型很有可能下一季就超車。因此，呼籲使用者仍必須透過自己的使用習慣，來測試各種AI的適用程度。

轉貼自： bnnext.com

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

Gemini 2.0 Flash實測｜真的懂推理！電車難題、雞兔同籠難不倒它：1 秒生成最佳解

摘要： Google（谷歌）近日在AI Studio平台上推出一款名為「Gemini 2.0 Flash Thinking Experimental」的實驗性人工智慧（AI）模型，旨在提升AI在多模態理解、推理和程式碼編寫方面的能力。

更懂推理的AI：可以把大問題拆解成小問題

測試一：「雞兔同籠」數學題

測試二：「電車難題」的法律見解

測試三：台灣人年均手搖飲消費估算

結論：Gemini 2.0 Flash優於GPT4-o / o1

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

Popular Tags

	今日	1101
	昨日	994
	本週	2095
	本月	11321
	總訪客量	2711074