online gambling singapore online gambling singapore online slot malaysia online slot malaysia mega888 malaysia slot gacor live casino malaysia online betting malaysia mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 AI趨勢周報第239期:微軟終於開源影片生成模型DragNUWA 1.5了

 


0000

微軟開發的影片生成模型DragNUWA最近開源了,包括1.0和1.5版本,可結合文字、圖片和軌跡,來更細緻地將圖片轉為影片。

微軟開源可控性更細緻的影片生成模型DragNUWA 1.5

去年8月,微軟團隊發表影片生成模型DragNUWA論文,近來,他們不只開源1.0版,還釋出了1.5版的模型權重和範例。進一步來說,影片生成一直有2大限制,首先是只單用文字、圖像或軌跡作為生成依據,難以實現顆粒度更細緻的控制,再來是基於軌跡的生成方法還不成熟,大多是在簡單的資料集上實驗。這2點,限制了模型處理開放領域圖像和複雜曲線軌跡的能力。 因此,微軟在去年提出DragNUWA,是一款以開放領域、擴散模型為基礎的影片生成模型,結合了文字、圖像和軌跡3種資訊,可從語義、空間和時間等角度來實現更細緻、可控性更高的影片生成。DragNUWA包括3個元素:軌跡採樣器(TS),可用來實現任意軌跡的開放領域控制;多規模融合(MF),可用來控制不同顆粒度的軌跡;自適應訓練(AT)策略,可用來生成軌跡一致的影片。在今年1月8日新添的DragNUWA 1.5版中,團隊以Stable Video Diffusion模型為骨幹,能根據特定路徑,來將輸入的圖像進行動畫處理。 經測試,微軟團隊認為,DragNUWA可根據不同的軌跡拖移,產出準確的鏡頭移動和物件移動。就Demo來看,只要輸入文字指令和想移動物件方向的箭頭,如「一艘船航行在湖面上」搭配船隻往前和湖水往後的箭頭,就能讓一張靜態的船隻圖片,轉為動態向前的航行影片。

可靈活模仿人類雙手動作!史丹佛大學發表機器人系統Mobile ALOHA

最近,史丹佛大學開發一款能靈活模仿人類雙手動作的機器人系統Mobile ALOHA,可執行移動式的操縱和控制任務,比如炒蝦、擦拭酒漬、靠椅子和人擊掌等。團隊指出,目前模仿人類動作的機器人,大多是在固定位置上動作,難以移動位置執行更靈活的任務。 為解決問題,團隊打造了低成本、全身遠距操控系統Mobile ALOHA,搭配可移動的底座和資料收集能力,來讓機器人執行移動式的操縱任務。這套系統採用監督式行為複製學習方法(Supervised behavior cloning),也就是利用機器人收集到的資料,再加上ALOHA既有的靜態資料集,能強化機器人移動操作任務的表現。 特別是,每個任務經過50次示範,再加上既有資料集共同訓練,可提高系統的成功率到90%,讓ALOHA能自主完成複雜的移動式操作任務,例如炒蝦、打開2扇門的櫥櫃並擺放鍋具、按電梯和進電梯,以及開水龍頭沖洗用過的平底鍋等。

晶創臺灣方案正式啟動,國科會揭4大布局

行政院在去年11月通過晶創臺灣方案,要在2024年至2033年間投入3,000億元,來結合半導體晶片和生成式AI、發展各產業的創新應用。就在本月11日,行政院政委暨國科會主委吳政忠展開晶創臺灣方案啟動會議,找來國科會、經濟部、教育部、衛福部、數發部、農業部、國發會等部會共同啟動晶創臺灣方案。 在這場啟動會議中,各部會提出4大推動方向,首先是國科會、經濟部、數位部、衛福部、農業部等將共同推動生成式AI+晶片應用,來加速各行業創新。他們去年開始調查百工百業的AI需求,並以機械業為示範,建立資料共享機制,接下來要擴大延續各行業創新。今年,國科會還要建置算力、精進大型語言模型(LLM),強化臺灣生成式AI服務。 再來,國科會、教育部、經濟部將共同強化國內半導體培育環境,來吸引全球研發人才。他們要在今年成立第一個晶片設計海外基地,並規畫先進IC設計訓練教材、建置產學研共享的半導體研究設備平臺。第三,國科會要與經濟部推動異質整合和先進技術研發,如7nm先進晶片、AI、HPC、車電通訊等領域,今年還要研發IC設計工具的關鍵技術自主,並建置自動化IC設計雲平臺。最後,國科會要與國發會共同培育國內新創、吸引國內外新創和投資來臺,今年要完成涵蓋IC設計、晶片下線、測試到最後雛型產品試製的一站式pipeline,來降低國內外新創投入門檻。

DeepMind用大型基礎模型自動控制機器人

日前,DeepMind揭露一系列機器人研究的最新進展,在Robotics Transformers(RT)基礎上發展AutoRT、SARA-RT和RT-Trajectory系統,讓機器人可更快地做決策,並理解世界,在環境中順利導航。為讓機器人具備特定能力,DeepMind先是發展AutoRT,將大型語言模型(LLM)和視覺語言模型等大型基礎模型,與機器人控制模型RT-1或RT-2整合,建置一個可在新環境中部署、適應未知環境的機器人,還能一邊收集改進用的訓練資料。這個AutoRT能同時指揮多個機器人,並用視覺語言模型來了解環境和視線中的物件,同時透過LLM來建議機器人執行任務,像是將零食放回臺面。 同時,DeepMind還開發SARA-RT系統,可將Robotics Transformers模型轉換成為更為高效的版本。比如結合機器人控制系統RT-2,可在看過簡短的影像歷史紀錄後,提高SARA-RT-2模型自身的準確度,比RT-2高出10.6%,速度更是快上14%。DeepMind第3種機器人創新技術則是機器人訓練模型RT-Trajectory,可透過在訓練影片中自動加入機器人動作的視覺輪廓,來提高機器人的任務理解和執行能力。

OpenAI GPT Store正式上線

繼先前預告,OpenAI終於在10日宣布客製化Chatbot分享與銷售平臺GPT Store正式上線,預計第一季內從美國開始推行GPTs共享回饋方案。OpenAI在去年11月初揭露GPTs服務,是一個可客製化ChatGPT的服務,同時也揭露GPT Store,也就是可分享、銷售客製化ChatGPT聊天機器人的商店平臺,目前已累積300多萬個客製化ChatGPT版本,也有不少人分享到之前尚未正式推出的GPT Store上。 現在,GPT Store正式開放,首先會給ChatGPT Team方案用戶,使用尚未公開的GPTs,接下來則會開放給ChatGPT Enterprise用戶。Team和Enterprise版都會提供GPTs管理控制功能,像是決定內部GPTs怎麼分享,或哪些外部GPTs可用於企業內。GPT Store還將列出GPTs精選,以及DALL-E、寫作、生產力、研究&分析、程式撰寫、教學和生活等類別,並提供搜尋工具,供用戶自行搜尋。

打造生成式AI應用更輕鬆了!BigQuery整合Document AI簡化文件擷取

最近Google更新自家無伺服器企業資料倉儲BigQuery,整合了Document AI功能,讓開發者更輕鬆從檔案資料擷取資訊,來用於大型語言模型應用程式的開發上。過去,使用者要建立獨立的Document AI工作管線,需手動管理擷取邏輯和模式,因為缺乏原生整合功能,得要自己開發客製化基礎設施、維護資料的一致性,需耗費大量人力。 但現在,Google推出BigQuery與Document AI整合功能,直接讓用戶在BigQuery中,建立用於Document AI自定義擷取器的遠端模型,可呼叫來進行大規模文件分析和生成式AI應用。此外,Document AI也提供現成的擷取器,可用來處理常見的檔案類型,如發票或身分證件等。

全球近3千名專家調查:AI發展快於預期

AI Impacts組織對全球近3,000名AI專家進行問卷調查,結果發現,這群專家認為AI的進步超越了先前預測。進一步來說,這場調查對象為去年在6個頂尖AI學術研討會上,發表研究報告的2,778名AI專家。雖然大多數專家對AI進步帶來的長期價值仍有不確定性,如68.3%的受訪者認為,超人AI將帶來正面結果,但其中48%亦同意有5%的機率可能會造成人類滅絕等極糟結果。另一方面,有26.9%贊成維持現階段的AI發展速度,才能造福人類,另有38.4%認為應加快發展腳步、34.7%認為應放慢腳步。 不論如何,目前AI的進步已超出預期,原本預計要更久後才能達到的目標,都可望在2028年之前提前達標,像是提供規範與範例就能創造簡單的Python程式碼、撰寫一篇高品質的高中歷史作文,或幫新物件分類、替既有的創作者創作假新歌、自動建立一個支付網站,或提供電話銀行服務等。 此外,先前估計自動尋找及修補安全漏洞的能力也得等到2043年,最新的預測則會在2033年以前完成。不過,這群AI專家在未來30年最擔心的問題,則以假訊息居冠,包括以AI來創作和散布假訊息,或是用來操縱大眾意見趨勢等,另也擔心AI系統會加劇經濟上的不平等。

BigQuery整合Vertex AI語音轉文字模型服務

Google最近在自家企業資料倉儲服務BigQuery中,預覽Vertex AI語音轉文字模型,讓用戶可透過SQL根據資料微調轉錄模型,在BigQuery中執行語音轉文字工作,還能整合其他結構化資料,來合併分析、建置AI應用。 這意味著,GCP用戶不必再像過去一樣,要轉錄語音資料得靠自己建立獨立的AI工作管線、自定義基礎設施。這次新的Google語音轉文字V2 API提供多功能轉錄服務,用戶可針對不同類型的語音音訊,如客服通話或醫療錄音,選擇合適的模型。此外,模型也可以根據用戶的資料進行調整,以提高轉錄準確性。

轉貼自: bnnext.com

若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance


留下你的回應

以訪客張貼回應

0
  • 找不到回應

YOU MAY BE INTERESTED