<button id="hhnsn"><object id="hhnsn"></object></button>
<rp id="hhnsn"><acronym id="hhnsn"><input id="hhnsn"></input></acronym></rp>

<th id="hhnsn"></th>
  • <tbody id="hhnsn"></tbody>
    1. <dd id="hhnsn"></dd>

        <rp id="hhnsn"><object id="hhnsn"><blockquote id="hhnsn"></blockquote></object></rp>
      1. 視覺大模型會成為下一個風口嗎?
        計算機視覺正在邁入“大模型時代”。前不久,來自UC伯克利計算機視覺領域的三位知名學者(Trevor Darrell、Jitendra Malik、Alexei A. Efros)聯手推出了第一個無自然語言的純視覺大模型(Large Vision Models),并第一次證明了純視覺模型本身也是可擴展的(scalability)。隨后,谷歌、微軟等國際大廠公布了對視覺大模型的探索,國內百度、華為、商
        2024-01-04 10:54:35
        來源:中國電子報、電子信息產業網 宋婧??

        計算機視覺正在邁入“大模型時代”。前不久,來自UC伯克利計算機視覺領域的三位知名學者(Trevor Darrell、Jitendra Malik、Alexei A. Efros)聯手推出了第一個無自然語言的純視覺大模型(Large Vision Models),并第一次證明了純視覺模型本身也是可擴展的(scalability)。隨后,谷歌、微軟等國際大廠公布了對視覺大模型的探索,國內百度、華為、商湯、智源、中國電信、美圖等多家公司也都展示了相關布局。繼自然語言大模型之后,視覺大模型會成為下一個風口嗎?

        視覺大模型的訓練難度更高

        也許很多人會疑問:在遍地都是大模型的今天,訓練出一個優質的視覺大模型很難嗎?隨著大語言模型的爆發,不管是學術界還是業界,都開始嘗試使用“文本”來擴大視覺模型的規模。以“蘋果”為例,在訓練時只需給模型看“蘋果”的照片,并配上描述性的文字告訴模型“這是一個蘋果”。然而,在面對更加復雜的圖片時,就很容易忽略其中大量的信息,造成錯誤理解。比如,一面鏡子中倒映的車輛可能會被模型誤判為真實車輛。

        “相比于大語言模型,視覺信息一般都是2維(圖像)、3維(立體圖像)或者4維(立體視頻)信息,比語言信息多了1-3個維度,難度等級呈指數增長?!币晃簧罡鸄I深度學習的專家說道。

        業內人士普遍認為,視覺并非自然語言,作為基本視覺單元的像素距離高層語義更遠,找不到像“單詞”這樣離散化、符號化的基本語義單元,因此簡單地借鑒預訓練語言模型的實現方法恐難奏效。

        視覺句子使我們能夠將各種視覺數據格式化為圖像序列的統一結構

        賽迪顧問人工智能產業研究中心常務副總經理鄒德寶向記者介紹說道:“視覺大模型是一種利用深度學習技術來進行圖像或視頻處理的算法模型。它的基本原理是基于神經網絡,通過大規模的訓練數據集和高性能的計算硬件,實現對圖像信息的高效處理和理解?!?/p>

        與語言模型相比,視覺模型的數據更難獲取。對于語言模型來說,語言數據對所有數據都有一個自然的、統一的一維結構——文本流,獲得大量的、多樣化的大數據集相對而言是件很容易的事,所以目前市面上的語言大模型動輒就是成千上萬億的參數規模。

        然而在計算機視覺領域,不同的數據源都有不同的結構,想要擁有同樣規模和多樣性的數據源非常困難。華為云人工智能首席科學家田奇表示,視覺模型提取特征可能是百倍、千倍的工作量,信息密度非常低?;ㄙM的成本、數據存儲等開銷巨大。

        除了數據獲取難,視覺大模型的訓練框架也是一大難點。大華股份先進技術研究院院長殷俊表示,在視覺領域沒有可參照的模型架構,和現在大眾認知的AGI、AIGC技術方向存在差異,在CV(Computer Vision計算機視覺)領域完全靠自己搭建。

        “如何處理更復雜的圖像信息,獲取高分辨率的圖像并讓機器識別圖像各要素,這些技術難點不解決,很難打造出一個優質的視覺大模型?!编u德寶坦言。

        或將在工業制造場景率先落地

        近年來,伴隨制造業加速轉型升級,智能制造已經成為人工智能技術在工業領域中最典型的應用之一。據中國電子信息產業發展研究院信息化與軟件產業研究所數字經濟戰略研究室主任高嬰勱介紹,人工智能技術能夠幫助機器通過圖像學習、聲音識別、感知監測等方式,快速、準確地檢測產品,在減少人工質檢成本、提升產品質量和生產效益方面的作用顯著,在手機、家電、汽車等離散制造行業質檢環節中的應用漸成規模。

        視覺大模型或將率先落地在工業制造領域。寧德時代首席制造官倪軍曾提出“極限制造”的概念。他表示,工業領域做到6σ(每百萬個產品里頭有一兩個不良品)遠遠不夠,而是需要做到9σ-12σ,即對不良品的要求上升到十億級,每十億個產品當中,只允許出現1-3個不良品,這對機器視覺廠商是個極大的挑戰。而如今有了視覺大模型的助力,“極限制造”或許有機會走進現實。

        Meta開源DINOv2視覺大模型

        事實上,很多工業制造場景都為視覺大模型提供了落地的可能。試想一下,如果給智能網聯汽車配備上視覺大模型,困擾自動駕駛多年的視覺感知問題可能會迎刃而解。具備強大的圖像處理和識別能力的視覺大模型,可以更為精準地識別車輛、行人、車道線等道路元素,并處理城市道路、高速公路、雨雪天氣等更加復雜的場景和環境,從而提高自動駕駛車輛在各種場景下的適應性和魯棒性。智能網聯汽車將會迎來更多可能性。

        如果讓工業機器人搭載上視覺大模型,它可以模仿人類視覺系統的工作原理,對視覺數據進行更為精準的處理和分析,進一步破解工業機器人操作和控制“精度”的難題,還能不斷進行學習成長,讓工業機器人加速走向“具身智能”,也讓智能制造邁上新的臺階。

        再比如在工業質檢領域,產品質檢涉及到大量數據和復雜的圖像、聲音、視頻等信息,要求模型能夠準確地識別和分析各種缺陷和問題,甚至是微小的變化。用工業知識和工業數據訓練出來的視覺大模型可以捕捉到產線上工藝流程和設備運行等細節,大幅提升工業質檢的效率與水平。

        不過,現階段來看,視覺大模型在工業領域的應用仍處于早期階段,落地還面臨很多挑戰。例如,視覺大模型的訓練和部署需要大量的數據和計算資源,而這在某些工業環境中可能難以滿足。工業數據敏感性高、特殊性強,對大量實時數據、多種類型數據、異常數據的處理和分析,是一項異常復雜的工作,同時數據安全保護也是一大難題。此外,視覺大模型的準確性、穩定性和可靠性也需要在實際應用中進行不斷地驗證和優化。

        視覺大模型要追求“大一統”?

        “在視覺模型設計領域中,追求大和統一,已經成為當下公認的重要研究方向?!睍缫曆芯吭褐魅窝芯繂T張祥雨表示。在他看來,構建大而通用的模型的好處在于“大反而簡單”。

        所謂的“大”,不僅指模型更深(越深的神經網絡具有越多的參數、越強的非線性,可以建模更加復雜的任務),更加強調利用更多的數據和算力幫助人們解決通用問題,期望用統一的模型解決多個模態、多個任務。

        除了“大”,“統一”也是一個研究方向。追求通用框架的意義在于可以大規模地從數據中學習知識,無需針對每個任務單獨設計一套系統,避免引入大量人工,可擴展性強。從宏觀的角度來說,想要解決通用人工智能問題,首先需要實現模型的規?;瘮U展。

        “盡管‘大’是未來模型發展的趨勢,但我們并不片面地追求更大的參數量和計算。同樣地,我們也不應該簡單追求形式上的‘統一’,更應關注統一帶來的性能收益。我們希望設計出更強大的模型,以創新算法充分發揮大數據、大算力的威力,隨著參數量、訓練算法的提升在某個時間點上獲得性能的質變,即‘涌現’?!睆埾橛瓯硎?。

        雖然視覺大模型能為機器學習帶來更廣泛的應用場景和更高的表現能力已成共識,但廣東工業大學教授蔡念表示,這需要海量的數據支撐,企業如果想用好大模型,就要不斷挖掘工業制造數據,為大模型提供足夠的訓練數據來源,此外還需要考慮參數和算力的問題。這些要求對于大企業而言問題不大,但巨大的成本是很多中小型企業難以負擔的。

        蔡念認為,此時不如考慮小模型和輕量化大模型。智能制造場景化、碎片化明顯,這就需要專注于特定領域進行訓練,進行不同場景的模型定制化,最終形成某一領域的通用模型。這意味著,機器視覺的理想未來,是在復雜的應用場景中打造標準化的應用方案。

        最新文章
        關于我們

        微信掃一掃,加關注

        商務合作
        • QQ:61149512
        欧美午夜精品一二三区91,欧美午夜精品一区二区三区,欧美午夜精选久久久A,欧美午夜久久福利,欧美午夜剧场
        <button id="hhnsn"><object id="hhnsn"></object></button>
        <rp id="hhnsn"><acronym id="hhnsn"><input id="hhnsn"></input></acronym></rp>

        <th id="hhnsn"></th>
      2. <tbody id="hhnsn"></tbody>
        1. <dd id="hhnsn"></dd>

            <rp id="hhnsn"><object id="hhnsn"><blockquote id="hhnsn"></blockquote></object></rp>