上海人工智能實驗室聯合商湯科技與高校共同發布通用視覺技術體系“書生”


原標題:上海人工智能實驗室聯合商湯科技與高校共同發布通用視覺技術體系“書生”
上海人工智能實驗室聯合商湯科技與高校共同發布的通用視覺技術體系“書生”(INTERN),是人工智能領域的一項重要成果。以下是對該技術體系的詳細介紹:
一、發布背景與目的
發布時間:該體系于2024年(具體日期可能為11月17日,但請注意此信息可能隨時間有所更新)正式發布。
聯合發布方:上海人工智能實驗室、商湯科技SenseTime、香港中文大學、上海交通大學。
目的:旨在系統化解決當下人工智能視覺領域中存在的任務通用、場景泛化和數據效率等一系列瓶頸問題。
二、技術特點與優勢
任務通用性:
一個“書生”基模型即可全面覆蓋分類、目標檢測、語義分割、深度估計四大視覺核心任務。
在ImageNet等26個最具代表性的下游場景中,書生模型展現了極強的通用性,顯著提升了這些視覺場景中長尾小樣本設定下的性能。
數據效率:
相較于當前最強開源模型(如OpenAI發布的CLIP),“書生”在數據使用效率上取得大幅提升。例如,在同樣的下游場景數據中,“書生”的平均錯誤率顯著降低。
僅需1/10的下游數據,就能超過CLIP基于完整下游數據的準確度。在特定任務上,如花卉種類識別,每一類只需兩個訓練樣本,就能實現極高的準確率。
技術創新:
“書生”技術體系由七大模塊組成,包括通用視覺數據系統、通用視覺網絡結構、通用視覺評測基準三個基礎設施模塊,以及區分上下游的四個訓練階段模塊。
采用階梯式學習模式,通過前三個階段的“基礎能力”、“專家能力”和“通用能力”培養,最終實現“遷移能力”,使模型能夠靈活應用于各種特定領域的不同任務。
三、應用前景與意義
降低數據依賴:在自動駕駛、智能制造、智慧城市等長尾場景中,數據獲取通常困難且昂貴。“書生”通用視覺技術體系的推出,有助于降低對大量數據的依賴,促進這些領域的快速發展。
推動AI規模化落地:通過提升模型的通用泛化能力和數據效率,“書生”將助力AI技術更廣泛地應用于各種實際場景中,推動AI技術的規模化落地。
產學研合作:“書生”的發布體現了產學研合作在通用視覺領域的全新探索,為走向通用人工智能邁出了堅實的一步。
四、開源與生態構建
基于“書生”的通用視覺開源平臺OpenGVLab計劃在明年年初正式開源,向學術界和產業界公開預訓練模型及其使用范式、數據系統和評測基準等。
OpenGVLab將與上海人工智能實驗室此前發布的OpenMMLab、OpenDILab一道,共同構筑開源體系OpenXLab,助力通用人工智能的基礎研究和生態構建。
綜上所述,“書生”通用視覺技術體系是人工智能視覺領域的一項重要創新成果,其任務通用性、數據效率和技術創新性均處于行業領先地位。未來,“書生”有望在多個領域發揮重要作用,推動人工智能技術的進一步發展。
責任編輯:David
【免責聲明】
1、本文內容、數據、圖表等來源于網絡引用或其他公開資料,版權歸屬原作者、原發表出處。若版權所有方對本文的引用持有異議,請聯系拍明芯城(marketing@iczoom.com),本方將及時處理。
2、本文的引用僅供讀者交流學習使用,不涉及商業目的。
3、本文內容僅代表作者觀點,拍明芯城不對內容的準確性、可靠性或完整性提供明示或暗示的保證。讀者閱讀本文后做出的決定或行為,是基于自主意愿和獨立判斷做出的,請讀者明確相關結果。
4、如需轉載本方擁有版權的文章,請聯系拍明芯城(marketing@iczoom.com)注明“轉載原因”。未經允許私自轉載拍明芯城將保留追究其法律責任的權利。
拍明芯城擁有對此聲明的最終解釋權。