ChatGPT是2023年最引人關注的科技界新事物之一,它的發布也引發了語言大模型狂潮,
百度、阿里、知乎、商湯、京東等多個公司紛紛推出了其大模型。AI另一個重大領域——視覺GPT也亮相本屆中關村
論壇:智源研究院視覺團隊正式推出通用分割模型 SegGPT,這是首個利用視覺提示完成任意分割任務的通用視覺模型。
據介紹,SegGPT使用時,擯棄語言類大模型的傳統思維,與機器交互時不使用文字而是使用圖像。比如用戶給出SegGPT一張圖并在上面將“彩虹”圈了起來,當用戶再給許多張包含有彩虹的圖片時,SegGPT就能自動識別上面的彩虹,并將這些部分圈出來。可以說,SegGPT “一通百通”:給出一個或幾個示例圖像和意圖掩碼,模型就能get用戶意圖,“有樣學樣”地完成類似分割任務。此外,SegGPT還“一觸即通”:通過一個點或邊界框,在待預測圖片上給出交互提示,識別分割畫面上的指定物體。利用這個特性,可以實現諸多功能,比如機器人機械手去拿西紅柿等物件時,機器人就可以迅速知道西紅柿的邊緣在哪里,既能拿起西紅柿,又不會捏碎,十分精準。
版權申明:本內容來自于互聯網,屬第三方匯集推薦平臺。本文的版權歸原作者所有,文章言論不代表鏈門戶的觀點,鏈門戶不承擔任何法律責任。如有侵權請聯系QQ:3341927519進行反饋。