Sam3D是Meta推出的研究級單圖像3D重建模型,它將SAM 3的開放詞彙分割與幾何、紋理和佈局預測相融合,能直接從單張RGB圖像生成3D資產。該模型具有開源的檢查點、推理代碼和基準數據集,方便進行可重複的研究和生產試點。其重要性在於降低了3D重建的硬件和設置複雜度,提高了重建效率。主要優點包括單圖像輸入、開放詞彙分割、開放生態系統、適用於XR、高效輸入和有明確的評估套件等。產品免費開源,定位於創意工具、電商AR購物、機器人感知和科學可視化等領域。
需求人群:
["創意生產人員:可以通過單張照片掃描產品或道具,然後在Blender或遊戲引擎中進行細化,加速遊戲、CGI和社交內容的製作。", "電商從業者:利用單張產品照片實現“在房間中查看”功能,通過SAM 3分割和Sam3D重建,在AR查看器中即時渲染產品,提升購物體驗。", "機器人研發團隊:在缺少深度信息時,從相機圖像中推斷形狀和自由空間,為機器人感知提供3D先驗知識,補充LiDAR感知堆棧。", "醫學和科學研究人員:將2D掃描或顯微鏡圖像轉換為3D形式進行檢查,針對解剖學、生物學或實驗室領域對Sam3D進行微調,輔助科研工作。"]
使用場景示例:
創意生產:通過單張照片掃描產品或道具,在Blender或遊戲引擎中進行細化,加速遊戲、CGI和社交內容的製作。
電商AR購物:利用單張產品照片實現“在房間中查看”功能,通過SAM 3分割和Sam3D重建,在AR查看器中即時渲染產品。
機器人感知:在缺少深度信息時,從相機圖像中推斷形狀和自由空間,為機器人感知提供3D先驗知識,補充LiDAR感知堆棧。
產品特色:
單圖像3D推理:能夠從一張RGB照片中推斷出完整的3D形狀、紋理和佈局,取代了許多工作流程中的多視圖和LiDAR設置,大大簡化了數據採集過程。
開放詞彙分割:利用SAM 3的文本、點、框提示來隔離對象,根據自然語言或視覺線索生成有針對性的3D資產,實現更靈活的對象提取。
開放生態系統:提供檢查點、推理代碼和基準數據集,如Artist Objects和SAM 3D Body,便於進行可重複的研究和生產試點,促進學術和工業界的交流與合作。
XR就緒:為AR/VR管道提供支持,可將單圖像掃描導入虛擬房間、混合現實場景和沈浸式故事講述中,增強XR應用的內容創作能力。
高效輸入:降低了數據採集的複雜度,可處理舊照片、用戶生成內容和單產品照片,充分利用現有資源。
基準評估:包含明確的評估套件,團隊可以通過這些套件測量模型性能,識別領域差距,並在需要時進行微調,確保模型在不同應用場景下的準確性和穩定性。
使用教程:
1. 捕獲與提示:使用一張光線充足的RGB圖像,可選擇使用SAM 3的文本或框提示來隔離目標對象。
2. 重建:使用發布的檢查點和代碼運行推理, Sam3D將直接預測幾何、紋理和佈局。
3. 導出與部署:導出網格和紋理,將其放置到AR查看器、3D引擎、機器人模擬器或營銷體驗中。
4. 最佳結果檢查:確保圖像清晰、照明平衡、遮擋最少,使用簡單背景以提高掩碼質量和幾何精度;使用SAM 3提示隔離感興趣的對象;在自己的數據上進行基準測試,針對特定領域進行微調;測量交互式AR/VR場景的延遲和成本。