Dreamomni2是一個統一的開源多模態基於指令的圖像編輯和生成模型。它建立在Flux Kontext和Qwen2.5 VL之上,支持文本和圖像指令,能處理抽象屬性和具體對象。該模型在基準測試中優於商業模型,具有出色的身份一致性和編輯精度。其開源特性使得模型權重、訓練代碼和數據集都可在GitHub和Hugging Face上免費獲取,價格從4.90美元至960.00美元不等,適合用於研究和商業應用。
需求人群:
["攝影師和設計師:可以利用Dreamomni2進行產品攝影、設計工作流和肖像編輯,其高精度的編輯能力和身份一致性能夠滿足專業需求。", "研究人員:開源的模型權重、訓練代碼和數據集為研究人員提供了研究和開發的基礎,有助於推動多模態圖像編輯和生成技術的發展。", "普通用戶:簡單易用的操作界面,通過自然語言指令和參考圖像就能實現複雜的圖像編輯和生成,滿足日常的創意需求。"]
使用場景示例:
產品攝影:在產品攝影中,可以使用Dreamomni2對產品圖像進行編輯,參考不同的材質和風格,提升產品的視覺效果。
設計工作流:設計師可以利用Dreamomni2進行設計稿的創作和修改,結合文本和圖像指令,實現複雜的視覺效果。
肖像編輯:在肖像編輯中, Dreamomni2可以根據參考圖像對人物的妝容、髮型等進行修改,同時保持人物的身份特徵。
產品特色:
支持多模態指令編輯和生成:不僅可以通過文本指令對圖像進行編輯和生成,還能結合參考圖像,實現抽象屬性和具體對象的操作。
處理抽象屬性和具體對象:能夠精準識別和處理如材質、紋理、風格等抽象屬性,以及具體的物體,實現複雜圖像的編輯。
保持身份一致性:在編輯過程中,能有效保持圖像主體的身份特徵,確保編輯後的圖像與原主體的一致性。
多圖像輸入處理:採用索引編碼和位置偏移方案,處理多圖像輸入時不會出現像素混淆的問題。
支持多種圖像格式:接受JPG、PNG和WebP格式的源圖像和參考圖像,並輸出高質量的PNG文件。
本地運行支持:可以下載模型權重,在具有足夠顯存的CUDA兼容GPU上進行本地推理。
使用教程:
1. 打開Dreamomni2編輯器:訪問網站https://www.Dreamomni2.com,點擊“Open Dreamomni2 Editor”打開編輯器。
2. 上傳源圖像:在編輯器中上傳需要編輯的源圖像。
3. 上傳參考圖像:最多上傳兩張參考圖像,用於提供抽象屬性或具體對象的參考。
4. 輸入文本指令:使用自然語言輸入對圖像的編輯指令,描述希望實現的效果。
5. 執行編輯:點擊相應的按鈕,讓Dreamomni2根據指令和參考圖像對源圖像進行編輯和生成。
6. 查看和下載結果:編輯完成後,在瀏覽器中查看編輯結果,若滿意可將輸出的PNG文件下載保存。