InseRF, un metodo innovativo che inserisce oggetti 3D in una scena con il prompt

16 Gennaio 2024

Ricercatori di ETH Zurich e Google Zurich hanno presentato InseRF, un metodo innovativo per l’inserimento di oggetti generativi nelle ricostruzioni NeRF di scene 3D.

Sulla base di una descrizione testuale fornita dall’utente e di una bounding box 2D in un viewpoint di riferimento, InseRF genera nuovi oggetti nelle scene 3D.

Di recente, spiegano i ricercatori, i metodi per l’editing di scene 3D sono stati profondamente trasformati, grazie all’uso di robusti modelli di diffusione text-to-image nella modellazione generativa 3D.

I metodi esistenti sono per lo più efficaci nell’editing di scene 3D tramite modifiche allo stile e all’aspetto o la rimozione di oggetti esistenti. La generazione di nuovi oggetti, tuttavia, rimane una sfida per questi metodi: ed è questo che viene affrontato in questo studio di un team di ricercatori ricercatori di ETH Zurich e Google Zurich.

In particolare, i ricercatori propongono di basare l’inserimento di oggetti 3D su un inserimento di oggetti 2D in una vista di riferimento della scena. La modifica 2D viene poi portata in 3D con un metodo di ricostruzione dell’oggetto a vista singola. L’oggetto ricostruito viene quindi inserito nella scena, guidato da metodi di stima monoculare della profondità.

Il team di ricercatori valuta il metodo ideato su varie scene 3D e fornisce un’analisi approfondita dei componenti proposti. Secondo i ricercatori, gli esperimenti di inserimento generativo di oggetti in diverse scene 3D indicano l’efficacia di questo metodo rispetto ai metodi esistenti, e che InseRF è in grado di inserire oggetti controllabili e coerenti con il 3D senza richiedere informazioni 3D esplicite in input.

Data una singola vista di riferimento definita con un riquadro di delimitazione 2D e un prompt di testo che descrive l’oggetto da inserire, viene generata una modifica 2D che ritrae una vista dell’oggetto.

Questa modifica 2D viene poi “deformata” in un modello 3D dell’oggetto e inserita nella scena. Dopo il posizionamento 3D, le rappresentazioni dell’oggetto e della scena vengono fuse. Infine, è possibile eseguire un raffinamento opzionale per migliorare ulteriormente l’aspetto.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter