Progettazione del sistema del tempo di volo

Aggiornamento: 17 dicembre 2023

Introduzione

Molte applicazioni di visione artificiale ora richiedono immagini di profondità 3D ad alta risoluzione per sostituire o aumentare l'imaging 2D standard. Queste soluzioni si basano sulla telecamera 3D per fornire informazioni di profondità affidabili per garantire la sicurezza, soprattutto quando le macchine operano in stretta prossimità degli esseri umani. Le telecamere devono anche fornire informazioni di profondità affidabili durante il funzionamento in ambienti difficili, come in ampi spazi con superfici altamente riflettenti e in presenza di altri oggetti in movimento. Molti prodotti fino ad oggi hanno utilizzato soluzioni di tipo telemetro a bassa risoluzione per fornire informazioni di profondità per aumentare l'imaging 2D. Tuttavia, questo approccio ha molti limiti. Per le applicazioni che beneficiano di informazioni di profondità 3D a risoluzione più elevata, le telecamere CW CMOS ToF forniscono le soluzioni con le prestazioni più elevate sul mercato. Alcune delle funzionalità del sistema abilitate da CW ToF . ad alta risoluzione sensore la tecnologia sono descritte più dettagliatamente nella Tabella 1. Queste caratteristiche del sistema si traducono anche in casi d'uso dei consumatori come video bokeh, autenticazione facciale e applicazioni di misurazione, nonché casi d'uso automobilistici come il monitoraggio dell'attenzione del conducente e la configurazione automatizzata in cabina.

Tabella 1. Caratteristiche del sistema di tempo di volo a onda continua

Funzione di sistema Abilitatori
Precisione e accuratezza della profondità • Frequenza di modulazione

• Schemi di modulazione ed elaborazione in profondità

Gamma dinamica • Rumore di lettura

• Frequenza fotogrammi non elaborata

Facilità d'uso • Procedura di calibrazione

• Compensazione della temperatura

• Monitoraggio della sicurezza degli occhi

Funzionamento all'aperto • Sensibilità a 940 nm

• Potenza ed efficienza dell'illuminazione

Fusione 2D/3D • Dimensione pixel

• Immagini di profondità e IR 2D

Funzionamento multisistema • Cancellazione in-pixel della luce interferente

• Sincronizzazione della fotocamera

Panoramica della telecamera a tempo di volo CMOS a onda continua

Una telecamera di profondità è una telecamera in cui ogni pixel emette la distanza tra la telecamera e la scena. Una tecnica per misurare la profondità consiste nel calcolare il tempo impiegato dalla luce per viaggiare da una sorgente luminosa sulla fotocamera a una superficie riflettente e poi di nuovo alla fotocamera. Questo tempo di viaggio è comunemente indicato come il tempo di volo (ToF).

 

Una telecamera ToF è composta da diversi elementi (vedi Figura 1), tra cui:

una sorgente luminosa, come un laser a emissione superficiale a cavità verticale (VCSEL) o un diodo laser a emissione dal bordo, che emette luce nel dominio del vicino infrarosso. Le lunghezze d'onda più comunemente utilizzate sono 850 nm e 940 nm. La sorgente luminosa è solitamente una sorgente diffusa (illuminazione diffusa) che emette un raggio di luce con una certa divergenza (nota anche come campo di illuminazione o FOI) per illuminare la scena davanti alla telecamera.

  •  un driver laser che modula l'intensità della luce emessa dalla sorgente luminosa.
  •  un sensore con un array di pixel che raccoglie la luce di ritorno dalla scena ed emette valori per ogni pixel.
  •  una lente che focalizza la luce di ritorno sull'array di sensori.
  •  un filtro passa-banda posizionato insieme all'obiettivo che filtra la luce al di fuori di una larghezza di banda stretta attorno alla lunghezza d'onda della sorgente luminosa.
  •  è un algoritmo di elaborazione che converte i fotogrammi grezzi in uscita dal sensore in immagini di profondità o nuvole di punti.

Si possono utilizzare più approcci per modulare la luce in una telecamera ToF. Un approccio semplice consiste nell'utilizzare una modulazione a onda continua, ad esempio una modulazione a onda quadra con un ciclo di lavoro del 50%. In pratica, la forma d'onda del laser è raramente un'onda quadra perfetta e può sembrare più vicina a un'onda sinusoidale. Una forma d'onda laser quadrata produce un migliore rapporto segnale-rumore per una data potenza ottica, ma introduce anche errori di non linearità di profondità dovuti alla presenza di armoniche ad alta frequenza.

Una telecamera CW ToF misura la differenza di tempo td tra il segnale emesso e il segnale di ritorno stimando lo sfasamento ϕ = 2πftd tra i fondamenti di questi due segnali. La profondità può essere stimata dall'offset di fase (ϕ) e dalla velocità della luce (c) utilizzando:

dove fmod è la frequenza di modulazione.

Una generazione di orologi circuito nel sensore controlla i pixel clock complementari che controllano rispettivamente l'accumulo di foto-cariche nei due elementi di immagazzinamento di carica (Tap A e Tap B), nonché il segnale di modulazione laser al

pilota laser. La fase della luce modulata di ritorno può essere misurata rispetto alla fase dei pixel clock (vedi lato destro della Figura 1). Il differenziale della luce modulata di ritorno e alla fase della luce modulata di ritorno rispetto al pixel clock.

Utilizzando i principi del rilevamento omodina, viene effettuata una misurazione con più fasi relative tra il pixel clock e il segnale di modulazione laser. Queste misurazioni vengono combinate per determinare la fase della fondamentale nel segnale luminoso modulato di ritorno. La conoscenza di questa fase consente di calcolare il tempo impiegato dalla luce per viaggiare dalla sorgente luminosa all'oggetto osservato e di nuovo al pixel del sensore.

Vantaggi delle frequenze di modulazione elevate

In pratica, ci sono non idealità come il rumore sparato dai fotoni, il rumore del circuito di lettura e l'interferenza multipercorso che possono causare errori nella misurazione di fase. Avere un'elevata frequenza di modulazione riduce l'impatto di tali errori sulla stima della profondità.

Questo è facile da capire prendendo un semplice esempio in cui c'è un errore di fase ϵϕ—ovvero, la fase misurata dal sensore è ϕ̂ = ϕ + ϵϕ. L'errore di profondità è quindi:

Pertanto, l'errore di profondità è inversamente proporzionale alla frequenza di modulazione, fmod. Ciò è illustrato graficamente nella Figura 2.

Questa semplice formula spiega in gran parte perché le telecamere ToF con alta frequenza di modulazione hanno un rumore di profondità inferiore e errori di profondità inferiori rispetto alle telecamere ToF con frequenza di modulazione inferiore.

Uno svantaggio dell'utilizzo di un'alta frequenza di modulazione è che la fase si avvolge più velocemente, il che significa che l'intervallo che può essere misurato in modo univoco è più breve. Il modo comune per aggirare questa limitazione consiste nell'utilizzare più frequenze di modulazione che si avvolgono a velocità diverse. La frequenza di modulazione più bassa fornisce un'ampia gamma senza ambiguità ma errori di profondità maggiori (rumore, interferenza multipercorso, ecc.), mentre le frequenze di modulazione più elevate vengono utilizzate in tandem per ridurre gli errori di profondità. Un esempio di questo schema con tre diverse frequenze di modulazione è mostrato nella Figura 3. La stima della profondità finale è calcolata pesando le stime di fase non confezionate per le diverse frequenze di modulazione, con pesi maggiori assegnati alle frequenze di modulazione più alte.

Se i pesi per ciascuna frequenza sono scelti in modo ottimale, il rumore di profondità è inversamente proporzionale alla radice quadrata media (rms) delle frequenze di modulazione scelte nel sistema. Per un budget di rumore di profondità costante, l'aumento delle frequenze di modulazione consente di ridurre il tempo di integrazione o la potenza di illuminazione.

Altri aspetti del sistema critici per le prestazioni

Ci sono numerose caratteristiche del sistema da considerare quando si sviluppa una telecamera ToF ad alte prestazioni, alcune delle quali sono trattate brevemente qui.

Sensore d'immagine

Il sensore di immagine è un componente chiave in una fotocamera ToF. Gli effetti della maggior parte delle non idealità della stima della profondità (ad esempio, bias, rumore di profondità e artefatti multipercorso) vengono ridotti quando la frequenza di modulazione media del sistema aumenta. È quindi importante che il sensore abbia un elevato contrasto di demodulazione (capacità di separare i fotoelettroni tra Tap A e Tap B) ad alta

frequenza di modulazione (centinaia di MHz). Il sensore deve anche avere un'elevata efficienza quantica (QE) nelle lunghezze d'onda del vicino infrarosso (ad esempio, 850 nm e 940 nm), in modo che sia necessaria meno potenza ottica per generare fotoelettroni nel pixel. Infine, un basso rumore di lettura aiuta con la gamma dinamica della telecamera consentendo il rilevamento di segnali di ritorno bassi (oggetti lontani o a bassa riflettività).

Illuminazione

Il driver laser modula la sorgente luminosa (ad esempio, VCSEL) ad alta frequenza di modulazione. Al fine di massimizzare la quantità di segnale utile al pixel per una data potenza ottica, la forma d'onda ottica deve avere tempi di salita e discesa rapidi con bordi puliti. La combinazione di laser, driver laser e layout PCB nel sottosistema di illuminazione è fondamentale per raggiungere questo obiettivo. C'è anche qualche caratterizzazione necessaria per trovare le impostazioni ottimali di potenza ottica e duty cycle per massimizzare l'ampiezza della fondamentale nella trasformata di Fourier della forma d'onda di modulazione. Infine, anche la potenza ottica deve essere erogata in modo sicuro con alcuni meccanismi di sicurezza integrati a livello di driver laser e sistema per garantire che i limiti di sicurezza degli occhi di Classe 1 siano sempre rispettati.

Ottica

L'ottica gioca un ruolo chiave nelle fotocamere ToF. Le fotocamere ToF hanno determinate caratteristiche distinte che richiedono requisiti ottici speciali. In primo luogo, il campo di illuminazione della sorgente luminosa dovrebbe corrispondere al campo visivo dell'obiettivo per un'efficienza ottimale. È anche importante che l'obiettivo stesso abbia un'apertura elevata (basso f/#) per una migliore efficienza di raccolta della luce. Grandi aperture possono portare ad altri compromessi in merito alla vignettatura, alla profondità di campo ridotta e alla complessità del design dell'obiettivo. Un design dell'obiettivo a basso angolo di raggio principale può anche aiutare a ridurre la larghezza di banda del filtro passa banda, che migliora la reiezione della luce ambientale e quindi migliora le prestazioni all'aperto. Il sottosistema ottico dovrebbe anche essere ottimizzato per la lunghezza d'onda di funzionamento desiderata (ad esempio, rivestimenti antiriflesso, design del filtro passa-banda, design dell'obiettivo) per massimizzare l'efficienza del rendimento e ridurre al minimo la luce diffusa. Esistono anche molti requisiti meccanici per garantire che l'allineamento ottico rientri nelle tolleranze desiderate per l'applicazione finale.

Power Management

Anche la gestione energetica è di fondamentale importanza in una fotocamera 3D ToF ad alte prestazioni modulo progetto. La modulazione laser e la modulazione pixel generano brevi raffiche di correnti di picco elevate, che impongono alcuni vincoli alla soluzione di gestione dell'energia. Esistono alcune funzionalità a livello del circuito integrato (IC) del sensore che possono contribuire a ridurre il consumo energetico di picco del riproduttore d'immagini. Esistono anche tecniche di gestione dell'energia che possono essere applicate a livello di sistema per ridurre i requisiti sulla fonte di alimentazione (ad esempio, batteria o USB). I principali alimentatori analogici per un imager ToF richiedono in genere a regolatore con buona risposta ai transitori e basso rumore.

 

Algoritmo di elaborazione della profondità

Infine, un'altra parte importante della progettazione a livello di sistema è l'algoritmo di elaborazione della profondità. Il sensore di immagine ToF emette dati di pixel grezzi da cui devono essere estratte le informazioni di fase. Questa operazione richiede diversi passaggi che includono il filtraggio del rumore e lo srotolamento della fase. L'output del blocco di srotolamento della fase è una misura della distanza percorsa dalla luce dal laser, alla scena e di nuovo al pixel, spesso chiamata distanza o distanza radiale.

La distanza radiale viene generalmente convertita in informazioni sulla nuvola di punti, che rappresenta le informazioni per un particolare pixel tramite le sue coordinate reali (X, Y, Z). Spesso, le applicazioni finali utilizzano solo la mappa immagine Z (mappa di profondità) invece della nuvola di punti completa. La conversione della distanza radiale in nuvola di punti richiede la conoscenza delle caratteristiche intrinseche dell'obiettivo e dei parametri di distorsione. Questi parametri vengono stimati durante la calibrazione geometrica del modulo telecamera. L'algoritmo di elaborazione della profondità può anche emettere altre informazioni come immagini di luminosità attive (ampiezza del segnale laser di ritorno), immagini IR 2D passive e livelli di confidenza, che possono essere tutti utilizzati nelle applicazioni finali. L'elaborazione della profondità può essere eseguita sul modulo della fotocamera stesso o in un processore host da qualche altra parte nel sistema.

Una panoramica dei diversi componenti a livello di sistema trattati in questo articolo è mostrata nella Tabella 2. Questi argomenti verranno trattati in modo più dettagliato negli articoli futuri.

Tabella 2. Componenti a livello di sistema delle telecamere 3D Time of Flight

Componente a livello di sistema Caratteristiche principali
ToF Imager Risoluzione, alto contrasto di demodulazione, alta efficienza quantica, alta frequenza di modulazione, basso rumore di lettura
Illuminazione Fonte Elevata potenza ottica, alta frequenza di modulazione, caratteristiche di sicurezza per gli occhi
Ottica Elevata efficienza di raccolta della luce, luce parassita minima, larghezza di banda stretta
Power Management Basso rumore, buona risposta ai transitori, alta efficienza, offre un'elevata potenza di picco
Elaborazione della profondità Bassa potenza, supporta diversi tipi di informazioni sulla profondità di output

Conclusione

Le telecamere a tempo di volo a onda continua sono una soluzione potente che offre un'elevata precisione di profondità per le applicazioni che richiedono informazioni 3D di alta qualità. Ci sono molti fattori da considerare per garantire che si raggiunga il miglior livello di prestazioni. Fattori come la frequenza di modulazione, il contrasto di demodulazione, l'efficienza quantica e il rumore di lettura determinano le prestazioni a livello del sensore di immagine. Altri fattori sono considerazioni a livello di sistema, che includono il sottosistema di illuminazione, la progettazione ottica, la gestione dell'alimentazione e gli algoritmi di elaborazione della profondità. Tutti questi componenti a livello di sistema sono fondamentali per ottenere la massima precisione 3D Sistema di telecamere ToF. Questi argomenti a livello di sistema verranno trattati più dettagliatamente negli articoli successivi.