Diseño del sistema de tiempo de vuelo

Actualización: 17 de diciembre de 2023

Introducción

Muchas aplicaciones de visión artificial ahora requieren imágenes de profundidad 3D de alta resolución para reemplazar o aumentar las imágenes 2D estándar. Estas soluciones se basan en la cámara 3D para proporcionar información de profundidad confiable para garantizar la seguridad, especialmente cuando las máquinas operan cerca de los humanos. Las cámaras también deben proporcionar información de profundidad confiable mientras operan en entornos desafiantes, como en espacios grandes con superficies altamente reflectantes y en presencia de otros objetos en movimiento. Muchos productos hasta la fecha han utilizado soluciones de tipo telémetro de baja resolución para proporcionar información de profundidad para aumentar las imágenes en 2D. Sin embargo, este enfoque tiene muchas limitaciones. Para aplicaciones que se benefician de información de profundidad 3D de mayor resolución, las cámaras CW CMOS ToF proporcionan las soluciones de mayor rendimiento del mercado. Algunas de las funciones del sistema habilitadas por CW ToF de alta resolución sensor la tecnología se describen con más detalle en la Tabla 1. Estas características del sistema también se traducen en casos de uso para el consumidor, como video bokeh, autenticación facial y aplicaciones de medición, así como casos de uso automotriz, como monitoreo del estado de alerta del conductor y configuración automatizada en la cabina.

Tabla 1. Características del sistema de tiempo de onda continua de vuelo

Característica del sistema Enablers
Precisión y exactitud de profundidad • Frecuencia de modulación

• Esquemas de modulación y procesamiento en profundidad

Rango dinámico • Ruido de lectura

• Velocidad de fotogramas sin procesar

Facilidad de uso • Procedimiento de calibración

• Compensación de temperatura

• Monitoreo de seguridad ocular

Operación al aire libre • Sensibilidad a 940 nm

• Potencia y eficiencia de iluminación

Fusión 2D / 3D • Tamaño de píxel

• Imágenes infrarrojas 2D y de profundidad

Operación multisistema • Cancelación en píxeles de la luz interferente

• Sincronización de cámara

Descripción general de la cámara de tiempo de vuelo CMOS de onda continua

Una cámara de profundidad es una cámara en la que cada píxel muestra la distancia entre la cámara y la escena. Una técnica para medir la profundidad es calcular el tiempo que tarda la luz en viajar desde una fuente de luz en la cámara a una superficie reflectante y de regreso a la cámara. Este tiempo de viaje se conoce comúnmente como tiempo de vuelo (ToF).

 

Una cámara ToF se compone de varios elementos (consulte la Figura 1) que incluyen:

una fuente de luz, como un láser emisor de superficie de cavidad vertical (VCSEL) o un diodo láser emisor de bordes, que emite luz en el dominio del infrarrojo cercano. Las longitudes de onda más utilizadas son 850 nm y 940 nm. La fuente de luz suele ser una fuente difusa (iluminación de inundación) que emite un haz de luz con cierta divergencia (también conocido como campo de iluminación o FOI) para iluminar la escena frente a la cámara.

  •  un controlador láser que modula la intensidad de la luz emitida por la fuente de luz.
  •  un sensor con una matriz de píxeles que recopila la luz que regresa de la escena y genera valores para cada píxel.
  •  una lente que enfoca la luz que regresa en la matriz de sensores.
  •  un filtro de paso de banda co-ubicado con la lente que filtra la luz fuera de un ancho de banda estrecho alrededor de la longitud de onda de la fuente de luz.
  •  es un algoritmo de procesamiento que convierte los fotogramas sin procesar de salida del sensor en imágenes de profundidad o nubes de puntos.

Se pueden usar múltiples enfoques para modular la luz en una cámara ToF. Un enfoque simple es utilizar una modulación de onda continua, por ejemplo, una modulación de onda cuadrada con un ciclo de trabajo del 50%. En la práctica, la forma de onda del láser rara vez es una onda cuadrada perfecta y puede parecerse más a una onda sinusoidal. Una forma de onda de láser cuadrada produce una mejor relación señal / ruido para una potencia óptica determinada, pero también introduce errores de no linealidad de profundidad debido a la presencia de armónicos de alta frecuencia.

Una cámara CW ToF mide la diferencia de tiempo td entre la señal emitida y la señal de retorno estimando el desplazamiento de fase ϕ = 2πftd entre los fundamentos de esas dos señales. La profundidad se puede estimar a partir del desfase (ϕ) y la velocidad de la luz (c) usando:

donde fmod es la frecuencia de modulación.

Una generación de relojes circuito en el sensor controla los relojes de píxeles complementarios que controlan respectivamente la acumulación de fotocargas en los dos elementos de almacenamiento de carga (Tap A y Tap B), así como la señal de modulación láser al

controlador láser. La fase de la luz modulada que regresa se puede medir en relación con la fase de los relojes de píxeles (consulte el lado derecho de la Figura 1). El diferencial entre la luz modulada que regresa y la fase de la luz modulada que regresa en relación con el reloj de píxeles.

Utilizando principios de detección homodina, se realiza una medición con múltiples fases relativas entre el reloj de píxeles y la señal de modulación láser. Estas medidas se combinan para determinar la fase de la fundamental en la señal de luz modulada de retorno. Conocer esta fase permite calcular el tiempo que tarda la luz en viajar desde la fuente de luz hasta el objeto que se está observando y de regreso al píxel del sensor.

Ventajas de las altas frecuencias de modulación

En la práctica, existen no idealidades como el ruido de disparo de fotones, el ruido del circuito de lectura y la interferencia de trayectos múltiples que pueden causar errores en la medición de fase. Tener una frecuencia de modulación alta reduce el impacto de esos errores en la estimación de profundidad.

Esto es fácil de entender tomando un ejemplo simple donde hay un error de fase ϵϕ—Es decir, la fase medida por el sensor es ϕ̂ = ϕ + ϵϕ. El error de profundidad es entonces:

Por lo tanto, el error de profundidad es inversamente proporcional a la frecuencia de modulación, fmod. Esto se ilustra gráficamente en la Figura 2.

Esta sencilla fórmula explica en gran parte por qué las cámaras ToF con alta frecuencia de modulación tienen menor ruido de profundidad y menores errores de profundidad que las cámaras ToF con menor frecuencia de modulación.

Un inconveniente de usar una frecuencia de modulación alta es que la fase se envuelve más rápido, lo que significa que el rango que se puede medir sin ambigüedades es más corto. La forma común de sortear esta limitación es usar múltiples frecuencias de modulación que se envuelven a diferentes velocidades. La frecuencia de modulación más baja proporciona un rango amplio sin ambigüedad pero con errores de profundidad más grandes (ruido, interferencia de trayectos múltiples, etc.), mientras que las frecuencias de modulación más altas se utilizan en tándem para reducir los errores de profundidad. Un ejemplo de este esquema con tres frecuencias de modulación diferentes se muestra en la Figura 3. La estimación de profundidad final se calcula ponderando las estimaciones de fase no envueltas para las diferentes frecuencias de modulación, asignándose pesos más altos a las frecuencias de modulación más altas.

Si los pesos para cada frecuencia se eligen de manera óptima, el ruido de profundidad es inversamente proporcional a la raíz cuadrada media (rms) de las frecuencias de modulación elegidas en el sistema. Para un presupuesto de ruido de profundidad constante, el aumento de las frecuencias de modulación permite reducir el tiempo de integración o la potencia de iluminación.

Otros aspectos del sistema críticos para el rendimiento

Hay numerosas características del sistema a considerar al desarrollar una cámara ToF de alto rendimiento, algunas de las cuales se tratan brevemente aquí.

Sensor de imagen

El sensor de imagen es un componente clave en una cámara ToF. Los efectos de la mayoría de las no ideales de estimación de profundidad (por ejemplo, sesgo, ruido de profundidad y artefactos de trayectos múltiples) se reducen cuando aumenta la frecuencia de modulación promedio del sistema. Por lo tanto, es importante que el sensor tenga un alto contraste de demodulación (capacidad para separar fotoelectrones entre Tap A y Tap B) a alto

frecuencia de modulación (cientos de MHz). El sensor también debe tener una alta eficiencia cuántica (QE) en las longitudes de onda del infrarrojo cercano (por ejemplo, 850 nm y 940 nm), por lo que se necesita menos potencia óptica para generar fotoelectrones en el píxel. Finalmente, un ruido de lectura bajo ayuda con el rango dinámico de la cámara al permitir la detección de señales de retorno bajo (objetos de reflectividad lejana o baja).

Iluminación

El controlador láser modula la fuente de luz (por ejemplo, VCSEL) a alta frecuencia de modulación. Para maximizar la cantidad de señal útil en el píxel para una potencia óptica determinada, la forma de onda óptica debe tener tiempos de subida y bajada rápidos con bordes limpios. La combinación de láser, controlador de láser y diseño de PCB en el subsistema de iluminación es fundamental para lograrlo. También se requiere cierta caracterización para encontrar la potencia óptica óptima y los ajustes del ciclo de trabajo para maximizar la amplitud de la fundamental en la transformada de Fourier de la forma de onda de modulación. Finalmente, la potencia óptica también debe entregarse de manera segura con algunos mecanismos de seguridad integrados en el controlador del láser y en el nivel del sistema para garantizar que los límites de seguridad ocular de Clase 1 se respeten en todo momento.

Óptica

La óptica juega un papel clave en las cámaras ToF. Las cámaras ToF tienen ciertas características distintas que impulsan requisitos ópticos especiales. En primer lugar, el campo de iluminación de la fuente de luz debe coincidir con el campo de visión de la lente para una eficiencia óptima. También es importante que la lente en sí tenga una apertura alta (f / # bajo) para una mejor eficiencia de recolección de luz. Las aperturas grandes pueden dar lugar a otras compensaciones en torno al viñeteado, la poca profundidad de campo y la complejidad del diseño de la lente. Un diseño de lente de ángulo de rayo principal bajo también puede ayudar a reducir el ancho de banda del filtro de paso de banda, lo que mejora el rechazo de la luz ambiental y, por lo tanto, mejora el rendimiento en exteriores. El subsistema óptico también debe optimizarse para la longitud de onda de funcionamiento deseada (por ejemplo, revestimientos antirreflectantes, diseño de filtro de paso de banda, diseño de lente) para maximizar la eficiencia del rendimiento y minimizar la luz parásita. También existen muchos requisitos mecánicos para garantizar que la alineación óptica esté dentro de las tolerancias deseadas para la aplicación final.

Administración de energía

La administración de energía también es de vital importancia en una cámara 3D ToF de alto rendimiento módulo diseño. La modulación láser y la modulación de píxeles generan ráfagas cortas de corrientes máximas altas, lo que impone algunas limitaciones a la solución de administración de energía. Hay algunas características a nivel del circuito integrado (IC) del sensor que pueden ayudar a reducir el consumo máximo de energía del generador de imágenes. También existen técnicas de administración de energía que se pueden aplicar a nivel del sistema para ayudar a aliviar los requisitos de la fuente de energía (por ejemplo, batería o USB). Los principales suministros analógicos para un generador de imágenes ToF normalmente requieren un organismo regulador con buena respuesta transitoria y bajo ruido.

 

Algoritmo de procesamiento de profundidad

Finalmente, otra gran parte del diseño a nivel de sistema es el algoritmo de procesamiento en profundidad. El sensor de imagen ToF emite datos de píxeles sin procesar de los que se debe extraer la información de fase. Esta operación requiere diferentes pasos que incluyen filtrado de ruido y desenvolvimiento de fase. La salida del bloque de desenvolvimiento de fase es una medida de la distancia recorrida por la luz desde el láser a la escena y de regreso al píxel, a menudo llamado rango o distancia radial.

La distancia radial generalmente se convierte en información de nube de puntos, que representa la información de un píxel en particular por sus coordenadas del mundo real (X, Y, Z). A menudo, las aplicaciones finales solo utilizan el mapa de imagen Z (mapa de profundidad) en lugar de la nube de puntos completa. Convertir la distancia radial en una nube de puntos requiere conocer los parámetros intrínsecos de la lente y de distorsión. Estos parámetros se estiman durante la calibración geométrica del módulo de la cámara. El algoritmo de procesamiento de profundidad también puede generar otra información, como imágenes de brillo activo (amplitud de la señal láser de retorno), imágenes de infrarrojos 2D pasivas y niveles de confianza, que pueden usarse en aplicaciones finales. El procesamiento en profundidad se puede realizar en el módulo de la cámara o en un procesador host en cualquier otro lugar del sistema.

En la Tabla 2 se muestra una descripción general de los diferentes componentes a nivel de sistema cubiertos en este artículo. Estos temas se tratarán con más detalle en artículos futuros.

Tabla 2. Componentes a nivel de sistema de las cámaras 3D de tiempo de vuelo

Componente a nivel de sistema Principales Caracteristicas
Generador de imágenes ToF Resolución, alto contraste de demodulación, alta eficiencia cuántica, alta frecuencia de modulación, bajo ruido de lectura
Fuente de iluminación Alta potencia óptica, alta frecuencia de modulación, características de seguridad ocular
Óptica Alta eficiencia de recolección de luz, luz parásita mínima, ancho de banda estrecho
Administración de energía Bajo nivel de ruido, buena respuesta transitoria, alta eficiencia, entrega alta potencia pico
Procesamiento de profundidad Baja potencia, admite diferentes tipos de información de profundidad de salida

Conclusión

El tiempo de onda continua de las cámaras de vuelo es una solución poderosa que ofrece una alta precisión de profundidad para aplicaciones que requieren información 3D de alta calidad. Hay muchos factores a considerar para asegurar que se logre el mejor nivel de desempeño. Factores como la frecuencia de modulación, el contraste de demodulación, la eficiencia cuántica y el ruido de lectura determinan el rendimiento a nivel del sensor de imagen. Otros factores son consideraciones a nivel del sistema, que incluyen el subsistema de iluminación, el diseño óptico, la administración de energía y los algoritmos de procesamiento de profundidad. Todos estos componentes a nivel del sistema son fundamentales para lograr la máxima precisión 3D Sistema de cámara ToF. Estos temas a nivel de sistema se tratarán con más detalle en artículos posteriores.