Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O que é o modo em tempo real?
O modo em tempo real é um tipo de gatilho para o Streaming Estruturado que permite o processamento de dados de latência ultra-baixa com latência de ponta a ponta de até cinco milissegundos. Use o modo em tempo real para cargas de trabalho operacionais que exigem resposta imediata aos dados de streaming, como detecção de fraude e personalização em tempo real.
O modo em tempo real também está disponível no Lakeflow Spark Declarative Pipelines. Consulte Usar o modo em tempo real em Pipelines Declarativos do Lakeflow Spark.
Como o modo em tempo real obtém baixa latência
O modo em tempo real melhora a arquitetura de execução:
- Executando lotes de execução longa (o padrão é cinco minutos), no qual o sistema processa dados conforme eles ficam disponíveis na origem.
- Agendando todos os estágios da consulta simultaneamente. Isso requer que o número de slots de tarefas disponíveis seja igual ou maior que o número de tarefas de todos os estágios em um lote.
- Transferência de dados entre estágios, assim que são produzidos, usando shuffle em streaming.
Entre lotes, os pontos de verificação de streaming estruturados progridem e publicam métricas. A duração do lote afeta a frequência de ponto de verificação:
- Para lotes mais longos, checkpoints ocorrem com menos frequência, o que resulta em repetições mais longas do processamento em caso de falha e em atraso na disponibilidade de métricas.
- Para lotes mais curtos, o ponto de verificação ocorre com mais frequência, o que pode afetar a latência.
Azure Databricks recomenda o modo de comparação em tempo real em relação à carga de trabalho de destino para localizar o intervalo de gatilho apropriado.
Quando usar o modo em tempo real
Selecione o modo em tempo real quando o caso de uso exigir:
- Latência de sub-segundo: aplicativos que precisam responder aos dados dentro de milissegundos. Por exemplo, bloquear ou sinalizar uma transação de cartão de crédito em tempo real se uma pontuação de fraude exceder um limite com base em localização incomum, tamanho de transação grande ou padrões de gastos rápidos.
- Tomada de decisão operacional: sistemas que disparam ações imediatas com base em dados de entrada. Por exemplo, a entrega de uma mensagem promocional quando os dados de clickstream mostram que um usuário está procurando um produto, oferecendo um desconto se comprar nos próximos 15 minutos.
- Processamento contínuo: cargas de trabalho em que os dados devem ser processados assim que chegam, em vez de em lotes periódicos.
Use o modo de microlote (o gatilho de streaming estruturado padrão) quando o caso de uso exigir:
- Processamento analítico: pipelines de ETL, transformações de dados e implementações de arquitetura de medalhão em que os requisitos de latência são medidos em segundos ou minutos.
- Otimização de custo: cargas de trabalho em que a latência de sub-segundo não é necessária, pois o modo em tempo real requer recursos de computação dedicados.
- Recuperação mais rápida: cargas de trabalho que precisam de pontos de verificação frequentes para minimizar o tempo de reprodução após uma falha.
Suporte e limitações de recursos
Para obter uma lista completa dos ambientes com suporte, idiomas, tipos de computação, fontes, coletores, operadores e limitações conhecidas, consulte a referência de modo em tempo real.
Recursos adicionais
- Configurar o modo em tempo real
- Tutorial: Executar uma carga de trabalho de streaming em tempo real
- Exemplos de modo em tempo real
- Otimizar e monitorar o desempenho da consulta no modo em tempo real
- Referência do modo em tempo real
- Conceitos de Streaming Estruturado
- Use o modo em tempo real no Lakeflow Spark Declarative Pipelines