Exportar para o Fabric Lakehouse usando blocos de anotações de tecido
Visão geral
O uso do Data Factory no Microsoft Fabric com o Compartilhamento Delta permite a integração e o processamento contínuos de tabelas Delta compartilhadas como parte de seus fluxos de trabalho de análise com o Procore Analytics 2.0. O Compartilhamento Delta é um protocolo aberto para compartilhamento seguro de dados, permitindo a colaboração entre organizações sem duplicar dados.
Este guia orienta você pelas etapas para configurar e usar o Data Factory em malha com o Compartilhamento Delta, utilizando Notebooks para processar e exportar dados para uma Lakehouse.
Pré-requisitos
- Procore Analytics 2.0 SKU
- Credenciais de compartilhamento Delta:
- O acesso ao Delta Sharing credenciais fornecido por um provedor de dados.
- Um arquivo de perfil de compartilhamento (config.share) Contendo:
- Ponto de extremidade URL (Delta Sharing Server URL ).
- Access Token (Token ao portador para acesso seguro a dados).
- Crie seu arquivo config.yaml com credenciais específicos.
- Ambiente do Microsoft Fabric:
- Uma conta de locatário do Microsoft Fabric com uma assinatura ativa.
- Um espaço de trabalho habilitado para malha.
- Pacotes e Scripts:
- Faça o download do pacote fabric-lakehouse. O diretório deve incluir:
- ds_to_lakehouse.py: Código do bloco de anotações.
- readme.md: Instruções.
- Faça o download do pacote fabric-lakehouse. O diretório deve incluir:
Passos
Definir configuração
- Crie o config.yaml e defina a configuração na seguinte estrutura
source_config:
config_path: caminho/para/seu/delta-sharing-credentials-file.share
tabelas: # Opcional - Deixar em branco para processar todas as tabelas
- table_name1
- table_name2
target_config:
lakehouse_path: caminho/para/seu/tecido/lakehouse/Mesas/ # Caminho para o Fabric Lakehouse
Configure sua Lakehouse
- Abra seu espaço de trabalho do Microsoft Fabric.
- Navegue até o Lakehouse e clique em Abrir Bloco de Anotações e, em seguida, em Novo Bloco de Anotações.
- Se você não souber o valor em config.yaml#lakehouse_path, você pode copiá-lo da tela.
- Clique nas reticências em Arquivos e selecione Copiar caminho ABFS:
3. Copie o código do ds_to_lakehouse.py e cole na janela do notebook (Pyspark Python):
A próxima etapa é carregar seu próprio config.yaml e config.share na pasta Recursos do Lakehouse. Você pode criar seu próprio diretório ou usar um diretório interno (já criado para recursos pela Lakehouse):
O exemplo abaixo mostra um diretório interno padrão para um arquivo config.yaml.
Nota: Certifique-se de carregar ambos os arquivos no mesmo nível e para a propriedade config_path:
4. Verifique o código do caderno, linhas 170-175.
O exemplo abaixo mostra as alterações de linha necessárias:
config_path = "./env/config.yaml"
Para
config_path = "./builtin/config.yaml"
Como os arquivos estão em uma pasta interna e não em um env personalizado, certifique-se de monitorar sua própria estrutura dos arquivos. Você pode carregá-los em pastas diferentes, mas nesses casos, atualize o código do bloco de anotações para encontrar o arquivo config.yaml corretamente.
5. Clique em Executar célula:
Validação
- Quando o trabalho for concluído, verifique se os dados foram copiados com sucesso para o seu Lakehouse.
- Verifique as tabelas especificadas e verifique se os dados correspondem às tabelas Delta compartilhadas.
- Aguarde até que o trabalho seja concluído, ele deve copiar todos os dados.