Exportar para o SQL Server usando o Python Spark
Visão geral
Este guia fornece instruções detalhadas para configurar e usar o pacote de integração do Compartilhamento Delta em um sistema operacional Windows para integrar dados perfeitamente em seus fluxos de trabalho com Procore Analytics. O pacote suporta várias opções de execução, permitindo que você escolha a configuração e o método de integração desejados.
Pré-requisitos
Certifique-se de ter o seguinte antes de prosseguir:
- Procore Analytics 2.0 SKU
- Arquivo pofile de compartilhamento delta:
Obtenha seu arquivo *.share contendo o Delta Sharing credenciais. Por conveniência, copie-o para o diretório do pacote. - Ambiente Python: Instale o Python 3 e o pip em seu sistema.
- Faça o download do Python.
- Como alternativa, use a Microsoft Store.
Passos
- Preparar o Pacote
- Instalar dependências
- Gerar configuração
- Configurar Cron Jobs e Execução Imediata
- Execução e Manutenção
Preparar o Pacote
- Crie um novo arquivo chamado config.share com seu Delta Share credenciais no formato JSON.
{
"shareCredentialsVersion": 1,
"bearerToken": "xxxxxxxxxxxxx",
"ponto de extremidade": "https://nvirginia.nuvem. databricks.c... alojas/xxxxxx"
}
- Obtenha os campos obrigatórios.
Nota: Esses detalhes podem ser obtidos no aplicativo Web Procore Analytics.- ShareCredentialsVersion: Número da versão (atualmente 1).
- BearerToken: Seu token de acesso Delta Share.
- Ponto de extremidade: seu endpoint de compartilhamento Delta URL.
- Baixe e extraia o pacote.
- Descompacte o pacote em um diretório de sua escolha.
- Copie o arquivo de perfil *.share Delta Sharing para o diretório do pacote para facilitar o acesso.
Instalar dependências
- Abra um terminal no diretório do pacote.
- Execute o seguinte comando para instalar as dependências:
- pip install -r requirements.txt
Gerar configuração
- Gere o arquivo config.yaml executando python user_exp.py:
Esse script ajuda a gerar o arquivo config.yaml que contém credenciais e configurações necessárias. - Ao configurar a fonte de dados, você será solicitado a fornecer:
- Lista de tabelas (separadas por vírgula).
- Deixe em branco para sincronizar todas as tabelas.
Exemplo: 'tabela1, tabela2, tabela3'. - Caminho para o seu 'config.share' arquivo.
- Pela primeira vez, você fornecerá seus credenciais como local de configuração de origem do Delta Share, tabelas, banco de dados, host e etc.
Nota: Depois, você pode reutilizar ou atualizar a configuração manualmente ou pelo user_exp.py python em execução novamente.
Configurar trabalhos cron e execução imediata (opcional)
- Decida se deseja configurar um trabalho cron para execução automática.
- Forneça um cronograma cron:
- Formato: * * * * * ( minuto, hora, dia-do-mês, mês, dia-da-semana).
- Exemplo para execução diária às 2 da manhã: 0 2 * * *
- Para verificar os registros de agendamento, o arquivo 'procore_scheduling.log' será criado assim que o agendamento for configurado.
Você também pode verificar o agendamento executando o comando no terminal:
Para Linux e MacOs:
Para editar/excluir - edite o cron de agendamento usando:
''Bash
EDITOR=nano crontab -e
```
- Depois de executar o comando acima, você verá algo semelhante a:
- 2 * * * * /Users/your_user/snowflake/venv/bin/python /Users/your_user/snowflake/sql_server_python/connection_config.py 2>&1 | durante a linha de leitura; fazer echo "$(date) - $line"; feito >> /Users/your_user/snowflake/sql_server_python/procore_scheduling.log #procore-data-import
- Você também pode ajustar o cron do cronograma ou excluir toda a linha para interrompê-lo em execução por agendamento.
Para Windows:
- Verifique se a tarefa do cronograma foi criada:
'''powershell
schtasks /query /tn "ProcoreDeltaShareScheduling" /fo LIST /v
``` - Para editar/excluir - agendando tarefa:
Abra o Agendador de Tarefas:- Pressione Win + R, digite taskschd.msc, e pressione Enter.
- Navegue até as tarefas agendadas.
- No painel esquerdo, expanda a Biblioteca do Agendador de Tarefas.
- Procure a pasta onde sua tarefa foi salva (por exemplo, Biblioteca do Agendador de Tarefas ou uma pasta personalizada).
- Encontre sua tarefa:
- Procure o nome da tarefa ProcoreDeltaShareScheduling.
- Clique nele para visualizar seus detalhes no painel inferior.
- Confira sua programação:
- Verifique a guia Gatilhos para ver quando a tarefa está definida para ser executada.
- Verifique a guia Histórico para confirmar as execuções recentes.
- Para excluir tarefa:
- Exclua a tarefa da GUI.
Questão de Execução Imediata:
- Opção para executar script para copiar dados imediatamente após a configuração.
- Depois de gerar o config.yaml, a CLI está pronta para ser executada a qualquer momento de forma independente, executando script para copiar dados, dependendo do seu pacote. Veja exemplos abaixo:
delta_share_to_azure_panda.py Python
OU
Python delta_share_to_sql_spark.py
OU
Python delta_share_to_azure_dfs_spark.py
Execução e Manutenção
Problemas e soluções comuns
- Configuração do trabalho Cron:
- Verifique se as permissões do sistema estão configuradas corretamente.
- Verifique os logs do sistema se o trabalho não for executado.
- Verifique se o script delta_share_to_azure_panda.py tem permissões de execução.
- Arquivo de configuração:
- Verifique se o arquivo config.yaml está no mesmo diretório que o script.
- Faça backup do arquivo antes de fazer alterações.
Suporte
Para obter ajuda adicional:
- Revise os logs de script para obter mensagens de erro detalhadas.
- Verifique se há configurações incorretas no arquivo config.yaml .
- Entre em contato com o administrador do sistema para problemas relacionados à permissão.
- Entre em contato com o suporte do Procore para problemas relacionados ao acesso ao Delta Share.
- Revise o log de tabelas com falha: failed_tables.log.
Obs.
- Sempre faça backup de seus arquivos de configuração antes de fazer alterações.
- Teste novas configurações em um ambiente que não seja de produção para evitar interrupções.