Proposta #1:
- podem usar compute engines na GCP para fazer os testes e criar os modelos para os preços das viagens (fare_amount). Minha sugestão, para não gastarem muitos créditos, é trabalhar com configurações de máquinas mais modestas do que as sugeridas no tutorial e utilizar um número pequeno de ficheiros (por exemplo, testar primeiro para um único mês e depois tentar outros meses)
- o tutorial que sugeri está um pouco antigo e quando fizerem as instalações poderão encontrar alguns problemas de compatibilidade. Procurem instalar as versões de pacotes como os indicados no tutorial. E utilizem a versão de Python sugerida também no tutorial (o ideal é criar um ambiente virtual e instalar tudo neste ambiente).
Proposta #2:
- muitos estudantes estão a ter problemas com as instalações de Eucalyptus, OpenNebula ou OpenStack. Eu tenho tentado resolver estes problemas nas aulas práticas porque preciso ver os casos pessoalmente. Se tiverem dúvidas, por favor enviem mensagem para marcar um dia para eu tentar resolver os problemas.
- a instalação do OpenNebula vem com um dashboard já com tudo implementado, mas o objetivo do trabalho não é ter uma interface já pronta para a criação de máquinas virtuais e provisão de serviços através de botões. Vocês precisam saber quais são os comandos do software que permitem a criação das máquinas virtuais e dos serviços assim como os seus parâmetros. Imaginem que estão num ambiente de produção onde programas chegam numa cloud para correr e o seu programa será o responsável por fazer a alocação dos recursos da melhor maneira possível.
Proposta #3:
- existem tabelas auxiliares que estão no meu bucket gs://cdle2324/MIMIC-III-DATABASE. Nestas tabelas poderão encontrar no ficheiro ICUSTAYS.csv um campo chamado LOS (Length of Stay), já calculado e que pode ser usado como variável target para a construção do modelo.
- alguns esudantes tiveram problemas para fazer download do ficheiro clicando só no link que está no enunciado, usando windows. Sugiro que utilizem o comando "gsutil cp", na linha de comando para copiar o ficheiro para a sua máquina local ou para a shell da GCP. Se tiverem dificuldades com o bucket, eu tenho uma outra cópia destas tabelas neste link.
- a descrição de todas as tabelas pode ser encontrada neste link. No menu da esquerda, selecionem MIMIC-III e escolham Tables.
- para construir o modelo e visualizar dados, sugiro que separem os pacientes por código ICD (International Code of Disease). Os códigos e suas descrições podem ser encontrados na tabela D_ICD_DIAGNOSES.csv.
- para facilitar o trabalho, podem fazer upload das tabelas csv para a bigquery (adicionei um outro tutorial sobre bigquery à aula prática do dia 11 de Abril).