Métodos demográficos Universidade de Princeton Kaplan-Meir Survival A Stata possui excelentes instalações para análise de sobrevivência em tempo contínuo, incluindo o estimador de Kaplan-Meier. Eu vou ilustrar o estimador usando os dados Gehan discutidos na aula. Estas são semanas antes da recaída de pacientes com câncer em um grupo controle e tratado (codificado 1 e 2, respectivamente). A primeira coisa que você faz no Stata é o stset os dados que especificam a variável que representa o tempo e a variável que distingue as falhas dos casos censurados: recebemos uma declaração útil sobre o número de falhas e o tempo total em risco. Para calcular e traçar a estimativa Kaplan-Meier por grupo, usamos sts graph Você pode obter faixas de confiança de ponto com base em erros padrão da Greenwood usando a opção gwood. Quando combinado com o agrupamento, isso resulta em parcelas lado a lado. Para ver a estimativa em plena glória use a lista sts. Você deve ser capaz de reproduzir todos esses resultados à mão, como fizemos na sala de aula. Copie 2017 Germaacuten Rodriacuteguez, Universidade de PrincetonNOTICE: O grupo de consultoria estatística IDRE irá migrar o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente Seminários de Informática Estatística Análise de Sobrevivência com Stata O programa Stata em que o seminário se baseia. O arquivo de dados do UIS para o seminário. O objetivo deste seminário é dar uma breve introdução ao tema da análise de sobrevivência. Vamos usar uma versão menor e ligeiramente modificada do conjunto de dados do UIS do livro Applied Survival Analysis por Hosmer e Lemeshow. Encorajamos fortemente todos os interessados em aprender análises de sobrevivência para ler este texto, pois é uma introdução muito boa e completa ao tópico. A análise de sobrevivência é apenas outro nome para análise de tempo para eventos. O termo análise de sobrevivência é predominantemente utilizado em ciências biomédicas, onde o interesse é observar o tempo até a morte tanto de pacientes como de animais de laboratório. A análise do tempo para o evento também tem sido amplamente utilizada nas ciências sociais onde o interesse é analisar o tempo para eventos como mudanças no trabalho, casamento, nascimento de crianças e assim por diante. As ciências da engenharia também contribuíram para o desenvolvimento da análise de sobrevivência que se chama análise de confiabilidade ou análise de tempo de falha neste campo, uma vez que o foco principal é modelar o tempo que leva para que máquinas ou componentes eletrônicos se quebram. Os desenvolvimentos desses diversos campos foram, na sua maioria, consolidados no campo da análise de sobrevivência. Para obter mais informações, consulte a excelente discussão no Capítulo 1 da Análise de História do Evento de Paul Allison. Existem certos aspectos dos dados de análise de sobrevivência, como a censura e a não-normalidade, que geram grande dificuldade ao tentar analisar os dados usando modelos estatísticos tradicionais, como regressão linear múltipla. O aspecto não normalitário dos dados viola a suposição de normalidade do modelo estatístico mais utilizado, como regressão ou ANOVA, etc. Uma observação censurada é definida como uma observação com informações incompletas. Existem quatro tipos diferentes de censura possível: trunção direita, trunção esquerda, censura correta e censura à esquerda. Nos concentraremos exclusivamente na censura certa por vários motivos. A maioria dos dados utilizados nas análises tem apenas uma censura correta. Além disso, a censura certa é a mais fácil de entender de todos os quatro tipos de censura e se um pesquisador pode entender o conceito de censura correta, torna-se muito mais fácil entender os outros três tipos. Quando uma observação é censurada, isso significa que a informação está incompleta porque o assunto não teve um evento durante o tempo em que o sujeito fazia parte do estudo. O ponto de análise de sobrevivência é seguir os sujeitos ao longo do tempo e observar em que momento eles experimentam o evento de interesse. Muitas vezes acontece que o estudo não abranja tempo suficiente para observar o evento para todos os assuntos no estudo. Isso pode ser devido a vários motivos. Talvez os indivíduos abandonem o estudo por razões não relacionadas ao estudo (isto é, pacientes que se deslocam para outra área e não deixam nenhum endereço de encaminhamento). A característica comum de todos esses exemplos é que, se o sujeito pudesse permanecer no estudo, teria sido possível observar o tempo do evento eventualmente. É importante compreender a diferença entre o tempo e o horário do calendário no estudo. É muito comum que os sujeitos entrem no estudo de forma contínua ao longo do estudo. Essa situação se reflete no primeiro gráfico onde podemos ver a entrada escalonada de quatro assuntos. Os pontos vermelhos denotam intervalos em que ocorreu o evento, enquanto os intervalos sem pontos vermelhos significam a censura. Parece que o assunto 4 abandonou após pouco tempo (atingido por um ônibus, muito trágico) e esse assunto 3 não experimentou um evento no momento em que o estudo terminou, mas se o estudo tivesse durado mais tempo (teve mais recursos) Nós saberíamos o momento em que esse assunto teria experimentado um evento. O outro conceito importante na análise de sobrevivência é a taxa de risco. De olhar dados com tempo discreto (tempo medido em grandes intervalos, como mês, anos ou mesmo décadas), podemos ter uma idéia intuitiva da taxa de risco. Por tempo discreto, a taxa de risco é a probabilidade de que um indivíduo experimente um evento no tempo t enquanto esse indivíduo corre o risco de ter um evento. Assim, a taxa de risco é realmente apenas a taxa não observada em que os eventos ocorrem. Se a taxa de perigo for constante ao longo do tempo e fosse igual a 1,5 por exemplo, isso significaria que seria de esperar 1,5 eventos em um intervalo de tempo de uma unidade. Além disso, se uma pessoa tivesse uma taxa de risco de 1,2 no tempo t e uma segunda pessoa tivesse uma taxa de risco de 2,4 no tempo t, então seria correto dizer que o risco de um segundo evento seria duas vezes maior no tempo t . É importante perceber que a taxa de perigo é uma variável não observada, mas controla tanto a ocorrência quanto o momento dos eventos. É a variável dependente fundamental na análise de sobrevivência. Outro aspecto importante da função de perigo é entender como a forma da função de risco influenciará as outras variáveis de interesse, como a função de sobrevivência. O primeiro gráfico abaixo ilustra uma função de perigo com uma forma de banheira. Este gráfico descreve a função de risco para a sobrevivência de pacientes transplantados de órgãos. No momento igual a zero, eles estão tendo o transplante e uma vez que esta é uma operação muito perigosa eles têm um perigo muito alto (uma ótima chance de morrer). Os primeiros 10 dias após a operação também são muito perigosos, com uma grande chance de o paciente morrer, mas o perigo é menor do que durante a operação real e, portanto, o perigo diminui durante este período. Se o paciente tiver sobrevivido no passado dia 10, eles estão em muito boa forma e têm poucas chances de morrer nos próximos 6 meses. Após 6 meses, os pacientes começam a sofrer deterioração e as chances de morrer aumentam novamente e, portanto, a função de risco começa a aumentar. Após um ano, quase todos os pacientes estão mortos e, portanto, a função de risco muito alto que continuará a aumentar. A função de risco pode não parecer uma variável emocionante para modelar, mas outros indicadores de interesse, como a função de sobrevivência, são derivados da taxa de risco. Uma vez que modelamos a taxa de perigo, podemos obter facilmente essas outras funções de interesse. Para resumir, é importante compreender o conceito da função de perigo e compreender a forma da função de risco. Um exemplo de uma função de risco para pacientes com transplante cardíaco. Geralmente, não podemos gerar a função de perigo, em vez disso, geralmente observamos a curva de risco acumulado. O objetivo dos dados do UIS é modelar o tempo até o retorno ao uso de drogas para pacientes inscritos em dois programas de tratamento residencial diferentes que diferiram em comprimento (tratar 0 é o programa curto e tratar 1 é o programa longo). Os pacientes foram distribuídos aleatoriamente em dois sites diferentes (o site 0 é o site A eo site 1 é o site B). A idade variável indica idade na matrícula, herco indica uso de heroína ou cocaína nos últimos três meses (herco 1 indica uso de heroína e cocaína, herco 2 indica uso de heroína ou cocaína e herco 3 indica que não há uso de heroína nem cocaína) e ndrugtx indica a Número de tratamentos de drogas anteriores. O tempo de variáveis contém o tempo até retornar ao uso de drogas e a variável do censor indica se o sujeito retornou ao uso de drogas (o censor 1 indica retorno ao uso de drogas e censure 0 caso contrário). Vamos ver as 10 primeiras observações do conjunto de dados do UIS. Observe que o assunto 5 é censurado e não experimentou um evento durante o estudo. Observe também que a codificação de censura é bastante contra intuitiva, uma vez que o valor 1 indica um evento e 0 indica censura. Talvez fosse mais apropriado chamar essa cotação variável. Em qualquer análise de dados, é sempre uma ótima idéia fazer alguma análise univariada antes de avançar para modelos mais complicados. Na análise de sobrevivência, é altamente recomendável observar as curvas de Kaplan-Meier para todos os preditores categóricos. Isso proporcionará uma visão da forma da função de sobrevivência para cada grupo e dará uma idéia de se os grupos são ou não proporcionais (ou seja, as funções de sobrevivência são aproximadamente paralelas). Também consideramos os testes de igualdade entre os estratos para explorar se deve ou não incluir o preditor no modelo final. Para as variáveis categóricas, usaremos o teste log-rank da igualdade entre os estratos, que é um teste não-paramétrico. Para as variáveis contínuas, usaremos uma regressão de risco proporcional Cox univariada, que é um modelo semi-paramétrico. Consideraremos incluir o preditor se o teste tiver um valor de p de 0,2 a 0,25 ou menos. Estamos usando este esquema de eliminação porque todos os preditores no conjunto de dados são variáveis que podem ser relevantes para o modelo. Se o preditor tiver um valor p superior a 0,25 em uma análise univariada, é altamente improvável que contribua com qualquer modelo para o modelo que inclua outros preditores. O teste log-rank da igualdade entre os estratos para o tratamento preditor tem um valor p de 0,0091, portanto o tratamento será incluído como candidato potencial para o modelo final. Do gráfico, vemos que a função de sobrevivência para cada grupo de tratamentos não é perfeitamente paralela, mas separada, exceto no início e no final. A sobreposição no final não deve causar muita preocupação porque é determinada apenas por um número muito reduzido de sujeitos censurados em uma amostra com 628 indivíduos. Em geral, o teste log-rank coloca mais ênfase nas diferenças nas curvas em valores de tempo maiores. É por isso que obtemos um pequeno valor de p, mesmo que as duas curvas de sobrevivência parecem estar muito próximas um tempo para menos de 100 dias. O teste de log-rank da igualdade entre os estratos para o site preditor tem um valor de p de 0,1240, portanto o site será incluído como candidato potencial para o modelo final, pois esse valor de p ainda é menor que o nosso corte de 0,2. Do gráfico, vemos que as curvas de sobrevivência não são todas paralelas e que existem dois períodos (0, 100 e 200, 300) onde as curvas estão muito próximas. Isso explicaria o valor p-valor bastante alto do teste log-rank. O teste de log-rank da igualdade entre os estratos para o predator herco tem um valor de p de 0.1473, portanto herco será incluído como candidato potencial para o modelo final. Do gráfico, vemos que os três grupos não são paralelos e que especialmente os grupos herco 1 e herco 3 se sobrepõem para a maior parte do gráfico. Essa falta de paralelismo poderia representar um problema quando incluímos esse preditor no modelo de risco proporcional da Cox, uma vez que uma das premissas é proporcionalidade dos preditores. Não é possível calcular uma curva Kaplan-Meier para os preditores contínuos, uma vez que haveria uma curva para cada nível do preditor e um preditor contínuo simplesmente tem muitos níveis diferentes. Em vez disso, consideramos o modelo de risco proporcional de Cox com um único preditor contínuo. Infelizmente, não é possível produzir um gráfico ao usar o comando stcox. Em vez disso, consideramos o teste Chi-quadrado para ndrugtx que tem um valor p de 0.0003, portanto, ndrugtx é um candidato potencial para o modelo final, uma vez que o valor p é menor que o nosso valor de corte de 0,2. Nós especificamos a opção nohr para indicar que não queremos ver a relação de risco, e queremos olhar os coeficientes. Neste modelo, o teste de idade do Qui-quadrado também tem um valor de p menor que 0,2 e, portanto, é um candidato potencial para o modelo final. Para o nosso modelo de construção, primeiro consideramos o modelo que incluirá todos os preditores que tiveram um valor de p de menos de 0,2-0,25 nas análises univariadas, que nesta análise particular significa que incluiremos todos os preditores em nosso modelo. O preditor categórico herco tem três níveis e, portanto, vamos incluir esse preditor usando variável dummy com o grupo herco 1 como grupo de referência. Podemos criar essas variáveis falsas ao invés usando o comando xi com stcox. O predictor herco não é claramente significativo e o abandonaremos do modelo final. O site preditor também não é significativo, mas de pesquisas anteriores, sabemos que esta é uma variável muito importante para ter no modelo final e, portanto, não eliminamos o site do modelo. Assim, o modelo final de efeitos principais inclui: idade. Ndrugtx. Tratar e site. Em seguida, precisamos considerar as interações. Não temos conhecimento prévio de interações específicas que devemos incluir, então vamos considerar todas as possíveis interações. Uma vez que nosso modelo é bastante pequeno, isso é gerenciável, mas a situação ideal é quando toda a construção do modelo, incluindo as interações, são orientadas por teoria. O termo de interação da idade com ndrugtx não é significativo e não será incluído no modelo. A idade e o tratamento da interação não são significativos e não serão incluídos no modelo. A idade da interação e o site é significativo e serão incluídos no modelo. O tratamento de drogas de interação não é significativo e não será incluído no modelo. O medicamento e o site de interação não são significativos e não serão incluídos no modelo. O tratamento e o tratamento de interação não são significativos e não serão incluídos no modelo. O modelo final, incluindo a interação. Agora, podemos ver por que era importante incluir o site em nosso modelo, como pesquisa anterior havia sugerido, porque resulta que o site está envolvido na única interação significativa no modelo. Podemos comparar o modelo com a interação com o modelo sem a interação usando o comando lrtest, uma vez que os modelos estão aninhados. O lrtest significativo indica que rejeitamos a hipótese nula de que os dois modelos se encaixam igualmente nos dados e concluem que o modelo maior com a interação se adapta melhor aos dados do modelo menor que não incluiu a interação. O modelo final e a interpretação dos índices de risco. De acordo com os índices de risco (também denominados riscos relativos), o modelo indica que, à medida que o número de tratamentos anteriores de drogas (ndrugtx) aumenta em uma unidade, e todas as outras variáveis são mantidas constantes, a taxa de recaída aumenta em 3,7. Se o comprimento do tratamento for alterado de curto para longo, mantendo todas as outras variáveis constantes, a taxa de recaída diminui em (100 - 76,5) 23,5. À medida que o tratamento é movido do site A para o local B e idade é igual a zero, e todas as outras variáveis são mantidas constantes, a taxa de recaída diminui em (100 - 28.8) 71.2. Esses resultados são todos baseados na saída usando taxas de perigo. Para discutir as variáveis que estão envolvidas em um termo de interação, como idade e site em nosso modelo, precisamos usar os coeficientes brutos e aqui estão listados abaixo apenas por conveniência. Comparando 2 sujeitos no local A (site 0), um aumento na idade de 5 anos, enquanto todas as outras variáveis são mantidas constantes produz uma razão de risco igual a exp (-0.033695) .84497351. Assim, a taxa de recaída diminui em (100 - 84,5) 15,5 com um aumento de 5 anos de idade. Comparando 2 sujeitos no local B, um aumento na idade de 5 anos enquanto mantém todas as outras variáveis constantes, produz uma relação de risco igual a exp (-0.033695 0.033775) 1.0004. Assim, a taxa de recaída permanece bastante plana para sujeitos no local B desde 1.0004 se tão perto de 1. Um dos principais pressupostos do modelo de risco proporcional Cox é proporcionalidade. Existem vários métodos para verificar se um modelo satisfaz a suposição de proporcionalidade e para obter mais informações sobre este tópico, consulte nossos testes de FAQ de proporcionalidade em SAS, Stata, SPLUS e R. Verificaremos a proporcionalidade ao incluir covariáveis dependentes do tempo no Modelo usando as opções tvc e texp no comando stcox. As covariáveis dependentes do tempo são as interações dos preditores e do tempo. Nesta análise, escolhemos usar as interações com o log (tempo) porque esta é a função mais comum do tempo usado em covariáveis dependentes do tempo, mas qualquer função do tempo pode ser usada. Se uma covariável dependente do tempo é significante, isso indica uma violação da suposição de proporcionalidade para esse preditor específico. A conclusão é que todas as variáveis dependentes do tempo não são significativas coletivamente ou individualmente, suportando assim a hipótese de risco proporcional. Outro método para testar o pressuposto de proporcionalidade é o uso dos resíduos de Schoenfeld e Scaled Schoenfeld, os quais devem primeiro ser salvos através do comando stcox. No comando stphtest, testamos a proporcionalidade do modelo como um todo e, usando a opção de detalhe, obtemos um teste de proporcionalidade para cada preditor. Ao usar a opção do enredo, também podemos obter um gráfico da suposição escalonada de Schoenfeld. Se os testes na tabela não são significativos (p-valores acima de 0,05), não podemos rejeitar a proporcionalidade e assumimos que não temos uma violação da suposição proporcional. Uma linha horizontal nos gráficos é uma indicação adicional de que não há violação do pressuposto de proporcionalidade. O comando stphplot usa lotes log-log para testar a proporcionalidade e se as linhas nestas parcelas são paralelas, então temos mais indícios de que os preditores não violam a suposição de proporcionalidade. O tratamento preditor pode justificar um exame mais aprofundado, pois tem um teste significativo e a curva no gráfico não é completamente horizontal. O gráfico do comando stphplot não possui curvas completamente paralelas. No entanto, optamos por deixar o tratamento no modelo inalterado com base em pesquisas anteriores. Se um dos preditores não fosse proporcional, há várias soluções a serem consideradas. Uma solução é incluir a variável dependente do tempo para os preditores não proporcionais. Outra solução é estratificar o preditor não proporcional. O seguinte é um exemplo de estratificação no tratamento preditor. Observe que o tratamento não está mais incluído na declaração do modelo, em vez disso, é especificado na declaração strata. As estimativas dos parâmetros são quase iguais para cada nível de tratamento, o que indica ainda que tratar realmente é proporcional. Se tratar fossem verdadeiramente violando a suposição de proporcionalidade, esperamos que as estimativas diferissem. As estimativas também são muito semelhantes às estimativas obtidas do modelo, incluindo o tratamento como preditor. Cada padrão covariável terá uma função de sobrevivência diferente. A função de sobrevivência padrão é para o padrão covariável em que cada preditor é ajustado igual a zero. No entanto, para muitos preditores, este valor não é significativo porque esse valor cai fora dos dados, como a idade 0. Seria muito mais útil especificar um padrão covariável exato e gerar uma função de sobrevivência para indivíduos com esse padrão covariável específico. No exemplo a seguir, queremos representar graficamente a função de sobrevivência para um sujeito com 30 anos de idade (30 anos), teve 5 tratamentos de drogas anteriores (ndrugtx 5) e atualmente está recebendo o tratamento longo (tratar 1) no site A ( Site 0 e ageite 300 0). Em primeiro lugar, lemos a função de sobrevivência basal para o padrão de covariável, onde todos os preditores são definidos como zero. Em seguida, aumentamos a função de sobrevivência basal para a combinação exponencial para a linear dos coeficientes e os valores das covariáveis no padrão de interesse covariável. Assim, neste exemplo particular, a combinação linear seria: -0.0336943300.03645375 - 0.26741131 - 1.2459280 - .03377280. Olhar a função de sobrevivência para um padrão covariável às vezes não é suficiente. Muitas vezes, é muito útil ter um gráfico onde podemos comparar as funções de sobrevivência de diferentes grupos. No exemplo a seguir, geramos um gráfico com as funções de sobrevivência para os dois grupos de tratamento em que todos os indivíduos têm 30 anos de idade (idade 30), tiveram 5 tratamentos de drogas anteriores (ndrugtx 5) e atualmente estão sendo tratados no site A (site 0 e agesite 3000). Assim, os dois padrões covariáveis diferem apenas em seus valores para tratar. Podemos avaliar o ajuste do modelo usando os resíduos Cox-Snell. Se o modelo se encaixa bem nos dados, a verdadeira função de risco cumulativo condicional no vetor covariável tem uma distribuição exponencial com uma taxa de risco de um. Isso se traduz em ajustar o modelo usando o comando stcox e especificando a opção mgale que gerará os resíduos de martingale. Em seguida, usamos o comando predizer com a opção csnell para gerar os resíduos Cox-Snell para o modelo. Repor os dados usando o comando stset especificando a variável cs. A variável que contém os resíduos de Cox-Snell, como a variável de tempo. Em seguida, usamos o comando sts generate para criar a função de risco cumulativo Nelson-Aalen. Finalmente, representamos a função de risco cumulativo de Nelson-Aalen e a variável cs para que possamos comparar a função de perigo com a linha diagonal. Se a função de perigo segue a linha de 45 graus, então sabemos que ela tem aproximadamente uma distribuição exponencial com uma taxa de perigo de um e que o modelo se ajusta bem aos dados. Vemos que a função de perigo segue a linha de 45 graus muito de perto, exceto por valores de tempo muito grandes. É muito comum que os modelos com dados censurados tenham algum movimento constante em grandes valores de tempo e não é algo que deve causar muita preocupação. No geral, concluiríamos que o modelo final se adequa muito bem aos dados. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
Комментариев нет:
Отправить комментарий