Tuesday, 16 July 2019

Handling missing data in stata forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal, dando um presente Módulo de Aprendizado STATA Dados perdidos 1. Introdução Este módulo explorará os dados faltantes no STATA, com foco em dados faltantes numéricos. Ele irá descrever como indicar a falta de dados em seus arquivos de dados brutos, bem como como dados faltantes são tratados nos comandos lógicos STATA e instruções de atribuição. Vamos ilustrar algumas das propriedades dos dados perdidos no STATA usando dados de um estudo de tempo de reação com oito assuntos indicados pelo ID da variável. E os tempos de reação dos sujeitos foram medidos em três pontos de tempo (trial1 trial2 trial3). O arquivo de dados de entrada é mostrado abaixo. Você pode notar que alguns dos tempos de reação são codificados usando um único. Como é o caso do assunto 2. A pessoa que mede o tempo para esse teste não mediu o tempo de resposta adequadamente, portanto, os dados para o segundo julgamento estão faltando. 2. Como o STATA lida com dados faltantes nos procedimentos STATA Como regra geral, os comandos STATA que executam cálculos de qualquer tipo manipulam dados ausentes, omitiendo os valores faltantes. No entanto, a forma como os valores em falta são omitidos nem sempre é consistente em todos os comandos, então, diga-nos alguns exemplos. Primeiro, let39s resumem nossas variáveis ​​de tempo de reação e veja como o STATA lida com os valores que faltam. Como você vê na saída abaixo, resuma os meios calculados usando 4 observações para trial1 e trial2 e 6 observações para trial3. Em suma, o comando de resumo executou os cálculos em todos os dados disponíveis. Um segundo exemplo, mostra como o comando tabulação ou tab1 lida com dados faltantes. Como resumir, tab1 usa apenas dados disponíveis. Observe que as porcentagens são calculadas com base no número total de casos não faltantes. É possível que você possa querer que as porcentagens sejam calculadas a partir do número total de observações, e a porcentagem em falta para cada variável mostrada na tabela. Isso pode ser alcançado incluindo a opção em falta após a tabulação. Comando, Let39s veja como o comando correlate lida com dados faltantes. Esperamos que ele execute os cálculos com base nos dados disponíveis e omita os valores em falta. Aqui está um exemplo de comando. A saída é mostrada abaixo. Observe como os valores em falta foram excluídos. O Stata executará a exclusão da lista e exibirá apenas correlação para as observações que tenham valores não faltantes em todas as variáveis ​​listadas. A Stata também permite a eliminação em pares. As correlações são exibidas para as observações que possuem valores não faltantes para cada par de variáveis. Isso pode ser feito usando o comando pwcorr. Usamos a opção obs para exibir o número de observação usado para cada par, como você pode ver, eles diferem dependendo da quantidade de falta. 3. Resumo de como os valores faltantes são tratados nos procedimentos STATA resumem. Para cada variável, o número de valores não faltantes é usado. Tabulação Por padrão, os valores em falta são excluídos e as porcentagens são baseadas no número de valores não faltantes. Se você usar a opção perdida no comando tab, as porcentagens são baseadas no número total de observações (não faltando e faltando) e a porcentagem de valores faltantes é relatada na tabela. Corrente Por padrão, as correlações são calculadas com base no número de pares com dados não faltantes (emparelhamento de dados faltantes). O comando pwcorr pode ser usado para solicitar que as correlações sejam computadas apenas para observações que tenham dados não faltantes para todas as variáveis ​​listadas após o comando pwcorr (eliminação de dados faltantes). Reg Se alguma das variáveis ​​listadas após o comando reg estiver faltando, as observações que faltam esse (s) valor (es) são excluídas da análise (ou seja, a eliminação de dados faltantes). Para outros procedimentos, consulte o manual STATA para obter informações sobre como os dados faltantes são tratados. 4. Valores faltantes nas declarações de atribuição É importante entender como os valores em falta são tratados nas declarações de atribuição. Considere o exemplo mostrado abaixo. O comando da lista a seguir ilustra como valores faltantes são tratados nas instruções de atribuição. A variável sum1 é baseada nas variáveis ​​trial1 trial2 e trial3. Se alguma dessas variáveis ​​estivesse faltando, o valor para sum1 estava configurado como ausente. Portanto, o sum1 está faltando para as observações 2, 3 e 4, como é o caso da observação 7. Como regra geral, os cálculos envolvendo valores faltantes produzem valores faltantes. Por exemplo, 2 2 produz 4 2. rendimentos . 2 2 produz 1. 2 rendimentos. 2 3 produz 6 2. rendimentos . Sempre que você adicionar, subtrair, multiplicar, dividir, etc. valores que envolvem dados em falta, o resultado está faltando. Em nosso experimento de tempo de reação, o tempo de reação total sum1 está faltando para quatro dos sete casos. Poderíamos tentar totalizar os dados para os testes não faltantes, usando a função rowtotal como mostrado no exemplo abaixo. Os resultados abaixo mostram que sum2 agora contém a soma dos ensaios não faltantes. Observe que a função rowtotal trata faltando como um valor zero. Ao somar várias variáveis, pode não ser razoável tratar falta como zero se faltarem observações em todas as variáveis ​​a serem somadas. A função rowtotal com a opção ausente retornará um valor faltante se falta uma observação em todas as variáveis. Outras declarações funcionam de forma semelhante. Por exemplo, observou o que aconteceu quando tentamos criar uma variável média sem usar uma função (como no exemplo abaixo). Se alguma das variáveis ​​trial1, trial2 ou trial3 estiver faltando, o valor para avg1 está definido como ausente. Alternativamente, a função rowmean calcula a média dos dados para os testes que não faltam da mesma maneira que a função rowtotal. Nota: Houve um grande número de testes, digamos 50 tentativas, então seria irritante ter que digitar avgrowmean (trial1 trial2 trial3 trial4.). Aqui está um atalho que você pode usar neste tipo de situação: Finalmente, você pode usar as funções rowmiss e rownomiss para determinar o número de falta e o número de valores não faltantes, respectivamente, em uma lista de variáveis. Isso é ilustrado abaixo. Para nomiss variável. As observações 1, 5 e 6 tinham três valores válidos, as observações 2 e 3 tinham dois valores válidos, a observação 4 tinha apenas um valor válido e a observação 7 não tinha valores válidos. A variável miss mostra o contrário, fornece uma contagem do número de valores em falta. 5. Valores em falta em declarações lógicas É importante entender como os valores faltantes são tratados em declarações lógicas. Por exemplo, diga que deseja criar uma variável 01 para trial1 que seja 1 se for 1.5 ou menos e 0 se for superior a 1.5. Mostramos isso abaixo (incorretamente, como você verá). Parece que algo deu errado com a nossa nova variável new-new1 recentemente criada. As observações com valores faltantes para trial2 receberam um zero para newvar1. Vamos explorar por que isso aconteceu olhando a tabela de freqüência do teste2. Como você pode ver na saída, os valores em falta estão listados após o valor mais alto 2.1. Isso ocorre porque STATA trata um valor faltante como o maior valor possível (por exemplo, infinito positivo) e esse valor é maior do que 2.1, então os valores para Newvar1 torna-se 0. Agora que entendemos como o STATA trata os valores faltantes, excluiremos explicitamente os valores em falta para garantir que eles sejam tratados corretamente, conforme mostrado abaixo. Como você pode ver na saída STATA abaixo, a nova variável newvar2 tem valores faltantes para observações que também estão faltando para trial2. 6. Valores em falta em declarações lógicas Ao criar ou recodificar variáveis ​​que envolvem valores em falta, sempre preste atenção se a variável inclui valores faltantes. 7. Para obter mais informações, o conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal dando um presente FAQ de Stata: Como posso ver o número de valores e padrões faltantes de valores perdidos no meu arquivo de dados Às vezes, um conjunto de dados pode ter quothassesquot, Isto é, valores faltantes. Alguns procedimentos estatísticos, como a análise de regressão, também não funcionam, ou em tudo, em um conjunto de dados com valores faltantes. As observações com valores em falta devem ser excluídas ou os valores em falta devem ser substituídos para que um procedimento estatístico produza resultados significativos. A maioria dos programas estatísticos (incluindo SAS, SPSS e Stata) removerá automaticamente esses casos de qualquer análise que você executar (sem excluir os casos do conjunto de dados). É por isso que o quotnquot muitas vezes varia de análise para análise, mesmo que o conjunto de dados seja o mesmo. Diferentes variáveis ​​têm quantidades diferentes de dados ausentes e, portanto, alterar as variáveis ​​em um modelo altera o número de casos com dados completos em todas as variáveis ​​do modelo. Como o software deixa cair casos com valores faltantes para nós, é muito fácil abordar completamente os dados faltantes. No entanto, a presença de dados perdidos pode influenciar nossos resultados, especialmente quando um conjunto de dados ou mesmo uma única variável, está faltando uma grande porcentagem de valores. Assim, é sempre uma boa idéia verificar um conjunto de dados para dados em falta e pensar sobre como os dados em falta podem influenciar nossas análises. Esta página mostra alguns métodos para analisar os valores em falta em um conjunto de dados, esta informação pode ser usada para tomar decisões mais bem informadas sobre como lidar com os valores em falta. Antes de começar, precisamos de alguns dados com valores em falta, o código abaixo insere um pequeno conjunto de dados no Stata e, em seguida, exibe esses dados. Em um pequeno conjunto de dados, como o abaixo, é muito fácil ver os dados em bruto e ver onde os valores estão faltando. No entanto, quando os conjuntos de dados são amplos, precisamos de uma maneira mais sistemática de examinar nosso conjunto de dados para os valores em falta. Abaixo, mostramos algumas maneiras de fazer isso, usando os dados abaixo como exemplo. 1. Número de valores faltantes em relação ao número de valores não faltantes A primeira coisa que vamos fazer é determinar quais variáveis ​​têm muitos valores faltantes. Criamos um pequeno programa Stata chamado mdesc que conta o número de valores faltantes nas variáveis ​​numéricas e de caracteres. Você pode baixar o mdesc dentro do Stata, digitando findit mdesc (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso de finidit). Então você pode executar o mdesc para uma ou mais variáveis, conforme ilustrado abaixo. Agora, conhecemos o número de valores em falta em cada variável. Por exemplo, o salespric variável tem quatro valores faltantes e saltoapr tem dois valores faltantes. 2. Obter o número de valores faltantes por observação. Também podemos observar a distribuição dos valores perdidos nas observações. O código abaixo cria uma variável chamada nmis que fornece o número de valores faltantes para cada observação. A função rmiss2 () usada aqui é uma extensão para a função egen rmiss (). Ele conta o número de valores em falta na varlist. Rmiss2 () aceita as variáveis ​​de string e numéricas. (Stata rmiss () apenas aceita variáveis ​​numéricas.) Você pode baixar o rmiss2 () pela internet a partir do Stata digitando findit rmiss2 (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit ). Abaixo, nós tabulamos a variável que acabamos de criar. Olhando para a tabela de frequências, sabemos que existem quatro observações sem valores ausentes, nove observações com valores faltantes, uma observação com dois valores faltantes e uma observação com três valores faltantes. 3. Padrões de valores em falta Também podemos observar os padrões de valores em falta. Você pode baixar mvpatterns pela internet a partir do Stata digitando findit mvpatterns (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). O mvpatterns de comando produz saída para todas as variáveis ​​no conjunto de dados, para os padrões de dados ausentes em um subconjunto de variáveis, uma lista de variáveis ​​pode ser incluída, por exemplo, o totval improvável landval de mvpatterns. A saída produzida por mvpatterns é mostrada abaixo. A primeira tabela lista as variáveis, o tipo de armazenamento (tipo), o número de observações (obs), o número de valores ausentes (mv) e o rótulo variável se as variáveis ​​tiverem um. A segunda tabela contém as informações sobre o padrão de valores em falta. O primeiro bloco de colunas na saída mostra os padrões de dados ausentes. Dentro do bloco, cada variável é representada por uma coluna, uma quotquot indica que os valores dessa variável estão presentes em um dado padrão de dados faltando, um quot. quot indica que eles estão faltando. As colunas seguem a mesma ordem que a lista de variáveis ​​na primeira tabela, de modo que a primeira coluna na saída abaixo representa landval. A segunda melhorada. e assim por diante. Os padrões de dados ausentes estão listados em freqüência decrescente, aqui o padrão de dados faltando mais comum é a informação completa (quotquot). A tabela também mostra o número de valores ausentes nesse padrão (mv) e o número de casos com o padrão de dados ausente (freq). Com base nas informações da segunda tabela, sabemos que existem quatro observações sem valores faltantes, faltando dois casos apenas na variável salepric. E uma observação com valores perdidos na melhoria. Salepric e saltoapr. 4. Quando todas as variáveis ​​de interesse são numéricas. Os exemplos acima de tudo funcionam, independentemente de as variáveis ​​de interesse (ou seja, as variáveis ​​cujos padrões de dados perdidos você deseja examinar) sejam numéricas ou de cadeia. Quando todas as variáveis ​​que você deseja verificar por valores em falta são numéricas, podemos usar um programa chamado misschk para simplificar as etapas de examinar os dados que faltam em nosso conjunto de dados. (Nota: as variáveis ​​numéricas incluem aquelas com rótulos de valores que são strings, desde que os valores reais das variáveis ​​sejam armazenados como números.) Você pode fazer o download do misschk dentro do Stata digitando findit misschk (consulte Como posso usar o comando findit para Procure programas e obtenha ajuda adicional para obter mais informações sobre o uso do findit). Abaixo está o comando para misschk. Nós incluímos as cinco variáveis ​​em nosso conjunto de dados na lista de variáveis ​​após o comando misschk. No entanto, poderíamos ter deixado a lista de variáveis ​​em branco (ou seja, usamos apenas misschk. Gen (miss)), se tivéssemos, a misschk teria executado usando todas as variáveis ​​em nosso conjunto de dados. A lista de variáveis ​​só é necessária se quisermos executar o misschk em apenas algumas das variáveis ​​em nosso conjunto de dados. A opção gen (miss) diz ao misschk que queremos que ele crie duas novas variáveis, ambas começando com quotmissquot. Essas duas variáveis ​​serão denominadas misspattern e missnumber. A variável misspattern indica qual dos padrões de dados ausentes cada caso segue. A variável número de falta indica o número de valores em falta para cada caso. A saída para misschk consiste em três tabelas. A primeira tabela lista o número de valores em falta, bem como a percentagem em falta para cada variável, isto é semelhante à tabela produzida pelo mdesc na parte 1 acima. Esta tabela também contém uma coluna rotulada que atribui a cada variável um número que é usado para identificar a variável mais tarde na saída. A segunda tabela mostra a distribuição dos valores em falta. O padrão de falta é descrito usando os números variáveis ​​da primeira tabela e sublinhados (). Os números indicam quais variáveis ​​estão faltando nesse padrão, os sublinhados representam observações não faltantes. Por exemplo, a partir da segunda tabela vemos que dois casos têm valores faltantes na variável 1 (landval), mas dados completos em todas as outras variáveis ​​e que um caso está faltando dados nas variáveis ​​2, 4 e 5. A linha inferior mostra Que quatro casos não estão faltando nenhum valor (todos os sublinhados). Esta tabela mostra a mesma informação gerada na terceira parte acima, mas em um formato ligeiramente diferente. O padrão de dados ausentes para cada caso é descrito na variável misspattern. Finalmente, a terceira tabela mostra a distribuição do número de valores faltantes por caso. Esta é a mesma informação discutida acima na parte 2. O número de variáveis ​​que cada caso está faltando também está contido na variável número de falta. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal dando um presente FAQ de Stata: Como posso ver o número de valores e padrões faltantes de valores perdidos no meu arquivo de dados Às vezes, um conjunto de dados pode ter quothassesquot, Isto é, valores faltantes. Alguns procedimentos estatísticos, como a análise de regressão, também não funcionam, ou em tudo, em um conjunto de dados com valores faltantes. As observações com valores em falta devem ser excluídas ou os valores em falta devem ser substituídos para que um procedimento estatístico produza resultados significativos. A maioria dos programas estatísticos (incluindo SAS, SPSS e Stata) removerá automaticamente esses casos de qualquer análise que você executar (sem excluir os casos do conjunto de dados). É por isso que o quotnquot muitas vezes varia de análise para análise, mesmo que o conjunto de dados seja o mesmo. Diferentes variáveis ​​têm quantidades diferentes de dados ausentes e, portanto, alterar as variáveis ​​em um modelo altera o número de casos com dados completos em todas as variáveis ​​do modelo. Como o software deixa cair casos com valores faltantes para nós, é muito fácil abordar completamente os dados faltantes. No entanto, a presença de dados perdidos pode influenciar nossos resultados, especialmente quando um conjunto de dados ou mesmo uma única variável, está faltando uma grande porcentagem de valores. Assim, é sempre uma boa idéia verificar um conjunto de dados para dados em falta e pensar sobre como os dados em falta podem influenciar nossas análises. Esta página mostra alguns métodos para analisar os valores em falta em um conjunto de dados, esta informação pode ser usada para tomar decisões mais bem informadas sobre como lidar com os valores em falta. Antes de começar, precisamos de alguns dados com valores em falta, o código abaixo insere um pequeno conjunto de dados no Stata e, em seguida, exibe esses dados. Em um pequeno conjunto de dados, como o abaixo, é muito fácil ver os dados em bruto e ver onde os valores estão faltando. No entanto, quando os conjuntos de dados são amplos, precisamos de uma maneira mais sistemática de examinar nosso conjunto de dados para os valores em falta. Abaixo, mostramos algumas maneiras de fazer isso, usando os dados abaixo como exemplo. 1. Número de valores faltantes em relação ao número de valores não faltantes A primeira coisa que vamos fazer é determinar quais variáveis ​​têm muitos valores faltantes. Criamos um pequeno programa Stata chamado mdesc que conta o número de valores faltantes nas variáveis ​​numéricas e de caracteres. Você pode baixar o mdesc dentro do Stata, digitando findit mdesc (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso de finidit). Então você pode executar o mdesc para uma ou mais variáveis, conforme ilustrado abaixo. Agora, conhecemos o número de valores em falta em cada variável. Por exemplo, o salespric variável tem quatro valores faltantes e saltoapr tem dois valores faltantes. 2. Obter o número de valores faltantes por observação. Também podemos observar a distribuição dos valores perdidos nas observações. O código abaixo cria uma variável chamada nmis que fornece o número de valores faltantes para cada observação. A função rmiss2 () usada aqui é uma extensão para a função egen rmiss (). Ele conta o número de valores em falta na varlist. Rmiss2 () aceita as variáveis ​​de string e numéricas. (Stata rmiss () apenas aceita variáveis ​​numéricas.) Você pode baixar o rmiss2 () pela internet a partir do Stata digitando findit rmiss2 (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit ). Abaixo, nós tabulamos a variável que acabamos de criar. Olhando para a tabela de frequências, sabemos que existem quatro observações sem valores ausentes, nove observações com valores faltantes, uma observação com dois valores faltantes e uma observação com três valores faltantes. 3. Padrões de valores em falta Também podemos observar os padrões de valores em falta. Você pode baixar mvpatterns pela internet a partir do Stata digitando findit mvpatterns (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). O mvpatterns de comando produz saída para todas as variáveis ​​no conjunto de dados, para os padrões de dados ausentes em um subconjunto de variáveis, uma lista de variáveis ​​pode ser incluída, por exemplo, o totval improvável landval de mvpatterns. A saída produzida por mvpatterns é mostrada abaixo. A primeira tabela lista as variáveis, o tipo de armazenamento (tipo), o número de observações (obs), o número de valores ausentes (mv) e o rótulo variável se as variáveis ​​tiverem um. A segunda tabela contém as informações sobre o padrão de valores em falta. O primeiro bloco de colunas na saída mostra os padrões de dados ausentes. Dentro do bloco, cada variável é representada por uma coluna, uma quotquot indica que os valores dessa variável estão presentes em um dado padrão de dados faltando, um quot. quot indica que eles estão faltando. As colunas seguem a mesma ordem que a lista de variáveis ​​na primeira tabela, de modo que a primeira coluna na saída abaixo representa landval. A segunda melhorada. e assim por diante. Os padrões de dados ausentes estão listados em freqüência decrescente, aqui o padrão de dados faltando mais comum é a informação completa (quotquot). A tabela também mostra o número de valores ausentes nesse padrão (mv) e o número de casos com o padrão de dados ausente (freq). Com base nas informações da segunda tabela, sabemos que existem quatro observações sem valores faltantes, faltando dois casos apenas na variável salepric. E uma observação com valores perdidos na melhoria. Salepric e saltoapr. 4. Quando todas as variáveis ​​de interesse são numéricas. Os exemplos acima de tudo funcionam, independentemente de as variáveis ​​de interesse (ou seja, as variáveis ​​cujos padrões de dados perdidos você deseja examinar) sejam numéricas ou de cadeia. Quando todas as variáveis ​​que você deseja verificar por valores em falta são numéricas, podemos usar um programa chamado misschk para simplificar as etapas de examinar os dados que faltam em nosso conjunto de dados. (Nota: as variáveis ​​numéricas incluem aquelas com rótulos de valores que são strings, desde que os valores reais das variáveis ​​sejam armazenados como números.) Você pode fazer o download do misschk dentro do Stata digitando findit misschk (consulte Como posso usar o comando findit para Procure programas e obtenha ajuda adicional para obter mais informações sobre o uso do findit). Abaixo está o comando para misschk. Nós incluímos as cinco variáveis ​​em nosso conjunto de dados na lista de variáveis ​​após o comando misschk. No entanto, poderíamos ter deixado a lista de variáveis ​​em branco (ou seja, usamos apenas misschk. Gen (miss)), se tivéssemos, a misschk teria executado usando todas as variáveis ​​em nosso conjunto de dados. A lista de variáveis ​​só é necessária se quisermos executar o misschk em apenas algumas das variáveis ​​em nosso conjunto de dados. A opção gen (miss) diz ao misschk que queremos que ele crie duas novas variáveis, ambas começando com quotmissquot. Essas duas variáveis ​​serão denominadas misspattern e missnumber. A variável misspattern indica qual dos padrões de dados ausentes cada caso segue. A variável número de falta indica o número de valores em falta para cada caso. A saída para misschk consiste em três tabelas. A primeira tabela lista o número de valores em falta, bem como a percentagem em falta para cada variável, isto é semelhante à tabela produzida pelo mdesc na parte 1 acima. Esta tabela também contém uma coluna rotulada que atribui a cada variável um número que é usado para identificar a variável mais tarde na saída. A segunda tabela mostra a distribuição dos valores em falta. O padrão de falta é descrito usando os números variáveis ​​da primeira tabela e sublinhados (). Os números indicam quais variáveis ​​estão faltando nesse padrão, os sublinhados representam observações não faltantes. Por exemplo, a partir da segunda tabela vemos que dois casos têm valores faltantes na variável 1 (landval), mas dados completos em todas as outras variáveis ​​e que um caso está faltando dados nas variáveis ​​2, 4 e 5. A linha inferior mostra Que quatro casos não estão faltando nenhum valor (todos os sublinhados). Esta tabela mostra a mesma informação gerada na terceira parte acima, mas em um formato ligeiramente diferente. O padrão de dados ausentes para cada caso é descrito na variável misspattern. Finalmente, a terceira tabela mostra a distribuição do número de valores faltantes por caso. Esta é a mesma informação discutida acima na parte 2. O número de variáveis ​​que cada caso está faltando também está contido na variável número de falta. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal, dando um presente Módulo de Aprendizado STATA Dados perdidos 1. Introdução Este módulo explorará os dados faltantes no STATA, com foco em dados faltantes numéricos. Ele irá descrever como indicar a falta de dados em seus arquivos de dados brutos, bem como como dados faltantes são tratados nos comandos lógicos STATA e instruções de atribuição. Vamos ilustrar algumas das propriedades dos dados perdidos no STATA usando dados de um estudo de tempo de reação com oito assuntos indicados pelo ID da variável. E os tempos de reação dos sujeitos foram medidos em três pontos de tempo (trial1 trial2 trial3). O arquivo de dados de entrada é mostrado abaixo. Você pode notar que alguns dos tempos de reação são codificados usando um único. Como é o caso do assunto 2. A pessoa que mede o tempo para esse teste não mediu o tempo de resposta adequadamente, portanto, os dados para o segundo julgamento estão faltando. 2. Como o STATA lida com dados faltantes nos procedimentos STATA Como regra geral, os comandos STATA que executam cálculos de qualquer tipo manipulam dados ausentes, omitiendo os valores faltantes. No entanto, a forma como os valores em falta são omitidos nem sempre é consistente em todos os comandos, então, diga-nos alguns exemplos. Primeiro, let39s resumem nossas variáveis ​​de tempo de reação e veja como o STATA lida com os valores que faltam. Como você vê na saída abaixo, resuma os meios calculados usando 4 observações para trial1 e trial2 e 6 observações para trial3. Em suma, o comando de resumo executou os cálculos em todos os dados disponíveis. Um segundo exemplo, mostra como o comando tabulação ou tab1 lida com dados faltantes. Como resumir, tab1 usa apenas dados disponíveis. Observe que as porcentagens são calculadas com base no número total de casos não faltantes. É possível que você possa querer que as porcentagens sejam calculadas a partir do número total de observações, e a porcentagem em falta para cada variável mostrada na tabela. Isso pode ser alcançado incluindo a opção em falta após a tabulação. Comando, Let39s veja como o comando correlate lida com dados faltantes. Esperamos que ele execute os cálculos com base nos dados disponíveis e omita os valores em falta. Aqui está um exemplo de comando. A saída é mostrada abaixo. Observe como os valores em falta foram excluídos. O Stata executará a exclusão da lista e exibirá apenas correlação para as observações que tenham valores não faltantes em todas as variáveis ​​listadas. A Stata também permite a eliminação em pares. As correlações são exibidas para as observações que possuem valores não faltantes para cada par de variáveis. Isso pode ser feito usando o comando pwcorr. Usamos a opção obs para exibir o número de observação usado para cada par, como você pode ver, eles diferem dependendo da quantidade de falta. 3. Resumo de como os valores faltantes são tratados nos procedimentos STATA resumem. Para cada variável, o número de valores não faltantes é usado. Tabulação Por padrão, os valores em falta são excluídos e as porcentagens são baseadas no número de valores não faltantes. Se você usar a opção perdida no comando tab, as porcentagens são baseadas no número total de observações (não faltando e faltando) e a porcentagem de valores faltantes é relatada na tabela. Corrente Por padrão, as correlações são calculadas com base no número de pares com dados não faltantes (emparelhamento de dados faltantes). O comando pwcorr pode ser usado para solicitar que as correlações sejam computadas apenas para observações que tenham dados não faltantes para todas as variáveis ​​listadas após o comando pwcorr (eliminação de dados faltantes). Reg Se alguma das variáveis ​​listadas após o comando reg estiver faltando, as observações que faltam esse (s) valor (es) são excluídas da análise (ou seja, a eliminação de dados faltantes). Para outros procedimentos, consulte o manual STATA para obter informações sobre como os dados faltantes são tratados. 4. Valores faltantes nas declarações de atribuição É importante entender como os valores em falta são tratados nas declarações de atribuição. Considere o exemplo mostrado abaixo. O comando da lista a seguir ilustra como valores faltantes são tratados nas instruções de atribuição. A variável sum1 é baseada nas variáveis ​​trial1 trial2 e trial3. Se alguma dessas variáveis ​​estivesse faltando, o valor para sum1 estava configurado como ausente. Portanto, o sum1 está faltando para as observações 2, 3 e 4, como é o caso da observação 7. Como regra geral, os cálculos envolvendo valores faltantes produzem valores faltantes. Por exemplo, 2 2 produz 4 2. rendimentos . 2 2 produz 1. 2 rendimentos. 2 3 produz 6 2. rendimentos . Sempre que você adicionar, subtrair, multiplicar, dividir, etc. valores que envolvem dados em falta, o resultado está faltando. Em nosso experimento de tempo de reação, o tempo de reação total sum1 está faltando para quatro dos sete casos. Poderíamos tentar totalizar os dados para os testes não faltantes, usando a função rowtotal como mostrado no exemplo abaixo. Os resultados abaixo mostram que sum2 agora contém a soma dos ensaios não faltantes. Observe que a função rowtotal trata faltando como um valor zero. Ao somar várias variáveis, pode não ser razoável tratar falta como zero se faltarem observações em todas as variáveis ​​a serem somadas. A função rowtotal com a opção ausente retornará um valor faltante se falta uma observação em todas as variáveis. Outras declarações funcionam de forma semelhante. Por exemplo, observou o que aconteceu quando tentamos criar uma variável média sem usar uma função (como no exemplo abaixo). Se alguma das variáveis ​​trial1, trial2 ou trial3 estiver faltando, o valor para avg1 está definido como ausente. Alternativamente, a função rowmean calcula a média dos dados para os testes que não faltam da mesma maneira que a função rowtotal. Nota: Houve um grande número de testes, digamos 50 tentativas, então seria irritante ter que digitar avgrowmean (trial1 trial2 trial3 trial4.). Aqui está um atalho que você pode usar neste tipo de situação: Finalmente, você pode usar as funções rowmiss e rownomiss para determinar o número de falta e o número de valores não faltantes, respectivamente, em uma lista de variáveis. Isso é ilustrado abaixo. Para nomiss variável. As observações 1, 5 e 6 tinham três valores válidos, as observações 2 e 3 tinham dois valores válidos, a observação 4 tinha apenas um valor válido e a observação 7 não tinha valores válidos. A variável miss mostra o contrário, fornece uma contagem do número de valores em falta. 5. Missing values in logical statements It is important to understand how missing values are handled in logical statements. For example, say that you want to create a 01 variable for trial1 that is 1 if it is 1.5 or less, and 0 if it is over 1.5. We show this below (incorrectly, as you will see). It appears that something went wrong with our newly created variable newvar1 . The observations with missing values for trial2 were assigned a zero for newvar1. Let39s explore why this happened by looking at the frequency table of trial2 . As you can see in the output, missing values are at the listed after the highest value 2.1 This is because STATA treats a missing value as the largest possible value (e. g. positive infinity) and that value is greater than 2.1, so then the values for newvar1 become 0. Now that we understand how STATA treats missing values, we will explicitly exclude missing values to make sure they are treated properly, as shown below. As you can see in the STATA output below, the new variable newvar2 has missing values for observations that are also missing for trial2 . 6. Missing values in logical statements When creating or recoding variables that involve missing values, always pay attention to whether the variable includes missing values. 7. For more information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment