Sessão/Session 2: Corpora de Aprendizes e Ferramentas de processamento de corpora / Learner Corpora and Corpus-processing Tools

by blogadmin

Sessão/Session 2: Corpora de Aprendizes e Ferramentas de processamento de corpora / Learner Corpora and Corpus-processing Tools

2.1. Pacotes lexicais em corpora de aprendizes (Deise Prina Dutra e Tony Berber Sardinha, UFMG e PUC-SP)

Desde que Firth (1935) ponderou que o significado de uma palavra dependia muito das outras palavras com as quais ela ocorria, muitos linguistas têm se ocupado em desvendar os padrões de colocações, unidades pré-fabricadas ou sequências formulaicas (c.f. Wray 2002, Schmitt 2004). Esses estudos têm se tornado cada vez mais profícuos devido aos desenvolvimentos computacionais que tornam possível a identificação de padrões lexicais com palavras tanto de baixa quanto de alta frequência (e.g. “rancid butter (but not *rancid bread) ... go grey, brown, white; people go (but not *turn)” O´Keefee, McCarthy and Carter 2007: 59) em grandes coletâneas de textos. Ressaltamos os estudos que têm utilizado o termo ‘pacotes lexicais’ (lexical bundles; Biber et al. 1999) pelo amplo escopo em que enquadram o fenômeno linguístico de padrões lexicais. Pacotes lexicais são definidos, então, como “simplesmente sequências de  palavras que comumente estão juntas em discurso natural” (Biber et al. 1999: 990). A ocorrência desses pacotes no discurso acadêmico têm sido enfocada de diversos modos, como por exemplo em relação a diferenças entre registros do discurso universitário (Biber at al. 2004) e entre diferentes disciplinas (Hyland 2008). A extração de pacotes lexicais é computacionalmente trivial, ou seja, a maioria dos programas de processamento de corpora os identifica. Por outro lado, sua classificação em categorias semânticas, pragmáticas, textuais e/ou discursivas é muito complexa, dependendo de julgamento humano, e tem sido objeto de poucos estudos até o momento (como Biber et al. 1999, Hyland  2008 e Simpson-Vlach & Ellis 2010). O uso de colocações e seqüências formulaicas por falantes não nativos (FNs) é um assunto de crescente interesse na área de análise contrastiva da interlíngua (Granger 1998) baseada em corpus. Resultados de pesquisa indicam que corpora de aprendizes contêm unidades pré-fabricadas com diferentes usos sintáticos e funções pragmáticas  (de Cock et al. 1998) das produzidas por falantes nativos; e mais pacotes com verbo e organizadores discursivos ocorrem em corpora de aprendizes do que em corpora de textos publicados, além de apresentarem tendência de grandes generalizações e repetição de certas expressões idiomáticas (Chen & Baker 2010). Não havia, no entanto, até o presente estudo, uma ampla classificação de pacotes lexicais em corpora de aprendizes.  O objetivo deste trabalho, que relata pesquisa de pós-doutoramento, é identificar e classificar pacotes lexicais em três corpora de textos escritos de aprendizes de acordo com as categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic Formulas List (AFL), oriunda do Michigan Corpus of Academic Spoken English (MICASE), do British National Corpus e do corpus de Hyland (2004). Os corpora enfocados são Louvain Corpus of Native English Essays – LOCNESS, International Corpus of Learner English - ICLE e o Br-ICLE, subcorpus do ICLE com textos de alunos brasileiros, que juntos somam 4.251.714 palavras. Este é o primeiro estudo que promove uma classificação de pacotes lexicais de todo o ICLE. A metodologia incluiu os seguintes passos. Primeiramente, os pacotes de 3 e 4 palavras foram extraídos de cada corpora com um scripts especialmente criados para esta investigação. Em segundo lugar, os pacotes foram categorizados manualmente nas categorias principais (expressão referencial, expressões de julgamento e organizadores discursivos) e secundárias da AFL (e.g. atributos de enquadramento tangíveis e não tangíveis, expressões de habilidade e possibilidade, metadiscurso e referência textual), num total de 18 subcategorias. Posteriormente, verificamos quais categorias são as mais frequentes em cada corpora. Em seguida, analisamos subcategorias especificas e geramos linhas de concordância (com scripts específicos e com o WordSmith Tools) para verificar seu uso em contexto bem como os padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer. Em terceiro lugar, a dispersão dessas ocorrências nos textos do Br-ICLE foi identificada, e testes estatísticos (qui-quadrado e F) foram aplicados para verificar se havia diferenças significativas entre as ocorrências nos corpora. Os resultados revelam que: a) a categoria mais frequente é a de expressões referenciais, o que reflete os achados de Simpson-Vlack e Ellis (2010), com exceção de diferenças na frequência de certos pacotes lexicais, tais como with regard to; b) dentre as expressões de julgamento, há poucos atenuadores (e.g. likely) e, há preferência por expressões de avaliação (e.g. it is important to) no Br-ICLE; c) na subcategoria expressões de habilidade e possibilidade (categoria expressões de julgamento) houve o uso de certos pacotes lexicais, porém, constatamos, uma diferença significativa (p=0.022) entre o LOCNESS e o Br-ICLE quanto às ocorrências de be able to; d) o programa de análise de pacotes lexicais, desenvolvido para esta pesquisa e em período de teste, tem se mostrado uma boa ferramenta para análise de redações de aprendizes de inglês. Concluímos que há diferenças entre os corpora quanto ao uso de pacotes lexicais, principalmente, entre os corpora LOCNESS e Br-ICLE. Essas diferenças se tornam mais significativas na categoria de expressões de julgamento. No seu conjunto, as diferenças entre os corpora de aprendizes e o corpus LOCNESS ajudam a traçar um perfil léxico-gramatical (Berber Sardinha, no prelo) da escrita de alunos de inglês como língua estrangeira, apontando a utilização de padrões produtivos da língua que podem colaborar para que a escrita desses aprendizes se torne mais proficiente. Além das várias ferramentas desenvolvidas para processar os corpora, a pesquisa ainda permitiu criar um software dedicado exclusivamente à identificação e classificação de pacotes lexicais. Durante a apresentação será feita uma demonstração do programa, indicando seu potencial bem como suas limitações. O programa de identificação de pacotes lexicais pode ser um caminho promissor para ajudar a disseminar o uso de desse tipo de construção como instrumento de análise de corpora de aprendizes, na medida em que fornece uma classificação automática inicial ao pesquisador.

2.2. Notas metodológicas para a elaboração de corpora digitais para fins didáticos de excertos de prosa grega antiga baseados em keywords (Anise A. G. D'Orange Ferreira, FCL/ Araraquara, UNESP)

Esta comunicação tem como objetivo apresentar as motivações de um projeto em andamento  para se elaborar corpora digitais para fins didáticos, de excertos de textos de prosa grega antiga, adotados no ensino de grego em curso superior, e discutir alguns pontos, critérios e procedimentos metodológicos envolvidos no processo, bem como apresentar alguns resultados já obtidos. Os métodos de ensino de língua grega, em sua maioria, seguem uma sequência baseada na divisão tradicional das gramáticas gregas, para contemplar as competências linguísticas necessárias à leitura de textos clássicos.  Com isso, textos não-autênticos são criados para limitar a prática de leitura a uma variação linguística restrita à  seção gramatical particularmente estudada. Assim, critérios baseados mais na manutenção da tradição, do que em procedimentos empíricos, como frequência de uso, tem sido aplicados.  Com a digitalização de grandes corpora de textos gregos e criação de mecanismos automáticos de recuperação de informações lexicais, tornou-se possível testar e acrescentar novos critérios e procedimentos empíricos para a elaboração de materiais didáticos para o ensino de língua grega antiga. Dessa forma, as competências linguísticas podem ser associadas a indicadores empíricos de frequência e não apenas a de complexidade formal,  independente de uso. Naturalmente, novos critérios são acompanhados de novas questões e problemas metodológicos. Uma das questões é decidir os limiares de frequência adequados para a definição e seleção de unidades lexicais e frasais em um corpus com finalidade didática. Alguns indicadores  quantitativos  tem sido calculados, como a obtenção do número de ocorrência de palavras, types e tokens, em  obras clássicas dentro de um grande projeto de biblioteca digital chamado Perseus Web Project, com um acervo, embora grande, limitado a materiais em domínio público ou com distribuição  pública autorizada. Nesse projeto, disponível gratuitamente na Internet, todas as palavras do acervo são indexadas e vinculadas às entradas correspondentes a um dicionário grego-inglês, para cálculo de lemas. Também são vinculadas a uma ferramenta que analisa automaticamente as  flexões, indicando gênero, número, caso, pessoa, tempo, modo, aspecto e voz  da palavra consultada, de acordo com sua categoria gramatical, i.e, substantivo,  adjetivo, pronome, artigo, verbo, advérbio, preposição, conjunção ou partícula. Com o acervo maior, de outro projeto, de acesso restrito a assinantes, Thesaurus Linguae Graecae (TLG), a área de estudos gregos da Universidade Católica de Louvain vem oferecendo com acesso aberto os textos digitais do TLG convertidos a unicode  e apresentados em formato de hipertexto, com lista de vocabulário,  itens lexicais em faixas de frequências em ordem decrescente, indicação de número types  e tokens.   A informação sobre a relação entre esses permite comparar a densidade lexical de obras previstas em um programa curricular, e selecionar, para alunos menos experientes, os menos densos. Ainda, a seleção de excertos de língua e modelos significativos  do ponto de vista do uso requer outros indicadores. A proposta aqui é discutir a utilização dos parâmetros de frequência e keyness nas  keywords como “nós” ou “âncoras” de co-ocorrências para localização de padrões frasais e seleção de excertos que contenham formas e estruturas relevantes ao ensino da leitura de textos de prosa grega, nos níveis possíveis, morfossintático, semântico e enunciativo. A finalidade maior da proposta é extrair excertos de obras selecionadas de 14 prosadores gregos de diferentes períodos e estilos,  a saber : Apolodoro (I-II d.C.), Artemidoro (II d.C.), Aristóteles (IV a.C.), Demóstenes (IV a.C.), Diógenes Laércio (III d.C.), Esopo (VI a.C.), Górgias ( V-IV a.C.), Heródoto (V a.C.), Isócrates (V-IV a.C.), Lísias (V-IV a.C.), Platão (V e IV a.C.), Plutarco (I-II d.C), Tucídides (V a.C.) e Xenofonte (V-IV a.C.). Para demonstrar e discutir os procedimentos metodológicos, foi selecionado o corpus da Poética,  de Aristóteles. Os procedimentos envolveram a extração de parâmetros gerais do corpus, como tamanho, número de palavras (tokens  e types), e lista de frequência de ocorrências de itens lexicais por ordem decrescente, uma lista por ordem alfabética, e pelas terminações (o que permite observar as flexões recorrentes), bem como listas de ocorrências de n-grams e clusters. Algumas particularidades do texto grego são observadas em relação ao alfabeto e à transmissão. Para a extração de keywords,  discutem-se   parâmetros para a definição do corpus de referência, como tamanho e  diversidade, e os valores críticos  para keyness obtido por LL (Log-likelihood) calculado pelo software AntConc. Com 376  keywords  selecionadas ao nível de significância associado a valores de keyness  superiores a 10,83 (p<0,001), ou com 1197 keywords,  considerando-se o escore médio, 7,88 (p<0,005), comparou-se o resultado  com os itens mais frequentes em termos de distribuição de frequência de ocorrências e postos. Na lista de keywords,  pôde-se observar, logo entre as primeiras 20 palavras de maior keyness, tópicos importantíssimos tratados na Poética, como tragoidia (tragédia), mímesis (mímese, representação), epopoiía (epopéia) e  anagnorisis (reconhecimento),  nos casos genitivo, acusativo e nominativo,  e os verbos flexionados dei, (é preciso) e mimountai (representam). Na lista de frequência, tais termos aparecem depois do centésimo posto. Com  a verificação das concordâncias e dos clusters associados às keywords,  revelaram-se recorrências morfossintáticas (ex.: uso de dei  com infinitivos e partícula explicativa), destacando  mecanismos enunciativos (deôntico e epistêmico) e tipo de discurso (teórico); ainda com a recorrência de casos, observa-se o destaque de  papéis sintático-semânticos de determinados substantivos. Os presentes resultados parecem promissores para a elaboração de corpora com finalidade didática, de excertos de textos de prosa grega antiga, favorecendo a continuidade de refinamentos metodológicos com as demais obras.   Descritores úteis em diferentes níveis de linguagem podem ser obtidos pelos procedimentos empíricos levantados. Espera-se estender os testes com variações de corpus de referência e níveis de significância diferentes.  Embora sejam procedimentos largamente difundidos entre estudos com línguas modernas, sua aplicação em língua clássica para a finalidade proposta é recente e escassa.

2.3. Desenvolvimento de um parser de conectores textuais e sua aplicação para análise de gêneros textuais - Leonardo Zilio (Letras/UFRGS) e Rodrigo Wilkens (PPGC/UFRGS)

Neste trabalho, apresentamos dois estudos interligados. O primeiro estudo se relaciona ao desenvolvimento de uma ferramenta (um parser) de análise de corpora, enquanto o segundo se refere à aplicação dessa ferramenta para observar dados sobre os gêneros textuais. Começamos pela ferramenta. Os estudos sobre a Teoria de Estrutura Retórica (RST) não são muito desenvolvidos no âmbito lusófono. Apesar de haver estudos sobre o assunto, há poucas ferramentas que analisam automaticamente o fluxo textual e que tenham sido desenvolvidas especificamente para a nossa língua. Visando a suprir parte dessa lacuna, propusemo-nos, a partir de uma cooperação entre a Linguística e a Computação, a desenvolver uma ferramenta que faça uma análise a partir da varredura de corpora. Por motivos de escopo do trabalho, não há como abordar todas as lacunas existentes na análise automática de estruturas textuais para a língua portuguesa, de forma que optamos por abordar a concatenação oracional dos textos. Dessa forma, nosso objetivo foi criar uma ferramenta que não só quebrasse o texto em segmentos oracionais, mas também que classificasse os tipos de oração presentes nesse texto a partir dos conectores textuais, apresentando, assim, até certo nível, sua estrutura de coesão. Para realizar este trabalho, utilizamos uma abordagem linguística e uma abordagem computacional. Na parte linguística, a seção sobre junções apresentada na Gramática de Usos do Português foi de grande importância para a seleção e categorização inicial dos conectores textuais, servindo como base para posterior ampliação com base no corpus observado. Na parte computacional, utilizaram-se, como principal base teórica, artigos e trabalhos já realizados área de Processamento da Linguagem Natural (PLN), como o DiZer, desenvolvido junto ao Núcleo Institucional de Linguística Computacional (NILC). Nosso parser foi desenvolvido com base na linguagem de programação Java, por ser uma linguagem de fácil portabilidade, e integra também o parser de dependências do PALAVRAS. O corpus de teste era composto por 40 textos, perfazendo 4.105 tokens (o mesmo corpus utilizado para o DiZer). Esse dado foi obtido com o software WordSmith Tools 4. A razão do tamanho reduzido desse corpus foi seu objetivo: goldstandard e observação de novos conectores (não previstos pela Gramática de Usos). Como seria utilizado para fins de teste, o corpus foi manualmente anotado por um linguista. Nosso parser funciona da seguinte maneira: 1 – o texto a ser analisado é pré-processado; 2 – o PALAVRAS gera a anotação da árvore de dependências de cada uma das frases; 3 – a partir da anotação de dependências do PALAVRAS, o parser separa as orações/segmentos de acordo com regras e faz a anotação dos conectores encontrados em cada oração/segmento. As categorias de orações são as seguintes: aditiva, adversativa, causal, comparativa, concessiva, condicional, conformativa, consecutiva, final, modal, parafrástica, complementadora e temporal. Após a realização dos testes, obtivemos um percentual de acertos de 86,2% em relação ao corpus anotado. Tendo a ferramenta em mãos, partimos para a sua aplicação em um corpus de estudo. A motivação para este segundo trabalho foi observar até que ponto a microestrutura (neste caso, as conexões oracionais) é distinta entre textos de subáreas da Medicina. Escolhemos artigos científicos das áreas de Cardiologia e Radiologia por haver, na literatura, questionamentos quanto ao seu pertencimento a um mesmo gênero. Este estudo não tem um tom conclusivo quanto ao objetivo, pois estamos abordando apenas um parâmetro da microestrutura textual, mas intencionamos colaborar com essa discussão. Para atingirmos essa meta, montamos um corpus composto por 20 seções de artigos do periódico Arquivos Brasileiros de Cardiologia (v. 94, nº 5): 10 introduções (3.383 tokens) e 10 discussões (11.341 tokens); e 20 seções de artigos do periódico Radiologia Brasileira (v. 43, nº 2): 10 introduções (4.760 tokens) e 10 discussões (8.129 tokens). A análise procedeu da seguinte maneira: 1 – usando nosso parser, foi analisada cada uma das seções de artigos do corpus; 2 – dados sobre tipo de orações, quantidade de conectores e quantidade de segmentos foram armazenados em uma planilha do Excel; 3 – a partir dessa planilha, foram levantados resultados estatísticos sobre a microestrutura oracional do corpus de estudo. Além do Excel 2007, também foi utilizado o software Statistica7 para fins de cálculos estatísticos. Os resultados mostraram que a Cardiologia e a Radiologia se opõem quando comparadas as seções de seus artigos. Nas introduções, a Radiologia apresentou 41,57% de segmentos com conectores, contra 39,44% da Cardiologia. Já nas discussões, a Cardiologia apresentou 46,53% de segmentos com conectores, contra 45,20% da Radiologia. Apesar dessa oposição, a proximidade dos resultados deixa bastante claro que a diferença não é significativa, o que foi comprovado pelo teste t. As introduções da Radiologia se destacaram pela presença mais marcante de orações relativas, enquanto a Cardiologia teve uma curva mais suave, com picos nas relativas, complementadoras e causais. Nas seções de discussão, as complementadoras assumem a ponta, nas duas subáreas, deixando as relativas em segundo lugar, na Cardiologia, porém, a diferença entre ambas é menor. Por fim, nosso parser se mostrou uma ferramenta confiável para a análise de corpora. Cerca de 1/5 dos erros foram herdados do PALAVRAS. E pouco mais da metade dos erros tem como origem determinadas orações coordenadas que optamos por não tratar nesta primeira versão do parser. Este trabalho não está encerrado e prevemos melhorias para sua próxima versão, incluindo o tratamento dessas orações coordenadas. Apesar de ainda não estar em sua versão mais robusta, o parser permitiu a análise de corpus e auxiliou a alcançar os objetivos propostos para um trabalho linguístico. Após a observação do corpus de estudo, percebemos que as seções observadas de Cardiologia e Radiologia não apresentam diferenças significativas, de forma que poderíamos tomar o corpus como um todo para fazermos asserções sobre a área da Medicina. Ainda não acreditamos em tal possibilidade porque é necessário compararmos esses dados com dados de outras subáreas, para garantirmos que essa homogeneidade se propaga através da Medicina.

 

2.4. O mapeador semântico como ferramenta para o estudo de mapas conceituais em corpora eletrônicos (Marcos Gustavo Richter, UFSM)

Esta comunicação tem por objetivo apresentar um novo software de análise semântica de corpora eletrônicos, desenvolvido conjuntamente sob os auspícios da Pontifícia Universidade Católica de São Paulo e a Universidade Federal de Santa Maria, Rio Grande do Sul. Esta ferramenta aplica o princípio da medida da recorrência de strings em listas de concordância de nódulos-problema, candidatos para campos semânticos hipotéticos de corpora analisados.  Ao analisar qualitativa e quantitativamente as interconexões dos cotextos, o Mapeador coloca à disposição do usuário informações sobre o comportamento em rede semântica dos nódulos de interesse de sua pesquisa, as quais podem ser utilizadas qualitativa e/ou quantitativamente para elucidar questões acerca das associações semânticas das palavras, bem como das respectivas forças associativas e, dessa maneira, auxiliar no mapeamento conceitual do corpus. O Mapeador Semântico requer o upload de arquivo único em formato txt, sobre o qual opera comparando cotextos de palavras selecionadas, localizando, identificando, quantificando e totalizando os colocados coincidentes (links), exceto palavras por ignorar. Os resultados são disponibilizados e exibidos na forma de um lote de arquivos texto com listagens de informações quantificadas, assim distribuídas: a) nodulos.txt: as palavras pesquisadas; b) results_left.txt: comparação dos contextos à esquerda; c) results_left_right.txt: comparação dos contextos à esquerda com os da direita; d) results_position_by_position.txt: comparação de posição a posição; e) results_right.txt: comparação dos contextos à direita; f) results_right_left.txt: comparação dos contextos à direita com os da esquerda. É recomendável refinar os resultados pela inclusão de uma lista de palavras para ignorar. Nesse caso, o uso desta listagem pelo programa é confirmada pela sua presença no referido lote de arquivos, com a identificação stopwords.tmp. As propriedades do Mapeador são demonstradas por meio de um estudo da formação de conceitos emergentes a respeito do professor de línguas com base na linguística de corpus. O contexto da pesquisa são as iniciativas de apoio à formação inicial e continuada de profissionais qualificados numa determinada área de atuação, no caso, a Licenciatura em Letras.  O corpus de cerca de trinta mil palavras resultou da compilação de um ano de artigos publicados em uma conhecida revista direcionada a esses profissionais. A questão que deu origem a este estudo é: Com a introdução de novas tecnologias em contextos de ensino, as expectativas sobre o papel do professor de línguas mostram tendência a alteração ou insistem em estereótipos prejudiciais à emancipação profissional? O referencial teórico para a interpretação dos dados foi a Teoria Holística da Atividade, um modelo heurístico especial resultante de contribuições da Teoria dos Sistemas Sociais de Niklas Luhmann e da Semiótica de Charles S. Peirce. A metodologia adotada para esta investigação alicerçou-se na linguística de corpus e empregou como ferramentas computacionais o programa WordSmith Tools 4.0 e o Mapeador Semântico. Com este último, utilizou-se a medida da coesão semântica entre categorias nodulares denominada Razão Vinculativa Nodular Comparada (RVNC). Os procedimentos metodológicos seguiram as seguintes etapas: a) Conversão dos artigos selecionados em arquivos-texto e compilação em pasta; b) Obtenção de Wordlist; c) Seleção dos dois nódulos-problema, da categoria Recursos, e dos três nódulos mais frequentes nas categorias de Estratégias e Conceitos; d) Geração dos arquivos-estudo resultantes do processamento das listas no Mapeador Semântico; e) Cálculo das freqüências absolutas de conexão nodular e das RVNCs; f) Lançamento gráfico dos resultados e interpretação segundo a Teoria Holística. Os resultados, ainda em fase exploratória, são sugestivos de manutenção do papel de “técnico heterodirigido” mesmo em face dos recursos da informática e da Internet no contexto de ensino de línguas.

 

 

No feedback yet

Comments are not allowed from anonymous visitors.