Sessão/Session 2: Corpora de Aprendizes e Ferramentas de processamento de corpora / Learner Corpora and Corpus-processing Tools

by blogadmin

Sessão/Session 2: Corpora de Aprendizes e Ferramentas de processamento de corpora / Learner Corpora and Corpus-processing Tools

2.1. Pacotes lexicais em corpora de aprendizes (Deise Prina Dutra e Tony Berber Sardinha, UFMG e PUC-SP)

Desde que Firth (1935) ponderou que o significado de uma palavra dependia muito das outras palavras com as quais ela ocorria, muitos linguistas têm se ocupado em desvendar os padrões de colocações, unidades pré-fabricadas ou sequências formulaicas (c.f. Wray 2002, Schmitt 2004). Esses estudos têm se tornado cada vez mais profícuos devido aos desenvolvimentos computacionais que tornam possível a identificação de padrões lexicais com palavras tanto de baixa quanto de alta frequência (e.g. “rancid butter (but not *rancid bread) ... go grey, brown, white; people go (but not *turn)” O´Keefee, McCarthy and Carter 2007: 59) em grandes coletâneas de textos. Ressaltamos os estudos que têm utilizado o termo ‘pacotes lexicais’ (lexical bundles; Biber et al. 1999) pelo amplo escopo em que enquadram o fenômeno linguístico de padrões lexicais. Pacotes lexicais são definidos, então, como “simplesmente sequências de  palavras que comumente estão juntas em discurso natural” (Biber et al. 1999: 990). A ocorrência desses pacotes no discurso acadêmico têm sido enfocada de diversos modos, como por exemplo em relação a diferenças entre registros do discurso universitário (Biber at al. 2004) e entre diferentes disciplinas (Hyland 2008). A extração de pacotes lexicais é computacionalmente trivial, ou seja, a maioria dos programas de processamento de corpora os identifica. Por outro lado, sua classificação em categorias semânticas, pragmáticas, textuais e/ou discursivas é muito complexa, dependendo de julgamento humano, e tem sido objeto de poucos estudos até o momento (como Biber et al. 1999, Hyland  2008 e Simpson-Vlach & Ellis 2010). O uso de colocações e seqüências formulaicas por falantes não nativos (FNs) é um assunto de crescente interesse na área de análise contrastiva da interlíngua (Granger 1998) baseada em corpus. Resultados de pesquisa indicam que corpora de aprendizes contêm unidades pré-fabricadas com diferentes usos sintáticos e funções pragmáticas  (de Cock et al. 1998) das produzidas por falantes nativos; e mais pacotes com verbo e organizadores discursivos ocorrem em corpora de aprendizes do que em corpora de textos publicados, além de apresentarem tendência de grandes generalizações e repetição de certas expressões idiomáticas (Chen & Baker 2010). Não havia, no entanto, até o presente estudo, uma ampla classificação de pacotes lexicais em corpora de aprendizes.  O objetivo deste trabalho, que relata pesquisa de pós-doutoramento, é identificar e classificar pacotes lexicais em três corpora de textos escritos de aprendizes de acordo com as categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic Formulas List (AFL), oriunda do Michigan Corpus of Academic Spoken English (MICASE), do British National Corpus e do corpus de Hyland (2004). Os corpora enfocados são Louvain Corpus of Native English Essays – LOCNESS, International Corpus of Learner English - ICLE e o Br-ICLE, subcorpus do ICLE com textos de alunos brasileiros, que juntos somam 4.251.714 palavras. Este é o primeiro estudo que promove uma classificação de pacotes lexicais de todo o ICLE. A metodologia incluiu os seguintes passos. Primeiramente, os pacotes de 3 e 4 palavras foram extraídos de cada corpora com um scripts especialmente criados para esta investigação. Em segundo lugar, os pacotes foram categorizados manualmente nas categorias principais (expressão referencial, expressões de julgamento e organizadores discursivos) e secundárias da AFL (e.g. atributos de enquadramento tangíveis e não tangíveis, expressões de habilidade e possibilidade, metadiscurso e referência textual), num total de 18 subcategorias. Posteriormente, verificamos quais categorias são as mais frequentes em cada corpora. Em seguida, analisamos subcategorias especificas e geramos linhas de concordância (com scripts específicos e com o WordSmith Tools) para verificar seu uso em contexto bem como os padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer. Em terceiro lugar, a dispersão dessas ocorrências nos textos do Br-ICLE foi identificada, e testes estatísticos (qui-quadrado e F) foram aplicados para verificar se havia diferenças significativas entre as ocorrências nos corpora. Os resultados revelam que: a) a categoria mais frequente é a de expressões referenciais, o que reflete os achados de Simpson-Vlack e Ellis (2010), com exceção de diferenças na frequência de certos pacotes lexicais, tais como with regard to; b) dentre as expressões de julgamento, há poucos atenuadores (e.g. likely) e, há preferência por expressões de avaliação (e.g. it is important to) no Br-ICLE; c) na subcategoria expressões de habilidade e possibilidade (categoria expressões de julgamento) houve o uso de certos pacotes lexicais, porém, constatamos, uma diferença significativa (p=0.022) entre o LOCNESS e o Br-ICLE quanto às ocorrências de be able to; d) o programa de análise de pacotes lexicais, desenvolvido para esta pesquisa e em período de teste, tem se mostrado uma boa ferramenta para análise de redações de aprendizes de inglês. Concluímos que há diferenças entre os corpora quanto ao uso de pacotes lexicais, principalmente, entre os corpora LOCNESS e Br-ICLE. Essas diferenças se tornam mais significativas na categoria de expressões de julgamento. No seu conjunto, as diferenças entre os corpora de aprendizes e o corpus LOCNESS ajudam a traçar um perfil léxico-gramatical (Berber Sardinha, no prelo) da escrita de alunos de inglês como língua estrangeira, apontando a utilização de padrões produtivos da língua que podem colaborar para que a escrita desses aprendizes se torne mais proficiente. Além das várias ferramentas desenvolvidas para processar os corpora, a pesquisa ainda permitiu criar um software dedicado exclusivamente à identificação e classificação de pacotes lexicais. Durante a apresentação será feita uma demonstração do programa, indicando seu potencial bem como suas limitações. O programa de identificação de pacotes lexicais pode ser um caminho promissor para ajudar a disseminar o uso de desse tipo de construção como instrumento de análise de corpora de aprendizes, na medida em que fornece uma classificação automática inicial ao pesquisador.

2.2. Notas metodológicas para a elaboração de corpora digitais para fins didáticos de excertos de prosa grega antiga baseados em keywords (Anise A. G. D'Orange Ferreira, FCL/ Araraquara, UNESP)

Esta comunicação tem como objetivo apresentar as motivações de um projeto em andamento  para se elaborar corpora digitais para fins didáticos, de excertos de textos de prosa grega antiga, adotados no ensino de grego em curso superior, e discutir alguns pontos, critérios e procedimentos metodológicos envolvidos no processo, bem como apresentar alguns resultados já obtidos. Os métodos de ensino de língua grega, em sua maioria, seguem uma sequência baseada na divisão tradicional das gramáticas gregas, para contemplar as competências linguísticas necessárias à leitura de textos clássicos.  Com isso, textos não-autênticos são criados para limitar a prática de leitura a uma variação linguística restrita à  seção gramatical particularmente estudada. Assim, critérios baseados mais na manutenção da tradição, do que em procedimentos empíricos, como frequência de uso, tem sido aplicados.  Com a digitalização de grandes corpora de textos gregos e criação de mecanismos automáticos de recuperação de informações lexicais, tornou-se possível testar e acrescentar novos critérios e procedimentos empíricos para a elaboração de materiais didáticos para o ensino de língua grega antiga. Dessa forma, as competências linguísticas podem ser associadas a indicadores empíricos de frequência e não apenas a de complexidade formal,  independente de uso. Naturalmente, novos critérios são acompanhados de novas questões e problemas metodológicos. Uma das questões é decidir os limiares de frequência adequados para a definição e seleção de unidades lexicais e frasais em um corpus com finalidade didática. Alguns indicadores  quantitativos  tem sido calculados, como a obtenção do número de ocorrência de palavras, types e tokens, em  obras clássicas dentro de um grande projeto de biblioteca digital chamado Perseus Web Project, com um acervo, embora grande, limitado a materiais em domínio público ou com distribuição  pública autorizada. Nesse projeto, disponível gratuitamente na Internet, todas as palavras do acervo são indexadas e vinculadas às entradas correspondentes a um dicionário grego-inglês, para cálculo de lemas. Também são vinculadas a uma ferramenta que analisa automaticamente as  flexões, indicando gênero, número, caso, pessoa, tempo, modo, aspecto e voz  da palavra consultada, de acordo com sua categoria gramatical, i.e, substantivo,  adjetivo, pronome, artigo, verbo, advérbio, preposição, conjunção ou partícula. Com o acervo maior, de outro projeto, de acesso restrito a assinantes, Thesaurus Linguae Graecae (TLG), a área de estudos gregos da Universidade Católica de Louvain vem oferecendo com acesso aberto os textos digitais do TLG convertidos a unicode  e apresentados em formato de hipertexto, com lista de vocabulário,  itens lexicais em faixas de frequências em ordem decrescente, indicação de número types  e tokens.   A informação sobre a relação entre esses permite comparar a densidade lexical de obras previstas em um programa curricular, e selecionar, para alunos menos experientes, os menos densos. Ainda, a seleção de excertos de língua e modelos significativos  do ponto de vista do uso requer outros indicadores. A proposta aqui é discutir a utilização dos parâmetros de frequência e keyness nas  keywords como “nós” ou “âncoras” de co-ocorrências para localização de padrões frasais e seleção de excertos que contenham formas e estruturas relevantes ao ensino da leitura de textos de prosa grega, nos níveis possíveis, morfossintático, semântico e enunciativo. A finalidade maior da proposta é extrair excertos de obras selecionadas de 14 prosadores gregos de diferentes períodos e estilos,  a saber : Apolodoro (I-II d.C.), Artemidoro (II d.C.), Aristóteles (IV a.C.), Demóstenes (IV a.C.), Diógenes Laércio (III d.C.), Esopo (VI a.C.), Górgias ( V-IV a.C.), Heródoto (V a.C.), Isócrates (V-IV a.C.), Lísias (V-IV a.C.), Platão (V e IV a.C.), Plutarco (I-II d.C), Tucídides (V a.C.) e Xenofonte (V-IV a.C.). Para demonstrar e discutir os procedimentos metodológicos, foi selecionado o corpus da Poética,  de Aristóteles. Os procedimentos envolveram a extração de parâmetros gerais do corpus, como tamanho, número de palavras (tokens  e types), e lista de frequência de ocorrências de itens lexicais por ordem decrescente, uma lista por ordem alfabética, e pelas terminações (o que permite observar as flexões recorrentes), bem como listas de ocorrências de n-grams e clusters. Algumas particularidades do texto grego são observadas em relação ao alfabeto e à transmissão. Para a extração de keywords,  discutem-se   parâmetros para a definição do corpus de referência, como tamanho e  diversidade, e os valores críticos  para keyness obtido por LL (Log-likelihood) calculado pelo software AntConc. Com 376  keywords  selecionadas ao nível de significância associado a valores de keyness  superiores a 10,83 (p<0,001), ou com 1197 keywords,  considerando-se o escore médio, 7,88 (p<0,005), comparou-se o resultado  com os itens mais frequentes em termos de distribuição de frequência de ocorrências e postos. Na lista de keywords,  pôde-se observar, logo entre as primeiras 20 palavras de maior keyness, tópicos importantíssimos tratados na Poética, como tragoidia (tragédia), mímesis (mímese, representação), epopoiía (epopéia) e  anagnorisis (reconhecimento),  nos casos genitivo, acusativo e nominativo,  e os verbos flexionados dei, (é preciso) e mimountai (representam). Na lista de frequência, tais termos aparecem depois do centésimo posto. Com  a verificação das concordâncias e dos clusters associados às keywords,  revelaram-se recorrências morfossintáticas (ex.: uso de dei  com infinitivos e partícula explicativa), destacando  mecanismos enunciativos (deôntico e epistêmico) e tipo de discurso (teórico); ainda com a recorrência de casos, observa-se o destaque de  papéis sintático-semânticos de determinados substantivos. Os presentes resultados parecem promissores para a elaboração de corpora com finalidade didática, de excertos de textos de prosa grega antiga, favorecendo a continuidade de refinamentos metodológicos com as demais obras.   Descritores úteis em diferentes níveis de linguagem podem ser obtidos pelos procedimentos empíricos levantados. Espera-se estender os testes com variações de corpus de referência e níveis de significância diferentes.  Embora sejam procedimentos largamente difundidos entre estudos com línguas modernas, sua aplicação em língua clássica para a finalidade proposta é recente e escassa.

2.3. Desenvolvimento de um parser de conectores textuais e sua aplicação para análise de gêneros textuais - Leonardo Zilio (Letras/UFRGS) e Rodrigo Wilkens (PPGC/UFRGS)

Neste trabalho, apresentamos dois estudos interligados. O primeiro estudo se relaciona ao desenvolvimento de uma ferramenta (um parser) de análise de corpora, enquanto o segundo se refere à aplicação dessa ferramenta para observar dados sobre os gêneros textuais. Começamos pela ferramenta. Os estudos sobre a Teoria de Estrutura Retórica (RST) não são muito desenvolvidos no âmbito lusófono. Apesar de haver estudos sobre o assunto, há poucas ferramentas que analisam automaticamente o fluxo textual e que tenham sido desenvolvidas especificamente para a nossa língua. Visando a suprir parte dessa lacuna, propusemo-nos, a partir de uma cooperação entre a Linguística e a Computação, a desenvolver uma ferramenta que faça uma análise a partir da varredura de corpora. Por motivos de escopo do trabalho, não há como abordar todas as lacunas existentes na análise automática de estruturas textuais para a língua portuguesa, de forma que optamos por abordar a concatenação oracional dos textos. Dessa forma, nosso objetivo foi criar uma ferramenta que não só quebrasse o texto em segmentos oracionais, mas também que classificasse os tipos de oração presentes nesse texto a partir dos conectores textuais, apresentando, assim, até certo nível, sua estrutura de coesão. Para realizar este trabalho, utilizamos uma abordagem linguística e uma abordagem computacional. Na parte linguística, a seção sobre junções apresentada na Gramática de Usos do Português foi de grande importância para a seleção e categorização inicial dos conectores textuais, servindo como base para posterior ampliação com base no corpus observado. Na parte computacional, utilizaram-se, como principal base teórica, artigos e trabalhos já realizados área de Processamento da Linguagem Natural (PLN), como o DiZer, desenvolvido junto ao Núcleo Institucional de Linguística Computacional (NILC). Nosso parser foi desenvolvido com base na linguagem de programação Java, por ser uma linguagem de fácil portabilidade, e integra também o parser de dependências do PALAVRAS. O corpus de teste era composto por 40 textos, perfazendo 4.105 tokens (o mesmo corpus utilizado para o DiZer). Esse dado foi obtido com o software WordSmith Tools 4. A razão do tamanho reduzido desse corpus foi seu objetivo: goldstandard e observação de novos conectores (não previstos pela Gramática de Usos). Como seria utilizado para fins de teste, o corpus foi manualmente anotado por um linguista. Nosso parser funciona da seguinte maneira: 1 – o texto a ser analisado é pré-processado; 2 – o PALAVRAS gera a anotação da árvore de dependências de cada uma das frases; 3 – a partir da anotação de dependências do PALAVRAS, o parser separa as orações/segmentos de acordo com regras e faz a anotação dos conectores encontrados em cada oração/segmento. As categorias de orações são as seguintes: aditiva, adversativa, causal, comparativa, concessiva, condicional, conformativa, consecutiva, final, modal, parafrástica, complementadora e temporal. Após a realização dos testes, obtivemos um percentual de acertos de 86,2% em relação ao corpus anotado. Tendo a ferramenta em mãos, partimos para a sua aplicação em um corpus de estudo. A motivação para este segundo trabalho foi observar até que ponto a microestrutura (neste caso, as conexões oracionais) é distinta entre textos de subáreas da Medicina. Escolhemos artigos científicos das áreas de Cardiologia e Radiologia por haver, na literatura, questionamentos quanto ao seu pertencimento a um mesmo gênero. Este estudo não tem um tom conclusivo quanto ao objetivo, pois estamos abordando apenas um parâmetro da microestrutura textual, mas intencionamos colaborar com essa discussão. Para atingirmos essa meta, montamos um corpus composto por 20 seções de artigos do periódico Arquivos Brasileiros de Cardiologia (v. 94, nº 5): 10 introduções (3.383 tokens) e 10 discussões (11.341 tokens); e 20 seções de artigos do periódico Radiologia Brasileira (v. 43, nº 2): 10 introduções (4.760 tokens) e 10 discussões (8.129 tokens). A análise procedeu da seguinte maneira: 1 – usando nosso parser, foi analisada cada uma das seções de artigos do corpus; 2 – dados sobre tipo de orações, quantidade de conectores e quantidade de segmentos foram armazenados em uma planilha do Excel; 3 – a partir dessa planilha, foram levantados resultados estatísticos sobre a microestrutura oracional do corpus de estudo. Além do Excel 2007, também foi utilizado o software Statistica7 para fins de cálculos estatísticos. Os resultados mostraram que a Cardiologia e a Radiologia se opõem quando comparadas as seções de seus artigos. Nas introduções, a Radiologia apresentou 41,57% de segmentos com conectores, contra 39,44% da Cardiologia. Já nas discussões, a Cardiologia apresentou 46,53% de segmentos com conectores, contra 45,20% da Radiologia. Apesar dessa oposição, a proximidade dos resultados deixa bastante claro que a diferença não é significativa, o que foi comprovado pelo teste t. As introduções da Radiologia se destacaram pela presença mais marcante de orações relativas, enquanto a Cardiologia teve uma curva mais suave, com picos nas relativas, complementadoras e causais. Nas seções de discussão, as complementadoras assumem a ponta, nas duas subáreas, deixando as relativas em segundo lugar, na Cardiologia, porém, a diferença entre ambas é menor. Por fim, nosso parser se mostrou uma ferramenta confiável para a análise de corpora. Cerca de 1/5 dos erros foram herdados do PALAVRAS. E pouco mais da metade dos erros tem como origem determinadas orações coordenadas que optamos por não tratar nesta primeira versão do parser. Este trabalho não está encerrado e prevemos melhorias para sua próxima versão, incluindo o tratamento dessas orações coordenadas. Apesar de ainda não estar em sua versão mais robusta, o parser permitiu a análise de corpus e auxiliou a alcançar os objetivos propostos para um trabalho linguístico. Após a observação do corpus de estudo, percebemos que as seções observadas de Cardiologia e Radiologia não apresentam diferenças significativas, de forma que poderíamos tomar o corpus como um todo para fazermos asserções sobre a área da Medicina. Ainda não acreditamos em tal possibilidade porque é necessário compararmos esses dados com dados de outras subáreas, para garantirmos que essa homogeneidade se propaga através da Medicina.

 

2.4. O mapeador semântico como ferramenta para o estudo de mapas conceituais em corpora eletrônicos (Marcos Gustavo Richter, UFSM)

Esta comunicação tem por objetivo apresentar um novo software de análise semântica de corpora eletrônicos, desenvolvido conjuntamente sob os auspícios da Pontifícia Universidade Católica de São Paulo e a Universidade Federal de Santa Maria, Rio Grande do Sul. Esta ferramenta aplica o princípio da medida da recorrência de strings em listas de concordância de nódulos-problema, candidatos para campos semânticos hipotéticos de corpora analisados.  Ao analisar qualitativa e quantitativamente as interconexões dos cotextos, o Mapeador coloca à disposição do usuário informações sobre o comportamento em rede semântica dos nódulos de interesse de sua pesquisa, as quais podem ser utilizadas qualitativa e/ou quantitativamente para elucidar questões acerca das associações semânticas das palavras, bem como das respectivas forças associativas e, dessa maneira, auxiliar no mapeamento conceitual do corpus. O Mapeador Semântico requer o upload de arquivo único em formato txt, sobre o qual opera comparando cotextos de palavras selecionadas, localizando, identificando, quantificando e totalizando os colocados coincidentes (links), exceto palavras por ignorar. Os resultados são disponibilizados e exibidos na forma de um lote de arquivos texto com listagens de informações quantificadas, assim distribuídas: a) nodulos.txt: as palavras pesquisadas; b) results_left.txt: comparação dos contextos à esquerda; c) results_left_right.txt: comparação dos contextos à esquerda com os da direita; d) results_position_by_position.txt: comparação de posição a posição; e) results_right.txt: comparação dos contextos à direita; f) results_right_left.txt: comparação dos contextos à direita com os da esquerda. É recomendável refinar os resultados pela inclusão de uma lista de palavras para ignorar. Nesse caso, o uso desta listagem pelo programa é confirmada pela sua presença no referido lote de arquivos, com a identificação stopwords.tmp. As propriedades do Mapeador são demonstradas por meio de um estudo da formação de conceitos emergentes a respeito do professor de línguas com base na linguística de corpus. O contexto da pesquisa são as iniciativas de apoio à formação inicial e continuada de profissionais qualificados numa determinada área de atuação, no caso, a Licenciatura em Letras.  O corpus de cerca de trinta mil palavras resultou da compilação de um ano de artigos publicados em uma conhecida revista direcionada a esses profissionais. A questão que deu origem a este estudo é: Com a introdução de novas tecnologias em contextos de ensino, as expectativas sobre o papel do professor de línguas mostram tendência a alteração ou insistem em estereótipos prejudiciais à emancipação profissional? O referencial teórico para a interpretação dos dados foi a Teoria Holística da Atividade, um modelo heurístico especial resultante de contribuições da Teoria dos Sistemas Sociais de Niklas Luhmann e da Semiótica de Charles S. Peirce. A metodologia adotada para esta investigação alicerçou-se na linguística de corpus e empregou como ferramentas computacionais o programa WordSmith Tools 4.0 e o Mapeador Semântico. Com este último, utilizou-se a medida da coesão semântica entre categorias nodulares denominada Razão Vinculativa Nodular Comparada (RVNC). Os procedimentos metodológicos seguiram as seguintes etapas: a) Conversão dos artigos selecionados em arquivos-texto e compilação em pasta; b) Obtenção de Wordlist; c) Seleção dos dois nódulos-problema, da categoria Recursos, e dos três nódulos mais frequentes nas categorias de Estratégias e Conceitos; d) Geração dos arquivos-estudo resultantes do processamento das listas no Mapeador Semântico; e) Cálculo das freqüências absolutas de conexão nodular e das RVNCs; f) Lançamento gráfico dos resultados e interpretação segundo a Teoria Holística. Os resultados, ainda em fase exploratória, são sugestivos de manutenção do papel de “técnico heterodirigido” mesmo em face dos recursos da informática e da Internet no contexto de ensino de línguas.

 

 

Computadores disponíveis para apresentadores da modalidade 2

by blogadmin

Teremos todos os laboratórios à disposição e os apresentadores da modalidade 2 vão poder usar os computadores da própria PUCRS se preferirem.

Modalidade 2 / Work in Progress

by blogadmin

Os trabalhos abaixo foram aceitos para apresentação como modalidade 2 / work in progress. Os autores podem apresentar os trabalhos em qualquer uma das sessões ou em ambas.

Sujeito a alterações.

  1. Investigando a tradução de termos simples, expressões fixas e semifixas em um corpus paralelo da subárea de antropologia das civilizações Talita Serpa UNESP

    Com o propósito de examinar o uso do léxico na subárea de Antropologia das Civilizações, procedemos à compilação de um corpus de estudo, no formato paralelo, a partir de três obras de autoria do antropólogo Darcy Ribeiro e das respectivas traduções para a língua inglesa. Nossa pesquisa insere-se em um projeto maior, coordenado pela Profa. Dra. Diva Cardoso de Camargo, sobre características semelhantes e diferentes observadas na tradução especializada no que concerne ao léxico, notadamente no uso de termos simples, expressões fixas e semifixas (BAKER, 1996; BERBER SARDINHA, 2004; CAMARGO, 2007). Quanto à fundamentação teórica, baseamo-nos em Baker (1996, 2000), que propõe o arcabouço teórico-metodológico para os Estudos da Tradução Baseados em Corpus, apoiando-se principalmente no conceito de normas de Toury (1978) e nos estudos envolvendo a Linguística de Corpus (SINCLAIR, 1991). De acordo com Baker, o uso de ferramentas computacionais possibilita a análise dos dados com maior rapidez e precisão, permitindo observar um número maior de dados e desenvolver pesquisas na área dos Estudos da Tradução. Propõe, como objetivo principal da disciplina, a identificação de características do texto traduzido que levarão ao entendimento do que é e de como funciona a linguagem da tradução. O trabalho de levantamento de dados será realizado com o auxílio do programa computacional WordSmith Tools. Contrastaremos os dados do corpus principal em relação aos dados de dois corpora comparáveis, formados de trinta obras de mesma natureza, originalmente escritas em português e em inglês. Alguns resultados encontrados na primeira fase de análise mostram termos simples como: “escravaria” /slaves; “pajelança” /shamanism; “patronato”/executives; “deculturação”/deculturation; e “etnocídio”/ethnocide. Quanto às expressões fixas e semifixas foram registradas, por exemplo: “ninguendade de não-índios” /nobodyness of non-indians; “sincretismo da pajelança indígena”/syncretism of indigenous shamanism; “protocélula étnica”/ ethnicproto-cell; “solidariedade elementar fundada no parentesco”/ elementary solidarity founded on kinship; e “retração das tribos indígenas”/ withdrawal of interior Indian tribes. O estudo também permitirá a elaboração de dois glossários, contendo termos simples e expressões fixas e semifixas, acompanhados de seus cotextos, os quais poderão fornecer subsídios a pesquisadores, tradutores, alunos de tradução e profissionais da subárea de Antropologia das Civilizações.

  2. O uso de corpora no ensino de língua estrangeira para profissionais na área de publicidade Cristina Mayer Acunzo PUC-SP (PG)

    Este trabalho tem como objetivo preparar materiais de ensino de inglês como Língua Estrangeira usando um corpus eletrônico composto por textos da área de Publicidade. Faremos a identificação de itens e padrões lexicogramaticais distintivos da área (Berber Sardinha, 2009), que formarão a base dos materiais a serem aplicados em sala de aula, com estudantes do idioma que atuam nesse meio. Para tanto, embasamo-nos na Linguística de Corpus e na Teoria da Complexidade (Morin, 2009), a qual usaremos como abordagem de aprendizagem. A pesquisa busca preencher lacunas como a falta de pesquisa no desenvolvimento de material didático com corpus, bem como no ensino de inglês para a área de Publicidade, e a falta de pesquisa no desenvolvimento de material de ensino de línguas sob a luz da Complexidade. Para atingir esses objetivos, formulamos as seguintes questões: (1) Quais os padrões lexicogramaticais mais característicos do corpus de Publicidade? (2) Quais atividades de ensino podem ser produzidas a partir desses padrões para o público-alvo? (3) Qual a reação dos alunos às atividades produzidas? Primeiramente, coletamos um corpus de estudo de 1 milhão de palavras, composto por textos impressos e orais de sites que fornecem informações sobre a atuação das agências no mundo publicitário. Como corpus de referência, escolhemos o BNC (British National Corpus), de 100 milhões de palavras, composto por inglês britânico escrito e falado. O levantamento das palavras-chave será feito com o auxílio das seguintes ferramentas: (1) Wordsmith Tools (http://www.lexically.net/wordsmith/), (2) CEPRIL ToolKit, (http://lael.pucsp.br/corpora), (3) KitConc (http://www.corpuslg.org/tools/) e (4) ConcGram (http://www.edict.com.hk/pub/concgram/), que oferecem meios de analisar corpora em busca da padronização lexicogramatical. A escolha por diversas ferramentas tem o objetivo de fazer uma comparação entre as mesmas, discutir e apresentar como os padrões mais relevantes podem ser selecionados. Em seguida, com base em Berber Sardinha (2004 e 2009) e Willis (1990), apresentaremos os procedimentos de transposição dos achados para os materiais de ensino, ilustrando como desenvolver diversas atividades, centradas na concordância e centradas no texto (Berber Sardinha, no prelo). Por fim, faremos a aplicação dos materiais em sala de aula e a subsequente coleta de impressões dos alunos por meio de questionários e entrevistas. Com base em nosso estudo piloto, acreditamos que os resultados da pesquisa contribuirão para futuros desenvolvimentos de materiais para o ensino de Língua Estrangeira com base na Linguística de Corpus, assim como para a área de Publicidade.

  3. Repensando a explicitação e os universais da tradução: um estudo baseado em corpus Edna Regina Hornes UFRGS (PPG)

    Segundo as teóricas dos estudos de tradução Blum-Kulka e Mona Baker, explicitação é o fenômeno tradutório em que elementos implícitos em determinado texto de partida são explicitados ou explicados no texto de chegada, num esforço naturalmente didático do tradutor. Tal fenômeno é um dos chamados universais da tradução, fenômenos correntes em toda e qualquer tradução. O fenômeno da explicitação, especialmente, demonstraria, segundo as teóricas, que textos traduzidos teriam “sempre mais palavras que o seu par original, independentemente de gênero textual e pares de língua envolvidos”. O objetivo deste estudo é, primeiramente, observar o processo explicitativo: se este seria efetivamente universal e se a adição de palavras ocorreria, realmente, em todas as traduções dos corpora desta pesquisa; outro propósito é verificar possíveis comportamentos tradutórios em gêneros textuais diferentes e se estes influenciariam realmente o movimento explicitativo; e, finalmente, esta pesquisa propõe-se a observar em que medida a densidade terminológica ou grau de especialidade nos diferentes gêneros textuais influenciaria o fenômeno da explicitação. Para fins de observação até o momento, os corpora de estudo foram compostos por diversas traduções elaboradas por diferentes tradutores experientes no mercado de trabalho de dois gêneros textuais diferentes: o gênero resumo científico e o gênero literário, que ocupam posições opostas no que se refere a grau de especialidade ou densidade terminológica. Além disso, os textos foram divididos em direção tradutória por pares de língua: na direção português-inglês e na direção inglês-português. Para tanto, os corpora foram compostos, separadamente, de diversas traduções de: a) um resumo de artigo científico da área de química, originalmente escrito em português e traduzido para o inglês; b) um abstract da área de física, originalmente escrito em inglês, e traduzido para o português; c) um excerto de obra literária originalmente escrita em inglês e traduzida para o português; d) um excerto de obra literária originalmente escrita em português e traduzido para o inglês. As observações foram feitas com auxílio do software Wordsmith Tools, da Oxford University, que ajuda a identificar contextos de palavras e expressões específicas, número total e parcial de palavras em um texto e palavras mais frequentes de um determinado texto. Em resultados ainda parciais, foi possível verificar que em número considerável de traduções dos resumos técnico-científicos não houve explicitação, ocorrendo o contrário nas traduções do gênero literário, em que em vários excertos traduzidos o aumento do número de palavras foi maior do que em seu par original. Tais resultados sugeririam justamente o oposto do proposto pela teoria dos universais da tradução: uma não-universalização do fenômeno da explicitação, além de uma possível influência de gêneros textuais no ato tradutório, assim como do grau de especialidade e da densidade terminológica presente nos textos.

  4. Cover stories: um estudo linguístico das revistas semanais Renata Condi de Souza PUC-SP (PG)

    A pesquisa de nível de doutoramento propõe-se a observar e analisar as dimensões lingüísticas e os padrões léxicogramaticais presentes nas reportagens de capa das revistas semanais de notícias TIME e Veja, comparando e contrastando a linguagem presente nessas mídias. Para tanto, faz-se uso de uma abordagem diacrônica de estudo, que conta com a coleta de textos publicados de 1930 a 2009 (TIME) e de 1968 a 2009 (Veja), na busca por dimensões lingüísticas e na identificação e análise de padrões léxicogramaticais ao longo das décadas. A investigação tem como objetivo principal destacar e analisar as características lingüísticas e funcionais das reportagens de capa de cada década, seus fatores e suas dimensões. Busca-se também observar e analisar seus padrões léxicogramaticais, agrupame ntos (clusters) e colocações. Metodologicamente, aplicam-se os passos descritos por Biber (1988, 2007, entre outros) para a Análise Multidimensional na análise inicial dos corpora, os quais incluem, resumidamente, a etiquetagem, a contagem de etiquetas, o carregamento dos dados em um programa estatístico, a análise fatorial e a identificação de fatores, características lingüísticas e funcionais e dimensões lingüísticas. Em seguida, criam-se listas de palavras por meio de um programa de análise lexical, comparam-se as listas com corpora de referência e buscam-se linhas de concordância e agrupamentos a fim de observar e analisar os padrões léxicogramaticais. As ferramentas usadas são: o etiquetador morfossintático Tree-Tagger, na etiquetagem dos corpora; o programa estatístico PASW 18.0, na análise fatorial; e o programa de análise lexical WordSmith Tools 3.0, na busca por padrões léxicogramaticais, agrupamentos e colocaçõ es. Os resultados da análise piloto indicam diferenças em termos de uso da língua entre décadas e a possibilidade de relacionar características lingüísticas a características funcionais.

  5. Um corpus para o estudo dos efeitos de frequência no português, o vox antiqua Gustavo Augusto de Mendonça Almeida e Marco Aurélio Silva Fonseca UFMG

    Conforme resumem McEnery e Wilson (2001:123): “A pesquisa baseada textos empíricos é uma condição sine qua non para a linguística histórica, [...] uma vez que os textos que existem de um período histórico formam um conjunto fechado de dados”. O Vox Antiqua é um exemplo de que os estudos históricos não podem se dissociar da linguística de corpus. O Vox Antiqua é um corpus que busca possibilitar a pesquisa fonológica diacrônica em português. Trata-se de um corpus, ainda em construção, que possui textos que vão desde o latim arcaico até o português medieval. O corpus foi arquitetado tendo em vista o modelo fonológico proposto por Bybee (2001). Para o que é de relevância para este trabalho, tal modelo propõe que as representações fonológicas são redundantes, organizam-se por protótipos e sofrem efeitos de frequência de ocorrência (token) e de tipo (type). O Vox Antiqua pretende ser uma ferramenta que possibilite a pesquisa diacrônica desses efeitos de frequência em português. Segundo Bybee (2001), haveria dois tipos de mudança fonólogica: uma com e outra sem motivação fonética. A mudança com motivação fonética atingiria primeiro itens lexicais de alta frequência de ocorrência. A autora retoma os argumentos de Mowrey e Pagliuca (1995) e diz que tais itens estariam mais propensos a sofrer uma redução ou uma sobreposição dos gestos articulatórios que os compõem. Já a mudança sem motivação fonética (também chamada mudança por nivelamento analógico) atingiria primeiro itens lexicais com baixa frequência de ocorrência. Tais itens seriam de difícil acesso na memória e estariam propensos a seguir padrões mais produtivos na língua, que apresentassem alta frequência de tipo (type). O corpus foi organizado seguindo, em linhas gerais, as diretrizes expostas em Sinclair (1996). Os textos que o integram provêm, principalmente, dos corpora: The Latin Library, Bibliotheca Augustana, Corpus Scriptorum Latinorum, Project Gutenberg e Corpus Informatizado do Português Medieval. Atualmente, ele conta com cerca de 11 milhões de tokens. O objetivo com o corpus é o estudo dos efeitos de frequência na organização do léxico, contudo, para que esse objetivo seja atingido, é preciso que a procura no corpus seja rápida e eficiente. Se se busca, por exemplo, comparar os efeitos da frequência de ocorrência e de tipo na mudança de recipo para recebo com a mudança que ocorreu com os verbos da 4a conjugação latina, é preciso que as informações de frequência estejam acessíveis. Para isso, é preciso que o corpus esteja bem etiquetado. Até o presente momento, foi feita, a partir de um dicionário, a etiquetagem das classes de palavras dos textos em latim. Informações morfossintáticas para verbos (como conjugação, tema, aspecto, tempo, modo, número e pessoa) também foram anotadas através de uma lista com as terminações verbais. Ainda se precisa fazer a etiquetagem das formas nominais dos textos em latim, bem como a etiquetagem de todo o corpus em português medieval. Além disso, é preciso que seja feita a ligação entre as palavras dos dois corpora, de modo a se possibilitar a busca e a comparação entre as informações de frequência.

  6. Estudo comparativo da frequência de palavras em português em corpus de aprendizes brasileiros e chineses Cristina Becker Lopes Perna, Sheila Nunes e Sun Yuqi PUC-RS/ PUC-RS (PG)/ PUC-RS (PG)

    Sendo o português a sexta língua materna e a terceira língua européia mais falada no mundo com mais de 200 milhões de falantes, esta pode ser considerada como uma língua do futuro. A expansão econômica dos países lusófonos e as criações das organizações internacionais, tais como UNESCO, MERCOSUL, OEA etc., trouxe um grande interesse no ensino de português como língua estrangeira. O ensino de português na China data do ano 1960 e, na última década, o número de cursos vem aumentando consideravelmente. Portanto, a investigação do ensino de português por falantes de chinês é um tema muito importante atualmente. No entanto, não encontramos nenhum estudo baseado em corpora de aprendizes de português como L2 por falantes de mandarim, fato este que revela uma lacuna nas pesquisas. Esta pesquisa tem por objetivo comparar a frequência dos itens lexicais na produção escrita entre os falantes brasileiros de português (L1) e os falantes chineses aprendizes de português (L2) através de dois gêneros textuais – a crônica e o blog. A crônica aqui, é definida como uma seção ou coluna de jornal sobre o tema especializado (Houaiis, p. 202). O Blog é um tipo de texto que fornece comentários ou notícias sobre um assunto em particular. Sua estrutura e tamanho são sempre variáveis. Tratam-se de dois gêneros textuais bem distintos: a crônica é mais formal e Blog é mais pessoal. Segundo Biderman (1998), “a frequência é uma característica típica da palavra. Aliás, a norma linguística se baseia na frequência dos usos linguísticos. Assim, a norma linguística nada mais é do que a média dos usos frequentes das palavras que são aceitas pelas comunidades dos falantes. E não é só isso. Também as mudanças linguísticas que, no decorrer da história, levam de um estado de língua a outro, advêm das frequências de certos usos em detrimento de outros (P. 162)” Conforme Berber Sardinha (2004, p.18), o corpus é “um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise”. Tendo como base a linguística de corpus, pretendemos verificar o que segue: (1) Qual é a diferença, em geral, na produção entre os dois grupos: falantes nativos e falantes de mandarim; (2) Qual é a diferença na produção dos dois gêneros coletados entre brasileiros e chineses; (3) Qual é o maior desafio na aprendizagem lexical dos alunos chineses; (4) De que forma podemos aproveitar o insumo no ensino de língua estrangeira. Quanto à metodologia, a pesquisa contém duas etapas - a coleta de dados e a análise estatística dos corpora A coleta de dados foi feita com dois grupos de informantes: 22 informantes participaram da pesquisa, sendo 11 chineses (5 femininos e 6 masculinos) e 11 brasileiros (5 femininos e 6 masculinos). Todos têm a mesma faixa-etária (20-30 anos) e estão no terceiro/quarto ano de faculdade. Os informantes chineses são aprendizes de português como L2 do terceiro ano da Faculdade de Comunicação Internacional em língua portuguesa da Communication University of China, Nanjing e estão fazendo intercâmbio no Brasil, frequentando a faculdade de Letras da Pontifícia Universidade Católica do Rio Grande do Sul. Os informantes brasileiros são alunos regulares da PUCRS que vem de diversos cursos. Todos são falantes nativos de português do Brasil e nasceram no estado do Rio Grande do Sul. Escolhemos os informantes brasileiros que vêm de faculdades diferentes a fim de garantirmos que o resultado da pesquisa não seja influenciado pela sua área de estudo. Para formar o corpus, os sujeitos tiveram que escrever duas crônicas e dois blogs, a partir da compreensão de textos escritos que apresentam assuntos da atualidade. Não houve exigência de extensão dos textos redigidos. Para realizar a parte estatística, primeiro, inserimos cabeçalho e etiquetas, separando os textos escritos pelos brasileiros e pelos chineses. Segundo, utilizamos o software WordSmith Tools para a manipulação do corpus. Faremos, então, a classificação dos itens lexicais de acordo com o uso frequente para ver que tipo de palavra é mais ou menos frequente na produção escrita. Também analisaremos quais itens lexicais são mais produzidas em cada gênero e pretendemos listar as palavras mais difíceis de serem adquiridas entre falantes chineses. A presente pesquisa ainda está sendo realizada e está na etapa de trabalho com os dados no programa WordSmith Tools.

  7. Colocações da hotelaria: um estudo direcionado pelo corpus Sandra Lago Martinez Navarro FFLCH- USP (PG)

    O turismo é um setor de bastante expressão no cenário econômico e cultural do mundo. Intimamente relacionado a essa atividade, está o setor hoteleiro, um segmento multicultural no qual a comunicação exerce um papel crucial e a tradução é uma necessidade constante. Os tradutores, por sua vez, deparam com os desafios de uma área técnica que apresenta, por um lado, um grande volume de traduções, sobretudo de sites dos estabelecimentos hoteleiros, e, por outro, uma real escassez de obras de referência confiáveis e abrangentes, especialmente as bilíngues voltadas às necessidades do tradutor como produtor textual. Diante desse cenário, vivenciado durante minha experiência profissional como tradutora, surgiu o interesse de desenvolver uma pesquisa que auxiliasse o tradutor a chegar a uma tradução mais natural, segundo os princípios da Convencionalidade. Nesse sentido, o objetivo deste estudo, recorte de nossa pesquisa de mestrado, é apresentar os resultados iniciais de uma proposta de glossário bilíngue (inglês-português), baseado em corpus, de colocações da área de hotelaria. Este estudo específico concentra-se nos padrões colocacionais mais recorrentes do termo room (quarto), identificado como um termo-chave do domínio. Para tanto, encontramos respaldo teórico e metodológico nos preceitos da Linguística de Corpus, área que se pauta em uma visão empírica e probabilística do sistema linguístico e se ocupa da identificação de padrões do léxico por meio da observação de textos autênticos, organizados em um corpus eletrônico (Tognini-Bonelli, 2001). Encontramos fundamentação teórica também nos postulados da Teoria Comunicativa da Terminologia (Cabré, 1993) e Terminologia Textual (Bourigault and Slodzian, 2004), correntes que compartem a visão de que o texto é o verdadeiro habitat das terminologias. Esta pesquisa situa-se ainda no escopo dos estudos de Convencionalidade, entendida como o conjunto dos elementos linguísticos, cuja co-ocorrência não é explicada sintática ou semanticamente, mas sim pelo uso (Fillmore, 1979) e da Fraseologia, ramo da ciência linguística que tem por objeto de estudo as combinações fixas das palavras, termos ou unidades lexicais. Para realizarmos o levantamento das colocações, compilamos um corpus de estudo comparável (textos originais em inglês e em português), contendo cerca de 200 mil palavras provenientes de textos descritivos publicados em sites de hotéis do Brasil e EUA. Com vistas a uma maior representatividade, os subcorpora foram divididos em hotéis de todas as categorias de estrelas. Em termos metodológicos, esta pesquisa foi dividida em etapas, a saber: a revisão da bibliografia, a delimitação e compilação do corpus de estudo e a exploração do corpus por meio das ferramentas do software Wordsmith Tools (Scott, versão 5). Esta etapa consistiu na elaboração de lista de palavras-chave, lista de colocados, lista de clusters, análise das linhas de concordância, validação dos colocados, levantamento dos equivalentes e seleção de exemplos para compor o verbete do glossário. Dentre os resultados obtidos a partir da primeira palavra-chave do subcorpus de inglês, room, destaca-se seu colocado mais frequente: a preposição “in”, que integra estruturas maiores, como in-room safe, in-room dining e in-room coffee maker. Como equivalentes, foi possível identificar cofre individual, room service e cafeteira, respectivamente. Nota-se o fato interessante de a palavra quarto estar ausente nos equivalentes encontrados, estando presente apenas nos contextos, como em: "Todos os quartos estão equipados com ar-condicionado, banheira, cofre individual, TV a cabo e frigobar.” Vale salientar a constatação de in-room dining ter como equivalente “em português” uma colocação em inglês, room service, que por sua vez se mostrou mais comum que serviço de quarto nas descrições de hotéis em português. Apesar de os resultados apresentados neste estudo serem ainda preliminares, eles já demonstram que a área em questão é bastante rica lexicalmente. Daí nossa preocupação em dar conta de uma terminologia in vivo, que descreva o real comportamento do léxico especializado em seu contexto de ocorrência. Espera-se que esta pesquisa possa fornecer ao tradutor elementos que contribuam para a maior adequação de sua tradução ou versão, em especial, na área de hotelaria.

  8. Os episódios de Chaves traduzidos para o português do Brasil: análise tradutória e a linguística de corpus Orlanda Miranda Santos UFSC

    Este projeto pretende contribuir para a formação de pesquisadores em Estudos da Tradução, Ensino de Línguas e Línguística de Corpus. Pretende proporcionar uma aplicação da Linguística de Corpus e de seus procedimentos e ferramentas no ensino de Língua Espanhola, oferecendo um suporte teórico no campo disciplinar dos Estudos da Tradução com interface nos aportes metodológicos da Linguística de Corpus aplicados ao Ensino de Línguas. Justifica-se por conter um tema inédito e de grande interesse, especialmente, para professores de Espanhol como Língua Estrangeira. Tem como objetivo geral: analisar a tradução dos episódios através de padrões léxico-gramaticais mais frequentes nos corpora de estudo. Como objetivos específicos estão: levantar padrões léxico-gramaticais mais frequentes nos episódios através da Linguística de Corpus; verificar se esses padrões estão presentes no corpus de referência; levantar padrões léxico-gramaticais mais frequentes na tradução desses episódios através da Linguística de Corpus; verificar se esses padrões estão presentes no corpus de referência; elaborar um material didático que promova a conscientização dos alunos em relação ao fato de que a linguagem é composta por padrões léxico-gramaticais e que, ao mesmo tempo, promova o aprendizado de alguns padrões criteriosamente selecionados do corpus El Chavo del Ocho (Programa Chaves em espanhol). Chaves é um programa televisivo criado na década de 70, no México, e que reproduz o contexto histórico daquela época e, no Brasil, Chaves é considerado quase um programa brasileiro. El Chavo del Ocho, título original da série, estreou em 1971 no México, exibida pela rede Televisa, com repercussão mundial e traduzido em mais de 50 países. Professores de espanhol dos diversos níveis de ensino utilizam Chaves em suas aulas. As traduções para o português do Brasil parecem alterar consideravelmente o sentido do texto original. Nesta pesquisa almeja-se responder a duas perguntas iniciais: Quais são os padrões léxico-gramaticais mais frequentes nos corpora de estudo? Esses padrões também estão presentes nos corpora de referência? Serão analisados episódios das oito temporadas do programa. Os corpora de referência serão os de Davies (2002) e Davies e Ferreira (2006). Será, portanto, um estudo de corpus paralelo, qualiquantitativo, com base na linguística empírica e no sistema probabilístico. A Linguística de Corpus pode ser definida como a área da Linguística que se ocupa da coleta e exploração de corpora, ou conjunto de dados lingüísticos textuais, em formato legível por computador, que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística, como afirma Berber Sardinha (2004, p. 3). O computador tem capacidades como buscar, localizar e recuperar sequências de caracteres ou contar ocorrências desta sequência que são triviais para o processamento de dados, mas seriam praticamente impossíveis para um ser humano. Graças aos estudos baseados em corpora, já se pode afirmar que a linguagem é padronizada, isto é, formada por seqüências de palavras (padrões) que se repetem várias vezes. Também já se sabe que os padrões variam de acordo com as diferentes situações e contextos em que ocorrem (SINCLAIR, 1991; HUNSTON & FRANCIS, 2000).

  9. Dever e ação: a geração de expectativas sobre o professor de línguas no discurso midiático, um estudo baseado em linguística de corpus Joseane Amaral UFSM

    O presente trabalho deriva de um projeto de dissertação que reúne subsídios teóricos e empíricos para analisar a geração de expectativas e a constituição do papel social do professor de línguas, sob a ótica do discurso midiático. Esta pesquisa, de caráter qualiquantitativo, utiliza os aportes metodológicos da Linguística de Corpus (LC), a saber o programa WordSmith Tools 4.0 e o Mapeador Semântico de Berber Sardinha e Richter (2009). Por meio da coleta e análise de corpora compostos por textos midiáticos da área de educação de duas profissões – o professor de Educação Física e o de Letras – pretendemos buscar respostas à seguinte questão: que propriedades linguísticas marcam as expectativas relativas ao papel social do professor, discursivizado pela mídia especializada em educação? Para tanto, procuraremos mapear expectativas cognitivas e normativas (Luhmann) em relação aos fatores de atribuição da Teoria Holística da Atividade - THA (Richter, 2008, 2006), aqui entendidos como o conjunto de variáveis que definem a modelagem do papel social do professor – em suma, suas atribuições, modelos de conduta, referência e pertença grupal (Richter, 2009). Pelos indícios linguísticos extraídos dos corpora, buscamos padrões que sobressaem, analisando semanticamente suas repercussões. O confronto discursivo de textos em duas profissões da esfera educacional, distintas juridicamente, procura verificar em que medida o papel social é constituído exogenamente nas profissões não emancipadas, como a docência em Letras. O cotejo inicial dos corpora demonstra que existem discrepâncias nas atribuições do professor emancipado juridicamente, como no caso da Educação Física, em comparação à realidade do professor desprovido de um lugar social delimitado, como o professor de línguas. Assim, o papel social do professor de educação linguística parece ser constituído por expectativas cognitivas advindas de sistemas discursivos exteriores ao de sua esfera profissional, como é o caso da mídia.

  10. Valência de construções emergentes: um estudo baseado em corpora e seus limites Luciana Beatriz Ávila UFMG

    Com base em princípios da Linguística Cognitiva, a pesquisa que, a princípio, proponho desenvolver como tese de doutoramento tem como ponto central descrever como se apresentam, no Português do Brasil (PB) e no Português Europeu (PE), o que denomino construções predicativas de conduta. Como exemplo, temos: (a) Luciana finge de inteligente. (b) Angel se faz de simpática. (c) Nando paga de gatinho. (d) Thiago posa de hetero. (e) Cláudio ataca de escritor. Especificamente, pretendemos analisar o pareamento forma-sentido dessas construções; investigar a integração entre verbos e construção; investigar as relações pragmáticas estabelecidas; investigar como a semântica do verbo contribui para a semântica do frame interacional; propor uma generalização sobre as instâncias da construção com verbos que significam “agir como alguém que Você não é”. Para tanto, empreenderemos uma pesquisa a partir dos dados dos corpora comparáveis de fala espontânea do PB, C-ORAL-BRASIL, e do PE, C-ORAL-ROM, a fim de determinar a sua ocorrência e frequência em monólogos, diálogos e conversações, e observar as diferenças de uso nessas duas variedades do português. Os dados serão cruzados a partir de parâmetros diastráticos, diatópicos, diamésicos e diafásicos. Procederemos, também, a uma análise de base construcionista (GOLDBERG, 1995, 2006). Entendemos que uma abordagem baseada no uso realmente permite investigar os contextos em que determinado padrão é encontrado e a análise de fatores contextuais que influenciam sua variação. No entanto, apesar de Gries destacar que “os métodos quantitativos da linguística de corpus podem fornecer evidência empírica, sugerindo respostas para alguns problemas notoriamente difíceis da linguística cognitiva” (GRIES, 2006, p. 57), observamos que um dos limites da linguística de corpus é justamente o de não dar conta de fenômenos de baixa frequência, como é o caso do fenômeno investigado aqui. Uma pergunta, pois, que se impõe é: como levar a cabo uma pesquisa baseada no uso, se os corpora disponíveis não apresentam frequência mínima necessária de um determinado tipo para que seu estudo possa ser significante? Consequentemente, pergunta-se mais genericamente: quais são os refinamentos necessários na compilação de corpora a fim de que eles possam refletir mais fidedignamente a realidade de uso da língua?

  11. Um levantamento das características das produções escritas de brasileiros aprendizes de Inglês como Língua Estrangeira analisadas à luz da Linguística de Corpus Wendell Dantas PUC-SP (PG)

    Esta pesquisa em andamento tem como objetivo principal fazer um levantamento das características salientes na produção escrita do aluno brasileiro no idioma inglês. Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus, área que tem uma visão probabilística da linguagem e se ocupa da compilação, coleta e análise eletrônica de textos em linguagem natural. Mais especificamente, o trabalho aqui apresentado fundamenta-se na área de pesquisa chamada Corpora de Aprendizes, que se baseia na análise de produções de estudantes e pode servir à área de Ensino e Aprendizagem de Idiomas, e utilizou como metodologia a Análise Contrastiva de Interlíngua, que consiste na comparação eletrônica das produções de alunos com produções de falantes nativos e, consequentemente, na análise das suas diferenças e semelhanças. As questões de pesquisa propostas foram as seguintes: (1) Quais são as características gerais das produções escritas do aluno brasileiro em inglês? (2) Quais dessas características podem gerar problemas de compreensão na interação? Os corpora empregados na pesquisa foram um corpus de estudo compilado por nós, ao qual chamamos de COBRA-7 (Corpus Brasileiro de Aprendizes de Inglês como Língua Estrangeira – Seven Idiomas) com 81835 itens – compilado a partir da coleta de 425 redações produzidas por aprendizes nos níveis pré-intermediário, intermediário e intermediário superior – e dois corpora de referência, o BNC (British National Corpus), da variedade britânica, e o COCA (Contemporary Corpus of American English), da variedade americana, que contém, respectivamente, 100 e mais de 400 milhões de palavras. Para a análise utilizamos os aplicativos Wordlist, Keywords e Concord, do software Wordsmith Tools, versão 5.0.0.247. Os resultados de um estudo piloto do COBRA-7 apontaram para a presença de marcas de oralidade, mas não detectaram a presença de fatores que dificultam a compreensão das composições. Diante destas respostas, concluiu-se, primeiramente, que, embora este seja um estudo piloto realizado com aproximadamente 50% do corpus que pretendemos compilar, parece haver a necessidade do ensino formal dos traços linguísticos pertinentes às variedades oral e escrita da língua inglesa, uma vez que cada uma delas possui características específicas e graus diferentes de formalidade.

  12. Ensino e produção de material de inglês instrumental para a área de Tecnologia Ambiental com base na Linguística de Corpus Vitor Ricardo Duarte UNISC-RS

    O objetivo desta comunicaçao é apresentar uma pesquisa em andamento, nível de Mestrado, que visa a a produção de material didático e de propostas para o ensino de inglês instrumental para área de Tecnologia Ambiental. Este estudo contempla duas etapas: a primeira etapa constitui-se dos procedimentos envolvidos para a produção de um pequeno corpus e sua análise linguística; a segunda, a elaboração do material didático a partir dos dados coletados, considerando, conjuntamente, referências da Linguística de Corpus (LC) e Linguística Cognitiva. Segundo dados apontados por Wray & Perkins (2000), as sequências formulaicas na comunicação podem constituir até 70% de uma língua. ERMANN & WARREN (2000) demonstram que a frequência dos elementos pré-fabricados na produção escrita é em torno de 55%. Esses dados “dão forte sustentação ao idiom principle como formulado por Sinclair e revelam que a proporção de pré-fabricados na língua, de forma geral, tem sido subestimada”(ERMAN & WARREN, 2000, p. 50). Acreditamos poder haver uma relação entre o índice de frequência de um termo, o conhecimento das fórmulas linguísticas mais utilizadas num determinado nicho cultural, a utilização de material autêntico e o aprendizado de uma língua. A combinatória dessas variáveis, parece-nos, pode contribuir para o aprendizado da segunda língua e parece ser pertinente articularmos o estudo e uso das fórmulas linguísticas nesse âmbito. A produção de um small corpus é o primeiro estágio desta pesquisa. Objetiva-se mapear e descrever o vocabulário e padrões linguísticos/formulaicos mais recorrentes, analisando sua frequência no corpus. Este estágio da pesquisa norteia-se pelas seguintes perguntas: 1)Quais são as palavras-chaves do corpus formado e quais termos técnicos e expressões específicos da área Tecnologia Ambiental mais frequentes? 2) Quais são as colocações/coligações, padrões léxico-gramaticais e vocabulário mais recorrentes e sua frequência? 3) Qual a proporção e quantidade de grupos lexicais no corpus elaborado? O desenho de atividades e tarefas pedagógicas, segunda etapa, será realizado a partir do estudo linguístico dos textos do small corpus compilado. Revisaremos propostas de ensino realizadas que utilizem a LC como referencial, tais como o Data Driven Learning, Lexical Approach, Lexical Syllabus. Busca-se o entrecruzamento de informações advindas de pesquisas do campo da Linguística Cognitiva sobre o aprendizado de uma segunda língua ( relevância da frequência da exposição à língua, importância da qualidade do input, processamento mental do léxico) que corroboram dados apontados pela LC, para a elaboração de tarefas. Nesse estágio, estas perguntas são colocadas: 1)Como explorar didaticamente os padrões lexicais mais frequentes nas atividades propostas em consonância com fundamentos da Linguística Cognitiva? 2) Quais estratégias poderiam ser desenvolvidas para o ensino do vocabulário técnico/especializado? 3) Como utilizar e explorar os recursos tecnológicos associados à LC para oportunizar aos aprendizes maior probabilidade de exposição à língua(input)? Objetiva-se alcançar os seguintes resultados até a conclusão desta pesquisa em março 2011: 1)Conclusão e disponibilização do small corpus; 2) Conclusão e apresentação do levantamento linguístico e 3) Elaboração de duas (ou mais) tarefas e atividades pedagógicas a serem utilizadas ao longo de um curso de Inglês Instrumental.

  13. Corpus BELC Aline Pacheco PUC-RS/ UFRGS

    Este trabalho aborda a aquisição de morfemas em inglês como L2 por aprendizes falantes de português brasileiro como L1 através do BELC – Brazilian English Learner Corpus – um corpus de aprendiz elaborado primordialmente para os fins deste estudo. A pesquisa constitui uma tese de doutorado pela Universidade Federal do Rio Grande do Sul e está em fase final. Nos anos 70 e 80, observamos o desenvolvimento de estudos que propunham uma ordem na aquisição de morfemas em inglês. O estudo de Brown (1973) é uma referência em estudos sobre a aquisição de inglês, tanto na condição de L1 como na condição de L2. Brown observou um padrão evolutivo com relação a estruturas morfêmicas. Krashen (1977) também observou um padrão semelhante em inglês como L2, mostrando a seguinte ordem na aquisição de morfemas: 1.Present Progressive, Plural, Copula; 2. Auxiliary, Article; 3. Irregular Past; 4. Regular Past, Third person singular, Possessive. Com o objetivo de verificar o comportamento dos aprendizes brasileiros de inglês como L2, propomos a investigação dos estágios evolutivos de aquisição de morfemas através do BELC, um corpus elaborado a partir da coleta de textos escritos, sobre três temas bastante amplos, produzidos espontaneamente por aprendizes de inglês de 8 níveis. O corpus foi coletado a partir de 424 sujeitos que produziram 902 textos e totalizaram aproximadamente 103 mil palavras. A metodologia da pesquisa foi totalmente baseada em princípios da linguística de corpus (cf. Berber Sardinha, 2004) especialmente aplicados a corpora de aprendizes (cf. Granger, 2002). O corpus foi devidamente etiquetado para a análise desta pesquisa e os resultados obtidos apontaram para a seguinte sequência: 1. Copula, Plural; 2. Article, Possessive; 3. Present Progressive, Auxiliary, Irregular Past; 4. Regular Past, Third person singular. Os resultados preliminares apontam para algumas semelhanças e diferenças entre estes estágios. O trabalho tenta ainda propor algumas razões para tais semelhanças e diferenças a partir dos trabalhos de Zobl e Liceras (1994) - que oferecem uma explicação de natureza sintática para tal ordem, e Goldschneider & Dekeyser (2005), que sugerem uma explicação de natureza multifatorial para uma possível sequência natural na aquisição de morfemas baseada em aspectos de saliência.

  14. Base de dados morfológicos de terminologias do português do Brasil: descrição e análise morfológica com vistas à disponibilização online Joel Sossai Coleti UFSCar

    As pesquisas nas áreas de Lingüística e Letras são extremamente ricas, constantes e eficientes no Brasil, entretanto, ainda são pouco expressivas no cenário brasileiro as pesquisas envolvendo questões morfológicas em Terminologia, sobretudo quando se considera o aspecto de disponibilização on-line dos resultados obtidos. Diante dessa realidade, esta pesquisa pretende descrever a estrutura de dois repertórios terminológicos (Nanociência/Nanotecnologia e Biocombustíveis) no nível da estrutura interna dos seus termos constitutivos, verificando-se os principais processos de construção dos termos (tipos de derivação presentes, tipos de composição – morfológica, morfossintática, lexicalização de sintagmas, etc.). A partir dessa descrição morfológica, pretende-se organizar uma base de dados de maneira que seja possível a implementação computacional e a disponibilização on-line dos dados obtidos. O modelo a ser usado para a análise morfológica será o modelo SILEX, criado por Danielle Corbin (1987, 1991, 1997, 2004), desenvolvido pela sua equipe de trabalho e que já conhece aplicações profícuas para análise do português. Esta pesquisa visa, portanto, preencher uma lacuna, na medida em que serão analisados e descritos os processos morfológicos possíveis no âmbito de terminologias em português (variante brasileira). Espera-se, pois, ao final da pesquisa, ter sido efetuada a descrição morfológica e a classificação dos constituintes analisados numa base de dados, possibilitando a posterior disponibilização on-line.

  15. Diário Gaúcho: palavras, construções recorrentes e contextos de uso Bruna Rodrigues da Silva UFRGS (graduação)

    Textos jornalísticos têm sido utilizados para estudos de vocabulário do português do Brasil escrito (PB), sobretudo o jornal Folha de São Paulo. Entretanto, o uso de jornais populares brasileiros não é muito comum. Pensando em diminuir essa lacuna de conhecimentos, este trabalho descreve elementos do vocabulário tomando como fonte o jornal popular porto-alegrense Diário Gaúcho (DG). Seu número de leitores supera o de jornais da mesma cidade dirigidos a públicos mais tradicionais em todo estado, o que se aplica, por exemplo, ao jornal Zero Hora, produzido pela mesma empresa. O corpus organizado compreende amostra com edições completas do jornal publicadas ao longo de 05 meses do ano de 2008. Cada mês inclui 10 dias de edição, selecionados de modo a alternar dias da semana. Esse corpus tem 825151 tokens (quantidade de palavras) e 69353 types (diferentes formas como cada palavra se repete). Desse material foram identificadas palavras e construções mais freqüentes com apoio das ferramentas geradoras de lista de palavras e gerador de n-gramas oferecidas no site do Projeto TEXTQUIM. A primeira etapa, no início da pesquisa, consistiu na organização do corpus com o apoio de softwares. Observamos as palavras mais freqüentes, mês a mês. Quando pronta, a lista de freqüências nos trouxe informações sobre tokens e types. Fizemos a comparação com dados de padrões de vocabulário colhidos do Banco do Português, corpus de linguagem geral do Brasil que possui mais de 120 milhões de palavras (tomando como base o ano 2000), mantido pela PUC-SP. Fizemos também observações e contrastes com padrões de vocabulário do jornal Zero Hora (ZH). Pelo que pudemos observar, no que tange à configuração gramatical das listas de palavras mais freqüentes do DG na amostra do primeiro trimestre de 2008, não há diferença significativa em relação ao jornal ZH ou ao Banco de Português. Atualmente, nessa nova etapa da pesquisa, serão examinadas as combinações de palavras mais freqüentes em amostras de texto dos primeiros cinco meses do corpus de 2008 e os contextos em que essas aparecem, com o intuito de verificar se tais combinações são mais freqüentes por se tratar de um jornal popular ou se são freqüentes também em outros corpora. Para tanto, os dados obtidos serão contrastados com dados do jornal Zero Hora, gerados pela pesquisa PorSimples do NILC-SP-USP. A partir dos resultados, concluiremos se as construções são mais recorrentes por causa do público a que se destina ou por causa da forma mais simplificada de escrita, por exemplo, ou se a feição do vocabulário do jornal popular não difere muito em relação à do jornal tomado como contraste, como observamos nos dados analisados no início da pesquisa. Além disso, para além do aspecto de descrição vocabular, utilizar o jornal DG como fonte de estudo pode ser de grande utilidade para reflexão sobre a linguagem escrita e o ensino, já que suas contínuas grandes tiragens e a grande adesão do seu público a quaisquer eventos promovidos pelo jornal demonstram, em tese, metodologia bem-sucedida de diálogo com o seu leitor.

  16. Ecuadorian English Learner Corpus Anna M. Gates e Nick Izquerdo Universidad Tecnica Particular de Loja

    Although while several English learner corpora have been built and analyzed in the past two decades, no publically or academically available learner corpora have been built for Ecuadorian learners of English. Commercial corpora developed by the large publishing houses such as Pearson Education and Cambridge University Press represent Ecuadorian learners with a mere 117,100 words (personal correspondence). Considering that learner corpora are important tools for modern linguistic analysis and for the understanding of interlanguage and learner errors (Gilquin, G., Granger, S., & Paquot, M.,2007); and are often used to influence the development of learning materials, this conspicuous lack of the representation has been cause for concern. In an effort to fill this void and to stimulate linguistic investigative activity in Ecuador, the authors have embarked on the development of a 250,000 word learner corpus of Ecuadorian written English (EELC). The EELC was designed with two objectives in mind: 1) the creation of a corpus comparable with the Spanish subcorpora of the International Corpus of Learner English (ICLE), and 2) the creation a corpus that would be representative of the distinct geographical regions of Ecuador. Participants were selected from a national database of proficient to advanced English learners, which included individuals from diverse geographical regions throughout Ecuador. This database was comprised of university students in their final year of study, English major alumni, current practicing English teachers, and people who had expressed interest in joining a Master degree program in teaching English as a foreign language. Language proficiency was determined through the use of demographic information; specifically, duration and quality of English language exposure. The writing samples collected were produced from an argumentative essay prompt. Data collection began in June 2010. Candidates have been sent an online survey (Lime Survey) requesting demographic information and also requesting they write an argumentative essay of between 700 and 1000 words. To improve response rates, candidates have been offered an incentive for their participation. This method was chosen to minimize data collection costs and to reach a wide geographical range within Ecuador. The software to be used in the analysis of the EELC is AntConc 3.2.1 (AC 3.2.1), a corpus analysis toolkit developed by Laurence Anthony. AC 3.2.1 was chosen since it provides a "powerful concordancer, word and keyword frequency generators, tools for cluster and lexical bundle analysis, and a word distribution plot," and support for regular expressions (Anthony, 2006; Wiechmann & Fuhs, 2006). In terms of functionality and usability, AC 3.2.1 is an attractive alternative to commercial software packages. The authors have chosen CLAWS4, the general-purpose grammatical tagger developed by UCREL at Lancaster University, for the POS-tagging of the EELC. The reasons for choosing CLAWS4 over any of the other available POS-taggers are a) its high rate of accuracy, b) its robustness, and c) the advantage of making comparative analysis with other corpora that have also been tagged with CLAWS4.

  17. Recuperação semiautomática de contextos definitórios em corpus com vistas à colaboração da redação da definição terminológica:proposta de sistematização linguística Dayse Simon Landim Kamikawachi UFSCar (PG)

    A confecção de corpus no trabalho terminográfico tem como finalidade a observação e extração de candidatos a termos, assim como, posteriormente, serve como fonte de informações relevantes sobre os termos, que pode auxiliar na etapa da redação da definição terminológica. Tais informações ocorrem frequentemente em contextos definitórios, já que é necessário definir técnicas, produtos, processos, substâncias, ou seja, conceitos da área-objeto, de forma a transmiti-los ao leitor. A partir da premissa de que os contextos definitórios apresentam determinados padrões léxico-sintáticos, é proposta, como tema de doutorado, a investigação de padrões concernentes a eles em corpora de especialidades de língua portuguesa do Brasil a fim de proporcionar conhecimento linguístico para a construção de uma ferramenta de extração semiautomática de candidatos a contextos definitórios no ambiente e-Termos. Para a realização das análises, serão adotados os seguintes passos: i) análise manual de contextos definitórios em corpora de especialidade disponíveis em língua portuguesa e em bases definicionais oriundas do Grupo de Estudo e Pesquisa em Terminologia (GETerm); ii) proposta de um conjunto de regras e tipologia referentes aos tipos de contextos definitórios de acordo com a análise manual realizada, assim como lançaremos mão da descrição linguística realizada, em pesquisa de mestrado, acerca das relações semânticas (télico, agentivo, constitutivo, exemplo e etc.) presentes nas definições terminológicas, pois a partir do rol das expressões linguísticas que expressam essas relações, acreditamos ser possível detectar contextos definitórios também, além do que já foi investigado em estudos similares a este em outras línguas (sobretudo para o francês e espanhol); iii) utilização de dois corpora de estudo para a avaliação e adequação das regras geradas na etapa anterior. De modo a manipular o corpus será utilizado o UNITEX, sobretudo porque o programa: i) apresenta etiqueta morfológica referente aos itens lexicais, possibilitando a busca por categorias gramaticais; ii) possui busca por grafo, o que permite elaborar expressões de busca mais complexas. Como resultado, espera-se obter conhecimento lingüístico de modo a integrar um extrator semiautomático de candidatos a contextos definitórios a fim de auxiliar os terminólogos na redação da definição.

  18. Tradução automática:um reconhecedor, analisador e gerador de expressões nominais do inglês para o português Tiago Martins da Cunha UFC

    O
 compartilhamento
 de
 conhecimento
 entre
 estudos
 de
 lingüística
 de
 corpus linguística computacional
tem
ganhado
cada
vez
mais
importância
no
âmbito
dos estudos
da
lingüística
aplicada. Dentro desta perspectiva, muito desse compartilhamento contribuiu para avanços nos estudos tradutórios, especialmente quanto à tradução automática. A tradução automática perdeu muito de sua credibilidade junto ao meio acadêmico devido uma longa sequência de maus resultados. Grande parte dos maus resultados é gerada por problemas de análise, reconhecimento e adequação da tradução oferecida pelos sistemas de tradução automática. Este trabalho visa apresentar parte de um estudo de doutorado que desenvolverá uma ferramenta de tradução automática de expressões nominais do inglês para o português, tentando solucionar alguns dos problemas que os tradutores automáticos disponíveis no mercado não conseguem resolver. As expressões nominais que serão expostas e discutidas nesse trabalho são aquelas que contêm o caso genitivo agregado a outros elementos de posse. A lista de expressões foi analisada no corpus Brown por meio do módulo NLTK (Natural Language Tool Kit) da linguagem de programação Python. O NLTK é um módulo desenvolvido para os estudos de processamento natural da linguagem e está gratuitamente disponível ao acesso de estudiosos, entusiastas e desenvolvedores. Neste trabalho visamos apresentar de forma didática, alguns comandos imprescindíveis para a análise de corpus pelo NLTK. Fazendo uso do corpus Brown, já disponível na biblioteca do NLTK, foi realizada uma busca pelas expressões que contivessem as estruturas desejadas. Foi analisada o contexto de realização dessas expressões. A estrutura de expressões nominais como John’s building a spaceship, proposta por Abney (1987, p.13), que motivaram este estudo, foram encontradas com freqüência considerável em textos acadêmicos segundo o corpus Brown. Assim como estruturas que contivessem dois elementos de posse na mesma expressão e.g. John’s picture of Chomsky. Tais estruturas não possibilitam bons resultados pelos tradutores automáticos disponibilizados no mercado, mesmo apresentando de uma considerável freqüência em textos acadêmicos. Para a análise dessas estruturas no corpus, foi realizada a etiquetagem do corpus, que uma vez anotado, passou por regras de extração para filtrar as estruturas desejadas nas expressões nominais. Este estudo, em desenvolvimento, fazendo uso de um método de transfer para a tradução automática (ARNOLD, 1994) visa solucionar os problemas encontrados nas estruturas dessas expressões nominais encontradas. Toda metodologia assim como os códigos do NLTK utilizados para a realização das buscas e análises dessas expressões e o processo de funcionamento da tradução automática fazendo uso de método de transfer serão devidamente explicados na apresentação deste trabalho.

  19. Bases teórico metodológicas para um dicionário monolíngue de português brasileiro para aprendizes estrangeiros Kleber Valenti Schenk UFRGS

    A proposta deste trabalho é estabelecer as bases teórico-metodológicas para um dicionário monolíngue de português brasileiro para aprendizes estrangeiros, material didático ainda inexistente. Partimos da revisão da literatura sobre “dicionários para aprendizes”, que devem ter definições, exemplos de uso e explicações linguísticas simples para facilitar e possibilitar um bom uso por parte do aprendiz através de uma apresentação bem clara. Suas palavras-entrada devem ser escolhidas mediante o critério de frequência através de levantamentos estatísticos em grandes corpora muito diversificados, úteis também para a escolha do vocabulário das paráfrases definitórias e para a seleção dos exemplos de uso. Seria pertinente o estudo de corpora de textos jornalísticos, preponderantes em corpora linguísticos, em meio a outros corpora, e o segmento “jornalismo popular” também pode contribuir, pois a imprensa popular se aproxima do público alvo através de uma linguagem direta que trata dos aspectos locais e imediatos usando textos curtos com vocabulário simples, elementos que auxiliariam no esboço dos planos macro e microestruturias de um dicionário de fácil acesso para estrangeiros. Para sua construção é pertinente analisar: a estrutura dos cursos oferecidos pelo Programa de Português para Estrangeiros da UFRGS; dicionários de inglês e espanhol para aprendizes estrangeiros; livros didáticos de português voltados para aprendizes estrangeiros e os critérios para certificação de proficiência em português como língua estrangeira no Brasil (Exame Celpe-Bras). Devem fazer parte do dicionário: descrição gramatical básica sobre o português do Brasil voltado para aprendizes de português como língua estrangeira com textos simplificados de apoio; guia de utilização para professores e alunos; reprodução da pronúncia; exemplos de uso de palavras e expressões em diferentes situações e construções; sugestões de exercícios e de atividades individuais e em grupos de alunos. Através do projeto Ensino de português como língua estrangeira: bases para um dicionário on-line para suporte de atividades em EAD, já em construção no site da UFRGS, será elaborado um espaço para se fazer testes com usuários e para postagem de depoimentos de aprendizes sobre o uso e o sentido da palavra em foco em cada verbete, o que auxiliará na definição do perfil de usuário.

  20. Etiquetagem morfossintática de um corpus do português do nordeste para extração automática de entradas lexicais Andréa Feitosa dos Santos e Raimundo Cleodimar de Oliveira Júnior UFC

    Essa pesquisa reflete algumas das atividades que desenvolveremos ao longo de um estudo de doutorado. Somos norteados por pelo menos três áreas de atuação e aplicação linguística, a teoria gramatical, a linguística de corpus e a linguística computacional. Do ponto de vista da teoria gramatical e da linguística de corpus, nós discutimos certos fenômenos sintáticos e semânticos do português brasileiro à luz de teorias linguísticas de cunho formal e por isso consideramos de grande importância basear em corpus os nossos estudos, visto que evidências linguísticas obtidas de corpora estão diretamente ligadas a um trabalho de análise e descrição linguística e podem ajudar o pesquisador a produzir novas informações, teóricas ou aplicadas sobre a língua em estudo (OLIVEIRA, 2009). Conforme Domingues, Favero e Medeiros (2008, p. 269), do ponto de vista da linguística computacional, ‘a etiquetagem morfossintática é uma tarefa básica e importante [...] na anotação de corpus, extração e recuperação de informações’. Para alcançar um dos nossos objetivos, a construção de um analisador sintático-semântico computacional, partimos da constatação de que podemos construir as entradas lexicais da nossa gramática através da extração automática dos itens lexicais com suas respectivas propriedades sintáticas de corpora anotados, que, de acordo com McEnery (2004), possuem a vantagem de ser multifuncionais e fáceis de explorar. A inserção de informação referente a cada unidade de grandes quantidades de texto pode ser feita de forma mais rápida, por isso o uso dos etiquetadores automáticos (SARDINHA, 2004). Segundo Bird, Klein e Loper (2009), é possível construir um etiquetador automático com base nos mecanismos linguísticos e computacionais disponíveis no NLTK. Os objetivos do nosso trabalho são: i. compilar e etiquetar morfologicamente um corpus que chamamos de Corpus Patativa; ii. construir uma ferramenta para a extração de entradas lexicais de um corpus para a sua inserção em um analisador sintático-semântico automático; iii. aplicar o etiquetador e a extração automática em textos do Patativa do Assaré em linguagem padrão, e em seguida fazer correções manuais das anotações; iv. colaborar para a elaboração de um corpus representativo do português do Nordeste, pois há essa lacuna em relação ao material disponível para o processamento do português. Sendo assim, além de discutirmos assuntos relevantes para o nosso estudo de doutorado, nós também esperamos contribuir para a constituição de um corpus representativo do Nordeste brasileiro. Pretendemos colaborar com a documentação de registros linguísticos dessa região em corpora distribuídos em centros para processamento computacional do português, como o NLTK, onde há poucos corpora do português e para o qual pretendemos disponibilizar os corpora anotados e compartilhar a ferramenta de extração de entradas lexicais como módulo da sua biblioteca de programas, desenvolvida na linguagem Python. Por fim, acrescentamos que Patativa do Assaré foi poeta e escritor do interior do Ceará. Seu trabalho se distingue pela marcante característica da oralidade, pela dimensão estética e política e pelas vertentes social/militante, telúrica, religiosa, filosófica, lírica, humorística/irônica, motes/glosas, entre outras*. *PATATIVA DO ASSARÉ. In: WIKIPÉDIA, a enciclopédia livre. Flórida: Wikimedia Foundation, 2010. Disponível em: . Acesso em: 9 jul. 2010.

  21. Questões para a tradução facilitada da obra de Edgard Allan Poe à luz da Linguística de Corpus Bianca Franco Pasqualini UFRGS (PPG)

    CONTEXTUALIZAÇÃO Esta pesquisa visa reconhecer e descrever padrões de vocabulário na obra de Edgar Allan Poe – considerando apenas a sua produção no gênero conto – a fim de levantar dados teóricos e metodológicos que deem suporte a traduções e facilitações do texto desse autor para neoleitores. REVISÃO DE LITERATURA A pesquisa aqui proposta partirá de um conjunto de referenciais de base. Essas referências envolvem as seguintes áreas: estudos de tradução, lexicologia, estudos literários (sobretudo crítica literária), estudos do texto e do discurso e, por fim, linguística de corpus. OBJETIVOS O objetivo mais abrangente desta pesquisa é estabelecer uma fundamentação empírica e teórica para guiar a tradução e a facilitação de obras consagradas da literatura universal (tendo como ponto de partida a obra de Edgar Allan Poe), destinando-se tais produções a comunidades interpretativas inexperientes nesse gênero de texto. Entende-se aqui que um texto não contém em si significados preexistentes à leitura e que o ato da leitura é tanto produção de sentidos (e não do sentido) quanto atividade interpretativa. Assim, pode-se considerar a prática da tradução uma atividade essencialmente criativa. Em outras palavras, a tradução pode ser entendida como a atividade interpretativa de um leitor-tradutor a fim de produzir significados aceitáveis para uma comunidade leitora determinada. Nessa perspectiva, o texto na língua de chegada passa a ter a importância e receber a atenção normalmente dispensada ao texto-fonte, que tradicionalmente é tido como um texto fechado e com significados a serem “extraídos” pelos leitores. Essa postura estabelece que há um significado hegemônico desvinculado de uma prática livre de leitura aberta a múltiplas significações. Logo, a partir dessa concepção de tradução, é fundamental para o tradutor determinar tanto o perfil linguístico do texto-fonte quanto o perfil do leitor a quem tais textos se destinam a fim de que suas escolhas tradutórias sejam adequadas e aceitas por esses leitores. METODOLOGIA Será selecionado um corpus composto somente pela produção literária em prosa do autor, deixando de lado poesia e crítica. Dois corpora adicionais serão usados: um coletado do inglês norte-americano vigente na época em que Poe escreveu sua obra e outro do inglês norte-americano contemporâneo. A partir da coleta dos corpora mencionados, serão usadas ferramentas como o programa AntConc (concordanciador) para extração de estatísticas de frequência lexical. Das observações desses dados, novos passos metodológicos serão estabelecidos, como a necessidade de lematização do corpus de Poe, por exemplo. Um dos pontos importantes é determinar o que é particular e específico de Poe e diferenciar daquilo que é, por contraste, particular e específico em relação ao vocabulário da sua época. Para tanto, ferramentas como o Coh-Metrix e o Coh-Metrix-Port serão úteis, uma vez que estimam a complexidade textual e fornecem dados comparativos entre os textos de partida e de chegada. A fim de testar tais ferramentas, alguns contos traduzidos para o português brasileiro foram selecionados para servir de eixo comparativo com os textos de partida. Em uma segunda fase do trabalho, será estudado um perfil de vocabulário do português escrito que possa ser compatível com as experiências de leitura e de expressão do público neoleitor. Será estudada, com ênfase, a linguagem do jornalismo cotidiano de grandes centros urbanos, com algum destaque para o chamado jornalismo popular. Nesse segmento de fontes especialmente dirigidas para leitores de perfil de escolaridade e poder aquisitivo baixos, será aproveitado o corpus coletado do jornal Diário Gaúcho, da pesquisa em andamento intitulada “Padrões do Português Popular Escrito: PorPopular”. Uma vez que o público-alvo desse jornal é bastante semelhante ao neoleitor, esse corpus poderá ser tomado como uma boa fonte de dados para o estudo aqui proposto. RESULTADOS Até o momento, apenas resultados preliminares foram obtidos. O mais importante deles é a confirmação, por meio do uso da ferramenta Coh-Metrix, da maior complexidade das traduções disponíveis em português brasileiro da obra de Edgar Allan Poe. CONCLUSÕES Com essas informações em mãos, será possível proceder, ao final do trabalho de pesquisa, a uma tradução experimental de um dos contos de Poe para verificar a validade e o alcance do método proposto.

  22. O papel do feedback corretivo na aquisição da escrita Fernanda Knecht PUC-RS (PG)

    A dissertação de mestrado em questão tem o objetivo de investigar o papel do feedback corretivo em textos escritos em inglês como segunda língua (L2) por alunos da graduação em Letras. Pretende-se trabalhar com leitura de textos narrativos e argumentativos, e posteriormente, com a escritura de textos destes mesmos tipos com um grupo de alunos. Deste grupo, metade, além de escrever seus próprios textos, corrigirá os textos de um colega. A outra metade de alunos não corrigirá nenhum texto, apenas escreverá os seus. Além disso, todos os alunos terão seus textos corrigidos por um professor. O grupo que receber dois feedbacks (do colega e do professor) terá que trabalhar com as duas correções para reescrever seus textos, enquanto que o outro grupo reescreverá os textos apenas com base no feedback do professor. Pretende-se verificar se o aluno, ao analisar e corrigir o texto do colega, apresenta crescimento na escrita de seus próprios textos. Os alunos produzirão, no mínimo, quatro textos diferentes (no total oito por aluno, contando as reescritas de cada um), para que este seja o corpus a ser analisado. A pesquisa visa a verificar se os resultados obtidos vão ao encontro de estudos recentes (LUNDSTROM e BAKER, 2009; ZHAO, 2010), que envolvem diferentes tipos de feedback a textos escritos, e que evidenciam que o fato de o aluno fornecer feedback ao texto do colega propicia àquele melhora na escrita de seus próprios textos.

  23. Kicktionary Br - Reflexões preliminares acerca da construção de um corpus para anotação semântica João Gabriel Padilha UNISINOS (IC)

    Este trabalho é parte de um projeto mais amplo intitulado Framecorp, cujo interesse é a anotação semântica de corpora a partir da Semântica de frames (Fillmore et al., 2008). O objetivo deste estudo é apresentar uma nova etapa prevista na agenda do projeto Framecorp, a qual se ocupa da investigação da temática do futebol a partir das contribuições de Schmidt (2009) presentes no site Kicktionary, uma ferramenta lexical multilíngue que abrange Inglês, Francês e Alemão. Como desdobramento desse objetivo, este trabalho objetiva descrever o processo de compilação do corpus de estudo que será utilizado na descrição semântica do léxico do futebol em Português brasileiro – passo inicial para a construção da plataforma Kicktionary Br. Vale ressaltar que os textos devem conter frames relacionados ao léxico do esporte e não simplesmente estarem relacionados ao tema, uma vez que notícias institucionais dos clubes, embora versem sobre esporte, não trazem aquilo que concerne ao projeto: itens lexicais ligados estritamente às cenas do jogo. A justificativa para este estudo considera o fato de que o corpus empregado durante a primeira fase do projeto Framecorp já havia sido compilado anteriormente no contexto interinstitucional do projeto PLN-BR e adequado às exigências técnicas requeridas pela ferramenta de anotação SALTO (Burchardt et al., 2003), como o formato XML Tiger. A segunda fase do projeto Framecorp prevê, primeiramente, a construção de um corpus comparável próprio semelhante aos corpora empregados pelo projeto Kicktionary, que inspirou este subprojeto. Assim como no trabalho de Schmidt, o corpus piloto da pesquisa conta com notícias sobre resultados de partidas extraídas de sites de clubes de futebol, porém em português brasileiro, totalizando 76.463 palavras, com o intuito de evidenciar as peculiaridades semânticas do idioma no que tange ao tema proposto. Para orientar o processo de construção do corpus, este estudo fundamenta-se nos conceitos postulados por Berber Sardinha (2004) e que, de acordo com ele, devem ser levados em consideração quando se propõe tal empreitada – representatividade, autenticidade e escolha criteriosa. Quanto à tipologia do corpus piloto, ela pode ser caracterizada, como quer esse teórico, pelos seguintes atributos: falado e escrito, contemporâneo, dinâmico, especializado, produzido por falantes nativos e com a finalidade de estudar um domínio linguístico específico. Em tom complementar, aparecem neste estudo alguns procedimentos apontados por Wynne (2004) subsequentes à fase inicial de construção do corpus, referentes a questões como armazenamento, distribuição e preservação dos textos. Para o teórico, isso é importante para garantir que, no futuro, o corpus possa ser utilizável por um um vasto número de potenciais usuários. Como conclusão preliminar dessa primeira experiência de construção de corpus, é possível citar a necessidade de expandir seu tamanho (o que caracteriza um corpus dinâmico, também referido como “aberto”, em fase de construção) a fim de atingir 250.000 palavras, o que, segundo Berber Sardinha, corresponde a um corpus de tamanho médio.

  24. Helpers: um projeto de ensino de ESL na universidade Danilo Suzuki Murakami USP (PG)

    O Projeto Helpers foi concebido pela Professora Cristina Arcuri Eluf Kindermann (atualmente doutoranda pela Universidade de São Paulo – USP) no âmbito da Universidade Paulista (UNIP). Trata-se de um curso de língua inglesa, paralelo às aulas curriculares, que é oferecido aos alunos de diversos cursos. Seu objetivo é aperfeiçoar o domínio de língua inglesa dos alunos, especialmente por meio do contato com formas de aprendizado que envolvam novas tecnologias, particularmente as contribuições da Linguística de Corpus. No ano de 2010, este projeto foi levado para o curso de Letras da Universidade de São Paulo (USP) e está em fase de implementação. Em tal universidade, após um ano de matérias introdutórias, os alunos de graduação têm de optar por uma habilitação em uma língua estrangeira ou em linguística, além da habilitação em português. A habilitação em inglês é a única cujas disciplinas são ministradas em inglês desde o início, o que exige que os alunos tenham um conhecimento razoável da língua para cursarem as aulas. No entanto, muitos alunos não acompanham as aulas e migram para outras habilitações, enquanto outros continuam no curso sem ter uma compreensão plena durante as aulas. Vemos, então, uma disparidade entre os níveis de domínio da língua, fato que tem sido motivo de discussão entre docentes e alunos. Nosso trabalho de iniciação científica tem como objetivo acompanhar o desenvolvimento do projeto e compilar seus resultados, tendo em vista a inserção das aplicações da Linguística de Corpus ao ensino de língua estrangeira na tentativa de amenizar o problema acima descrito. Os ganhos ocorrem em uma via de mão dupla, pois as aulas são ministradas por alunos da graduação que já possuem um maior conhecimento da língua (alunos-formadores). Ao mesmo tempo em que alunos menos preparados têm a oportunidade de alcançar um nível adequado para acompanharem as aulas, os alunos-formadores também aprimoram seu conhecimento e sua experiência pedagógica. Após a divulgação do projeto, foram entrevistados catorze candidatos a alunos-formadores, que foram convocados para um workshop de introdução à Linguística de Corpus e preparação para as aulas. Em seguida, os candidatos mais aptos serão selecionados para atuarem como alunos-formadores. Serão dois tipos de cursos: Language Practice, que focará a gramática, e Writing Practice, centrado em domínios de escrita. Cada módulo-piloto terá dez aulas semanais de 45 minutos cada, com previsão de início em agosto de 2010. A produção escrita dos alunos será compilada em um corpus de aprendizes, cuja análise servirá para identificar as necessidades deste público, assim como para definir o conteúdo programático do curso, o qual poderá ser alterado segundo demanda dos alunos. Os exercícios privilegiarão dados reais, retirados de linhas de concordância de corpora online,os quais também serão apresentados aos alunos. Esperamos obter êxito com este projeto, dada sua realização satisfatória em outra instituição. Esperamos também que a Linguística de Corpus seja divulgada em nível de graduação para que suas aplicações sejam conhecidas por aqueles interessados em áreas com a quais a Linguística de Corpus lida.

  25. Interface pedagógica = linguística de corpus + multiletramentos Cristina Arcuri Eluf USP (PG)

    Nova Interface Pedagógica – pesquisa ação – desenvolvida pela interseção da Linguística de Corpus e dos Multiletramentos. Prática pedagógica realizada em sala de aula viabilizada pelo momento contemporâneo, da globalização, e pelo momento atual da inserção das Tecnologias de Informação e Comunicação as TICs - tanto na sociedade quanto na educação formal. A prática relaciona linhas pedagógicas que não estão incluídas na grade curricular na formação do graduando de Letras. A Interface Pedagógica, num primeiro momento, está sendo utilizada como alternativa à produção e construção do conhecimento na formação do professor de Língua Inglesa (LI). Sua aplicação visa a promoção de autonomia ao aprendiz no processo de aprendizagem e a independência ao aluno futuro professor na sua trajetória profissional. A pesquisa analisa, ao mesmo tempo, dois momentos de aquisição de autonomia/independência no processo de aprendizagem de LI. O 1º momento observado ocorre na formação do professor durante o percurso de 50 alunos da graduação de Letras desde o ano de 2007 na Universidade Paulista de São Paulo. Resultados: · Compilação de Corpus de aprendizes com 568 redações (47.645 palavras) hospedados na Plataforma COMET (FFLCH-USP) [Textos coletados nas disciplinas: LI:AD; LI:GA; LI:SL; MS: LI, ministradas pela Profª Ms. Cristina]; · Definições a respeito do perfil do aprendiz; · Identificação de problemas de aprendizado de LI; · Data-driven learning- produção de exercícios de LI a partir de linhas de concordância do corpus; · Acompanhamento diacrônico [desde 2007] de um grupo de alunos universitários; · Inserção das TICs na formação de professores de Língua Inglesa. O 2º momento analisado de aquisição de autonomia compreende observações feitas no momento da aplicação, pelos alunos graduandos, das práticas realizadas em sala. Esta etapa envolve a criação do “Programa de Prática Situada” que acontece numa Escola Municipal de Ensino Fundamental (EMEF) da rede Pública de São Paulo. Prática desenvolvida por esta pesquisa, supervisionada pela Professora Ms. Cristina Arcuri, aplicada por 3 alunas da universidade UNIP-SP. Esta pesquisa comporta alunos da 5ª, 6ª, 7ª e 8ª séries do Ensino Fundamental II da escola. As atividades executadas na EMEF - inserção de ações simultâneas de Inglês e Informática - incluem a aplicação da Nova Interface Pedagógica: uso da Linguística de Corpus e dos multiletramentos na composição das aulas. O desenvolvimento das aulas inclui o uso dos seguintes Corpora: COCA, Cobuild, CoMAprend e COMPARA. Envolve ainda a integração dos quatro fatores que amparam as práticas da Pedagogia de Multiletramentos - propostas pelo grupo que elaborou o manifesto que deu origem a esta pedagogia (The New London Group) - 1. Prática Situada (Situated Practice); 2. Instrução Aberta (Over Instruction); 3. Construção Crítica (Critical Framing); 4. Prática de Transferência (Transformed Practice). Resultados esperados: a. Compilação de um corpus de aprendizes da Língua Inglesa do Ensino Fundamental II da escola pública em questão (parte do processo final do Doutorado).

  26. Linguística de corpus e quadro comum europeu de referência de línguas: uma relação necessária Gislaine Machado Jerônimo e Paola Davi Nolasco Rodrigues Merode PUC-RS (PG)

    O escopo do presente trabalho é sondar se há relação entre os textos selecionados para as provas de proficiência em leitura utilizadas pela Comunidade Européia e a Linguística de Corpus (LC). Ou seja, queremos avaliar se, nessas provas, a frequência das palavras presentes nos textos para avaliação da habilidade leitora refletem consonância com os corpora de palavras mais frequentes nas línguas inglesa e italiana, línguas alvo da nossa pesquisa. Segundo Sarmento (2009), a LC pode ser um grande recurso para autores de materiais didáticos, uma vez que fornece dados reais da língua tanto escrita como falada. Acreditamos que a LC é um recurso importante não só para autores, mas também para professores de L2 para que saibam o tipo de input ao qual devem expor os seus alunos, a fim de tornar o ambiente de sala de aula menos artificial. Julgamos que um aluno deva estar exposto, no início do seu percurso de aprendizagem (ou aquisição), a um input condizente com a realidade da língua-alvo. Logo, um candidato que se submeta à prova de nível A1 e A2, deve ser avaliado pelo conhecimento das palavras e grupos lexicais mais frequentes. Portanto, se os textos a serem interpretados fugirem a essa lista de frequência, a avaliação da proficiência, a nosso ver, é duvidosa. Claramente, o inverso se espera do último nível, C2, no qual o candidato deve ter alta proficiência e, desse modo, ser conhecedor de palavras não tão recorrentes na sua L2 (ou LE). Escolhemos a habilidade de leitura, dentre as quatro habilidades linguísticas, porque um aprendiz de L2 normalmente está mais exposto a textos autênticos escritos ao longo de sua aprendizagem da L2 do que aos orais, pois eles são mais recorrentes nos livros didáticos. Dessa forma, focalizamos nossa pesquisa em dados escritos das línguas inglesa e italiana. O Quadro Comum Europeu (QCE) é o documento que estabelece as diretrizes, em termos de habilidades e competências linguísticas, que certificam um nível de proficiência aos candidatos. De acordo com o QCE, espera-se, em cada nível (Usuário Básico: A1 e A2; Usuário Independente: B1 e B2; Usuário Proficiente: C1 e C2), as seguintes habilidades relacionadas à leitura: A1 - ser capaz de compreender nomes conhecidos, palavras e frases muito simples, por exemplo, em avisos, cartazes ou folhetos; A2 - ser capaz de ler textos curtos e simples. Ser capaz de encontrar uma informação previsível e concreta em textos simples de uso corrente, por exemplo, anúncios, folhetos, ementas, horários. Ser capaz de compreender cartas pessoais curtas e simples; B1 - ser capaz de compreender textos em que predomine uma linguagem corrente do dia-a-dia ou relacionada com o trabalho. Ser capaz de compreender descrições de acontecimentos, sentimentos e desejos, em cartas pessoais; B2 - ser capaz de ler artigos e reportagens sobre assuntos contemporâneos em relação aos quais os autores adotam determinadas atitudes ou pontos de vista particulares. Ser capaz de compreender textos literários contemporâneos em prosa; C1 - ser capaz de compreender textos longos e complexos, literários e não literários, e distinguir estilos. Ser capaz de compreender artigos especializados e instruções técnicas longas, mesmo quando não se relacionam com a minha área de conhecimento; C2 - ser capaz de ler com facilidade praticamente todas as formas de texto escrito, incluindo textos mais abstratos, linguística ou estruturalmente complexos, tais como manuais, artigos especializados e obras literárias. A metodologia utilizada foi a análise das 100 palavras lexicais mais frequentes no Inglês e no Italiano em Corpora de Referência de língua escrita, respectivamente no British National Corpus (BNC) e CORIS/CODIS D. S. L. O. Para tanto, foram digitalizadas as provas da University of Cambridge Local Examination Syndicate (UCLES) dos níveis PET, FCE, CAE e CPE do ano de 2008; e Certificazione di Italiano come Lingua Straniera (CILS) do ano de 2009. Todas as provas foram posteriormente processadas no WordSmith Tools. Foram analisados os níveis B1, B2, C1 e C2, não compreendendo os níveis A1 e A2, visto serem níveis muito elementares e, dessa forma, pouco requisitados. Com a análise dos dados, esperamos que seja possível verificar uma relação entre o nível de exigência da proficiência do candidato aos exames de certificação em L2, baseados no Quadro Comum Europeu, e o registro de número de ocorrências de palavras lexicais das línguas-alvo, extraídas dos corpora mencionados acima. Esses dados podem servir de base à reflexão sobre a preparação de material didático para professores de L2 e sobre até que ponto essas provas certificam a proficiência em leitura com base em textos autênticos, representativos de uma língua em uso. Queremos ainda, com este trabalho, destacar a importância da utilização da LC como uma poderosa ferramenta para o professor de L2.

Pôsteres-1

by blogadmin

 

Pôsteres aceitos, parte 1

Sujeito a alteração

Tratamento da ambiguidade dos segmentos introduzidos por preposição -  Magali Sanches Duran e Sandra Maria Aluísio (USP)

No tratamento automático da lingua portuguesa, uma dificuldade comum é distinguir argumentos preposicionados previstos pelo verbo (objetos indiretos, na sintaxe) de adjuntos modificadores introduzidos por preposições (adjuntos adverbiais, na sintaxe). Esse problema é bem conhecido na análise sintática realizada pelos parsers, e dificulta especialmente o trabalho de anotação de papéis semânticos, que depende da qualidade da análise sintática. A atribuição de papéis semânticos remonta a antiguidade clássica, mas na modernidade passou a ser difundida por Fillmore (1968). Existem muitas propostas de conjuntos de papéis semânticos, variando principalmente no número e no grau de especificidade dos papéis. Propostas desenvolvidas para a língua inglesa, como a Framenet (Baker, Fillmore e Lowe, 1998) a VerbNet (Kipper-Schuler 2006) e o Propbank (Palmer, Gildea e Kingsbury, 2005) são modelos para a anotação de papéis semânticos em outras línguas. Uma diferença importante nessas propostas é o fato da Framenet possuir um conjunto de papéis para cada classe semântica de verbos (chamada “frame”), enquanto que a VerbNet e o Propbank possuem conjuntos de papéis mais genéricos, que podem ser aplicados na descrição da semântica de qualquer verbo. O conjunto de papéis do Propbank é tão genérico que, para melhorar seu poder de discriminação, foi realizado o mapeamento de seus papéis semânticos para os papéis semânticos da VerbNet (Loper, Szu-ting e Palmer, 2007). Enquanto na Framenet e no Propbank a anotação dos papéis semânticos é feita diretamente em um corpus, na VerbNet os papéis semânticos são descritos juntamente com outras características de cada verbo, como as classes semânticas a que pertencem e as alternâncias sintáticas que admitem. Finalmente, outra diferença entre essas propostas é sua finalidade. A Framenet e a Verbnet visam à construção de bancos de conhecimento lexical, enquanto o Propbank visa fornecer um corpus de treinamento para que a tarefa de anotação de papéis semânticos seja automatizada. No caso desta pesquisa, adotou-se a metodologia do Propbank, mas qualquer proposta de anotação de papéis semânticos que venha a ser desenvolvida para o português precisará, em um determinado momento, levantar quais são os argumentos preposicionados previstos pela semântica de cada verbo. O problema da ambigüidade entre sintagmas preposicionados previstos pela semântica dos verbos (chamados de Arg2 até Arg5 no Propbank) e sintagmas preposicionados adjuntos (chamados de argumentos modificadores ou ArgMs no Propbank) afeta o aprendizado de máquina. Se não houver informação de que um verbo como “chorar” não prevê argumento preposicionado, a máquina pode interpretar “de saudade” como argumento previsto pelo verbo na seqüência “chorar de saudade” (“de saudade” é um argumento modificador de causa, pelos critérios do Propbank). No entanto, quem chora não chora “de” alguma coisa, diferentemente de quem reclama, que reclama “de” alguma coisa. Para promover essa distinção, é preciso, primeiramente, construir um léxico que contenha os verbos que admitem complemento preposicionado e suas respectivas preposições admitidas. Por exemplo, o verbo “falar” teria várias entradas: falar+em, falar+de, falar+sobre, falar+a, falar+para, falar+com, mas a maioria dos verbos admite menos preposições, o que permite rejeitar muitos sintagmas preposicionados como argumentos previstos pela semântica do verbo e classificá-los automaticamente como argumentos modificadores (adjuntos adverbiais). Mesmo assim, persistem algumas ambiguidades que requerem outra abordagem. Para a máquina, “falar em divórcio” e “falar em segredo” têm o mesmo estatuto, embora no primeiro caso, “em” introduza um tema (objeto indireto) e no segundo caso o “em” introduza um argumento modificador (locução adverbial de modo - “em segredo”, que poderia ser parafraseada por “confidencialmente”). A solução para esses casos exige que as locuções adverbiais introduzidas por preposição sejam previamente reconhecidas. Isso requer o levantamento de um léxico de multipalavras do tipo “em particular”, “em tom de súplica”, “às pressas”, “com entusiasmo”, “de improviso” etc. Os dois léxicos (de verbo+preposição e de multipalavras iniciadas por preposição) estão sendo levantados por meio da análise de corpus e este trabalho visa apresentar a metodologia utilizada nesse levantamento e os resultados parciais alcançados. Como o foco da pesquisa são argumentos de verbos introduzidos por preposição, a utilização de um corpus anotado morfossintaticamente abrevia o esforço, uma vez que permite buscar não somente palavras-chave, mas palavras anotadas como “verbo” seguidas de palavras anotadas como “preposição” ou até verbos seguidos de sintagmas preposicionados. O corpus utilizado para a pesquisa é o CETENFolha (Corpus de Extratos de Textos Eletrônicos NILC/Folha de S. Paulo) constituído do texto de 365 edições do jornal Folha de São Paulo do ano de 1994 com cerca de 24 milhões de palavras. A ferramenta de busca utilizada foi o AC/DC, disponível publicamente, juntamente com o CETENFolha, no site da Linguateca (http://www.linguateca.pt/). Mostra-se, nesta pesquisa, como as categorias de busca disponíveis no AC/DC, como concordâncias, distribuição por lema e distribuição por forma são essenciais para se atingir os resultados esperados. Como os recursos utilizados para a pesquisa estão acessíveis pela internet, conclui-se que a construção de léxicos modelados para uso no tratamento automático da língua portuguesa é uma tarefa que pode ser distribuída, desde que as demandas sejam bem definidas e estejam publicamente disponibilizadas em um site ou portal que concentre, por exemplo, os resultados já obtidos, as publicações relacionadas e as tarefas ainda em aberto à espera de pesquisadores interessados em desenvolvê-las com o compromisso de disponibilizar os resultados para que todos possam se beneficiar deles.

A imagem do brasileiro no discurso do norte-americano em livros de culinária típica: um estudo direcionado pelo corpus - Rozane Rodrigues Rebechi (USP-PG)

A culinária é um traço cultural muito forte e a cultura é central para a produção de significado e reprodução das relações sociais (WOODWARD, 2000). E é grande o interesse do norte-americano pela culinária brasileira, a julgar pelas obras impressas e em formato eletrônico disponíveis em inglês. No entanto, estudos recentes demonstram que não há padronização em relação à tradução e à definição de termos da culinária brasileira para a língua inglesa (COSTA, 2006). Esse problema pode estar relacionado à deficiência e escassez de obras terminográficas bilíngues inglês-português na área da culinária (TEIXEIRA, 2004). No entanto, sabe-se que a tradução, muito além da noção de equivalência terminológica, envolve questões culturais e representações (nem sempre éticas) da cultura de partida (VENUTI, 1998), e não se resume a uma atividade neutra, uma vez que o tradutor carrega consigo toda uma visão ideológica compartilhada pelo grupo a que pertence (HATIM; MASON, 1997). Posturas e atitudes ideológicas podem ser reveladas pela análise crítica do discurso, por meio de instrumentos linguísticos de análise e conhecimento de contextos sociais e históricos (BAKER, 1999). O objetivo desta pesquisa é analisar como o tema ‘culinária brasileira’ tem sido abordado na sociedade norte-americana. Para isso, foi utilizada como metodologia a Linguística de Corpus para compilação e exploração do corpus de estudo. O corpus de estudo é comparável, constituído de oito livros de receitas brasileiras escritos em língua inglesa e quatro livros de receitas brasileiras escritos em português que, para serem explorados com ajuda da ferramenta computacional WordSmith Tools 5.0, foram digitalizados. Foi observado que os livros em inglês apresentam, além de receitas culinárias, textos introdutórios com informações sobre o Brasil e o povo brasileiro. Portanto, o material foi dividido em dois subcorpora: um subcorpus ‘receitas’ e um subcorpus ‘textos informativos’. O corpus foi balanceado levando em consideração o número de palavras dos subcorpora ‘receitas’, que possuem aproximadamente 130.000 palavras em cada idioma. O subcorpus ‘textos informativos’, em inglês, conta com 76.000 palavras. A partir do subcorpus ‘receitas’, foi feita uma análise dos ingredientes e dos pratos mais recorrentes nos livros. A fim de evidenciar termos próprios da culinária típica brasileira, foi utilizado um corpus de culinária geral para o levantamento das palavras-chave do subcorpus ‘receitas’. Essas palavras-chave foram comparadas entre si, resultando em uma lista de palavras-chave-chave, ou seja, palavras-chave recorrentes em diferentes livros. Essa análise quantitativa precedeu uma análise qualitativa, manual, que mostrou que nem sempre há correspondência entre o que se publica nos dois idiomas. Os resultados mostraram que algumas receitas muito recorrentes em inglês não recebem o mesmo destaque nos livros em português. Pratos de origem estrangeira também são mais salientados no subcorpus em inglês. Foi possível observar duas características predominantes na seleção das receitas para a compilação dos livros em inglês: a primeira mostra uma tendência a escolher pratos familiares aos norte-americanos, e a outra revela a predominância de pratos típicos da culinária nordestina, em especial, da baiana. Pratos mais ‘exóticos’ e/ou que demandam ingredientes considerados não-saudáveis pelos norte-americanos costumam ser evitados. O subcorpus ‘textos informativos’ serviu como insumo para uma análise do discurso do norte-americano em relação ao Brasil e ao povo brasileiro, que também partiu do levantamento das palavras-chave-chave, levando em consideração o critério de recorrência em diferentes livros. O discurso do norte-americano (representado, aqui, pelos autores dos livros que compõem o corpus) em relação ao brasileiro aponta para imagem estereotipada, pautada por características como: festeiro, místico, exótico e adepto de hábitos alimentares pouco saudáveis. Foi observada, também, uma confusão entre termos próprios da cultura brasileira e a de outros países da América Latina. A análise dos contextos selecionados evidenciou que o norte-americano, representado pelos autores dos livros analisados, tende a associar a culinária brasileira a uma culinária simples, essencialmente caseira, intuitiva, transmitida oralmente e, em geral, associada à mulher. A análise dos livros de receitas brasileiras publicados em inglês mostrou que o norte-americano de fato desconhece alguns aspectos da cultura brasileira em geral e, portanto, pode-se concluir que os problemas de equivalência dos termos não são gerados apenas pela escassez de dicionários bilíngues da área da culinária. Por meio dos resultados obtidos, foi possível concluir que métodos semi-automáticos de análise possibilitam a exploração de grandes quantidades de textos e ajudam a identificar padrões de forma mais prática e confiável do que seria possível a partir da leitura intuitiva de textos individuais (STUBBS, 1996), uma vez que a leitura sequencial, mesmo que possível, pode levar o pesquisador a encontrar evidências para provar algo em que já acreditava, impedindo-o de observar dados novos.

PhoCo: corpus para geração fonética automática em verbetes para dicionários do português do Brasil - Vanessa Marquiafável Serrani e Claudia Zavaglia (Unesp - Ibilce)

Apresenta-se, neste resumo, a descrição do PhoCo (Phonetic Corpus), um corpus anotado foneticamente com o alfabeto SAMPA (Speech Assessment Methods Phonetic Alphabet), quer dizer, um alfabeto fonético computável largamente utilizado em pesquisas de Reconhecimento e/ou Síntese de Fala. O PhoCo surgiu como recurso linguístico fundamental para a concretização do projeto de doutorado do qual faz parte e pretende oferecer uma alternativa de inserção automática à tarefa manual de anotação fonética de pequenos ou grandes corpora de palavras isoladas. Tal anotação manual, tradicionalmente realizada por especialistas em fonética acústica, está associada a importantes inconvenientes: (i) processo moroso que exige grande atenção durante sua execução; (ii) necessidade de procedimentos padronizados e bastante explícitos de anotação para que o formalismo utilizado possa ser tratável computacionalmente; (iii) sujeição a erros humanos por distração ou cansaço do anotador e, por fim, (iv) falta de coerência, muitas vezes, entre os anotadores. Para tanto, o projeto citado apresenta a proposta de construção de uma ferramenta computacional amigável (de fácil utilização por qualquer usuário não informata) para a realização automática da tarefa de transcrição fonética de unidades lexicais (ULs) que fazem parte da macroestrutura de dicionários mono ou plurilíngues, que será disponibilizada gratuitamente via Web, com o escopo de facilitar seu acesso à comunidade lexicográfica e demais usuários interessados em realizar anotação fonética de forma automática em pequenas ou grandes nomenclaturas. Não menos importante, a inserção da pronúncia em dicionários não é das tarefas mais fáceis e pode, por vezes, influenciar o lexicógrafo a omiti-la de seus dicionários, justamente, devido aos percalços anteriormente elencados. Como toda pesquisa que envolve compilação de corpus, a primeira providência foi escolher um conjunto de textos que atendesse a nossa necessidade, no caso, que representasse de maneira satisfatória os sons mais recorrentes no português do Brasil. Para tanto, foram utilizadas 200 sentenças foneticamente balanceadas contidas no projeto NURC-RJ, também utilizadas em diferentes sistemas de reconhecimento de fala. Todas as palavras dessas sentenças foram transcritas fonética e manualmente, segundo regras de correspondência grafema-fonema do português brasileiro, já empregadas em outras pesquisas. Isso porque esse tipo de transcrição apresenta o modo de falar característico do nível culto da língua comumente empregado em transcrições fonéticas de verbetes de dicionários, quer dizer, com ausência dos apagamentos e inserções sonoros característicos das situações mais informais de fala. Esse tipo de transcrição é denominado, na literatura, de “Transcrição Fonética Larga”, isto é, visa transcrever uma produção oral mais lenta ou idealizada. O PhoCo atualmente é um corpus pequeno e possui até o momento 1.281 unidades lexicais transcritas foneticamente que serão utilizadas como corpus de treinamento para a ferramenta de anotação fonética automática de itens lexicais em verbetes para dicionários supracitada. Vale dizer que essas ULs apresentam sua silaba tônica identificada manualmente por um sinal que as precede de forma a também ajudar no aprendizado automático desse tipo de informação. Futuramente, conforme os resultados dos testes de precisão da tarefa de anotação fonética automática forem analisados, outras ULs serão adicionadas a este corpus para o treino e avaliação da ferramenta proposta. A transcrição manual do PhoCo foi feita com o auxílio de um editor de texto, o X-Emacs, e um protocolo de anotação desenvolvido para esse fim. Além disso, o PhoCo foi anotado e revisado por um único especialista em transcrição fonética em SAMPA, fato esse que pretende ser sanado em breve por meio da ampliação de anotadores do PhoCo, visando buscar maior consistência e melhor qualidade na anotação realizada. Vale ainda dizer, que, para analisar a consistência entre esses anotadores será utilizada a estatística Kappa, método comumente utilizado para avaliar se a concordância entre os anotadores é razoável. Em relação ao aumento do PhoCo, é importante citar que, primeiramente, será analisado o resultado de anotação fonética automático produzido pela ferramenta proposta e, a seguir, será feito um levantamento da cobertura fonética existente no corpus em estudo e, posteriormente, a busca dos sons faltantes em um corpus de referência do português do Brasil de maneira automatizada. Por fim, será feita a transcrição fonética dos sons faltantes e inserção dos mesmos no PhoCo para treinamento e refinamento da ferramenta de anotação automática proposta.Como contribuições, o PhoCo poderá ser aplicado em Linguística nos estudos concernentes à Fonética e Fonologia e ao ensino de línguas estrangeiras com corpus, por exemplo. Já na Linguística Computacional, o PhoCo poderá ser utilizado para desenvolver sistemas de Reconhecimento e Síntese de Fala do português do Brasil.

Anotação semântica: reflexões a partir dos resultados do projeto FrameCorp - Rove Chishman (UNISINOS/ CNPq), Guilherme Figueiró (UNISINOS/ PG) e João Gabriel Padilha (UNISINOS/IC CNPq)

Apresentamos aqui os resultados do trabalho de anotação semântica realizado no âmbito do projeto FrameCorp, cujo principal propósito é aplicar o conceito de frame semântico, conforme proposto pelo projeto FrameNet (FILLMORE, et al., 2003), na tarefa de anotação manual de corpus. Nosso objetivo aqui é refletir sobre o processo de anotação, destacando as principais dificuldades enfrentadas, a partir de dois experimentos: (i) a anotação do corpus Summ-it, compreendendo a descrição semântica de 774 sentenças de um corpus composto por textos da seção ciência, do jornal Folha de São Paulo e (ii) a anotação do corpus do subprojeto Kicktionary Br, constituído por notícias extraídas de sites de futebol. Como motivação para esta pesquisa, destacamos dois aspectos: a escassez de recursos linguísticos com anotação semântica para a língua portuguesa e o emprego da noção de frame semântico para este propósito. Comparados com outras noções semânticas utilizadas em corpora anotados, como os papeis temáticos, os frames semânticos parecem descritivamente superiores, em se tratando de modelos semânticos voltados para aplicações computacionais, como é o caso de sistema de busca e extração de informação.Nosso experimento com o corpus Summ-it nos levou a refletir especialmente sobre a metodologia empregada e sobre as dificuldades concernentes à ferramenta de edição de anotação – a ferramenta SALTO (BURCHARDT et al., 2003). Sobre a metodologia, a questão central é a adoção de forma alternada de duas estratégias – a anotação no modo running text (ou texto corrido) e a anotação lexicográfica. A primeira estratégia se justifica como uma exigência da própria ferramenta de anotação, que recebe as sentenças na ordem como aparecem nos textos, garantindo, desta forma, que todas as sentenças sejam anotadas. A tarefa de anotação, neste sentido, consiste em: (i) identificar o elemento evocador de frame na sentença, (ii) identificar um equivalente de tradução na base de dados FrameNet, (iii) identificar o frame associado ao item lexical do inglês e (iv) anotar a sentença com os elementos de frame apropriados. Tal tarefa não é trivial, pois envolve a utilização de um recurso lexical da língua inglesa para a anotação semântica do português. Soma-se a isto o fato de a análise exigir o domínio de mais de 50 frames, consultados à medida que os dados se apresentam na análise no modo running-text. Outra dificuldade desta primeira estratégia diz respeito à diversidade de fenômenos semânticos a descrever concomitantemente neste modo de anotação, de modo que optamos em fazer a anotação em três etapas. Primeiramente, recorrendo à estratégia lexicográfica, anotamos as unidades lexicais que remetem ao frame Statement, já que estas unidades ocorrem em 135 sentenças do corpus. A segunda etapa, seguindo uma abordagem running-text, traz a anotação de 512 sentenças, que se caracterizam por apresentarem verbos que evocam uma vasta variedade de frames. Uma das maiores dificuldades desta etapa foi diferenciar o frame Statement de frames semanticamente relacionados, como Telling, Quarreling, Adducing e Summarizing, pois todos esses frames podem ser evocados por unidades lexicais em discurso indireto, assim como o frame Statement. A anotação foi realizada por dois anotadores, as anotações foram confrontadas e os casos de divergência foram solucionados por um terceiro anotador. Houve concordância em 421 sentenças e divergência em 91 sentenças. A anotação pôde ser dividida em casos simples, em que há paralelismo entre o inglês e o português, de forma que se torna fácil identificar um equivalente de tradução. Já os casos de discordância são provocados pelo não-paralelismo, vaguidade ou polissemia. O verbo ter, por exemplo, ilustra um caso de vaguidade, podendo evocar os frames Possession, Have-associated e Inclusion. Na terceira etapa, ocupamo-nos da análise semântica das construções com verbos suporte e modalizadores, totalizando 262 sentenças do corpus. No que tange às construções com verbos suporte, o desafio consistiu em lidar com diferentes estruturas predicativas e graus de composicionalidade variados. As construções com verbos modais, por sua vez, apresentaram desafios de outra ordem. Uma das dificuldades consistiu em identificar na base de dados os frames correspondentes às diferentes categorias de modalização, como epistêmicos, deônticos e dinâmicos. A outra dificuldade consistiu em avaliar se as categorias semânticas destes frames são descritivamente adequadas para expressar a semântica da modalidade.Já o experimento com o corpus do futebol, trabalho de anotação em desenvolvimento pelo grupo, vem nos levando a enfrentar outros desafios. Destacamos aqui o trabalho de compilação de corpus, aspecto secundário no primeiro experimento, já que partimos de um corpus já constituído e compilado com as exigências técnicas da ferramenta de anotação, que é a formalização em XML Tiger. No caso do Kicktionary Br, que também se volta para a anotação semântica, o primeiro desafio consistiu em formar um corpus comparável aos corpora do projeto original Kicktionary (Schmidt, 2009), nas línguas inglesa, alemã e francesa. Assim, ocupamo-nos em extrair, seguindo a experiência de Thomas Schmidt para a construção do léxico multilíngüe Kicktionary, sentenças que se prestem à descrição das cenas e frames futebolísticos. Para esta tarefa, selecionamos notícias de sites de clubes brasileiros de futebol, de modo a termos um corpus do Português do Brasil. Diferentemente do primeiro experimento, a anotação semântica do corpus Kicktionary Br parte das categorias propostas por Schmidt, e não das categorias do projeto FrameNet pioneiro. Nesta fase da pesquisa, nosso principal objetivo é verificar em que medida a proposta de Schmidt de dividir o estudo de frames em 11 cenas se aplica aos nossos dados. Interessa-nos também fazer um estudo exploratório dos principais fenômenos semânticos que compreendem este domínio, de modo a delinear os próximos desdobramentos. Como resultados preliminares deste segundo experimento, destacamos aqui o número expressivo de itens lexicais polissêmicos, como é caso de marcar e jogar, assim como de unidades complexas.

Fraseologia do Futebol: Linguística de Corpus, Terminologia e ensino - Sabrina Matuda (USP-PG)

Esta apresentação, recorte de nossa pesquisa de mestrado que está sendo desenvolvida na Universidade de São Paulo, propõe uma metodologia de ensino de inglês como língua de especialidade por meio de unidades fraseológicas (UFs). A língua de especialidade em questão é o futebolês ou, em inglês, o footie. A fundamentação teórica embasa-se na Lingüística de Corpus, nos estudos de unidades fraseológicas de Krieger e Finatto (2004) e nos estudos de inglês para fins específicos e corpora de especialidade de Gavioli (2005). As justificativas para estudar o futebolês são inúmeras, comecemos pela principal: vivemos no país do futebol. É aqui que se concentra o maior número de praticantes (mais de 30 milhões) e de atletas federados (em média 11 mil); o maior número de federações e de clubes (mais de 800 com investimentos em várias categorias); e o maior número de estádios (média de 300). É fato que as relações futebolísticas entre o Brasil e os países da Europa crescem cada vez mais (Cruz 2005), O intercâmbio de contratos, patrocinadores e qualquer produto relacionado ao futebol é constante. Exportamos nosso futebol e importamos novas tendências de administração, ou seja, à medida que precisamos transmitir para uma outra língua, em nosso caso o inglês, novos dribles, passes, táticas e jogadas, também precisamos importar linguisticamente as novas regras, estatutos e diretrizes internacionais. Além desses fatores, o Brasil será sede da próxima Copa do Mundo. As instituições de ensino particulares já começaram a elaborar cursos específicos para o ensino de português como língua estrangeira para turistas e de inglês com vocabulário específico sobre futebol para profissionais do esporte e jornalistas em geral. Optamos por trabalhar com o ensino de fraseologias, e não apenas com o ensino de termos isolados, pois acreditamos que um termo raramente ocorre sozinho, ou seja, é muito provável que venha acompanhado de um colocado, formando uma colocação e, muitas vezes, seja até parte de uma unidade de sentido maior. Observamos as fraseologias dentro de duas perspectivas discutidas em Krieger & Finatto (2004): 1) formulações prototípicas de cada tipo de comunicação especializada; 2) estruturas sintagmáticas multilexicais que comportam um termo; Dessa forma, consideraremos fraseologias tanto sequências de palavras da língua geral, que assumem status de termo por serem freqüentes em uma linguagem especializada, como em sem chance de + verbo, quanto estruturas que comportam um termo, como em fazer um gol contra. Ao considerar essas duas perspectivas, pretendemos tirar do termo o status protegido que geralmente lhe é atribuído (Tognini-Bonelli 2002) e reconhecer que os termos são, em sua grande maioria, vinculados a expressões maiores que caracterizam um modo de expressão específico de uma dada linguagem especializada. No que se refere ao ensino de inglês para fins específicos, apoiamo-nos em Gavioli (2005) para quem o ensino de uma língua de especialidade deve ser entendido como uma abordagem ao ensino de línguas, em que o conteúdo e o método empregado são baseados nas necessidades de aprendizado do aluno. Por essa razão também questionamos, juntamente com Bowker (2002), a utilidade de se conhecer um equivalente terminológico em uma outra língua e desconhecer seus colocados e as fraseologias das quais faz parte, ou seja, questionamos a relevância de disponibilizar listas de termos aos alunos, prática comum no ensino de inglês para fins específicos (Gavioli 2005: 59). Dentro desses moldes, propomos o ensino do futebolês por meio da exposição de unidades fraseológicas aos alunos. Devido às limitações de tempo e espaço para essa apresentação, optamos por demonstrar a metodologia a ser desenvolvida por meio de um estudo piloto que realizamos com o termo gol. Em síntese, a metodologia adotada para o levantamento das UFs foi: 1) gerar palavras-chave (keywords) do corpus em português para verificar qual o item lexical mais freqüente; 2) gerar linhas de concordância para gol; 3) examinar os clusters de gol; 4) validar os clusters como fraseologias;  Para identificar, no corpus de inglês, os equivalentes das fraseologias de gol em português, fizemos duas concordâncias para goal, uma ordenada alfabeticamente pelas três primeiras palavras à esquerda, para a busca de equivalentes como o gol da vitória, que em inglês provavelmente teria a ordem invertida devido à posição do adjetivo, e outra ordenada alfabeticamente pelas três palavras à direita. Em alguns casos, os equivalentes das fraseologias estudadas são bem diferentes nas duas línguas, seja pela estrutura, seja pelo uso de uma outra fraseologia consagrada, neste caso em inglês, que não contém a palavra goal. Ao procurar um equivalente para o gol de empate, encontramos apenas 4 ocorrências para tying goal. Ao analisar as keywords do corpus em inglês, deparamos com o termo equalizer e, após observar as 22 linhas de concordância encontradas, estabelecemos equalizer como equivalente para o gol de empate. O estudo realizado propõe uma interface da Linguística de Corpus com o ensino de línguas para fins específicos não só por meio da elaboração de materiais de referência, como obras pedagógicas, dicionários e, em nosso caso, glossários, mas também na própria postura pedagógica do professor. Acreditamos que o ensino DDL – Data Driven Learning (Aprendizagem direcionada por Dados) é uma metodologia promissora, pois o aluno é encorajado a se tornar um pesquisador, uma vez que o aprendizado acontece pelo acesso a dados linguísticos disponíveis no computador, ou quando isso não é possível, por linhas de concordância impressas. O estudo nos mostrou que a análise de unidades fraseológicas é uma abordagem promissora para uma extração terminológica que tenha como objetivo descrever a realidade dos usos terminológicos. As UFs levantadas compreendem sintagmas com elementos fixos, como em o gol da vitória, gol de honra e fazer um gol fora de casa, respectivamente, em inglês, the winning goal, consolation goal e score an away goal que representam o uso convencionalizado do termo, valorizando, assim, seu caráter discursivo.

An English-Portuguese parallel corpus for the study on the semantics of noun-noun compounds  - Lílian Figueiró Teixeira (UNISINOS) e Rove Luiza de Oliveira Chishman (UNISINOS)

The noun compounds are productive constructions in a variety of languages, but the study of this linguistic phenomenon is still a challenge. Besides being idiosyncratic constructions, their structure varies according to the language. In this paper, which is part of a Master’s dissertation, we present a study on the semantics of noun compounds in English and its relation to their translation to Portuguese. In order to delimitate our research, the following definition for nominal compounds was adopted, two nouns (NN) in which there is a pre-modifier followed by a head noun, called noun-noun compounds (Barker; Szpakowicz, 1998). Some studies suggest the Generative Lexicon theory (Pustejovsky, 1995) as a representative model for the compounds. Johnston and Busa (1999) carried out a study of the semantic patterns of compounds by comparing occurrences in English and Italian. Their purpose was to identify how the semantics of the compounds could suggest some predictability on the structure of compound in the target language. This is also our general purpose in this paper, but we did not use only the qualia structures, since we needed a broader classification. Through computational tools it is possible to analyse authentic material collected as a corpus (Berber Sardinha, 2004). Ten editions of the National Geographic magazine were selected, in its original version, in English, and in its Brazilian version, in Portuguese. They made part of a parallel corpus that was useful for the identification of the translation equivalents (Hernández, 1996). After the morphological annotation of the articles, an extractor was used, a tool that provides a list of possible compounds. Then some semantic patterns were identified, having as basis the study of Ryder (1994), who suggests a classification based on linguistic templates, which are schemas that include semantic characteristics of the components and of the compound structures. The linguistic templates are similar to the frames by Fillmore (1996), which provide a description of a specify context, through the identification of related actors and  lexical units. The following steps were important for the identification of the templates: the two texts (in Portuguese and English) were machine aligned and the translation equivalents were identified. Some of the most frequent templates identified in the corpus are: SERVES TO (car keys), IS LOCATED IN (school play), HAS – CONSTITUENT PART (church floor), COMES FROM (cane juice) and HAPPENS IN – TIME (night school). 91 of the 165 NN compounds translated present the structure formed by noun, preposition “de” and noun. However, other structures were used, such as “N adjective”, “N para N”, “N em N”, “N d’ N”, “N verb N”, “N de V” and “N para V”. Sometimes the NN compound in English had as equivalent only one noun in Portuguese. Considering the relation SERVES TO, many translation equivalents are formed by noun and adjective, such as “centro educacional”, which sounds much more natural than a NN construction. According to the results we can state that the preposition de in Portuguese can represent several semantic relations and deserves more studies on its polysemy. An important aspect on the translation is the cultural influence on the translator options, which determines how a noun compound is translated to Portuguese. This study suggests a semantic analysis of the noun compounds in English in a magazine context, presenting an initial reflection on the translation correspondents.  This kind of representation is the basis for any other action whose purpose is to improve the language processing tasks, such as machine translation systems.

A emergência do léxico verbal - Mirian Rose Brum-de-Paula (UFPEL) e Giovana Ferreira-Gonçalves (UFPEL)

Um elemento importante relacionado à aquisição da linguagem é a constituição do léxico. Diferente de outros elementos da língua, o sujeito sempre é capaz de adquirir novos itens lexicais. Esse processo complexo de desenvolvimento lexical ocorre de modo irregular. A não linearidade do seu desenvolvimento é, na verdade, um padrão esperado dos sistemas emergentes. O desenvolvimento do léxico verbal é cognitivo e linguisticamente mais complexo do que o léxico dos nomes. Além disso, dependendo da língua, sua organização é mais variável do que o léxico nominal. Enfim, as línguas são tipologicamente caracterizadas por esquemas diferentes de lexicalização de processos. Bates e Goodman (1999) destacam a necessidade de que um certo estoque lexical seja constituído a fim de que a aquisição gramatical se realize. Influenciada pela idéia da massa lexical crítica, Bassano (2005) emitiu a hipótese do princípio léxico-semântico da gramaticalização ligado a aspectos qualitativos da relação existente entre o léxico e a gramática. A autora sugere que a gramaticalização poderia estar relacionada tanto ao tamanho (massa lexical crítica) quanto à estrutura e à natureza do léxico. O presente trabalho, partindo de uma perspectiva emergentista para o processo de aquisição da linguagem, em que padrões gramaticais são estruturas que emergem do léxico, busca refletir acerca de como ocorre a aquisição do léxico verbal. Nesse sentido, procura-se comparar o repertório lexical utilizado por 8 crianças, monolíngues, adquirindo o português brasileiro como língua materna, com idade entre 1 e 4 anos, estabelecendo-se relações entre a frequência dos itens lexicais produzidos pelo bebê e a emergência da morfologia verbal. Também são estabelecidas comparações entre o léxico verbal empregado pelos cuidadores e aquele que emerge das produções dos bebês em cada uma das coletas realizadas. Os corpora utilizados integram o banco de dados LIDES (Linguagem Infantil em Desenvolvimento), desenvolvido por pesquisadores da Universidade Federal de Pelotas e da Universidade Católica de Pelotas. As coletas foram realizadas de forma longitudinal, em gravador digital, e correspondem, cada uma, a 30 minutos de interação entre o cuidador e a criança. Os dados foram transcritos e posteriormente submetidos a um levantamento de percentuais de frequência no programa computacional Word Smith Tools. Os resultados apontam para uma predominância: de formais verbais associadas ao presente, infinitivo e imperativo; de verbos nucleares, ou seja, aqueles que permitem instanciar lexicalmente, por uma unidade frequente e pouco especificada, grandes domínios semânticos (Viberg, 2002); e de formas lexicais diretamente relacionadas à frequencia do input. Ainda, em acordo com Vidor (2008), foi constatado um desenvolvimento gradual e ascendente do léxico verbal nas produções realizadas pelos sujeitos da pesquisa, ainda que as primeiras coletas tenham apresentado substantivos de forma mais expressiva. Tendo em vista que o léxico fornece liberdade por parte dos usuários da língua acerca do seu emprego, aspectos relacionados ao input tornam-se, pois, ainda mais relevantes. Desta forma, salienta-se aqui a importância de a metodologia prever a utilização de dados do banco LIDES, pois este é constituído apenas por coletas realizadas pelo cuidador do bebê, o que possibilita uma melhor investigação acerca do papel do input nas produções das crianças. Fundamental também, em termos metodológicos, a utilização da Linguística de Corpus (Sardinha, 1998) para a descrição e análise dos dados produzidos pelo bebê e pelo cuidador. Neste trabalho, assumimos um enfoque emergentista a fim de traçar o caminho percorrido pela criança durante a conquista progressiva da linguagem articulada. Defendemos uma concepção integrativa da aquisição da linguagem, ou seja, a aquisição e o desenvolvimento da linguagem resultam do produto de interações entre diferentes componentes da capacidade lingüística – como fonologia e léxico; e morfologia e léxico, especificamente nesta pesquisa. A progressiva conquista da linguagem não parece estar vinculada a um único fator, mas à interação entre diferentes elementos. Dentre eles, destacamos as necessidades comunicativas da criança, do input verbal e das estruturas gramaticais.

A linguística de corpus na elaboração de atividades didáticas para o ensino de línguas estrangeiras a partir de textos autênticos: relato de experiência em cursos superiores de tecnologia - Dilton Serra e Márcia Polaczek (FATEC- SP)

Este trabalho apresenta uma proposta de utilização da Linguística de Corpus na elaboração de material didático para o ensino de línguas estrangeiras (francês e inglês) em cursos superiores de tecnologia a partir do uso de textos autênticos, uma vez que a adoção de um livro didático não garante exemplos de linguagem efetivamente usada em contextos específicos. A complementação do livro didático teve por objetivo atender as necessidades de aprendizagem de alunos de línguas estrangeiras para fins específicos, além de contribuir com uma aprendizagem significativa, na medida em que proporcionou aos alunos a oportunidade de entrar em contato com um conteúdo lingüístico efetivamente usado na área profissional em que atuarão.  Para tanto, foram usadas listas de palavras e concordâncias, geradas a partir dos referidos textos selecionados, visando ilustrar o uso e linguagem profissional específica, isto é, aquela efetivamente usada em contextos reais específicos, no caso, a linguagem técnica e profissional. Para tanto, buscou-se subsídios teóricos da Linguística de Corpus, cuja abordagem empirista preconiza a utilização de ferramentas computacionais com o intuito de registrar a “linguagem natural realmente utilizada por falantes e escritores da língua em situações reais (...)” (SARDINHA, 2004: 32). A necessidade de complementação de livros didáticos adotados para o ensino e aprendizagem de línguas estrangeiras se deve também ao fato de os mesmos serem, evidentemente, produzidos em série e sob as mais variadas concepções lingüísticas e de aprendizagem. Além disso, sabe-se que os livros didáticos são voltados para atender a um mercado mundial e, portanto, concebidos para alunos ideais, estando longe de suprir as expectativas de alunos que precisam aprender uma língua estrangeira para fins profissionais.  Em relação ao livro didático, RAMOS (no prelo) lembra, ainda, que ele é mais “um colaborador, uma ferramenta auxiliar” e, portanto, funciona como um instrumento no processo de aprendizagem. Visto desse modo, evidentemente que o livro didático participa do processo de ensino-aprendizagem, mas está longe de ser completo e precisa, frequentemente, ser complementado por atividades elaboradas pelo próprio professor, para garantir que a aprendizagem ocorra de modo mais efetivo.  Assim sendo, esta comunicação apresenta um recorte de atividades didáticas elaboradas a partir de uma análise prévia de unidades de livros adotados em cursos superiores da área tecnológica. O corpus coletado para a elaboração das atividades didáticas foi composto por textos eletrônicos retirados de sites que continham exemplos de linguagem profissional da área tecnológica. O mesmo foi analisado com o programa Antconc (http:www.antlab.sci.waseda.ac.jp/software.html). A elaboração das atividades didáticas partiu de lista de palavras e de concordâncias geradas. O objetivo foi introduzir, selecionar e explorar padrões léxico-gramaticais presentes na linguagem para fins específicos que poderiam auxiliar tanto na compreensão quanto na produção oral e escrita dos alunos.  O uso de listas de palavras permitiu uma leitura vertical, além de servir para uma subseqüente seleção do conteúdo lingüístico estudado. Tal conteúdo pôde ser estudado quanto ao seu significado, inclusive no que se refere à pronúncia. O estudo das concordâncias, geradas a partir das listas de palavras, possibilitou exemplificar e explorar tendências fraseológicas, além de evidenciar o contexto no qual o léxico levantado apareceu inserido. Os resultados sugerem que listas de palavras e concordâncias podem de fato servir como um referencial, isto é, um ponto de partida para atividades didáticas elaboradas com o uso de um corpus que, embora não seja considerado representativo em termos quantitativos, possibilita a manipulação de dados linguísticos autênticos para fins de ensino.  Por fim, este trabalho pode servir para ensejar discussões e pesquisas que possam explorar a interação entre a Linguística de Corpus e o ensino-aprendizagem de línguas estrangeiras.

O uso de linhas de corpora de aprendizes no ensino de línguas - Valdênia Carvalho e Almeida (UFMG – PG)

Recentemente, o interesse e o número de trabalhos e pesquisas envolvendo a Lingüística de Corpus (LC) no ensino e aprendizagem de línguas tem aumentado significativamente (Bloch, 2009; Campos, 2006; Chambers, 2005; Dutra e Silero, 2010, no prelo; Jacobi 2005; Souza, 2005; Vicentini, 2006; Yoon, 2008). Na opinião de Bloch (2009), corroborando as palavras de Galloway (2005), a Lingüística de Corpus seria o desenvolvimento mais significativo da lingüística aplicada, demonstrando grande potencial para o ensino e aprendizagem de línguas estrangeiras.  Para Berber Sardinha (2004, p.42), a LC “é hoje uma das áreas mais vibrantes voltadas ao estudo da linguagem”, sendo os corpora eletrônicos uma fonte inestimável de informação que mostra novos caminhos para o professor de línguas. O instrumental da LC tem sido cada vez mais utilizado no ensino e aprendizagem de línguas e, segundo Berber Sardinha (2004), a concordância é o instrumento principal no emprego de corpus no ensino. De acordo com o autor, alguns benefícios provenientes do uso de concordâncias seriam: 1. Obtenção de respostas a perguntas sem resposta na obra de referência; 2. Desenvolvimento do espírito pesquisador; 3. Independência em relação ao professor, ao curso, ao livro didático e aos materiais de referência; 4. Incentivo à postura ativa do aluno; 5. Centramento no aluno e individualização do aprendizado. (Berber Sardinha, 2004, p.279). Bloch (2009) ainda salienta que o desenvolvimento de concordâncias on-line aumentou consideravelmente a disponibilidade desse tipo de recurso para professores e aprendizes de línguas. Assim, uma tecnologia que era disponibilizada apenas para poucos pesquisadores, se tornou uma ferramenta possível de ser utilizada por qualquer um com um computador com acesso a internet. Vários são os trabalhos envolvendo linhas de concordância contendo orientações e sugestões para práticas pedagógicas (Bennett, 2010; Anderson & Corbett, 2009; Nesselhauf, 2004; O’Keeffe & McCarthy, 2007). Alguns destes trabalhos são baseados em corpora de aprendizes e trazem sugestões de atividades baseadas em corpus. Segundo Recski (2005), o acesso a corpora de aprendizes permite que as dificuldades “reais” dos aprendizes sejam capturadas e, assim, é possível desenvolver atividades que trabalhem as estruturas problemáticas e erros mais freqüentes destes aprendizes. O presente trabalho tem como objetivo apresentar atividades com linhas de concordância desenvolvidas com base no corpus de aprendizes ICLE (International Corpus of Learner English), mais especificamente com o corpus Br-ICLE, que contém as produções escritas de aprendizes brasileiros de inglês. O trabalhou utilizou o corpus de aprendizes (Br-ICLE) e também corpora gerais, chamados de corpora de referência. O Br-ICLE foi analisado para identificar os erros dos aprendizes, enquanto os corpora de referência foram utilizados para comparar com as produções dos aprendizes e na preparação das atividades. Os corpora de referência utilizados foram o Corpus of Contemporary American English (COCA) e British National Corpus (BNC). Este estudo é quantitativo, pois os erros e dificuldades lingüísticas dos aprendizes foram identificados através das redações e, posteriormente, foram quantificados para que os erros mais freqüentes fossem abordados nas atividades. A criação das atividades foi baseada nessa quantificação das estruturas problemáticas, bem como na análise, também quantitativa, do uso dessas estruturas nos corpora de referência. Sendo assim, as dificuldades que os aprendizes de inglês (alunos de graduação) têm em utilizar as estruturas da língua estrangeira (LE) em suas produções escritas foram acessadas utilizando os recursos do programa WordSmith Tools. Posteriormente, foram criadas as atividades, com base nas dificuldades identificadas, para a conscientização lingüística. Além de baseadas nos corpora eletrônicos, essas atividades também têm como base a aprendizagem movida por dados proposta por Johns (1994). Inspirada nos trabalhos de Bennett (2010), Anderson & Corbett (2009), Nesselhauf (2004) e O’Keeffe et all (2007) apresentarei três tipos de atividades envolvendo algumas das estruturas da língua, identificadas como sendo problemáticas para os aprendizes brasileiros. Corpora de aprendizes têm demonstrado grande potencial para o ensino de línguas, uma vez que as dificuldades reais dos aprendizes podem ser reveladas e trabalhadas. De acordo com Nesselhauf (2004), nos últimos anos, um número maior de pesquisadores tem trabalhado com corpora de aprendizes. A autora acredita que, em pouco tempo, teremos maior acesso a estes tipos de corpora e que estudos mais aprofundados deverão ser desenvolvidos, possibilitando a melhoria de materiais pedagógicos, o uso dos corpora em sala de aula e uma maior compreensão do processo de aquisição de uma língua estrangeira.

Parâmetros de etiquetagem para um corpus de fala espontânea - Eckhard Bick (Syddansk Universitet), Heliana Mello (UFMG) e Tommaso Raso (UFMG)

O corpus C-ORAL-BRASIL apresenta um sistema de etiquetagem complexo e, em parte, inovador, que prevê vários níveis: 1. etiquetagem morfossintática através de um parser implementado para considerar a segmentação informacional como domínio; 2. etiquetagem informacional; 3. etiquetagem ilocucionária. Os 100 textos (150.000 palavras) de fala espontânea do corpus seguem a mesma arquitetura e o mesmo critério de segmentação dos corpora C-ORAL-ROM  para espanhol, francês, italiano e português europeu (CRESTI & MONEGLIA 2005). Os textos são segmentados por enunciados e unidades tonais. O enunciado é definido como a menor unidade pragmaticamente autônoma, reconhecível por uma quebra prosódica percebida como terminal. Essa quebra é marcada por uma barra dupla (//) ou pelo signo de mais (+) quando o enunciado é interrompido. Cada enunciado marcado com a barra dupla corresponde a um ato de fala, individualizável através de um sinal prosódico. Dentro de um enunciado, outras quebras, percebidas como não terminais, podem segmentar o enunciado em unidades entonacionais, marcadas através de uma barra simples (/) ou de uma barra simples entre colchetes ([/]) quando se trata de retrações. Uma unidade tonal, em princípio, corresponde a uma unidade informacional. No corpus as segmentações foram revisadas 3 vezes, assim como as transcrições. O nível de acordo entre os segmentadores foi submetido 2 vezes a testes de avaliação em grupos de 3. As segmentações iniciaram-se quando o Kappa de acordo superou 0.8. Após a segunda revisão, um teste final revelou um Kappa de 0.87, com 0.91 quanto às quebras terminais, índices considerados excelentes. Isso indica que a relevância perceptual das quebras e sua avaliação como terminais e não terminais é extremamente alta. Os níveis de etiquetagem do corpus configuram-se como explicitado a seguir. 1. Para a anotação morfossintática foi utilizado um parser robusto baseado na Constraint Grammar (CG) especialmente desenvolvido para o português, o PALAVRAS (BICK 2000). Este sendo um sistema baseado em regras, permite adaptação sistemática para diferentes tipos de dados. Assim como no caso de textos históricos, já etiquetados por esse parser com sucesso, a fala transcrita apresenta dois problemas principais para a análise gramatical automática: o primeiro é a ortografia não-padrão e o segundo é a segmentação não-padrão; o primeiro afeta o recall lexical, o segundo cria problemas para a desambiguação contextual. Para superar esses problemas, foi introduzido um sistema de marcação de dois níveis como um estágio de pré-processamento, no qual informação prosódica, sobreposição de fala, reparos, etc, foram mantidos no nível de meta-anotação, enquanto ao mesmo tempo, criou-se uma camada com seqüências de ocorrências de texto escrito padrão sobre o qual o parser pudesse operar. Para conduzir esse processo, a cadeia de programação teve acesso a uma extensão do léxico assim como a um grupo de transformações gramaticais sistemáticas (ex. ausência de marcação de número e pessoa, interjeições pluralizadas). O problema da segmentação foi tratado tanto no nível de ocorrências, através de novas regras para contrações e marcadores de foco, quanto no nível sintático, através do tratamento de pausas prosódicas como marcas de pontuação (ex. // como ponto final e / como vírgula). Assim, regras da CG previamente estabelecidas para tratar do texto escrito puderam ser adaptadas para o tratamento de dados da fala com bastante precisão. As regras de contexto global (p.ex. regras de unicidade e regras de disambiguação verbo-nominal e verbo-complementação) usufruíram especialmente das janelas contextuais definidas pela pontuação. Apesar de oferecer informações estruturais profundas, tais como funções sintáticas e dependência, a nossa anotação sintática é baseada estritamente em ocorrências, o que permite uma fácil integração com bases de dados e interfaces de busca de corpus baseadas em etiquetas, como o CorpusEye (corp.hum.sdu.dk). Este tem sido utilizado para o ensino de línguas e como subsídio para processos tradutórios. A anotação sintática do corpus também abre uma perspectiva futura de adição de informação de alto nível, como anáforas ou marcações de tópico-comentário de maneira incremental, usando o mesmo tipo de regras contextuais da CG usado no nível estritamente sintático.  2. Um minicorpus de 20 textos foi etiquetado em unidades informacionais com base na Teoria da Língua em Ato (CRESTI 2000). A etiquetagem é feita manualmente no file XML já alinhado com o software WinPitch. Isso permite escutar o enunciado vendo concomitantemente o texto e a curva de F0 para atribuiçõ do valor informacional a cada unidade tonal. A possibilidade de importar o file etiquetado em Excel já permite a ordenação e a busca das unidades e das diferentes configurações de unidades dentro do enunciado. Será implementada uma interface que possibilitará a extração de configurações morfossintáticas e configurações informacionais em relação recíproca. Por exemplo, será possível extrair todos os tópicos com configuração de SN, ou extrair todos os verbos modais dentro da unidade de tópico, etc. Dessa forma torna-se possível estudar a estruturação da fala espontânea combinando unidades funcionais e as suas realizações léxico-morfossintáticas. 3. O último passo da etiquetagem será a atribuição do valor ilocucionário às unidades de comentário (que por definição carregam a força ilocucionária) dentro de cada enunciado, usando o mesmo procedimento da análise informacional. Tanto a etiquetagem informacional quanto a ilocucionária são realizadas com base em parâmetros predominantemente prosódicos. A interface de utilização do corpus será programada para capturar combinações de estruturas morfossintáticas, unidades informacionais e enunciados com valores ilocucionários específicos. Por exemplo, será possível buscar automaticamente todas as ilocuções de pergunta parcial construídas com uma unidade de apêndice acrescentada à unidade de comentário, e em que a unidade de apêndice seja constituída por um sintagma verbal introduzido por uma pseudo-relativa focalizadora (quem / que você viu //), e comparar as ocorrências dessas estruturas com duas modalidades alternativas: a mesma ilocução realizada em um única unidade (quem que você viu //) ou em duas unidades de comentário. A diferença é que na primeira a segunda unidade não possui força ilocucionária (e portanto não possui foco funcional) e pode ser somente dada, enquanto no segundo caso também a segunda unidade possui força ilocucionária e pode ser nova. Esse tipo de busca será naturalmente possível com todas as ilocuções.

J-aligner: um software alinhador de corpora paralelos  - Jean Lopes (UNIBIC- UNISINOS)

Este trabalho relata a construção de um alinhador de textos cujo propósito é alinhar um conjunto de até três corpora paralelamente. A ideia de desenvolver o alinhador denominado de J-Aligner (nome provisório) surgiu da necessidade de identificar, automaticamente, correspondências entre trechos de textos de dois a três idiomas e é particularmente útil em estudos de tradução de corpora paralelos. Essa necessidade se constatou pelo fato da inexistência de alinhadores simples que possam ser usados em mais de dois corpora paralelos. Ainda como motivação para este trabalho, destacamos também as limitações dos alinhadores gratuitamente disponíveis, que possuem baixíssima intuitividade de manipulação, são difíceis de lidar, muitas vezes sobrepujando o usuário da ferramenta a fazer uso de conhecimentos avançados de informática, uma vez que os comandos são introduzidos por janelas de console modo texto (como por exemplo o prompt do msdos).  Como exemplo de software alinhador disponível, temos o GIZA++,  que é, segundo Franz Josef Och (2003) uma comparação sistemática de vários modelos de alinhamento estatísticos, e o alinhador Vanilla Aligner (DANIELSSON e RIDINGS, 1997) que tem disponibilidade apenas on-line. Conforme Danielsson e Ridings (1997), para se trabalhar com o texto em um software alinhador, é necessário um pré-processamento, que consiste em, além de itemizar o texto, anotar as sentenças e os parágrafos. Entende-se por sentenças as unidades que um tradutor traduziria de uma só vez, incluindo, dessa forma, títulos ou frases dentro de um parágrafo. Para esse alinhador, cada unidade de uma língua, uma frase, por exemplo, corresponde a uma unidade de tamanho semelhante na outra língua. Para o J-aligner escolheu-se usar a linguagem java para programá-lo, por poder executar o programa independente de plataforma. O primeiro passo na construção do programa, depois de escolher a linguagem de programação, foi a decisão de se usar uma interface gráfica de comunicação com o  usuário, para facilitar o uso, aumentar o nível de intuição enquanto que diminui o de abstração. Uma vez com interface gráfica, bane-se o uso de comandos via console modo texto. Nesta interface, conta-se com um menu de opções para se acessar a janela principal de manipulação dos textos, a saída do programa e um item de ajuda com informações sobre origem do programa e link para contatar o programador. Na janela principal optou-se por usar um grade de quatro colunas, que lista a numeração dos parágrafos, e nas células de cada respectiva linha, cada parágrafo de cada corpus em sua respectiva linha. O cabeçalho de cada coluna dos corpus foi adaptado para servir de botão para escolha dos arquivos. O algorítimo de alinhamento foi desenvolvido construindo uma cadeia de iteradores que fatiam o arquivo de texto os colocando em variáveis vetoriais e o distribuem pelas células da tabela na moldura principal. Para a conclusão, o software encontra-se funcionando, foram feitos alguns experimentos e testes usando  o Corpus Paralelo de Procedimentos do Parlamento Europeu 1996-2009 e já está disponível em sua versão beta.

Varra: um serviço para a validação, avaliação e revisão de relações semânticas no AC/DC - Cláudia Freitas (Linguateca/PUC-Rio), Diana Santos (Linguateca/SINTEF) e Hugo Gonçalo Oliveira (CISUC – Univ. de Coimbra)

A importância dos recursos lexicais – léxicos, ontologias, tesauros - para sistemas que lidam com o processamento computacional da língua é cada vez mais reconhecida, assim como as dificuldades inerentes a sua elaboração. De um lado, metodologias baseadas na extração automática de relações semânticas entre palavras a partir de corpus têm, na forma de avaliação/validação das relações, o seu ponto fraco. De outro, a elaboração manual, por sua vez, se garante uma precisão dos resultados, depende de um processo altamente custoso, que se busca normalmente evitar. Nesse contexto, apresentamos o VARRA, um sistema que, por meio da ocorrência de pares de palavras em textos, pretende auxiliar a validação de relações semânticas entre essas palavras. Cada relação é representada como uma tripla palavra1_relacao_palavra2 (por exemplo “mentira_sinônimo_ilusão”). O VARRA foi desenvolvido no âmbito do projeto AC/DC (uma interface comum para acesso e disponibilização de corpora em português), de forma a obter, de maneira mais objetiva, julgamentos de falantes nativos quanto às relações semânticas em questão, buscando validá-las a partir do uso das palavras em contextos autênticos, representados por frases dos corpora do projeto AC/DC. Buscamos, com o VARRA, construir uma base confiável de julgamentos sobre uma dada relação semântica entre pares de palavras, assim como criar um procedimento de avaliação parecido com a interpretação humana (em oposição à validação de relações entre palavras fora de contexto). Ao invés de perguntarmos, por exemplo, se “mentira é sinônimo de ilusão”, perguntamos se um dado contexto/frase ilustra a relação de sinonímia entre mentira e ilusão. Caberá ao avaliador julgar, auxiliado pelo contexto, se a relação é possível ou não. Nos trechos abaixo, por exemplo, as respostas seriam SIM e NÃO, respectivamente. Mudança maior, porém, vem do novo presidente do Supremo Tribunal Federal, ministro Sepúlveda Pertence, que afirmou: ` Desde que se superou a mentira de que um juiz, particularmente um juiz constitucional, é um puro técnico capaz de extrair uma norma supostamente de um único sentido válido de um fato, desde que essa ilusão foi desfeita, a verdade é que o juiz é um homem, enquanto cidadão, com crenças, convicções, tendências conscientes e inconscientes . (Chave, AC/DC) Há muitas acções que respeitadas à luz da liberdade podem não o ser quando desencadeiam a desordem, a mistificação, a mentira, a ilusão, a feitiçaria, o roubo, disse o prelado, acrescentando no entanto que como bispo da Igreja Católica, a sua função era a de impedir e lutar contra toda e qualquer caça às bruxas . (Chave, AC/DC) Como sabemos que, nem sempre, e principalmente em termos de relação semântica, SIM/NAO são respostas suficientes, para os casos em que o texto não ilustra as relações é possível ainda classificá-las como (i) O contexto é insuficiente para validar a relação, embora seja, de alguma maneira, compatível com ela; (ii) O texto não valida a relação, e é completamente não relacionado; (iii) O texto não valida a relação, pelo contrário, invalida-a; (iv) Não se pode obter qualquer conclusão a partir da frase exemplo. Além da validação de relações semânticas já previstas (sinonímia, hiperonímia, parte_de; causador_de, entre outros), o VARRA permite também a exploração e identificação de padrões léxico-sintáticos capazes de expressar relações semânticas entre pares de palavras. Para tanto, basta efetuar uma busca pelos pares de palavras (selecionando a relação “qualquer relação”) e verificar se é possível identificar algum padrão nos resultados das ocorrências. A busca pelos pares belo/feio, por exemplo, pode indicar, a partir dos contextos em que essas palavras ocorrem, padrões para a expressão da relação de antonímia. Para a expressão de padrões novos, que nao estão na base do VARRA, uma grande funcionalidade é a possibilidade de considerar, na expressão de busca, informações linguísticas como classe de palavras e função sintática, o que permite uma procura altamente refinada por padrões em um corpus. Isto é possível porque, como mencionado, o VARRA tem como base os corpora do projeto AC/DC, que foram previamente analisados pelo analisador morfossintático PALAVRAS. O objetivo deste trabalho é apresentar o sistema VARRA, bem como as possibilidades que este oferece para a investigação em semântica computacional e lexicografia.

 

Pôsteres-2

by blogadmin

Sujeito a alteração

Pôsteres aceitos, página 2


Do corpus à sala de aula: uma proposta de ensino de colocações adverbiais em inglês para negócios  - Andréa Geroldo do Santos (USP – PG)

A contribuição da Linguística de Corpus para a descrição da língua representa uma mudança sem precedentes em termos de uso de métodos e técnicas científicos para o ensino de línguas, de acordo com McCarthy (2001, apud O’KEEFE, McCARTHY e CARTER, 2007). Anteriormente a McCarthy, Sinclair (1988) já apontava para o potencial da LC de alterar os rumos do ensino de línguas, já que as evidências provenientes do corpus desafiam certa mitologia de que: (a) a sintaxe e o léxico são dois níveis independentes, justificando a divisão entre gramática e vocabulário no ensino de línguas; (b) o vocabulário está subordinado à sintaxe; (c) a fluência nativa não pode ser observada e descrita objetivamente, pois está presente apenas na mente dos falantes nativos; (d) o caráter criativo das línguas é mais importante que a convencionalidade, assim, essa não precisa ser ensinada (BERBER SARDINHA, 2004, p.260). A Linguística de Corpus desafia esses mitos porque propõe: (1) a diminuição da separação entre léxico e gramática, ao postular a existência de um nível de sistema lingüístico que une o vocabulário às regras gramaticais (léxico-gramática) (BERBER SARDINHA, idem; XINTAO e McENERY, 2005; SINCLAIR, 2000); (2) a análise crítica da língua utilizada no material didático para o ensino de línguas, demonstrando que a língua abordada por essas publicações não só difere consideravelmente da língua falada fora das salas de aula (MINDT, apud XIAO e McENERY, 2005 e O’Keefe, McCarthy e Carter, 2007), mas também é baseada na intuição sobre como ela é usada, e não na evidência do seu uso (O’KEEFE, McCARTHY e  CARTER, idem); (3) a utilização de corpora eletrônicos para a elaboração de materiais de referência, como gramáticas pedagógicas, dicionários e livros didáticos (Projeto Cobuild). O trabalho que ora apresentamos (recorte de nossa pesquisa de mestrado), alia-se ao que é proposto pela Linguística de Corpus na medida em que parte de dados autênticos (corpus monolíngue em inglês britânico e americano, compilado de periódicos de negócios e de relatórios anuais de empresas disponíveis on-line, num total de 2.310.143 palavras), valendo-se da descrição da língua (levantamento e análise das colocações adverbiais mais freqüentes), com o auxílio da ferramenta WordSmith Tools 5.0 (SCOTT, 2007), para elaborar e aplicar exercícios que auxiliem na aprendizagem e uso das colocações adverbiais. Nosso interesse por esse tipo de colocação surgiu após pesquisa-piloto em que levantamos como as colocações são abordadas em material didático para o ensino de inglês para negócios (SANTOS, 2009).  Verificamos que, embora haja a preocupação em tratar das colocações nominais e verbais desde o nível básico, ainda há poucos exercícios (descontextualizados) para a prática de colocações adverbiais. Com o auxílio do WST, levantamos as colocações adverbiais mais recorrentes em nosso corpus de estudo, como: actively manage (30 ocorrências), fall sharply (24 oc.), rise sharply (21 oc.) e work closely (30 oc). Dentre essas, selecionamos work closely para testar o processo de elaboração de material didático, assim como sua aplicação em aula, valendo-nos das linhas de concordância da colocação em nosso corpus. Nesse estudo-piloto, elaboramos os exercícios para reconhecimento e prática da colocação para uma aula com duração em média de uma hora e trinta minutos. Para isso, consideramos a proposta de Tim Johns (1991) para ensino DDL- Data Driven Learning (Aprendizagem Movida por Dados), uma das mais sólidas a utilizar o corpus em sala de aula (TRIBBLE e JONES, 1997; BERBER SARDINHA, 2004; GAVIOLI, 2005; McENERY, XIAO e TONO, 2006; O’KEEFE, McCARTHY e CARTER, 2007). Nessa abordagem, Johns identifica três etapas de cunho indutivo no uso do corpus: (1) observação da evidência na concordância; (2) classificação dos padrões evidentes; (3) generalização das regras. Ou seja, a produção do conhecimento por parte dos alunos é feita de modo ascendente (bottom-up). Atentamo-nos também aos possíveis problemas apontados quanto ao uso das concordâncias no ensino: (1) a necessidade de instruir os alunos quanto à leitura apropriada das concordâncias - ou seja, diferente da convencional (AIJMER, 2009; BERBER SARDINHA, 2004); (2) estaria em desacordo com o ensino comunicativo de línguas; (3) confundiria os meios (o instrumental da LC) com os fins (ensino da linguagem autêntica do corpus) e descontextualizaria a língua; (4) e confundiria o aluno, porque as concordâncias apresentam os padrões em pequenos trechos, oriundos de vários textos. Isso posto, abordamos work closely do seguinte modo: (1) seis linhas de concordância da colocação foram apresentadas como se fossem manchetes de jornal para serem lidas e discutidas; (2) os alunos escolheram uma “manchete” cujo texto gostariam de ler para a prática de compreensão  e discussão dos temas; (3) as linhas de concordância foram mostradas novamente, só que agora em sua forma “padrão”, para que os alunos identificassem as estruturas recorrentes e chegassem à possível regra (work + closely + with) – a pesquisadora frisou qual deveria ser a leitura apropriada da concordância; (4) exercícios de gap-filling, utilizando mais dez colocações do corpus de estudo, omitindo o verbo, o advérbio, ou a preposição; (5) prática final: os alunos usaram a colocação para falar de sua realidade. O estudo-piloto foi aplicado com doze alunos, de nível intermediário e que nunca haviam trabalhado com linhas de concordância. Após os exercícios, eles foram convidados a comentar oralmente sobre os exercícios feitos, em relação ao grau da dificuldade de entendimento e execução: quatro alunos disseram não ter gostado, porque sentiram dificuldade em se concentrar apenas nas linhas de concordância, queriam “mais texto”, como numa leitura normal; oito alunos aprovaram o trabalho, afirmando que ficou mais fácil visualizar o padrão e estabelecer uma regra, além de verem “mais sentido” em exercícios com frases tiradas de um contexto real. Enfim, o estudo demonstrou: a aplicabilidade dos exercícios; que a contextualização pode ser um elemento importante a auxiliar a compreensão das colocações e, até mesmo, na fixação das mesmas; a necessidade de cuidado redobrado na apresentação das concordâncias, a fim de não alienar o aluno. O trabalho conclui com: (1) as implicações desses resultados para o ensino; (2) propostas para seu aprofundamento, como o aumento no número de colocações abordadas e uma comparação entre a abordagem tradicional x a abordagem baseada em corpus quanto ao ensino das colocações adverbiais.

Kicktionary_BR: uma proposta de anotação semântica baseada em frames para a temática do futebol - Guilherme Tiecher Figueiró (UNISINOS/ PG) e Rove Chishman (UNISINOS- CNPq)

Este artigo está vinculado à segunda fase do Projeto FrameCorp denominada Kicktionary_Br. O objetivo geral do projeto é a investigação semântico-computacional do léxico do Português do Brasil a partir da utilização de corpus eletrônico. Por sua vez, a segunda fase do projeto visa investigar como as noções de cena e frame (Fillmore, 1982, 1985) se aplicam à temática do futebol, criando uma versão em Português Brasileiro do recurso lexical multilíngue denominado Kicktionary (Schmidt, 2009) que reúne Inglês, Francês e Alemão. O principal propósito do Kicktionary é fornecer descrições semânticas, a partir dos princípios do projeto FrameNet de Berkeley, para as unidades lexicais das diferentes línguas.O corpus piloto da pesquisa conta com 100 notícias sobre resultados de partidas, extraídas de nove sites de clubes de futebol do Brasil, totalizando 76.463 palavras. Convém explicitar que se pretende compilar um corpus de tamanho médio para o projeto, ou seja, com pelo menos 250 mil palavras (Berber Sardinha, 2000). Esta pesquisa inicial busca realizar um estudo do corpus, com vistas a observar o que é peculiar ao corpus do PB. Algumas peculiaridades foram identificadas, importantes para delinear os desdobramentos do projeto, tais como o representativo número de expressões nominais indicadoras de eventos, a grande incidência de unidades complexas, em especial, construções com verbos suporte, além da dificuldade, devido à polissemia, de enquadrar alguns dos verbos que evocam frames nas 11 cenas propostas no Kicktionary. Como exemplos de construções com verbos suporte temos as expressões “deu um corte”, “fez a defesa” e “mandou para fora”. Alguns casos de verbos polissêmicos encontrados no corpus são “mandar”, “marcar” e “bater”. Estes casos ilustrados demonstram que para sanar ambiguidades será necessário efetuar uma verificação manual dos dados a fim de ajustar os verbos evocadores de frames adequadamente. Uma verificação inicial da freqüência do corpus mostrou nos que os dez verbos mais freqüentes são “fez” (301), “chutou” (256), “recebeu” (200), “cruzou” (183), teve (145), marcou (128), “cobrou” (120), “é” (116), “passou” (107) e “deu” (103). Desses verbos percebemos que três deles – “fez”, “teve” e “deu” – podem exercer a função de verbo suporte em expressões, enquanto que os demais, à exceção de “é”, poderiam ser enquadrados em três cenas propostas por Schmidt no Kicktionary: Pass (passe) – recebeu, cruzou, passou –, Shot (chutar) – chutou e cobrou – e Goal (gol) – marcou. No entanto, em nosso corpus, o verbo “marcar” apresenta polissemia, pois pode referir-se a “[...] o árbitro marcou apenas falta.”, “Walter marcou um gol de placa no Serra Dourada.” “Vágner Love marcou o adversário.” Nesses casos ilustrados o verbo marcar ilustraria três cenas diferentes: Foul (falta), Goal (gol) e Pass (passe). O estudo exploratório nos leva a aceitar a tese de Schmidt de que um falante nativo do PB tem um conhecimento abstrato de eventos futebolísticos semelhante aos falantes de Inglês, Alemão e Francês, e justifica também a descrição em cenas e frames. O estudo aponta questões centrais a serem enfrentadas. Certamente a constatação de que as línguas apresentam diferentes padrões de lexicalização é a mais evidente.

A unidade informacional de alocutivo: estudos comparativos inter-linguísticos em corpora de fala espontânea - Tommaso Raso (UFMG), Flávia Almeida de Castro Leite (UFMG) e Lucas de Lima Goulart (UFMG)

Este trabalho apresenta o estudo em chave contrastiva sobre o uso da unidade informacional de Alocutivo em quatro línguas diferentes baseando-se em textos provenientes de quatro corpora comparáveis de fala espontânea: o C-ORAL-ROM (corpus das quatro principais línguas românicas européias - Italiano, Francês, Espanhol e Português Europeu - segmentado por enunciados e unidades tonais, e alinhado graças ao software WinPitch que permite examinar ao mesmo tempo som, espectrograma e texto), referente ao Italiano (I), ao Português Europeu (PE) e ao Espanhol Europeu (EE); e o C-ORAL-Brasil (quinta ramificação do C-ORAL-ROM, ao qual é totalmente comparável por arquitetura e critérios de segmentação), referente ao Português Brasileiro (PB). O estudo apresentado teve duas etapas, na qual a primeira comparou o Alocutivo em PB e I, e a segunda, baseando-se nos resultados obtidos na primeira, incluiu à pesquisa dados relativos ao Alocutivo em PE e EE. Ambos os estudos baseiam-se na Teoria da Língua em Ato segundo a qual haveria uma correspondência biunívoca entre a unidade de ação (ilocução) e o enunciado (ato locutório ou contraparte linguística da unidade de ação), cuja interface seria constituída pela prosódia. De acordo com essa teoria, a fala pode ser segmentada em enunciados, cuja fronteira seria constituída por uma quebra prosódica percebida como terminal. Ainda de acordo com a teoria, o Alocutivo teria a função de especificar para quem a mensagem está sendo endereçada por meio do nome ou de um apelido. Os Alocutivos também seriam responsáveis por manter a atenção do interlocutor e desenvolveriam uma função coesiva, fazendo com que o interlocutor compartilhe um ponto de vista. Não se deve confundir as unidades informacionais de alocutivo com a ilocução de chamamento, ainda que apresentem semelhanças com relação ao conteúdo locutivo. O alocutivo possui apenas uma função dialógica, cujo objetivo é manter o bom regulamento da interação, enquanto a ilocução de chamamento constitui um enunciado tendo, portanto, autonomia pragmática. O objetivo do trabalho é, portanto, estudar inter-linguisticamente os alocutivo para: 1- comparar a frequência da unidade; 2- analisar suas características acústicas; 3- analisar a variação lexical; 4- analisar a variação de tokens e types dentro de cada uma das tipologias interacionais previstas nos corpora comparáveis (diálogo, monólogo e conversação); e 5- verificar a preferência distribucional da unidade nas duas línguas. Para a análise comparativa entre os alocutivos de PB e I, foram analisados 30 textos de fala espontânea informal (15 para cada língua) distribuídos nas três tipologias interacionais previstas: 10 diálogos (interação entre dois indivíduos, geralmente caracterizada por turnos curtos motivados pragmaticamente durante a interação), 10 monólogos (interação entre dois indivíduos caracterizada por turnos longos e pela predominância da fala de apenas um participante, que cumpre uma atividade textual de escopo longo) e 10 conversações (interação dialógica entre três ou mais indivíduos). Para a análise comparativa dos alocutivos entre EE e PE, foram analisados 45 textos de fala espontânea, cada um de cerca de 1500 palavras; desses, 15 pertencem ao corpus do EE e 30 ao corpus do PE, uma vez que este último apresentou índices muito inferiores aos das outras línguas românicas. Tais textos também foram distribuídos nas três tipologias interacionais previstas: 5 e 10 monólogos, 5 e 10 diálogos, 5 e 10 conversações de EE e PE, respectivamente. Cada um dos textos que compõe os corpora C-ORAL-ROM e C-ORAL-BRASIL é dotado de metadados que informam sobre as características de seu contexto (situação, tópico, duração, data, local e número de participantes) e sobre as características de cada um de seus participantes (nome, idade, sexo, origem, grau de instrução, ocupação). Para fins de uma análise mais segura dos dados, a escolha dos textos para a análise comparativa entre alocutivos em PB e I buscou, no limite do possível, uma equivalência entre as situações e números de participantes dos textos analisados em cada língua, assim como uma equivalência entre a idade e o grau de instrução dos participantes dos textos analisados. Os resultados apresentados nas quatro línguas românicas possuem um grau estatístico de confiabilidade variável: maior quanto à frequência de tokens, menor quanto à frequência de types, que precisaria de uma confirmação com base em uma amostra maior. Em ambos os estudos, os resultados apontam para interessantes diferenças inter-lingüísticas. Tem-se como números expressivos: o número total de tokens de Alocutivos, somando-se os textos das três diferentes tipologias, é de 20 para PE, 40 para o I, 62 para EE e 133 para PB. Proporcionalmente, o PB apresenta uma ocorrência 6,65 vezes maior que PE, 3,32 vezes maior que a do I e 2,14 vezes maior que EE. O número total de types lexicais de Alocutivos, somando-se os textos das três diferentes tipologias, é de 7 para o I, 14 para o PE, 16 para o EE e 19 para o PB. Proporcionalmente, o PB apresenta uma ocorrência 2,71 vezes maior que a do I, 1,35 vezes maior que a do PE e 1,18 vezes maior que a do EE. Este estudo permite chegar a algumas conclusões e formular algumas hipóteses que devem ser averiguadas analisando uma base de dados maior. Parece certo que os Alocutivos estão presentes em línguas/culturas diferentes com uma freqüência que pode variar muito. O PB apresenta sem dúvida uma ocorrência muito mais alta de Alocutivos do que as outras línguas e, principalmente, muito mais alta do que a variedade portuguesa européia. Este resultado é extremamente significativo de quanto o contexto cultural e sociolingüístico influencie essa específica unidade informacional. De fato, a unidade de Alocutivo possui duas funções diferentes: identificar o interlocutor e marcar a coesão social com ele, através de títulos, adjetivos, epítetos ou simplesmente o nome próprio. É lógico pensar que as diferenças entre as línguas não se manifestem tanto na primeira das duas funções, uma vez que é a segunda função aquela que leva em si características sociolingüísticas.

Ponto de vista narrativo em Heart of Darkness e duas traduções brasileiras: uma interface entre Linguística de Corpus e Tradução - Carolina Pereira Barcellos (UFMG) e Célia Maria Magalhães (UFMG)

As pesquisas desenvolvidas no LETRA – Laboratório Experimental de Tradução) da FALE/UFMG e afiliadas ao projeto Tradução, Mídia, Globalização e Localização (CNPq 302454/2007-1) muito têm contribuído para a análise de corpora ficcionais e midiáticos de tradução, utilizando ferramentas da lingüística de corpus em interface com teorias aplicadas aos estudos da tradução. A coleta e exploração de diferentes corpora enquanto dados lingüísticos textuais têm como objetivo a análise de dados em busca de evidências empíricas com o auxílio do computador. A partir desta perspectiva, a lingüística de corpus apresenta contribuições pertinentes aos estudos da tradução ao permitir a análise detalhada de uma ampla base de dados, seja no uso de corpora paralelos ou comparáveis. Uma das linhas de análise desenvolvidas neste projeto é afiliada à subárea dos estudos da tradução baseados em corpus. Esta subárea se insere no ramo dos estudos descritivos da tradução. Recentemente seu foco de interesse tem incluído o estilo de tradutores profissionais e literários. Baker (1999, 2000) propõe uma metodologia de corpus para investigar o estilo de tradutores profissionais e literários, respectivamente, usando corpora comparáveis de textos traduzidos. Já Bosseaux (2004, 2007) focaliza o ponto de vista narrativo em corpora de textos paralelos. O presente projeto contribui para a consolidação dos estudos de estilo em tradução baseados em corpus. Através da criação do grupo de pesquisa ESTRAPOLI (Estilo de Tradutores Profissionais e Literários) os trabalhos desenvolvidos visam identificar padrões de escolhas os quais sejam atribuídos ao estilo dos tradutores e não a imposições lingüísticas. A voz do tradutor é reconhecida como uma segunda voz presente no texto. As implicações desta voz convidam ao estudo de textos traduzidos através da narratologia (HERMANS, 1996). O conceito de estilo em tradução literária remete à presença de padrões de comportamento lingüístico preferidos ou recorrentes por parte dos tradutores (BAKER, 2000). Em um romance um mundo ficcional é criado e apresentado ao leitor a partir de um ângulo particular de visão, o qual, por sua vez, é refratado pelos valores de um personagem ou narrador (BOSSEAUX, 2007). O presente estudo, em andamento, insere-se neste contexto ao utilizar-se do ESTRA (Corpus de Estilo em Tradução) para investigar a apresentação da fala, escrita e pensamento (AFE&P) no romance Heart of Darkness de Joseph Conrad e duas de suas traduções para o português brasileiro. Estas traduções foram publicadas em 2008 pelas editoras Cia. da Letras, tradução de Sérgio Flaksman, e Hedra, tradução de José Roberto O’Shea. É investigado o ponto de vista em narrativas através da identificação e descrição de padrões de AFE&P em língua inglesa e em língua portuguesa. O objetivo do trabalho é responder a três perguntas: 1) As diferenças aferidas entre texto fonte e textos alvo podem ser atribuídas ao estilo do(s) tradutor(es)? 2) Essas diferenças fazem com que o leitor do texto alvo perceba a narrativa literária de forma diferente daquela experimentada pelo leitor do texto fonte? e 3) É possível atribuir essas diferenças a preferências pessoais em termos de um posicionamento ideológico, cultural ou social do(s) tradutor(es)? A metodologia adotada segue os estudos da tradução baseados em corpus, utilizando as ferramentas do Wordsmith Tools® e empregando as categorias de classificação - e subseqüente anotação do corpus - apresentadas por Semino & Short (2004) a partir do modelo descrito em Leech & Short (1981, 2007). As categorias principais de análise são aquelas de apresentação da fala e pensamento, a saber, Fala Direta (Livre), Fala Indireta (Livre), Relato Narrativo de Atos de Fala, Narração de Voz, Pensamento Direto (Livre), Pensamento Indireto (Livre), Relato Narrativo de Atos de Pensamento e Narração Interna. As categorias de apresentação da escrita foram identificadas, no entanto, não se mostraram produtivas no corpus em análise. Foi utilizada uma abordagem descritiva, focalizando as mudanças de ponto de vista nos textos analisados. Os resultados preliminares confirmam tendências como a explicitação do texto traduzido assim como apresentam oscilações entre as categorias de apresentação da fala e pensamento identificadas no texto fonte e comparadas àquelas encontradas nas traduções.

Aelius: uma ferramenta para anotação automática de corpora usando o NLTK - Leonel Figueiredo de Alencar (UFC)

Pela abrangência e qualidades didático-pedagógicas, o Natural Language Toolkit (NLTK) constitui o principal projeto de software livre para a análise automática de textos da atualidade, reunindo ferramentas para uma vasta gama de tarefas. A facilidade de uso por iniciantes em programação deve-se tanto à linguagem Python quanto à ampla e acessível documentação on-line, o que, aliado ao caráter multiplataforma de Python, reflete-se na ampla difusão da biblioteca em cursos de processamento da linguagem natural, lingüística computacional e lingüística de corpus. A julgar pelas informações no site do NLTK e pelas publicações mais recentes na área de lingüística de corpus no Brasil, aparentemente a comunidade de pesquisadores da área, entre nós, ainda não atentou como deveria para as facilidades proporcionadas pelo NLTK para a codificação, anotação automática e exploração de corpora. Domingues, Fávero e Medeiros (2008), por exemplo, em artigo sobre o desenvolvimento de um etiquetador de alta acurácia do português, bem como Sardinha e Almeida (2008), em seu panorama, não o mencionam. Comparado a outros sistemas gratuitos especializados (nem todos de código aberto ou multiplataforma) para a realização de algumas dessas tarefas, o NLTK sobressai-se não só pela muito maior facilidade de uso, como também pela maior quantidade de recursos e pela integração do processamento de corpora a outras tarefas de processamento da linguagem natural. O NLTK é também mais flexível porque o usuário com conhecimentos de programação pode facilmente desenvolver suas próprias funções em Python, dada a incomparável versatilidade dessa linguagem para o processamento de textos, e usá-las concomitantemente ou em substituição a determinados recursos do NLTK. Outro ponto forte do NLTK é a disponibilização de dados de dezenas de línguas para utilização com as ferramentas. No momento, integram a biblioteca apenas dois corpora anotados do português, o Mac-Morpho e o Floresta, ambos de representatividade limitada. Acreditamos que, para uma mais ampla utilização do NLTK no Brasil, é necessário dispor de mais corpora anotados que sejam representativos tanto das diferentes regiões do país, quanto dos diferentes estágios de evolução da língua. Com este trabalho, pretendemos contribuir, sobretudo, para preencher essa lacuna. Para tanto, desenvolvemos o aelius, módulo em Python que torna ainda mais fácil o uso do NLTK por não programadores, ao mesmo tempo em que o complementa de várias formas. O desenvolvimento do aelius foi norteado pelo projeto CORPTEXLIT, um corpus de textos de literatura brasileira do século XIX, anotados morfossintaticamente de forma automática, com 20% dos textos a serem revistos manualmente, constituindo base para versões mais robustas do etiquetador. Dada a dimensão histórica do CORPTEXLIT, adotamos o sistema de anotação do Corpus Histórico do Português Tycho Brahe (CHPTB), cujos textos anotados, de autores dos séculos XVI a XIX, serviram de base para treinar nossos etiquetadores baseados em n-gramas (1 £ n £ 3), encadeados, em ordem decrescente, numa seqüência backoff de um total de 4 membros, cujo último é um etiquetador baseado em expressões regulares. O CORPTEXLIT preencherá lacuna deixada em aberto pelo CHPTB, que só dispõe de um único texto brasileiro do século XIX anotado. Inspirado, em parte, pelo etiquetador do projeto CHPTB, desenvolvido em C++ por Fábio N. Kepler, construímos um conjunto de funções em Python que pré-processam um corpus anotado conforme vários parâmetros especificados pelo usuário. Diferentemente das classes do NLTK usadas para construção de etiquetadores baseados em n-gramas, o usuário, no aelius,  pode especificar um conjunto de etiquetas a serem ignoradas na construção do modelo de língua bem como dividir o corpus de base em um número específico de blocos e embaralhá-los de forma aleatória, o que permite obter um corpus de treino e um corpus de teste mais balanceados. A eliminação, do CHPTB, de tokens com etiquetas que não se referem à análise morfossintática permitiu obter melhores resultados na aplicação do nosso etiquetador ao romance Luzia-Homem, de Domingos Olímpio (1850-1906). Após várias repetições do ciclo editar – compilar – testar – depurar, processo que envolveu não só a otimização do etiquetador baseado em expressões regulares, mas também várias correções de inconsistências do próprio CHPTB, alcançamos um índice de acurácia de 94,24% na aplicação do etiquetador treinado em 75% das 67141 sentenças do corpus (totalizando 1431200 tokens etiquetados), dividas em 1000 blocos aleatoriamente embaralhados, nos 25% restantes. Esse índice é ligeiramente superior aos relatados em experimentos com o NLTK na etiquetagem de corpora do inglês e bem próximo dos relatados por Kepler e pela equipe do Lácio-Web, índices esses que variam de 94% a 96%. Na etiquetagem dos quatro primeiros capítulos de Luzia-Homem (totalizando 7399 tokens, 9,58% do romance), obtivemos, com uma versão do etiquetador treinada em 100% das sentenças do CHPTB, um total 95,11% de acertos. Como primeiro passo na comparação entre o aelius e o TreeTagger do projeto Lácio-Web, extraímos dez sentenças de Luzia-Homem aleatoriamente e contamos os erros cometidos pelos dois etiquetadores. O aelius cometeu apenas 13 erros em um total de 339 tokens (acurácia de 96,17%). O TreeTagger, que segmentou a amostra em 335 tokens, teve, com 38 erros, um desempenho bem inferior (acurácia de 88,66%). Ressalte-se que o sistema de anotação do CHPTB estabelece mais distinções que o do Lácio-Web. A análise dos erros cometidos pelo aelius na anotação dos quatro primeiros capítulos de Luzia-Homem indica como melhorá-lo. De um lado, 8% dos erros envolvem a etiqueta NPR. Isso se deve ao fato de a classe nltk.RegexpTagger não levar em conta o contexto de um token. No momento, estamos trabalhando em um algoritmo alternativo para sanar essa deficiência. Por outro lado, parte substancial dos erros envolve palavras de alta freqüência (como, por ex., retirante), os quais podem ser minimizados treinando o etiquetador nos textos corrigidos manualmente. Acreditamos que o aelius, cuja acurácia, segundo esperamos, pode vir a ultrapassar 96%, muito contribuirá para a difusão do NLTK nos países de língua portuguesa, ao permitir ampliar consideravelmente o acervo de textos anotados distribuídos com a biblioteca, ao mesmo tempo em que fornecerá novos materiais para estudos diacrônicos, dialetológicos ou literários baseados em corpora.

Um corpus de blogs: um corpus de um novo gênero? - Cláudia Freitas (Linguateca/PUC-Rio)

Tradicionalmente, gênero textual é entendido como uma maneira de realizar objetivos linguisticamente. O foco da definição de gênero está, principalmente, na sua função, nos objetivos pretendidos com uma determinada ação verbal, e a tipicidade de um gênero vem com suas características funcionais e organização retórica. No entanto, a dimensão técnica – o suporte –, embora raramente explicitada, também pode ser tomada como critério na descrição dos gêneros textuais “Os gêneros textuais (...) definidos por composições funcionais, objetivos enunciativos e estilos concretamente realizados na integração de forças históricas, sociais, institucionais e técnicas”, o que leva à identificação de diferentes gêneros, como telefonema, carta comercial, carta pessoal, romance, bilhete, receita culinária, carta eletrônica etc. Ao assumir que um bilhete pode ser “transformado” em recado caso seja veiculado em um papel ou deixado em uma secretária eletrônica, isto é, a partir do momento em que se postula que o meio é capaz de interferir de maneira tão direta na classificação de gêneros, as distinções e os próprios gêneros, até então claros e estáveis, começam a ser alvo de discussão. Nesse contexto aparecem os blogs: são um gênero novo, um gênero híbrido, apenas um suporte? Se, inicialmente, blogs surgiram com o propósito de relatar experiências pessoais, em uma atualização dos diários pessoais, cada vez mais eles exercem diferentes funções: para jornalistas, podem servir como espaços alternativos de publicação; para empresas (mas não somente), mais um espaço de divulgação; para boa parte dos blogueiros, um espaço de interação, expressão pessoal e compartilhamento de ideias. Tratam dos conteúdos mais diversos, podem ser escritos nos mais diversos registros, e compreender textos em gêneros variados – de ensaios a receitas culinárias, de entrevistas a relatos de viagens, de eventos e até mesmo de experiências sexuais.  Podem ser de um único autor ou escritos coletivamente, e seus escritores têm uma formação diversa, o que contribui para a diversidade dos estilos. Há, no entanto, pouca investigação até o momento sobre como de fato são ou quais as funções mais comuns dos blogs. Além disso, para sistemas que lidam com o processamento computacional da língua, blogs são uma rica fonte para a área de análise de subjetividade/ de opinião e de mineração de textos. Acreditamos que toda a discussão seja suficiente para ilustrar a relevância de um corpus de blogs. E, embora seja crescente o interesse na compilação de novos corpora para a língua portuguesa, notamos que, em geral, há pouca variação quanto ao gênero, com predominância de corpora compostos por textos de jornal. Com relação a textos criados especificamente para ambientes digitais temos conhecimento apenas do Corpus ANCIB, que corresponde a mensagens de correio eletrônico na lista ANCIB, e da Coleção Dourada do Segundo HAREM que inclui, dentre outros tipos de textos, blogs e textos da Wikipédia. Nesse contexto, apresentamos a Amazônia, um corpus publicamente disponível criado pela [omitido] no âmbito do projeto [omitido], que contém 4.6 milhões de palavras da variante brasileira do Português, analisadas morfossintaticamente pelo analisador PALAVRAS. A Amazônia contém os textos da seção OverBlog do site Overmundo, disponíveis em 30 de Setembro de 2008, perfazendo um total de 4070 textos. O Overmundo é um site colaborativo – qualquer um pode escrever - voltado para a cultura brasileira. Como qualquer um pode colaborar, há textos de todas as regiões do Brasil, e uma menor presença (teoricamente) do jargão jornalístico, o que também o diferencia dos demais corpus. A seção OverBlog, especificamente, contém “reportagens, entrevistas e críticas sobre cultura do Brasil”. O objetivo deste trabalho, portanto, é duplo: (i) contribuir para uma descrição deste tipo de texto/gênero eletrônico, que, devido à crescente produção, facilidade de obtenção e liberdade de escrita, é uma amostra rica da língua; (ii) descrever o tipo de texto do corpus Amazônia. Nesse ponto, se impõe a seguinte questão: até que ponto a descrição do material compilado não é exatamente um dos resultados esperados a partir de sua análise?  Em uma análise preliminar, quanto ao gênero, podemos caracterizar os textos da Amazônia/Overblog em entrevistas, resenhas, reportagens, artigos e narrações/relatos de eventos.  Por isso, em termos de gênero, usar blog pode não fazer sentido, visto que todo o conteúdo parece poder ser enquadrado em um gênero tradicional.  No entanto, há nítidas influências do suporte no texto – em termos não apenas de informalidade, mas principalmente de hibridismo entre diferentes tipos textos e de quantidade de interação, características que são mais evidenciadas se tratarmos dos artigos e das resenhas. Gêneros textuais são fenômenos sociais e históricos. Quanto aos blogs, especificamente, questionar o seu enquadramento em termos de um novo gênero não significa questionar a influência do suporte nos gêneros textuais. Enquanto objetos históricos, é natural que os gêneros sofram mudanças/ ampliação – o que se observa, por exemplo, nos bate-papos  e páginas pessoais. No entanto, nem todo texto apoiado em um novo suporte talvez mereça ser designado um novo gênero. Leis já foram escritas em paredes, em tábuas, pergaminhos, papel e editores de texto, e nem por isso deixam de ser leis. Com o reconhecimento de que não se trata de um novo gênero, mas de gêneros tradicionais com diferenças decorrentes das características do suporte, abre-se espaço para uma descrição comparativa assentada nas diferenças que podem, inclusive, ser tão gritantes que forcem de fato a inclusão de blogs como um novo gênero. Mas tal só poderá ser feito se partirmos do muito de comum – em termos de movimento de texto, de função, de objetivos – que existe entre os diversos textos abarcados/veiculados pelo blog. A disponibilização de um corpus com tais características é o primeiro passo em direção a uma descrição mais sistemática desses “novos” textos.

O Corpus.EaD no projeto TermiNet: estratégias de construção - Ariani Di Felippo (UFSCar) e Jackson Wilke da Cruz Souza (UFSCar)

No Processamento Automático das Línguas Naturais (PLN), um sistema que processa (interpreta e/ou gera) língua natural (p.ex.: tradutor automático) pode ou não ser linguisticamente motivado. No caso em que o sistema se baseia no processamento da língua em algum nível, certos recursos linguísticos são necessários. Dentre eles, citam-se as bases de dados lexicais, ou seja, espécies de dicionário armazenadas na memória do sistema de PLN. O desenvolvimento de recursos léxico-conceituais (ou seja, enriquecidos com informações semânticas) é um dos grandes desafios que os pesquisadores enfrentam. Essa dificuldade deve-se à grande quantidade, variedade e complexidade das informações léxico-semânticas. Um modelo de base lexical bastante difundido no PLN é o wordnet, que teve origem com a construção da base WordNet de Princeton (WN.Pr) (FELLBAUM, 1998). Em uma base do tipo wordntet, as unidades lexicais (palavras ou expressões) da língua em questão estão divididas em quatro categorias sintáticas: nome, verbo, adjetivo e advérbio. As unidades de cada categoria estão codificadas em synsets (do inglês, synonym sets), ou seja, em conjuntos de formas sinônimas ou quase-sinônimas. Cada synset é construído de modo a representar um único conceito lexicalizado por suas unidades constituintes. Os synsets estão inter-relacionados pela relação léxico-semântica da antonímia e pelas relações semântico-conceituais da hiperonímia/hiponímia, holonímia/meronímia, acarretamento e causa. Dada a necessidade crescente de se processar textos especializados, wordnets terminológicas passaram a ser desenvolvidas para várias línguas, p.ex.: JurWordnet (Sagri et al., 2004), ArchiWordnet (Bentivogli et al., 2004), Medical Wordnet (Smith, Fellbaum, 2004), BioWordnet (Poprat et al., 2008), etc. Tais recursos são comumente construídos com base em metodologias que consistem na aquisição manual do conhecimento léxico-conceitual armazenado em recursos estruturados, como dicionários, glossários, thesaurus, etc. Diante da escassez de recursos especializados que sejam estruturados e da demora na coleta manual do conhecimento descrito em tais recursos, observa-se que, embora exista um número razoável de wordnets terminológicas em diversas línguas, há carência de uma metodologia suficientemente clara e genérica que facilite e, sobretudo, estimule a criação dessas bases. Diante disso, no projeto de dois anos denominado TermiNet, que teve início em Set./2009 (FAPESP 2009/06262-1/ CNPq 471871/2009-5), especificou-se uma metodologia para a construção de wordnets terminológicas (ou terminets) que se caracteriza pela extração semiautomática do conhecimento léxico-conceitual a partir de recursos não-estruturados. Diante da escassez de recursos léxico-computacionais em português do Brasil, tal metodologia está sendo validada com a construção de uma terminet do domínio da Educação a Distância (EaD), a WordNet.EaD. Os recursos não-estruturados, em especial, nada mais são do que os corpora textuais que, a depender do domínio especializado sob sistematização, precisam ser construídos. Assim, a metodologia para o desenvolvimento de wordnets terminológicas proposta pelo TermiNet engloba uma metodologia de construção de corpora. Segundo essa metodologia, um corpus que servirá de fonte para o desenvolvimento de uma terminet deve ser construído de acordo com os seguintes passos: (a) projeto do corpus, (b) compilação dos textos que comporão o corpus, (c) pré-processamento (conversão, limpeza, nomeação e anotação) dos textos e (d) disponibilização do corpus. Para validar especificamente a metodologia de construção do corpus, construiu-se o Corpus.EaD, a partir do qual a WordNet.EaD será desenvolvida. Neste trabalho, em especial, apresentam-se as estratégias adotadas para a realização das quatro tarefas (a-d) que compõem a metodologia de construção de corpus no projeto TermiNet. Tais estratégias são brevemente descritas na sequência. Quanto ao projeto do corpus, que consiste na especificação da tipologia do mesmo, Di Felippo e Souza (2010) tomaram como base três grupos de critérios: (a) a definição do objeto corpus, (b) o tipo de recurso lexical a ser construído e (c) as decisões de projeto. Da discussão desses critérios, os autores delimitaram que o corpus nesse cenário precisa apresentar as seguintes características: (a) tamanho (representatividade e amostragem) à médio-grande; (b) balanceamento à por gênero; (c) modalidade àescrita (vs fala/áudio); (d) tipo textual à escrito (vs transcrições); (e) meio à jornais, livros, revistas, manuais e outros; (f) cobertura da língua à especializado; (g) gêneros à técnico-científico, científico de divulgação, informativo e instrucional; (h) quantidade de línguas à monolíngue; (i) anotação à anotado em nível morfossintático; (j) comunidade produtora à falantes nativos; (k) mutabilidade à aberto; (l) variações históricas à sincrônico (contemporâneo); (m) disponibilidade à disponível via web. A fase de compilação dos textos, que engloba os processos de seleção das fontes e coleta dos textos armazenados nessas fontes, foi feita com base em uma delimitação do domínio de especialidade em questão, no caso, a EaD. Considerando-se a web como fonte principal no projeto TermiNet, a delimitação do domínio da EaD guiou a seleção de páginas da web e a procura e coleta de textos específicos armazenados em tais páginas. Vale ressaltar que, mesmo havendo inúmeras ferramentas computacionais que auxiliam a coleta em massa de textos na web, optou-se no TermiNet pelo método mais simples de seleção das fontes e coleta dos textos, caracterizado por: acesso às páginas desejadas e download dos textos em um computador local. Na fase de pré-processamento, os textos devem ser convertidos para o formato txt, legível por máquina. No caso, optou-se pela conversão manual dos arquivos, posto que as ferramentas de conversão apresentaram várias limitações. O processo de conversão é importante porque, de acordo com a metodologia especificada no TermiNet, o conhecimento léxico-conceitual necessário à construção de uma terminet é extraído de forma semiautomática, ou seja, os textos são processados por ferramentas computacionais e os dados extraídos são revisados manualmente. Dados corrompidos pelo processo de conversão ou mesmo desnecessários para o projeto foram retirados dos textos na fase de limpeza. O pré-processamento engloba ainda a nomeação dos arquivos e a anotação estrutural de dados externos (ou seja, documentação do corpus em cabeçalho que inclui os metadados textuais como autoria, tipologia textual, etc.). No TermiNet, essas duas tarefas foram feitas por meio da ferramenta “Header Editor” disponível no “Portal de Córpus” do Projeto PLN-Br (http://www.nilc.icmc.usp.br:8180/portal/). Quanto à disponibilização, salienta-se que o Corpus.EaD ainda não está disponível na web, pois os pedidos de permissão de uso aos autores dos textos ainda não foram feitos.

Extração automática de sintagmas nominais para construção de ontologias - Lucelene Lopes PG (PUCRS) e Renata Vieira (PUCRS)

ExATOlp - Extrator Automático de Termos para Ontologias em Língua Portuguesa é uma ferramenta que recebe um corpus anotado e extrai automaticamente todos os sintagmas nominais (SN) deste texto. A função primária da ferramenta é extrair termos candidatos a conceitos, auxiliando na construção de ontologias, glossários e outros recursos semânticos. Os sintagmas extraídos são salvos em listas que podem conter tanto os SN na sua forma original no texto, como em sua forma canônica. A ferramenta ainda oferece algumas opções de manipulação usuais para listas de termos como a aplicação de pontos de corte, comparação de listas e cálculo de medidas usuais de precisão e abrangência. As funcionalidades da ferramenta vão desde tarefas fortemente baseadas em conceitos linguísticos como a extração de sintagmas nominais, até tarefas puramente estatísticas como o cálculo de métricas de avaliação, passando por tarefas como a localização de termos extraídos identificando os textos e frases onde eles ocorrem. A ferramenta utiliza um conjunto de heurísticas opcionais para refinar o processo de extração. Estas heurísticas tem base linguística com o propósito de eliminar ou refinar SN que não sirvam como possíveis conceitos de uma ontologia, especificamente: são eliminados SN que possuem números, por exemplo, “20 anos”, “seis meses”;  são aceitos apenas sintagmas que possuem letras (acentuadas ou não) ou hífen, ou seja, SN que contém caracteres especiais são eliminados, por exemplo, “dupla mãe/neonato”; termos identificados como SN que iniciam com pronomes, “estas condições” e “todas as crianças”, são armazenados sem o pronome; termos identificados como SN que terminam com conjunções, por exemplo, “baixo peso e” e “leite materno ou” são armazenados sem a conjunção; termos identificados como SN que terminam com preposição, por exemplo, “criança acrescida de” e “dosagem diária para” são armazenados sem a preposição; termos identificados como SN que contém artigos são armazenados sem estes artigos, “a cicatriz renal” é armazenado apenas como “cicatriz renal”. Opcionalmente, ainda é possível escolher armazenar apenas alguns SN sendo critérios o número de palavras que o compõem, a sua classe gramatical e a classe sintática do núcleo do SN. Estas opções são: é possível selecionar para extrair apenas SN compostos de números específicos de palavras, por exemplo, pode-se escolher extrair apenas sintagmas compostos de uma, duas e três palavras, ou seja, desprezar sintagmas compostos de quatro ou mais palavras; é possível extrair somente SN que aparecem como sujeitos, ou somente SN que aparecem como complementos das orações; é possível extrair somente SN que possuem como núcleo substantivos próprios, só substantivos comuns, só adjetivos, só verbos no particípio passado, ou qualquer combinação entre estas. Em geral, a saída do processo de extração gera uma lista de termos muito extensa, a qual inclui termos relevantes, mas também um número grande de termos irrelevantes. É interessante buscar uma forma de reduzir o tamanho das listas, excluindo o mínimo possível de termos relevantes. Estas listas podem ser facilmente submetidas a pontos de corte que levam em consideração a frequência relativa ou absoluta de cada termo. Desta forma, os termos extraídos são organizados segundo sua frequência no corpus e um ponto de corte pode ser aplicado. ExATOlp disponibiliza as seguintes opções de ponto de corte: ponto de corte absoluto segundo a frequência relativa, onde um limiar mínimo (um número real entre 0 e 1) deve ser informado; ponto de corte absoluto segundo a frequência absoluta, onde um limiar mínimo (um número inteiro superior a 1) deve ser informado; ponto de corte absoluto único, onde um número específico de termos (um inteiro) deve ser informado; ponto de corte relativo, onde um percentual do número de termos (um valor entre 0% e 100%) deve ser informado. Outra funcionalidade da ferramenta é a possibilidade de comparar as listas extraídas com listas de referência. Neste caso as listas são denominadas de lista de referência (LR) e lista de extraídos (LE). ExATOlp faz esta comparação podendo retornar qualquer uma das seguintes listas: a intersecção entre elas (LR ∩ LE); - a união entre elas (LR ∪ LE); - os termos de LR ausentes em LE (LR - (LR ∩ LE)); - os termos de LE ausentes em LR (LE - (LR ∩ LE)). Com intuito de tornar objetiva a comparação de listas, a ferramenta ExATOlp disponibiliza também o cálculo de métricas quantitativas que expressam a precisão (P) e a abrangência (R) de listas comparadas, bem como o equilíbrio entre estes dois índices denominado f-measure (F). Estas métricas são calculadas pelas seguintes fórmulas: P= |(LR∪LE)| R=|(LR∪LE)| F= 2 P R | LR | | LE |P + R Outra funcionalidade da ferramenta é a localização de termos extraídos no corpus. Nesta funcionalidade a ferramenta permite localizar todos os termos extraídos, ou buscar apenas um termo específico. Enquanto a primeira opção tem uma saída mais voltada a um tratamento computacional posterior, a segunda opção oferece uma interface amigável ao usuário onde são mostradas cada uma das frases onde o termo procurado aparece. Desta forma, a ferramenta permite que as várias ocorrências de um determinado sejam observadas em detalhe. O desenvolvimento da ferramenta ExATOlp se insere em um trabalho de doutorado com o propósito de gerar automaticamente ontologias em língua portuguesa à partir de corpus, logo, novos avanços de pesquisa estão sendo incorporados à ferramenta regularmente. Uma lista completa de funcionalidades, documentação, exemplos de utilização e o próprio download de versões da ferramenta ExATOlp podem ser encontrados http://www.inf.pucrs.br/~ontolp/exato.php. Encoraja-se o leitor interessado no assunto a visitar regularmente esta página para acompanhar as evoluções da ferramenta que na sua versão atual esta disponível para as seguintes plataformas computacionais: MSWindows (todas versões), Linux e MacOS.

Minerando Tweets - Angélica Alves Fernandes (FURG), Larissa Astrogildo de Freitas (UFRGS) e Ulisses Brisolara Corrêa (UFRGS)

Minerando Tweets    Angélica Alves Fernandes (FURG)  Larissa Astrogildo de Freitas (UFRGS)  Ulisses Brisolara Corrêa (UFRGS)    Tendo em vista que milhões de usuários interagem, se comunicam, criam,  compartilham e organizam informações nos chamados softwares sociais (Orkut,  Facebook, Youtube, Twitter e outros) trabalhos que buscam automatizar o processo de  leitura e compreensão do que está sendo inserido nestes meios se fazem necessário.  Segundo notícia apresentada em British Broadcasting Corporation1 um estudo de curto  prazo revela que no Twitter 40% das mensagens postadas são inúteis, porém, os outros  60% merecem nossa atenção e é o que tomamos como base para este trabalho.  O Twitter é um micro blog que oferece uma base de dados, na forma de tweets,  os quais são atualizações de status ou reflexões sobre notícias de destaque, cultura  popular contendo no máximo 140 caracteres.  Na literatura poucas iniciativas utilizando o Twitter como Corpus da Web (Base  de Conhecimento) são encontradas, motivo: ser recente e apresentar pouca importância  se comparado com outras fontes de dados. Um trabalho correlato que merece ser  mencionado é o Observatório da Web2 composto pelas seguintes etapas: coleta,  extração, processamento e visualização. Nele informações a respeito dos candidatos a  presidência da república são extraídas de redes sociais.  O presente trabalho tem por objetivo capturar dados da Web oriundos do Twitter,  tweets da região de Porto Alegre, sobre o assunto Copa do Mundo. Utilizamos para  coletar dados a Twitter4J que é uma biblioteca Java. Após, limpamos os dados  coletados, ou seja, removemos caracteres especiais e stopwords, como por exemplo: #,  &, @, //, de, em. Em uma etapa posterior, usamos o algoritmo de aprendizado de  máquina classificador naïve bayes no Matlab e realizamos uma análise lingüística das  estruturas obtidas. Por fim, apresentamos os resultados de forma intuitiva, através de um  gráfico de freqüência de tweets versus tempo (intervalo de 5 em 5 minutos) sobre o  assunto Copa do Mundo.   Abaixo na Figura 1 a linha em azul representa os verdadeiros positivos (tweets  classificados como sendo do assunto Copa do Mundo). Após treinamento e teste  utilizando o classificador naïve bayes obtivemos 177 acertos (verdadeiros positivos  mais verdadeiros negativos) de um total de 4275 tweets.

Figura 1: Tweets verdadeiros positivos [retirada]

1  http://news.bbc.co.uk/2/hi/technology/8204842.stm

2  http://observatorio.inweb.org.br/tour

É importante ressaltar que o gráfico apresentado diz respeito a experimentos  feitos com tweets obtido no dia 20 de junho durante o jogo do Brasil e da Costa do  Marfim. No qual é possível visualizar picos em determinados horários, como 16:15:52h  que corresponde ao intervalo do jogo, o que já era esperado.  Com a análise lingüística foi possível constatar que o classificador se comportou  bem. A análise lingüística realizada procurou identificar a estrutura dos tweets,  examinar a escrita correta e classificar manualmente os acertos.  Dentre os problemas enfrentados na elaboração deste trabalho podemos elencar  principalmente: a coleta dos dados, a construção da base de treinamento e da base de  teste para ser utilizada como entrada no classificador naïve bayes. Além disso, outro  fator que merece ser mencionado é que os tweets são informais, inconsistentes em  termos de linguagem e curtos por serem compostos por no máximo 140 caracteres,  portanto, dificultando o processo de classificação.  Em suma, através deste trabalho foi possível observar que inúmeras iniciativas  podem ser realizadas utilizando o Twitter como Corpus. Os resultados podem ser  melhorados utilizando outras técnicas, em especial, na fase de pré-processamento, como  remoção ou substituição de termos do “internetês” (vc por você, blz por beleza).  Pretendemos como trabalho futuro utilizar outros algoritmos de aprendizado de  máquina como Máxima Entropia, Máquina de Vetor Suporte, Árvore de Decisão e  abordar outras categorias, como Saúde Pública, Governo Eletrônico  Palavras-chave: Web como Corpus, Twitter, Aprendizado de Máquina.

A categorização semântica dos compostos nominais técnicos em língua inglesa e os resultados tradutórios em português - Paula Santos Diniz (PUC-RIO) PG

A categorização semântica dos compostos nominais em língua inglesa é um tema recorrente na literatura, uma vez que a concisão da estrutura gera uma multiplicidade de leituras e possibilidades tradutórias (tanto estruturais quanto de sentido). Sendo assim, faz-se necessário estudar os compostos nominais sob uma perspectiva interlingcristiual e contribuir para uma categorização semântica desse tipo de estrutura, de modo a melhor compreender a relação semântica subjacente entre os termos e prover traduções para o português condizentes semanticamente com o composto nominal em inglês. A pesquisa de dissertação de mestrado teve como objetivo fazer um panorama da literatura sobre os compostos nominais em língua inglesa, compilar um corpus, analisar do ponto de vista sintático e semântico as traduções dos compostos nominais para o português e prover uma categorização semântica dos compostos nominais técnicos, ou seja, oriundos da terminologia técnica. Antes de escolher as categorias relevantes para agrupar os compostos nominais retirados de um livro técnico da área de engenharia elétrica/eletrônica, fez-se uma revisão da literatura sobre a semântica dos compostos nominais, baseada em estudos clássicos sobre o assunto [Levi (1978); Warren (1978/2003)] e em trabalhos mais recentes, como o de Pustejovsky (1995); Girju et al. (2005, 2007), inseridos, respectivamente, na Teoria do Léxico Gerativo e no âmbito da Linguística Computacional. Levi (1978), tendo a Semântica Gerativa como orientação teórica, afirma que as estruturas N + N ou com múltiplos modificadores são derivadas de dois processos: a supressão de predicados ou a nominalização. A autora aponta nove predicados (have, cause, be, use, make, in, for, from e about) que deixariam mais explícita a relação entre os termos. Warren estabelece 6 grandes categorias (constitute, belonging to, resemblance, activity, location e purpose) com inúmeras subcategorias em sua tese de doutorado (1978) e também 6 categorias (compositional, possessive, resemblance, causative, locative e purpose), porém com algumas mudanças, em uma proposta mais recente (2003), influenciada pela Teoria do Léxico Gerativo (1995). A Teoria do Léxico Gerativo estabelece 4 papéis na estrutura qualia (agentive, constitutive, telic, formal).  O corpus analisado foi retirado de um texto técnico traduzido pela pesquisadora. As condições do material não permitiram que se trabalhasse com ferramentas que auxiliassem a identificação semiautomática ou automática dos compostos nominais em língua inglesa, uma vez que a pesquisadora teve acesso apenas ao material impresso. O corpus foi compilado manualmente, a partir da consulta ao índice remissivo, de modo a tentar agrupar os compostos nominais mais relevantes do texto. A escolha das categorias foi baseada nos trabalhos citados anteriormente, mas com vistas a dar conta dos compostos nominais técnicos. Sendo assim, também foram utilizadas categorias que haviam sido propostas em trabalhos sobre a semântica dos compostos nominais técnicos da área médica. A aplicação da tipologia foi sendo ajustada de acordo com os dados; logo, esta pesquisa é, ao mesmo tempo, baseada em e conduzida por corpus. Os dados têm como objetivo confirmar ou refutar uma hipótese ou teoria (neste caso, uma proposta de tipologia), além de servir de ponto de partida para a análise das relações semânticas previamente propostas. Para classificar os 127 compostos do corpus selecionado, foram utilizadas nove categorias semânticas: PERTENÇA/CONSTITUIÇÃO; GÊNERO-ESPÉCIE; COMPARAÇÃO; MEDIDA; LOCAL; TÓPICO; PROPÓSITO; CAUSA/ORIGEM e USO). A categoria PERTENÇA/CONSTITUIÇÃO, que envolve as relações de posse, meronímia (todo-parte/parte-todo) e constituição (conteúdo-continente e material), foi a mais produtiva no corpus analisado, o que vai ao encontro dos resultados obtidos nas pesquisas de Levi (1978) e Warren (1978). As categorias COMPARAÇÃO e MEDIDA também foram produtivas no corpus, respectivamente, porque a abstração dos conceitos torna necessário fazer comparações com algo palpável ou visível, ou ainda, usar convenções simbólicas e gráficas como sistemas de representação desses conceitos, e porque o texto remete a muitos valores e relações, tornando importante a noção de medida. Para os compostos N + N em inglês, as estruturas utilizadas na tradução foram, em sua maioria, N + de + N. Nesse tipo de estrutura, a relação semântica depende mais dos termos que antecedem e sucedem a preposição, uma vez que esta é mais vazia semanticamente do que outras preposições como “com”, “em e “para”. As estruturas N + de + art. + N; N + Adj.; N + N e N também foram utilizadas. Este trabalho é, portanto, multidisciplinar, na medida em que propõe um diálogo entre diferentes vertentes linguísticas, e é interlingual, já que aborda questões e problemas relacionados à tradução de compostos nominais do inglês para o português. Sua maior contribuição é a análise semântica dos compostos nominais técnicos, sob uma perspectiva contrastiva. Apesar do grande número de trabalhos sobre a semântica dos compostos nominais em língua inglesa, há ainda muito a ser feito nessa área, principalmente sob uma perspectiva interlingual. Dado o número expressivo de trabalhos sobre a semântica dos compostos nominais inseridos no âmbito da Linguística Computacional (Macdonald, 1982; Isabelle, 1984; Rosario & Hearst, 2001; Buckeridge & Sutcliffe, 2002; Girju, 2007), parece um caminho natural investigar a semântica desse tipo de estrutura em uma perspectiva contrastiva, à luz dos estudos computacionais.  Os compostos nominais são um desafio para a Linguística Computacional, na medida em que os critérios usados para identificá-los são bastante “escorregadios”, o que dificulta a identificação automática desse tipo de estrutura. Além disso, cabe ressaltar que a anotação semântica ainda é um desafio na área, principalmente sob uma perspectiva interlingual. É necessário, portanto, dar continuidade ao estudo da semântica dos multivocábulos, focando na identificação automática desse tipo de estrutura e na anotação semântica da mesma, de modo a verificar a eficiência das ferramentas disponíveis, identificar as principais falhas resultantes da tradução automática e prover um tratamento que minimize essas falhas.

 

<< 1 2 3 4 5 6 7 >>