Modalidade 2 / Work in Progress

by blogadmin

Os trabalhos abaixo foram aceitos para apresentação como modalidade 2 / work in progress. Os autores podem apresentar os trabalhos em qualquer uma das sessões ou em ambas.

Sujeito a alterações.

  1. Investigando a tradução de termos simples, expressões fixas e semifixas em um corpus paralelo da subárea de antropologia das civilizações Talita Serpa UNESP

    Com o propósito de examinar o uso do léxico na subárea de Antropologia das Civilizações, procedemos à compilação de um corpus de estudo, no formato paralelo, a partir de três obras de autoria do antropólogo Darcy Ribeiro e das respectivas traduções para a língua inglesa. Nossa pesquisa insere-se em um projeto maior, coordenado pela Profa. Dra. Diva Cardoso de Camargo, sobre características semelhantes e diferentes observadas na tradução especializada no que concerne ao léxico, notadamente no uso de termos simples, expressões fixas e semifixas (BAKER, 1996; BERBER SARDINHA, 2004; CAMARGO, 2007). Quanto à fundamentação teórica, baseamo-nos em Baker (1996, 2000), que propõe o arcabouço teórico-metodológico para os Estudos da Tradução Baseados em Corpus, apoiando-se principalmente no conceito de normas de Toury (1978) e nos estudos envolvendo a Linguística de Corpus (SINCLAIR, 1991). De acordo com Baker, o uso de ferramentas computacionais possibilita a análise dos dados com maior rapidez e precisão, permitindo observar um número maior de dados e desenvolver pesquisas na área dos Estudos da Tradução. Propõe, como objetivo principal da disciplina, a identificação de características do texto traduzido que levarão ao entendimento do que é e de como funciona a linguagem da tradução. O trabalho de levantamento de dados será realizado com o auxílio do programa computacional WordSmith Tools. Contrastaremos os dados do corpus principal em relação aos dados de dois corpora comparáveis, formados de trinta obras de mesma natureza, originalmente escritas em português e em inglês. Alguns resultados encontrados na primeira fase de análise mostram termos simples como: “escravaria” /slaves; “pajelança” /shamanism; “patronato”/executives; “deculturação”/deculturation; e “etnocídio”/ethnocide. Quanto às expressões fixas e semifixas foram registradas, por exemplo: “ninguendade de não-índios” /nobodyness of non-indians; “sincretismo da pajelança indígena”/syncretism of indigenous shamanism; “protocélula étnica”/ ethnicproto-cell; “solidariedade elementar fundada no parentesco”/ elementary solidarity founded on kinship; e “retração das tribos indígenas”/ withdrawal of interior Indian tribes. O estudo também permitirá a elaboração de dois glossários, contendo termos simples e expressões fixas e semifixas, acompanhados de seus cotextos, os quais poderão fornecer subsídios a pesquisadores, tradutores, alunos de tradução e profissionais da subárea de Antropologia das Civilizações.

  2. O uso de corpora no ensino de língua estrangeira para profissionais na área de publicidade Cristina Mayer Acunzo PUC-SP (PG)

    Este trabalho tem como objetivo preparar materiais de ensino de inglês como Língua Estrangeira usando um corpus eletrônico composto por textos da área de Publicidade. Faremos a identificação de itens e padrões lexicogramaticais distintivos da área (Berber Sardinha, 2009), que formarão a base dos materiais a serem aplicados em sala de aula, com estudantes do idioma que atuam nesse meio. Para tanto, embasamo-nos na Linguística de Corpus e na Teoria da Complexidade (Morin, 2009), a qual usaremos como abordagem de aprendizagem. A pesquisa busca preencher lacunas como a falta de pesquisa no desenvolvimento de material didático com corpus, bem como no ensino de inglês para a área de Publicidade, e a falta de pesquisa no desenvolvimento de material de ensino de línguas sob a luz da Complexidade. Para atingir esses objetivos, formulamos as seguintes questões: (1) Quais os padrões lexicogramaticais mais característicos do corpus de Publicidade? (2) Quais atividades de ensino podem ser produzidas a partir desses padrões para o público-alvo? (3) Qual a reação dos alunos às atividades produzidas? Primeiramente, coletamos um corpus de estudo de 1 milhão de palavras, composto por textos impressos e orais de sites que fornecem informações sobre a atuação das agências no mundo publicitário. Como corpus de referência, escolhemos o BNC (British National Corpus), de 100 milhões de palavras, composto por inglês britânico escrito e falado. O levantamento das palavras-chave será feito com o auxílio das seguintes ferramentas: (1) Wordsmith Tools (http://www.lexically.net/wordsmith/), (2) CEPRIL ToolKit, (http://lael.pucsp.br/corpora), (3) KitConc (http://www.corpuslg.org/tools/) e (4) ConcGram (http://www.edict.com.hk/pub/concgram/), que oferecem meios de analisar corpora em busca da padronização lexicogramatical. A escolha por diversas ferramentas tem o objetivo de fazer uma comparação entre as mesmas, discutir e apresentar como os padrões mais relevantes podem ser selecionados. Em seguida, com base em Berber Sardinha (2004 e 2009) e Willis (1990), apresentaremos os procedimentos de transposição dos achados para os materiais de ensino, ilustrando como desenvolver diversas atividades, centradas na concordância e centradas no texto (Berber Sardinha, no prelo). Por fim, faremos a aplicação dos materiais em sala de aula e a subsequente coleta de impressões dos alunos por meio de questionários e entrevistas. Com base em nosso estudo piloto, acreditamos que os resultados da pesquisa contribuirão para futuros desenvolvimentos de materiais para o ensino de Língua Estrangeira com base na Linguística de Corpus, assim como para a área de Publicidade.

  3. Repensando a explicitação e os universais da tradução: um estudo baseado em corpus Edna Regina Hornes UFRGS (PPG)

    Segundo as teóricas dos estudos de tradução Blum-Kulka e Mona Baker, explicitação é o fenômeno tradutório em que elementos implícitos em determinado texto de partida são explicitados ou explicados no texto de chegada, num esforço naturalmente didático do tradutor. Tal fenômeno é um dos chamados universais da tradução, fenômenos correntes em toda e qualquer tradução. O fenômeno da explicitação, especialmente, demonstraria, segundo as teóricas, que textos traduzidos teriam “sempre mais palavras que o seu par original, independentemente de gênero textual e pares de língua envolvidos”. O objetivo deste estudo é, primeiramente, observar o processo explicitativo: se este seria efetivamente universal e se a adição de palavras ocorreria, realmente, em todas as traduções dos corpora desta pesquisa; outro propósito é verificar possíveis comportamentos tradutórios em gêneros textuais diferentes e se estes influenciariam realmente o movimento explicitativo; e, finalmente, esta pesquisa propõe-se a observar em que medida a densidade terminológica ou grau de especialidade nos diferentes gêneros textuais influenciaria o fenômeno da explicitação. Para fins de observação até o momento, os corpora de estudo foram compostos por diversas traduções elaboradas por diferentes tradutores experientes no mercado de trabalho de dois gêneros textuais diferentes: o gênero resumo científico e o gênero literário, que ocupam posições opostas no que se refere a grau de especialidade ou densidade terminológica. Além disso, os textos foram divididos em direção tradutória por pares de língua: na direção português-inglês e na direção inglês-português. Para tanto, os corpora foram compostos, separadamente, de diversas traduções de: a) um resumo de artigo científico da área de química, originalmente escrito em português e traduzido para o inglês; b) um abstract da área de física, originalmente escrito em inglês, e traduzido para o português; c) um excerto de obra literária originalmente escrita em inglês e traduzida para o português; d) um excerto de obra literária originalmente escrita em português e traduzido para o inglês. As observações foram feitas com auxílio do software Wordsmith Tools, da Oxford University, que ajuda a identificar contextos de palavras e expressões específicas, número total e parcial de palavras em um texto e palavras mais frequentes de um determinado texto. Em resultados ainda parciais, foi possível verificar que em número considerável de traduções dos resumos técnico-científicos não houve explicitação, ocorrendo o contrário nas traduções do gênero literário, em que em vários excertos traduzidos o aumento do número de palavras foi maior do que em seu par original. Tais resultados sugeririam justamente o oposto do proposto pela teoria dos universais da tradução: uma não-universalização do fenômeno da explicitação, além de uma possível influência de gêneros textuais no ato tradutório, assim como do grau de especialidade e da densidade terminológica presente nos textos.

  4. Cover stories: um estudo linguístico das revistas semanais Renata Condi de Souza PUC-SP (PG)

    A pesquisa de nível de doutoramento propõe-se a observar e analisar as dimensões lingüísticas e os padrões léxicogramaticais presentes nas reportagens de capa das revistas semanais de notícias TIME e Veja, comparando e contrastando a linguagem presente nessas mídias. Para tanto, faz-se uso de uma abordagem diacrônica de estudo, que conta com a coleta de textos publicados de 1930 a 2009 (TIME) e de 1968 a 2009 (Veja), na busca por dimensões lingüísticas e na identificação e análise de padrões léxicogramaticais ao longo das décadas. A investigação tem como objetivo principal destacar e analisar as características lingüísticas e funcionais das reportagens de capa de cada década, seus fatores e suas dimensões. Busca-se também observar e analisar seus padrões léxicogramaticais, agrupame ntos (clusters) e colocações. Metodologicamente, aplicam-se os passos descritos por Biber (1988, 2007, entre outros) para a Análise Multidimensional na análise inicial dos corpora, os quais incluem, resumidamente, a etiquetagem, a contagem de etiquetas, o carregamento dos dados em um programa estatístico, a análise fatorial e a identificação de fatores, características lingüísticas e funcionais e dimensões lingüísticas. Em seguida, criam-se listas de palavras por meio de um programa de análise lexical, comparam-se as listas com corpora de referência e buscam-se linhas de concordância e agrupamentos a fim de observar e analisar os padrões léxicogramaticais. As ferramentas usadas são: o etiquetador morfossintático Tree-Tagger, na etiquetagem dos corpora; o programa estatístico PASW 18.0, na análise fatorial; e o programa de análise lexical WordSmith Tools 3.0, na busca por padrões léxicogramaticais, agrupamentos e colocaçõ es. Os resultados da análise piloto indicam diferenças em termos de uso da língua entre décadas e a possibilidade de relacionar características lingüísticas a características funcionais.

  5. Um corpus para o estudo dos efeitos de frequência no português, o vox antiqua Gustavo Augusto de Mendonça Almeida e Marco Aurélio Silva Fonseca UFMG

    Conforme resumem McEnery e Wilson (2001:123): “A pesquisa baseada textos empíricos é uma condição sine qua non para a linguística histórica, [...] uma vez que os textos que existem de um período histórico formam um conjunto fechado de dados”. O Vox Antiqua é um exemplo de que os estudos históricos não podem se dissociar da linguística de corpus. O Vox Antiqua é um corpus que busca possibilitar a pesquisa fonológica diacrônica em português. Trata-se de um corpus, ainda em construção, que possui textos que vão desde o latim arcaico até o português medieval. O corpus foi arquitetado tendo em vista o modelo fonológico proposto por Bybee (2001). Para o que é de relevância para este trabalho, tal modelo propõe que as representações fonológicas são redundantes, organizam-se por protótipos e sofrem efeitos de frequência de ocorrência (token) e de tipo (type). O Vox Antiqua pretende ser uma ferramenta que possibilite a pesquisa diacrônica desses efeitos de frequência em português. Segundo Bybee (2001), haveria dois tipos de mudança fonólogica: uma com e outra sem motivação fonética. A mudança com motivação fonética atingiria primeiro itens lexicais de alta frequência de ocorrência. A autora retoma os argumentos de Mowrey e Pagliuca (1995) e diz que tais itens estariam mais propensos a sofrer uma redução ou uma sobreposição dos gestos articulatórios que os compõem. Já a mudança sem motivação fonética (também chamada mudança por nivelamento analógico) atingiria primeiro itens lexicais com baixa frequência de ocorrência. Tais itens seriam de difícil acesso na memória e estariam propensos a seguir padrões mais produtivos na língua, que apresentassem alta frequência de tipo (type). O corpus foi organizado seguindo, em linhas gerais, as diretrizes expostas em Sinclair (1996). Os textos que o integram provêm, principalmente, dos corpora: The Latin Library, Bibliotheca Augustana, Corpus Scriptorum Latinorum, Project Gutenberg e Corpus Informatizado do Português Medieval. Atualmente, ele conta com cerca de 11 milhões de tokens. O objetivo com o corpus é o estudo dos efeitos de frequência na organização do léxico, contudo, para que esse objetivo seja atingido, é preciso que a procura no corpus seja rápida e eficiente. Se se busca, por exemplo, comparar os efeitos da frequência de ocorrência e de tipo na mudança de recipo para recebo com a mudança que ocorreu com os verbos da 4a conjugação latina, é preciso que as informações de frequência estejam acessíveis. Para isso, é preciso que o corpus esteja bem etiquetado. Até o presente momento, foi feita, a partir de um dicionário, a etiquetagem das classes de palavras dos textos em latim. Informações morfossintáticas para verbos (como conjugação, tema, aspecto, tempo, modo, número e pessoa) também foram anotadas através de uma lista com as terminações verbais. Ainda se precisa fazer a etiquetagem das formas nominais dos textos em latim, bem como a etiquetagem de todo o corpus em português medieval. Além disso, é preciso que seja feita a ligação entre as palavras dos dois corpora, de modo a se possibilitar a busca e a comparação entre as informações de frequência.

  6. Estudo comparativo da frequência de palavras em português em corpus de aprendizes brasileiros e chineses Cristina Becker Lopes Perna, Sheila Nunes e Sun Yuqi PUC-RS/ PUC-RS (PG)/ PUC-RS (PG)

    Sendo o português a sexta língua materna e a terceira língua européia mais falada no mundo com mais de 200 milhões de falantes, esta pode ser considerada como uma língua do futuro. A expansão econômica dos países lusófonos e as criações das organizações internacionais, tais como UNESCO, MERCOSUL, OEA etc., trouxe um grande interesse no ensino de português como língua estrangeira. O ensino de português na China data do ano 1960 e, na última década, o número de cursos vem aumentando consideravelmente. Portanto, a investigação do ensino de português por falantes de chinês é um tema muito importante atualmente. No entanto, não encontramos nenhum estudo baseado em corpora de aprendizes de português como L2 por falantes de mandarim, fato este que revela uma lacuna nas pesquisas. Esta pesquisa tem por objetivo comparar a frequência dos itens lexicais na produção escrita entre os falantes brasileiros de português (L1) e os falantes chineses aprendizes de português (L2) através de dois gêneros textuais – a crônica e o blog. A crônica aqui, é definida como uma seção ou coluna de jornal sobre o tema especializado (Houaiis, p. 202). O Blog é um tipo de texto que fornece comentários ou notícias sobre um assunto em particular. Sua estrutura e tamanho são sempre variáveis. Tratam-se de dois gêneros textuais bem distintos: a crônica é mais formal e Blog é mais pessoal. Segundo Biderman (1998), “a frequência é uma característica típica da palavra. Aliás, a norma linguística se baseia na frequência dos usos linguísticos. Assim, a norma linguística nada mais é do que a média dos usos frequentes das palavras que são aceitas pelas comunidades dos falantes. E não é só isso. Também as mudanças linguísticas que, no decorrer da história, levam de um estado de língua a outro, advêm das frequências de certos usos em detrimento de outros (P. 162)” Conforme Berber Sardinha (2004, p.18), o corpus é “um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise”. Tendo como base a linguística de corpus, pretendemos verificar o que segue: (1) Qual é a diferença, em geral, na produção entre os dois grupos: falantes nativos e falantes de mandarim; (2) Qual é a diferença na produção dos dois gêneros coletados entre brasileiros e chineses; (3) Qual é o maior desafio na aprendizagem lexical dos alunos chineses; (4) De que forma podemos aproveitar o insumo no ensino de língua estrangeira. Quanto à metodologia, a pesquisa contém duas etapas - a coleta de dados e a análise estatística dos corpora A coleta de dados foi feita com dois grupos de informantes: 22 informantes participaram da pesquisa, sendo 11 chineses (5 femininos e 6 masculinos) e 11 brasileiros (5 femininos e 6 masculinos). Todos têm a mesma faixa-etária (20-30 anos) e estão no terceiro/quarto ano de faculdade. Os informantes chineses são aprendizes de português como L2 do terceiro ano da Faculdade de Comunicação Internacional em língua portuguesa da Communication University of China, Nanjing e estão fazendo intercâmbio no Brasil, frequentando a faculdade de Letras da Pontifícia Universidade Católica do Rio Grande do Sul. Os informantes brasileiros são alunos regulares da PUCRS que vem de diversos cursos. Todos são falantes nativos de português do Brasil e nasceram no estado do Rio Grande do Sul. Escolhemos os informantes brasileiros que vêm de faculdades diferentes a fim de garantirmos que o resultado da pesquisa não seja influenciado pela sua área de estudo. Para formar o corpus, os sujeitos tiveram que escrever duas crônicas e dois blogs, a partir da compreensão de textos escritos que apresentam assuntos da atualidade. Não houve exigência de extensão dos textos redigidos. Para realizar a parte estatística, primeiro, inserimos cabeçalho e etiquetas, separando os textos escritos pelos brasileiros e pelos chineses. Segundo, utilizamos o software WordSmith Tools para a manipulação do corpus. Faremos, então, a classificação dos itens lexicais de acordo com o uso frequente para ver que tipo de palavra é mais ou menos frequente na produção escrita. Também analisaremos quais itens lexicais são mais produzidas em cada gênero e pretendemos listar as palavras mais difíceis de serem adquiridas entre falantes chineses. A presente pesquisa ainda está sendo realizada e está na etapa de trabalho com os dados no programa WordSmith Tools.

  7. Colocações da hotelaria: um estudo direcionado pelo corpus Sandra Lago Martinez Navarro FFLCH- USP (PG)

    O turismo é um setor de bastante expressão no cenário econômico e cultural do mundo. Intimamente relacionado a essa atividade, está o setor hoteleiro, um segmento multicultural no qual a comunicação exerce um papel crucial e a tradução é uma necessidade constante. Os tradutores, por sua vez, deparam com os desafios de uma área técnica que apresenta, por um lado, um grande volume de traduções, sobretudo de sites dos estabelecimentos hoteleiros, e, por outro, uma real escassez de obras de referência confiáveis e abrangentes, especialmente as bilíngues voltadas às necessidades do tradutor como produtor textual. Diante desse cenário, vivenciado durante minha experiência profissional como tradutora, surgiu o interesse de desenvolver uma pesquisa que auxiliasse o tradutor a chegar a uma tradução mais natural, segundo os princípios da Convencionalidade. Nesse sentido, o objetivo deste estudo, recorte de nossa pesquisa de mestrado, é apresentar os resultados iniciais de uma proposta de glossário bilíngue (inglês-português), baseado em corpus, de colocações da área de hotelaria. Este estudo específico concentra-se nos padrões colocacionais mais recorrentes do termo room (quarto), identificado como um termo-chave do domínio. Para tanto, encontramos respaldo teórico e metodológico nos preceitos da Linguística de Corpus, área que se pauta em uma visão empírica e probabilística do sistema linguístico e se ocupa da identificação de padrões do léxico por meio da observação de textos autênticos, organizados em um corpus eletrônico (Tognini-Bonelli, 2001). Encontramos fundamentação teórica também nos postulados da Teoria Comunicativa da Terminologia (Cabré, 1993) e Terminologia Textual (Bourigault and Slodzian, 2004), correntes que compartem a visão de que o texto é o verdadeiro habitat das terminologias. Esta pesquisa situa-se ainda no escopo dos estudos de Convencionalidade, entendida como o conjunto dos elementos linguísticos, cuja co-ocorrência não é explicada sintática ou semanticamente, mas sim pelo uso (Fillmore, 1979) e da Fraseologia, ramo da ciência linguística que tem por objeto de estudo as combinações fixas das palavras, termos ou unidades lexicais. Para realizarmos o levantamento das colocações, compilamos um corpus de estudo comparável (textos originais em inglês e em português), contendo cerca de 200 mil palavras provenientes de textos descritivos publicados em sites de hotéis do Brasil e EUA. Com vistas a uma maior representatividade, os subcorpora foram divididos em hotéis de todas as categorias de estrelas. Em termos metodológicos, esta pesquisa foi dividida em etapas, a saber: a revisão da bibliografia, a delimitação e compilação do corpus de estudo e a exploração do corpus por meio das ferramentas do software Wordsmith Tools (Scott, versão 5). Esta etapa consistiu na elaboração de lista de palavras-chave, lista de colocados, lista de clusters, análise das linhas de concordância, validação dos colocados, levantamento dos equivalentes e seleção de exemplos para compor o verbete do glossário. Dentre os resultados obtidos a partir da primeira palavra-chave do subcorpus de inglês, room, destaca-se seu colocado mais frequente: a preposição “in”, que integra estruturas maiores, como in-room safe, in-room dining e in-room coffee maker. Como equivalentes, foi possível identificar cofre individual, room service e cafeteira, respectivamente. Nota-se o fato interessante de a palavra quarto estar ausente nos equivalentes encontrados, estando presente apenas nos contextos, como em: "Todos os quartos estão equipados com ar-condicionado, banheira, cofre individual, TV a cabo e frigobar.” Vale salientar a constatação de in-room dining ter como equivalente “em português” uma colocação em inglês, room service, que por sua vez se mostrou mais comum que serviço de quarto nas descrições de hotéis em português. Apesar de os resultados apresentados neste estudo serem ainda preliminares, eles já demonstram que a área em questão é bastante rica lexicalmente. Daí nossa preocupação em dar conta de uma terminologia in vivo, que descreva o real comportamento do léxico especializado em seu contexto de ocorrência. Espera-se que esta pesquisa possa fornecer ao tradutor elementos que contribuam para a maior adequação de sua tradução ou versão, em especial, na área de hotelaria.

  8. Os episódios de Chaves traduzidos para o português do Brasil: análise tradutória e a linguística de corpus Orlanda Miranda Santos UFSC

    Este projeto pretende contribuir para a formação de pesquisadores em Estudos da Tradução, Ensino de Línguas e Línguística de Corpus. Pretende proporcionar uma aplicação da Linguística de Corpus e de seus procedimentos e ferramentas no ensino de Língua Espanhola, oferecendo um suporte teórico no campo disciplinar dos Estudos da Tradução com interface nos aportes metodológicos da Linguística de Corpus aplicados ao Ensino de Línguas. Justifica-se por conter um tema inédito e de grande interesse, especialmente, para professores de Espanhol como Língua Estrangeira. Tem como objetivo geral: analisar a tradução dos episódios através de padrões léxico-gramaticais mais frequentes nos corpora de estudo. Como objetivos específicos estão: levantar padrões léxico-gramaticais mais frequentes nos episódios através da Linguística de Corpus; verificar se esses padrões estão presentes no corpus de referência; levantar padrões léxico-gramaticais mais frequentes na tradução desses episódios através da Linguística de Corpus; verificar se esses padrões estão presentes no corpus de referência; elaborar um material didático que promova a conscientização dos alunos em relação ao fato de que a linguagem é composta por padrões léxico-gramaticais e que, ao mesmo tempo, promova o aprendizado de alguns padrões criteriosamente selecionados do corpus El Chavo del Ocho (Programa Chaves em espanhol). Chaves é um programa televisivo criado na década de 70, no México, e que reproduz o contexto histórico daquela época e, no Brasil, Chaves é considerado quase um programa brasileiro. El Chavo del Ocho, título original da série, estreou em 1971 no México, exibida pela rede Televisa, com repercussão mundial e traduzido em mais de 50 países. Professores de espanhol dos diversos níveis de ensino utilizam Chaves em suas aulas. As traduções para o português do Brasil parecem alterar consideravelmente o sentido do texto original. Nesta pesquisa almeja-se responder a duas perguntas iniciais: Quais são os padrões léxico-gramaticais mais frequentes nos corpora de estudo? Esses padrões também estão presentes nos corpora de referência? Serão analisados episódios das oito temporadas do programa. Os corpora de referência serão os de Davies (2002) e Davies e Ferreira (2006). Será, portanto, um estudo de corpus paralelo, qualiquantitativo, com base na linguística empírica e no sistema probabilístico. A Linguística de Corpus pode ser definida como a área da Linguística que se ocupa da coleta e exploração de corpora, ou conjunto de dados lingüísticos textuais, em formato legível por computador, que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística, como afirma Berber Sardinha (2004, p. 3). O computador tem capacidades como buscar, localizar e recuperar sequências de caracteres ou contar ocorrências desta sequência que são triviais para o processamento de dados, mas seriam praticamente impossíveis para um ser humano. Graças aos estudos baseados em corpora, já se pode afirmar que a linguagem é padronizada, isto é, formada por seqüências de palavras (padrões) que se repetem várias vezes. Também já se sabe que os padrões variam de acordo com as diferentes situações e contextos em que ocorrem (SINCLAIR, 1991; HUNSTON & FRANCIS, 2000).

  9. Dever e ação: a geração de expectativas sobre o professor de línguas no discurso midiático, um estudo baseado em linguística de corpus Joseane Amaral UFSM

    O presente trabalho deriva de um projeto de dissertação que reúne subsídios teóricos e empíricos para analisar a geração de expectativas e a constituição do papel social do professor de línguas, sob a ótica do discurso midiático. Esta pesquisa, de caráter qualiquantitativo, utiliza os aportes metodológicos da Linguística de Corpus (LC), a saber o programa WordSmith Tools 4.0 e o Mapeador Semântico de Berber Sardinha e Richter (2009). Por meio da coleta e análise de corpora compostos por textos midiáticos da área de educação de duas profissões – o professor de Educação Física e o de Letras – pretendemos buscar respostas à seguinte questão: que propriedades linguísticas marcam as expectativas relativas ao papel social do professor, discursivizado pela mídia especializada em educação? Para tanto, procuraremos mapear expectativas cognitivas e normativas (Luhmann) em relação aos fatores de atribuição da Teoria Holística da Atividade - THA (Richter, 2008, 2006), aqui entendidos como o conjunto de variáveis que definem a modelagem do papel social do professor – em suma, suas atribuições, modelos de conduta, referência e pertença grupal (Richter, 2009). Pelos indícios linguísticos extraídos dos corpora, buscamos padrões que sobressaem, analisando semanticamente suas repercussões. O confronto discursivo de textos em duas profissões da esfera educacional, distintas juridicamente, procura verificar em que medida o papel social é constituído exogenamente nas profissões não emancipadas, como a docência em Letras. O cotejo inicial dos corpora demonstra que existem discrepâncias nas atribuições do professor emancipado juridicamente, como no caso da Educação Física, em comparação à realidade do professor desprovido de um lugar social delimitado, como o professor de línguas. Assim, o papel social do professor de educação linguística parece ser constituído por expectativas cognitivas advindas de sistemas discursivos exteriores ao de sua esfera profissional, como é o caso da mídia.

  10. Valência de construções emergentes: um estudo baseado em corpora e seus limites Luciana Beatriz Ávila UFMG

    Com base em princípios da Linguística Cognitiva, a pesquisa que, a princípio, proponho desenvolver como tese de doutoramento tem como ponto central descrever como se apresentam, no Português do Brasil (PB) e no Português Europeu (PE), o que denomino construções predicativas de conduta. Como exemplo, temos: (a) Luciana finge de inteligente. (b) Angel se faz de simpática. (c) Nando paga de gatinho. (d) Thiago posa de hetero. (e) Cláudio ataca de escritor. Especificamente, pretendemos analisar o pareamento forma-sentido dessas construções; investigar a integração entre verbos e construção; investigar as relações pragmáticas estabelecidas; investigar como a semântica do verbo contribui para a semântica do frame interacional; propor uma generalização sobre as instâncias da construção com verbos que significam “agir como alguém que Você não é”. Para tanto, empreenderemos uma pesquisa a partir dos dados dos corpora comparáveis de fala espontânea do PB, C-ORAL-BRASIL, e do PE, C-ORAL-ROM, a fim de determinar a sua ocorrência e frequência em monólogos, diálogos e conversações, e observar as diferenças de uso nessas duas variedades do português. Os dados serão cruzados a partir de parâmetros diastráticos, diatópicos, diamésicos e diafásicos. Procederemos, também, a uma análise de base construcionista (GOLDBERG, 1995, 2006). Entendemos que uma abordagem baseada no uso realmente permite investigar os contextos em que determinado padrão é encontrado e a análise de fatores contextuais que influenciam sua variação. No entanto, apesar de Gries destacar que “os métodos quantitativos da linguística de corpus podem fornecer evidência empírica, sugerindo respostas para alguns problemas notoriamente difíceis da linguística cognitiva” (GRIES, 2006, p. 57), observamos que um dos limites da linguística de corpus é justamente o de não dar conta de fenômenos de baixa frequência, como é o caso do fenômeno investigado aqui. Uma pergunta, pois, que se impõe é: como levar a cabo uma pesquisa baseada no uso, se os corpora disponíveis não apresentam frequência mínima necessária de um determinado tipo para que seu estudo possa ser significante? Consequentemente, pergunta-se mais genericamente: quais são os refinamentos necessários na compilação de corpora a fim de que eles possam refletir mais fidedignamente a realidade de uso da língua?

  11. Um levantamento das características das produções escritas de brasileiros aprendizes de Inglês como Língua Estrangeira analisadas à luz da Linguística de Corpus Wendell Dantas PUC-SP (PG)

    Esta pesquisa em andamento tem como objetivo principal fazer um levantamento das características salientes na produção escrita do aluno brasileiro no idioma inglês. Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus, área que tem uma visão probabilística da linguagem e se ocupa da compilação, coleta e análise eletrônica de textos em linguagem natural. Mais especificamente, o trabalho aqui apresentado fundamenta-se na área de pesquisa chamada Corpora de Aprendizes, que se baseia na análise de produções de estudantes e pode servir à área de Ensino e Aprendizagem de Idiomas, e utilizou como metodologia a Análise Contrastiva de Interlíngua, que consiste na comparação eletrônica das produções de alunos com produções de falantes nativos e, consequentemente, na análise das suas diferenças e semelhanças. As questões de pesquisa propostas foram as seguintes: (1) Quais são as características gerais das produções escritas do aluno brasileiro em inglês? (2) Quais dessas características podem gerar problemas de compreensão na interação? Os corpora empregados na pesquisa foram um corpus de estudo compilado por nós, ao qual chamamos de COBRA-7 (Corpus Brasileiro de Aprendizes de Inglês como Língua Estrangeira – Seven Idiomas) com 81835 itens – compilado a partir da coleta de 425 redações produzidas por aprendizes nos níveis pré-intermediário, intermediário e intermediário superior – e dois corpora de referência, o BNC (British National Corpus), da variedade britânica, e o COCA (Contemporary Corpus of American English), da variedade americana, que contém, respectivamente, 100 e mais de 400 milhões de palavras. Para a análise utilizamos os aplicativos Wordlist, Keywords e Concord, do software Wordsmith Tools, versão 5.0.0.247. Os resultados de um estudo piloto do COBRA-7 apontaram para a presença de marcas de oralidade, mas não detectaram a presença de fatores que dificultam a compreensão das composições. Diante destas respostas, concluiu-se, primeiramente, que, embora este seja um estudo piloto realizado com aproximadamente 50% do corpus que pretendemos compilar, parece haver a necessidade do ensino formal dos traços linguísticos pertinentes às variedades oral e escrita da língua inglesa, uma vez que cada uma delas possui características específicas e graus diferentes de formalidade.

  12. Ensino e produção de material de inglês instrumental para a área de Tecnologia Ambiental com base na Linguística de Corpus Vitor Ricardo Duarte UNISC-RS

    O objetivo desta comunicaçao é apresentar uma pesquisa em andamento, nível de Mestrado, que visa a a produção de material didático e de propostas para o ensino de inglês instrumental para área de Tecnologia Ambiental. Este estudo contempla duas etapas: a primeira etapa constitui-se dos procedimentos envolvidos para a produção de um pequeno corpus e sua análise linguística; a segunda, a elaboração do material didático a partir dos dados coletados, considerando, conjuntamente, referências da Linguística de Corpus (LC) e Linguística Cognitiva. Segundo dados apontados por Wray & Perkins (2000), as sequências formulaicas na comunicação podem constituir até 70% de uma língua. ERMANN & WARREN (2000) demonstram que a frequência dos elementos pré-fabricados na produção escrita é em torno de 55%. Esses dados “dão forte sustentação ao idiom principle como formulado por Sinclair e revelam que a proporção de pré-fabricados na língua, de forma geral, tem sido subestimada”(ERMAN & WARREN, 2000, p. 50). Acreditamos poder haver uma relação entre o índice de frequência de um termo, o conhecimento das fórmulas linguísticas mais utilizadas num determinado nicho cultural, a utilização de material autêntico e o aprendizado de uma língua. A combinatória dessas variáveis, parece-nos, pode contribuir para o aprendizado da segunda língua e parece ser pertinente articularmos o estudo e uso das fórmulas linguísticas nesse âmbito. A produção de um small corpus é o primeiro estágio desta pesquisa. Objetiva-se mapear e descrever o vocabulário e padrões linguísticos/formulaicos mais recorrentes, analisando sua frequência no corpus. Este estágio da pesquisa norteia-se pelas seguintes perguntas: 1)Quais são as palavras-chaves do corpus formado e quais termos técnicos e expressões específicos da área Tecnologia Ambiental mais frequentes? 2) Quais são as colocações/coligações, padrões léxico-gramaticais e vocabulário mais recorrentes e sua frequência? 3) Qual a proporção e quantidade de grupos lexicais no corpus elaborado? O desenho de atividades e tarefas pedagógicas, segunda etapa, será realizado a partir do estudo linguístico dos textos do small corpus compilado. Revisaremos propostas de ensino realizadas que utilizem a LC como referencial, tais como o Data Driven Learning, Lexical Approach, Lexical Syllabus. Busca-se o entrecruzamento de informações advindas de pesquisas do campo da Linguística Cognitiva sobre o aprendizado de uma segunda língua ( relevância da frequência da exposição à língua, importância da qualidade do input, processamento mental do léxico) que corroboram dados apontados pela LC, para a elaboração de tarefas. Nesse estágio, estas perguntas são colocadas: 1)Como explorar didaticamente os padrões lexicais mais frequentes nas atividades propostas em consonância com fundamentos da Linguística Cognitiva? 2) Quais estratégias poderiam ser desenvolvidas para o ensino do vocabulário técnico/especializado? 3) Como utilizar e explorar os recursos tecnológicos associados à LC para oportunizar aos aprendizes maior probabilidade de exposição à língua(input)? Objetiva-se alcançar os seguintes resultados até a conclusão desta pesquisa em março 2011: 1)Conclusão e disponibilização do small corpus; 2) Conclusão e apresentação do levantamento linguístico e 3) Elaboração de duas (ou mais) tarefas e atividades pedagógicas a serem utilizadas ao longo de um curso de Inglês Instrumental.

  13. Corpus BELC Aline Pacheco PUC-RS/ UFRGS

    Este trabalho aborda a aquisição de morfemas em inglês como L2 por aprendizes falantes de português brasileiro como L1 através do BELC – Brazilian English Learner Corpus – um corpus de aprendiz elaborado primordialmente para os fins deste estudo. A pesquisa constitui uma tese de doutorado pela Universidade Federal do Rio Grande do Sul e está em fase final. Nos anos 70 e 80, observamos o desenvolvimento de estudos que propunham uma ordem na aquisição de morfemas em inglês. O estudo de Brown (1973) é uma referência em estudos sobre a aquisição de inglês, tanto na condição de L1 como na condição de L2. Brown observou um padrão evolutivo com relação a estruturas morfêmicas. Krashen (1977) também observou um padrão semelhante em inglês como L2, mostrando a seguinte ordem na aquisição de morfemas: 1.Present Progressive, Plural, Copula; 2. Auxiliary, Article; 3. Irregular Past; 4. Regular Past, Third person singular, Possessive. Com o objetivo de verificar o comportamento dos aprendizes brasileiros de inglês como L2, propomos a investigação dos estágios evolutivos de aquisição de morfemas através do BELC, um corpus elaborado a partir da coleta de textos escritos, sobre três temas bastante amplos, produzidos espontaneamente por aprendizes de inglês de 8 níveis. O corpus foi coletado a partir de 424 sujeitos que produziram 902 textos e totalizaram aproximadamente 103 mil palavras. A metodologia da pesquisa foi totalmente baseada em princípios da linguística de corpus (cf. Berber Sardinha, 2004) especialmente aplicados a corpora de aprendizes (cf. Granger, 2002). O corpus foi devidamente etiquetado para a análise desta pesquisa e os resultados obtidos apontaram para a seguinte sequência: 1. Copula, Plural; 2. Article, Possessive; 3. Present Progressive, Auxiliary, Irregular Past; 4. Regular Past, Third person singular. Os resultados preliminares apontam para algumas semelhanças e diferenças entre estes estágios. O trabalho tenta ainda propor algumas razões para tais semelhanças e diferenças a partir dos trabalhos de Zobl e Liceras (1994) - que oferecem uma explicação de natureza sintática para tal ordem, e Goldschneider & Dekeyser (2005), que sugerem uma explicação de natureza multifatorial para uma possível sequência natural na aquisição de morfemas baseada em aspectos de saliência.

  14. Base de dados morfológicos de terminologias do português do Brasil: descrição e análise morfológica com vistas à disponibilização online Joel Sossai Coleti UFSCar

    As pesquisas nas áreas de Lingüística e Letras são extremamente ricas, constantes e eficientes no Brasil, entretanto, ainda são pouco expressivas no cenário brasileiro as pesquisas envolvendo questões morfológicas em Terminologia, sobretudo quando se considera o aspecto de disponibilização on-line dos resultados obtidos. Diante dessa realidade, esta pesquisa pretende descrever a estrutura de dois repertórios terminológicos (Nanociência/Nanotecnologia e Biocombustíveis) no nível da estrutura interna dos seus termos constitutivos, verificando-se os principais processos de construção dos termos (tipos de derivação presentes, tipos de composição – morfológica, morfossintática, lexicalização de sintagmas, etc.). A partir dessa descrição morfológica, pretende-se organizar uma base de dados de maneira que seja possível a implementação computacional e a disponibilização on-line dos dados obtidos. O modelo a ser usado para a análise morfológica será o modelo SILEX, criado por Danielle Corbin (1987, 1991, 1997, 2004), desenvolvido pela sua equipe de trabalho e que já conhece aplicações profícuas para análise do português. Esta pesquisa visa, portanto, preencher uma lacuna, na medida em que serão analisados e descritos os processos morfológicos possíveis no âmbito de terminologias em português (variante brasileira). Espera-se, pois, ao final da pesquisa, ter sido efetuada a descrição morfológica e a classificação dos constituintes analisados numa base de dados, possibilitando a posterior disponibilização on-line.

  15. Diário Gaúcho: palavras, construções recorrentes e contextos de uso Bruna Rodrigues da Silva UFRGS (graduação)

    Textos jornalísticos têm sido utilizados para estudos de vocabulário do português do Brasil escrito (PB), sobretudo o jornal Folha de São Paulo. Entretanto, o uso de jornais populares brasileiros não é muito comum. Pensando em diminuir essa lacuna de conhecimentos, este trabalho descreve elementos do vocabulário tomando como fonte o jornal popular porto-alegrense Diário Gaúcho (DG). Seu número de leitores supera o de jornais da mesma cidade dirigidos a públicos mais tradicionais em todo estado, o que se aplica, por exemplo, ao jornal Zero Hora, produzido pela mesma empresa. O corpus organizado compreende amostra com edições completas do jornal publicadas ao longo de 05 meses do ano de 2008. Cada mês inclui 10 dias de edição, selecionados de modo a alternar dias da semana. Esse corpus tem 825151 tokens (quantidade de palavras) e 69353 types (diferentes formas como cada palavra se repete). Desse material foram identificadas palavras e construções mais freqüentes com apoio das ferramentas geradoras de lista de palavras e gerador de n-gramas oferecidas no site do Projeto TEXTQUIM. A primeira etapa, no início da pesquisa, consistiu na organização do corpus com o apoio de softwares. Observamos as palavras mais freqüentes, mês a mês. Quando pronta, a lista de freqüências nos trouxe informações sobre tokens e types. Fizemos a comparação com dados de padrões de vocabulário colhidos do Banco do Português, corpus de linguagem geral do Brasil que possui mais de 120 milhões de palavras (tomando como base o ano 2000), mantido pela PUC-SP. Fizemos também observações e contrastes com padrões de vocabulário do jornal Zero Hora (ZH). Pelo que pudemos observar, no que tange à configuração gramatical das listas de palavras mais freqüentes do DG na amostra do primeiro trimestre de 2008, não há diferença significativa em relação ao jornal ZH ou ao Banco de Português. Atualmente, nessa nova etapa da pesquisa, serão examinadas as combinações de palavras mais freqüentes em amostras de texto dos primeiros cinco meses do corpus de 2008 e os contextos em que essas aparecem, com o intuito de verificar se tais combinações são mais freqüentes por se tratar de um jornal popular ou se são freqüentes também em outros corpora. Para tanto, os dados obtidos serão contrastados com dados do jornal Zero Hora, gerados pela pesquisa PorSimples do NILC-SP-USP. A partir dos resultados, concluiremos se as construções são mais recorrentes por causa do público a que se destina ou por causa da forma mais simplificada de escrita, por exemplo, ou se a feição do vocabulário do jornal popular não difere muito em relação à do jornal tomado como contraste, como observamos nos dados analisados no início da pesquisa. Além disso, para além do aspecto de descrição vocabular, utilizar o jornal DG como fonte de estudo pode ser de grande utilidade para reflexão sobre a linguagem escrita e o ensino, já que suas contínuas grandes tiragens e a grande adesão do seu público a quaisquer eventos promovidos pelo jornal demonstram, em tese, metodologia bem-sucedida de diálogo com o seu leitor.

  16. Ecuadorian English Learner Corpus Anna M. Gates e Nick Izquerdo Universidad Tecnica Particular de Loja

    Although while several English learner corpora have been built and analyzed in the past two decades, no publically or academically available learner corpora have been built for Ecuadorian learners of English. Commercial corpora developed by the large publishing houses such as Pearson Education and Cambridge University Press represent Ecuadorian learners with a mere 117,100 words (personal correspondence). Considering that learner corpora are important tools for modern linguistic analysis and for the understanding of interlanguage and learner errors (Gilquin, G., Granger, S., & Paquot, M.,2007); and are often used to influence the development of learning materials, this conspicuous lack of the representation has been cause for concern. In an effort to fill this void and to stimulate linguistic investigative activity in Ecuador, the authors have embarked on the development of a 250,000 word learner corpus of Ecuadorian written English (EELC). The EELC was designed with two objectives in mind: 1) the creation of a corpus comparable with the Spanish subcorpora of the International Corpus of Learner English (ICLE), and 2) the creation a corpus that would be representative of the distinct geographical regions of Ecuador. Participants were selected from a national database of proficient to advanced English learners, which included individuals from diverse geographical regions throughout Ecuador. This database was comprised of university students in their final year of study, English major alumni, current practicing English teachers, and people who had expressed interest in joining a Master degree program in teaching English as a foreign language. Language proficiency was determined through the use of demographic information; specifically, duration and quality of English language exposure. The writing samples collected were produced from an argumentative essay prompt. Data collection began in June 2010. Candidates have been sent an online survey (Lime Survey) requesting demographic information and also requesting they write an argumentative essay of between 700 and 1000 words. To improve response rates, candidates have been offered an incentive for their participation. This method was chosen to minimize data collection costs and to reach a wide geographical range within Ecuador. The software to be used in the analysis of the EELC is AntConc 3.2.1 (AC 3.2.1), a corpus analysis toolkit developed by Laurence Anthony. AC 3.2.1 was chosen since it provides a "powerful concordancer, word and keyword frequency generators, tools for cluster and lexical bundle analysis, and a word distribution plot," and support for regular expressions (Anthony, 2006; Wiechmann & Fuhs, 2006). In terms of functionality and usability, AC 3.2.1 is an attractive alternative to commercial software packages. The authors have chosen CLAWS4, the general-purpose grammatical tagger developed by UCREL at Lancaster University, for the POS-tagging of the EELC. The reasons for choosing CLAWS4 over any of the other available POS-taggers are a) its high rate of accuracy, b) its robustness, and c) the advantage of making comparative analysis with other corpora that have also been tagged with CLAWS4.

  17. Recuperação semiautomática de contextos definitórios em corpus com vistas à colaboração da redação da definição terminológica:proposta de sistematização linguística Dayse Simon Landim Kamikawachi UFSCar (PG)

    A confecção de corpus no trabalho terminográfico tem como finalidade a observação e extração de candidatos a termos, assim como, posteriormente, serve como fonte de informações relevantes sobre os termos, que pode auxiliar na etapa da redação da definição terminológica. Tais informações ocorrem frequentemente em contextos definitórios, já que é necessário definir técnicas, produtos, processos, substâncias, ou seja, conceitos da área-objeto, de forma a transmiti-los ao leitor. A partir da premissa de que os contextos definitórios apresentam determinados padrões léxico-sintáticos, é proposta, como tema de doutorado, a investigação de padrões concernentes a eles em corpora de especialidades de língua portuguesa do Brasil a fim de proporcionar conhecimento linguístico para a construção de uma ferramenta de extração semiautomática de candidatos a contextos definitórios no ambiente e-Termos. Para a realização das análises, serão adotados os seguintes passos: i) análise manual de contextos definitórios em corpora de especialidade disponíveis em língua portuguesa e em bases definicionais oriundas do Grupo de Estudo e Pesquisa em Terminologia (GETerm); ii) proposta de um conjunto de regras e tipologia referentes aos tipos de contextos definitórios de acordo com a análise manual realizada, assim como lançaremos mão da descrição linguística realizada, em pesquisa de mestrado, acerca das relações semânticas (télico, agentivo, constitutivo, exemplo e etc.) presentes nas definições terminológicas, pois a partir do rol das expressões linguísticas que expressam essas relações, acreditamos ser possível detectar contextos definitórios também, além do que já foi investigado em estudos similares a este em outras línguas (sobretudo para o francês e espanhol); iii) utilização de dois corpora de estudo para a avaliação e adequação das regras geradas na etapa anterior. De modo a manipular o corpus será utilizado o UNITEX, sobretudo porque o programa: i) apresenta etiqueta morfológica referente aos itens lexicais, possibilitando a busca por categorias gramaticais; ii) possui busca por grafo, o que permite elaborar expressões de busca mais complexas. Como resultado, espera-se obter conhecimento lingüístico de modo a integrar um extrator semiautomático de candidatos a contextos definitórios a fim de auxiliar os terminólogos na redação da definição.

  18. Tradução automática:um reconhecedor, analisador e gerador de expressões nominais do inglês para o português Tiago Martins da Cunha UFC

    O
 compartilhamento
 de
 conhecimento
 entre
 estudos
 de
 lingüística
 de
 corpus linguística computacional
tem
ganhado
cada
vez
mais
importância
no
âmbito
dos estudos
da
lingüística
aplicada. Dentro desta perspectiva, muito desse compartilhamento contribuiu para avanços nos estudos tradutórios, especialmente quanto à tradução automática. A tradução automática perdeu muito de sua credibilidade junto ao meio acadêmico devido uma longa sequência de maus resultados. Grande parte dos maus resultados é gerada por problemas de análise, reconhecimento e adequação da tradução oferecida pelos sistemas de tradução automática. Este trabalho visa apresentar parte de um estudo de doutorado que desenvolverá uma ferramenta de tradução automática de expressões nominais do inglês para o português, tentando solucionar alguns dos problemas que os tradutores automáticos disponíveis no mercado não conseguem resolver. As expressões nominais que serão expostas e discutidas nesse trabalho são aquelas que contêm o caso genitivo agregado a outros elementos de posse. A lista de expressões foi analisada no corpus Brown por meio do módulo NLTK (Natural Language Tool Kit) da linguagem de programação Python. O NLTK é um módulo desenvolvido para os estudos de processamento natural da linguagem e está gratuitamente disponível ao acesso de estudiosos, entusiastas e desenvolvedores. Neste trabalho visamos apresentar de forma didática, alguns comandos imprescindíveis para a análise de corpus pelo NLTK. Fazendo uso do corpus Brown, já disponível na biblioteca do NLTK, foi realizada uma busca pelas expressões que contivessem as estruturas desejadas. Foi analisada o contexto de realização dessas expressões. A estrutura de expressões nominais como John’s building a spaceship, proposta por Abney (1987, p.13), que motivaram este estudo, foram encontradas com freqüência considerável em textos acadêmicos segundo o corpus Brown. Assim como estruturas que contivessem dois elementos de posse na mesma expressão e.g. John’s picture of Chomsky. Tais estruturas não possibilitam bons resultados pelos tradutores automáticos disponibilizados no mercado, mesmo apresentando de uma considerável freqüência em textos acadêmicos. Para a análise dessas estruturas no corpus, foi realizada a etiquetagem do corpus, que uma vez anotado, passou por regras de extração para filtrar as estruturas desejadas nas expressões nominais. Este estudo, em desenvolvimento, fazendo uso de um método de transfer para a tradução automática (ARNOLD, 1994) visa solucionar os problemas encontrados nas estruturas dessas expressões nominais encontradas. Toda metodologia assim como os códigos do NLTK utilizados para a realização das buscas e análises dessas expressões e o processo de funcionamento da tradução automática fazendo uso de método de transfer serão devidamente explicados na apresentação deste trabalho.

  19. Bases teórico metodológicas para um dicionário monolíngue de português brasileiro para aprendizes estrangeiros Kleber Valenti Schenk UFRGS

    A proposta deste trabalho é estabelecer as bases teórico-metodológicas para um dicionário monolíngue de português brasileiro para aprendizes estrangeiros, material didático ainda inexistente. Partimos da revisão da literatura sobre “dicionários para aprendizes”, que devem ter definições, exemplos de uso e explicações linguísticas simples para facilitar e possibilitar um bom uso por parte do aprendiz através de uma apresentação bem clara. Suas palavras-entrada devem ser escolhidas mediante o critério de frequência através de levantamentos estatísticos em grandes corpora muito diversificados, úteis também para a escolha do vocabulário das paráfrases definitórias e para a seleção dos exemplos de uso. Seria pertinente o estudo de corpora de textos jornalísticos, preponderantes em corpora linguísticos, em meio a outros corpora, e o segmento “jornalismo popular” também pode contribuir, pois a imprensa popular se aproxima do público alvo através de uma linguagem direta que trata dos aspectos locais e imediatos usando textos curtos com vocabulário simples, elementos que auxiliariam no esboço dos planos macro e microestruturias de um dicionário de fácil acesso para estrangeiros. Para sua construção é pertinente analisar: a estrutura dos cursos oferecidos pelo Programa de Português para Estrangeiros da UFRGS; dicionários de inglês e espanhol para aprendizes estrangeiros; livros didáticos de português voltados para aprendizes estrangeiros e os critérios para certificação de proficiência em português como língua estrangeira no Brasil (Exame Celpe-Bras). Devem fazer parte do dicionário: descrição gramatical básica sobre o português do Brasil voltado para aprendizes de português como língua estrangeira com textos simplificados de apoio; guia de utilização para professores e alunos; reprodução da pronúncia; exemplos de uso de palavras e expressões em diferentes situações e construções; sugestões de exercícios e de atividades individuais e em grupos de alunos. Através do projeto Ensino de português como língua estrangeira: bases para um dicionário on-line para suporte de atividades em EAD, já em construção no site da UFRGS, será elaborado um espaço para se fazer testes com usuários e para postagem de depoimentos de aprendizes sobre o uso e o sentido da palavra em foco em cada verbete, o que auxiliará na definição do perfil de usuário.

  20. Etiquetagem morfossintática de um corpus do português do nordeste para extração automática de entradas lexicais Andréa Feitosa dos Santos e Raimundo Cleodimar de Oliveira Júnior UFC

    Essa pesquisa reflete algumas das atividades que desenvolveremos ao longo de um estudo de doutorado. Somos norteados por pelo menos três áreas de atuação e aplicação linguística, a teoria gramatical, a linguística de corpus e a linguística computacional. Do ponto de vista da teoria gramatical e da linguística de corpus, nós discutimos certos fenômenos sintáticos e semânticos do português brasileiro à luz de teorias linguísticas de cunho formal e por isso consideramos de grande importância basear em corpus os nossos estudos, visto que evidências linguísticas obtidas de corpora estão diretamente ligadas a um trabalho de análise e descrição linguística e podem ajudar o pesquisador a produzir novas informações, teóricas ou aplicadas sobre a língua em estudo (OLIVEIRA, 2009). Conforme Domingues, Favero e Medeiros (2008, p. 269), do ponto de vista da linguística computacional, ‘a etiquetagem morfossintática é uma tarefa básica e importante [...] na anotação de corpus, extração e recuperação de informações’. Para alcançar um dos nossos objetivos, a construção de um analisador sintático-semântico computacional, partimos da constatação de que podemos construir as entradas lexicais da nossa gramática através da extração automática dos itens lexicais com suas respectivas propriedades sintáticas de corpora anotados, que, de acordo com McEnery (2004), possuem a vantagem de ser multifuncionais e fáceis de explorar. A inserção de informação referente a cada unidade de grandes quantidades de texto pode ser feita de forma mais rápida, por isso o uso dos etiquetadores automáticos (SARDINHA, 2004). Segundo Bird, Klein e Loper (2009), é possível construir um etiquetador automático com base nos mecanismos linguísticos e computacionais disponíveis no NLTK. Os objetivos do nosso trabalho são: i. compilar e etiquetar morfologicamente um corpus que chamamos de Corpus Patativa; ii. construir uma ferramenta para a extração de entradas lexicais de um corpus para a sua inserção em um analisador sintático-semântico automático; iii. aplicar o etiquetador e a extração automática em textos do Patativa do Assaré em linguagem padrão, e em seguida fazer correções manuais das anotações; iv. colaborar para a elaboração de um corpus representativo do português do Nordeste, pois há essa lacuna em relação ao material disponível para o processamento do português. Sendo assim, além de discutirmos assuntos relevantes para o nosso estudo de doutorado, nós também esperamos contribuir para a constituição de um corpus representativo do Nordeste brasileiro. Pretendemos colaborar com a documentação de registros linguísticos dessa região em corpora distribuídos em centros para processamento computacional do português, como o NLTK, onde há poucos corpora do português e para o qual pretendemos disponibilizar os corpora anotados e compartilhar a ferramenta de extração de entradas lexicais como módulo da sua biblioteca de programas, desenvolvida na linguagem Python. Por fim, acrescentamos que Patativa do Assaré foi poeta e escritor do interior do Ceará. Seu trabalho se distingue pela marcante característica da oralidade, pela dimensão estética e política e pelas vertentes social/militante, telúrica, religiosa, filosófica, lírica, humorística/irônica, motes/glosas, entre outras*. *PATATIVA DO ASSARÉ. In: WIKIPÉDIA, a enciclopédia livre. Flórida: Wikimedia Foundation, 2010. Disponível em: . Acesso em: 9 jul. 2010.

  21. Questões para a tradução facilitada da obra de Edgard Allan Poe à luz da Linguística de Corpus Bianca Franco Pasqualini UFRGS (PPG)

    CONTEXTUALIZAÇÃO Esta pesquisa visa reconhecer e descrever padrões de vocabulário na obra de Edgar Allan Poe – considerando apenas a sua produção no gênero conto – a fim de levantar dados teóricos e metodológicos que deem suporte a traduções e facilitações do texto desse autor para neoleitores. REVISÃO DE LITERATURA A pesquisa aqui proposta partirá de um conjunto de referenciais de base. Essas referências envolvem as seguintes áreas: estudos de tradução, lexicologia, estudos literários (sobretudo crítica literária), estudos do texto e do discurso e, por fim, linguística de corpus. OBJETIVOS O objetivo mais abrangente desta pesquisa é estabelecer uma fundamentação empírica e teórica para guiar a tradução e a facilitação de obras consagradas da literatura universal (tendo como ponto de partida a obra de Edgar Allan Poe), destinando-se tais produções a comunidades interpretativas inexperientes nesse gênero de texto. Entende-se aqui que um texto não contém em si significados preexistentes à leitura e que o ato da leitura é tanto produção de sentidos (e não do sentido) quanto atividade interpretativa. Assim, pode-se considerar a prática da tradução uma atividade essencialmente criativa. Em outras palavras, a tradução pode ser entendida como a atividade interpretativa de um leitor-tradutor a fim de produzir significados aceitáveis para uma comunidade leitora determinada. Nessa perspectiva, o texto na língua de chegada passa a ter a importância e receber a atenção normalmente dispensada ao texto-fonte, que tradicionalmente é tido como um texto fechado e com significados a serem “extraídos” pelos leitores. Essa postura estabelece que há um significado hegemônico desvinculado de uma prática livre de leitura aberta a múltiplas significações. Logo, a partir dessa concepção de tradução, é fundamental para o tradutor determinar tanto o perfil linguístico do texto-fonte quanto o perfil do leitor a quem tais textos se destinam a fim de que suas escolhas tradutórias sejam adequadas e aceitas por esses leitores. METODOLOGIA Será selecionado um corpus composto somente pela produção literária em prosa do autor, deixando de lado poesia e crítica. Dois corpora adicionais serão usados: um coletado do inglês norte-americano vigente na época em que Poe escreveu sua obra e outro do inglês norte-americano contemporâneo. A partir da coleta dos corpora mencionados, serão usadas ferramentas como o programa AntConc (concordanciador) para extração de estatísticas de frequência lexical. Das observações desses dados, novos passos metodológicos serão estabelecidos, como a necessidade de lematização do corpus de Poe, por exemplo. Um dos pontos importantes é determinar o que é particular e específico de Poe e diferenciar daquilo que é, por contraste, particular e específico em relação ao vocabulário da sua época. Para tanto, ferramentas como o Coh-Metrix e o Coh-Metrix-Port serão úteis, uma vez que estimam a complexidade textual e fornecem dados comparativos entre os textos de partida e de chegada. A fim de testar tais ferramentas, alguns contos traduzidos para o português brasileiro foram selecionados para servir de eixo comparativo com os textos de partida. Em uma segunda fase do trabalho, será estudado um perfil de vocabulário do português escrito que possa ser compatível com as experiências de leitura e de expressão do público neoleitor. Será estudada, com ênfase, a linguagem do jornalismo cotidiano de grandes centros urbanos, com algum destaque para o chamado jornalismo popular. Nesse segmento de fontes especialmente dirigidas para leitores de perfil de escolaridade e poder aquisitivo baixos, será aproveitado o corpus coletado do jornal Diário Gaúcho, da pesquisa em andamento intitulada “Padrões do Português Popular Escrito: PorPopular”. Uma vez que o público-alvo desse jornal é bastante semelhante ao neoleitor, esse corpus poderá ser tomado como uma boa fonte de dados para o estudo aqui proposto. RESULTADOS Até o momento, apenas resultados preliminares foram obtidos. O mais importante deles é a confirmação, por meio do uso da ferramenta Coh-Metrix, da maior complexidade das traduções disponíveis em português brasileiro da obra de Edgar Allan Poe. CONCLUSÕES Com essas informações em mãos, será possível proceder, ao final do trabalho de pesquisa, a uma tradução experimental de um dos contos de Poe para verificar a validade e o alcance do método proposto.

  22. O papel do feedback corretivo na aquisição da escrita Fernanda Knecht PUC-RS (PG)

    A dissertação de mestrado em questão tem o objetivo de investigar o papel do feedback corretivo em textos escritos em inglês como segunda língua (L2) por alunos da graduação em Letras. Pretende-se trabalhar com leitura de textos narrativos e argumentativos, e posteriormente, com a escritura de textos destes mesmos tipos com um grupo de alunos. Deste grupo, metade, além de escrever seus próprios textos, corrigirá os textos de um colega. A outra metade de alunos não corrigirá nenhum texto, apenas escreverá os seus. Além disso, todos os alunos terão seus textos corrigidos por um professor. O grupo que receber dois feedbacks (do colega e do professor) terá que trabalhar com as duas correções para reescrever seus textos, enquanto que o outro grupo reescreverá os textos apenas com base no feedback do professor. Pretende-se verificar se o aluno, ao analisar e corrigir o texto do colega, apresenta crescimento na escrita de seus próprios textos. Os alunos produzirão, no mínimo, quatro textos diferentes (no total oito por aluno, contando as reescritas de cada um), para que este seja o corpus a ser analisado. A pesquisa visa a verificar se os resultados obtidos vão ao encontro de estudos recentes (LUNDSTROM e BAKER, 2009; ZHAO, 2010), que envolvem diferentes tipos de feedback a textos escritos, e que evidenciam que o fato de o aluno fornecer feedback ao texto do colega propicia àquele melhora na escrita de seus próprios textos.

  23. Kicktionary Br - Reflexões preliminares acerca da construção de um corpus para anotação semântica João Gabriel Padilha UNISINOS (IC)

    Este trabalho é parte de um projeto mais amplo intitulado Framecorp, cujo interesse é a anotação semântica de corpora a partir da Semântica de frames (Fillmore et al., 2008). O objetivo deste estudo é apresentar uma nova etapa prevista na agenda do projeto Framecorp, a qual se ocupa da investigação da temática do futebol a partir das contribuições de Schmidt (2009) presentes no site Kicktionary, uma ferramenta lexical multilíngue que abrange Inglês, Francês e Alemão. Como desdobramento desse objetivo, este trabalho objetiva descrever o processo de compilação do corpus de estudo que será utilizado na descrição semântica do léxico do futebol em Português brasileiro – passo inicial para a construção da plataforma Kicktionary Br. Vale ressaltar que os textos devem conter frames relacionados ao léxico do esporte e não simplesmente estarem relacionados ao tema, uma vez que notícias institucionais dos clubes, embora versem sobre esporte, não trazem aquilo que concerne ao projeto: itens lexicais ligados estritamente às cenas do jogo. A justificativa para este estudo considera o fato de que o corpus empregado durante a primeira fase do projeto Framecorp já havia sido compilado anteriormente no contexto interinstitucional do projeto PLN-BR e adequado às exigências técnicas requeridas pela ferramenta de anotação SALTO (Burchardt et al., 2003), como o formato XML Tiger. A segunda fase do projeto Framecorp prevê, primeiramente, a construção de um corpus comparável próprio semelhante aos corpora empregados pelo projeto Kicktionary, que inspirou este subprojeto. Assim como no trabalho de Schmidt, o corpus piloto da pesquisa conta com notícias sobre resultados de partidas extraídas de sites de clubes de futebol, porém em português brasileiro, totalizando 76.463 palavras, com o intuito de evidenciar as peculiaridades semânticas do idioma no que tange ao tema proposto. Para orientar o processo de construção do corpus, este estudo fundamenta-se nos conceitos postulados por Berber Sardinha (2004) e que, de acordo com ele, devem ser levados em consideração quando se propõe tal empreitada – representatividade, autenticidade e escolha criteriosa. Quanto à tipologia do corpus piloto, ela pode ser caracterizada, como quer esse teórico, pelos seguintes atributos: falado e escrito, contemporâneo, dinâmico, especializado, produzido por falantes nativos e com a finalidade de estudar um domínio linguístico específico. Em tom complementar, aparecem neste estudo alguns procedimentos apontados por Wynne (2004) subsequentes à fase inicial de construção do corpus, referentes a questões como armazenamento, distribuição e preservação dos textos. Para o teórico, isso é importante para garantir que, no futuro, o corpus possa ser utilizável por um um vasto número de potenciais usuários. Como conclusão preliminar dessa primeira experiência de construção de corpus, é possível citar a necessidade de expandir seu tamanho (o que caracteriza um corpus dinâmico, também referido como “aberto”, em fase de construção) a fim de atingir 250.000 palavras, o que, segundo Berber Sardinha, corresponde a um corpus de tamanho médio.

  24. Helpers: um projeto de ensino de ESL na universidade Danilo Suzuki Murakami USP (PG)

    O Projeto Helpers foi concebido pela Professora Cristina Arcuri Eluf Kindermann (atualmente doutoranda pela Universidade de São Paulo – USP) no âmbito da Universidade Paulista (UNIP). Trata-se de um curso de língua inglesa, paralelo às aulas curriculares, que é oferecido aos alunos de diversos cursos. Seu objetivo é aperfeiçoar o domínio de língua inglesa dos alunos, especialmente por meio do contato com formas de aprendizado que envolvam novas tecnologias, particularmente as contribuições da Linguística de Corpus. No ano de 2010, este projeto foi levado para o curso de Letras da Universidade de São Paulo (USP) e está em fase de implementação. Em tal universidade, após um ano de matérias introdutórias, os alunos de graduação têm de optar por uma habilitação em uma língua estrangeira ou em linguística, além da habilitação em português. A habilitação em inglês é a única cujas disciplinas são ministradas em inglês desde o início, o que exige que os alunos tenham um conhecimento razoável da língua para cursarem as aulas. No entanto, muitos alunos não acompanham as aulas e migram para outras habilitações, enquanto outros continuam no curso sem ter uma compreensão plena durante as aulas. Vemos, então, uma disparidade entre os níveis de domínio da língua, fato que tem sido motivo de discussão entre docentes e alunos. Nosso trabalho de iniciação científica tem como objetivo acompanhar o desenvolvimento do projeto e compilar seus resultados, tendo em vista a inserção das aplicações da Linguística de Corpus ao ensino de língua estrangeira na tentativa de amenizar o problema acima descrito. Os ganhos ocorrem em uma via de mão dupla, pois as aulas são ministradas por alunos da graduação que já possuem um maior conhecimento da língua (alunos-formadores). Ao mesmo tempo em que alunos menos preparados têm a oportunidade de alcançar um nível adequado para acompanharem as aulas, os alunos-formadores também aprimoram seu conhecimento e sua experiência pedagógica. Após a divulgação do projeto, foram entrevistados catorze candidatos a alunos-formadores, que foram convocados para um workshop de introdução à Linguística de Corpus e preparação para as aulas. Em seguida, os candidatos mais aptos serão selecionados para atuarem como alunos-formadores. Serão dois tipos de cursos: Language Practice, que focará a gramática, e Writing Practice, centrado em domínios de escrita. Cada módulo-piloto terá dez aulas semanais de 45 minutos cada, com previsão de início em agosto de 2010. A produção escrita dos alunos será compilada em um corpus de aprendizes, cuja análise servirá para identificar as necessidades deste público, assim como para definir o conteúdo programático do curso, o qual poderá ser alterado segundo demanda dos alunos. Os exercícios privilegiarão dados reais, retirados de linhas de concordância de corpora online,os quais também serão apresentados aos alunos. Esperamos obter êxito com este projeto, dada sua realização satisfatória em outra instituição. Esperamos também que a Linguística de Corpus seja divulgada em nível de graduação para que suas aplicações sejam conhecidas por aqueles interessados em áreas com a quais a Linguística de Corpus lida.

  25. Interface pedagógica = linguística de corpus + multiletramentos Cristina Arcuri Eluf USP (PG)

    Nova Interface Pedagógica – pesquisa ação – desenvolvida pela interseção da Linguística de Corpus e dos Multiletramentos. Prática pedagógica realizada em sala de aula viabilizada pelo momento contemporâneo, da globalização, e pelo momento atual da inserção das Tecnologias de Informação e Comunicação as TICs - tanto na sociedade quanto na educação formal. A prática relaciona linhas pedagógicas que não estão incluídas na grade curricular na formação do graduando de Letras. A Interface Pedagógica, num primeiro momento, está sendo utilizada como alternativa à produção e construção do conhecimento na formação do professor de Língua Inglesa (LI). Sua aplicação visa a promoção de autonomia ao aprendiz no processo de aprendizagem e a independência ao aluno futuro professor na sua trajetória profissional. A pesquisa analisa, ao mesmo tempo, dois momentos de aquisição de autonomia/independência no processo de aprendizagem de LI. O 1º momento observado ocorre na formação do professor durante o percurso de 50 alunos da graduação de Letras desde o ano de 2007 na Universidade Paulista de São Paulo. Resultados: · Compilação de Corpus de aprendizes com 568 redações (47.645 palavras) hospedados na Plataforma COMET (FFLCH-USP) [Textos coletados nas disciplinas: LI:AD; LI:GA; LI:SL; MS: LI, ministradas pela Profª Ms. Cristina]; · Definições a respeito do perfil do aprendiz; · Identificação de problemas de aprendizado de LI; · Data-driven learning- produção de exercícios de LI a partir de linhas de concordância do corpus; · Acompanhamento diacrônico [desde 2007] de um grupo de alunos universitários; · Inserção das TICs na formação de professores de Língua Inglesa. O 2º momento analisado de aquisição de autonomia compreende observações feitas no momento da aplicação, pelos alunos graduandos, das práticas realizadas em sala. Esta etapa envolve a criação do “Programa de Prática Situada” que acontece numa Escola Municipal de Ensino Fundamental (EMEF) da rede Pública de São Paulo. Prática desenvolvida por esta pesquisa, supervisionada pela Professora Ms. Cristina Arcuri, aplicada por 3 alunas da universidade UNIP-SP. Esta pesquisa comporta alunos da 5ª, 6ª, 7ª e 8ª séries do Ensino Fundamental II da escola. As atividades executadas na EMEF - inserção de ações simultâneas de Inglês e Informática - incluem a aplicação da Nova Interface Pedagógica: uso da Linguística de Corpus e dos multiletramentos na composição das aulas. O desenvolvimento das aulas inclui o uso dos seguintes Corpora: COCA, Cobuild, CoMAprend e COMPARA. Envolve ainda a integração dos quatro fatores que amparam as práticas da Pedagogia de Multiletramentos - propostas pelo grupo que elaborou o manifesto que deu origem a esta pedagogia (The New London Group) - 1. Prática Situada (Situated Practice); 2. Instrução Aberta (Over Instruction); 3. Construção Crítica (Critical Framing); 4. Prática de Transferência (Transformed Practice). Resultados esperados: a. Compilação de um corpus de aprendizes da Língua Inglesa do Ensino Fundamental II da escola pública em questão (parte do processo final do Doutorado).

  26. Linguística de corpus e quadro comum europeu de referência de línguas: uma relação necessária Gislaine Machado Jerônimo e Paola Davi Nolasco Rodrigues Merode PUC-RS (PG)

    O escopo do presente trabalho é sondar se há relação entre os textos selecionados para as provas de proficiência em leitura utilizadas pela Comunidade Européia e a Linguística de Corpus (LC). Ou seja, queremos avaliar se, nessas provas, a frequência das palavras presentes nos textos para avaliação da habilidade leitora refletem consonância com os corpora de palavras mais frequentes nas línguas inglesa e italiana, línguas alvo da nossa pesquisa. Segundo Sarmento (2009), a LC pode ser um grande recurso para autores de materiais didáticos, uma vez que fornece dados reais da língua tanto escrita como falada. Acreditamos que a LC é um recurso importante não só para autores, mas também para professores de L2 para que saibam o tipo de input ao qual devem expor os seus alunos, a fim de tornar o ambiente de sala de aula menos artificial. Julgamos que um aluno deva estar exposto, no início do seu percurso de aprendizagem (ou aquisição), a um input condizente com a realidade da língua-alvo. Logo, um candidato que se submeta à prova de nível A1 e A2, deve ser avaliado pelo conhecimento das palavras e grupos lexicais mais frequentes. Portanto, se os textos a serem interpretados fugirem a essa lista de frequência, a avaliação da proficiência, a nosso ver, é duvidosa. Claramente, o inverso se espera do último nível, C2, no qual o candidato deve ter alta proficiência e, desse modo, ser conhecedor de palavras não tão recorrentes na sua L2 (ou LE). Escolhemos a habilidade de leitura, dentre as quatro habilidades linguísticas, porque um aprendiz de L2 normalmente está mais exposto a textos autênticos escritos ao longo de sua aprendizagem da L2 do que aos orais, pois eles são mais recorrentes nos livros didáticos. Dessa forma, focalizamos nossa pesquisa em dados escritos das línguas inglesa e italiana. O Quadro Comum Europeu (QCE) é o documento que estabelece as diretrizes, em termos de habilidades e competências linguísticas, que certificam um nível de proficiência aos candidatos. De acordo com o QCE, espera-se, em cada nível (Usuário Básico: A1 e A2; Usuário Independente: B1 e B2; Usuário Proficiente: C1 e C2), as seguintes habilidades relacionadas à leitura: A1 - ser capaz de compreender nomes conhecidos, palavras e frases muito simples, por exemplo, em avisos, cartazes ou folhetos; A2 - ser capaz de ler textos curtos e simples. Ser capaz de encontrar uma informação previsível e concreta em textos simples de uso corrente, por exemplo, anúncios, folhetos, ementas, horários. Ser capaz de compreender cartas pessoais curtas e simples; B1 - ser capaz de compreender textos em que predomine uma linguagem corrente do dia-a-dia ou relacionada com o trabalho. Ser capaz de compreender descrições de acontecimentos, sentimentos e desejos, em cartas pessoais; B2 - ser capaz de ler artigos e reportagens sobre assuntos contemporâneos em relação aos quais os autores adotam determinadas atitudes ou pontos de vista particulares. Ser capaz de compreender textos literários contemporâneos em prosa; C1 - ser capaz de compreender textos longos e complexos, literários e não literários, e distinguir estilos. Ser capaz de compreender artigos especializados e instruções técnicas longas, mesmo quando não se relacionam com a minha área de conhecimento; C2 - ser capaz de ler com facilidade praticamente todas as formas de texto escrito, incluindo textos mais abstratos, linguística ou estruturalmente complexos, tais como manuais, artigos especializados e obras literárias. A metodologia utilizada foi a análise das 100 palavras lexicais mais frequentes no Inglês e no Italiano em Corpora de Referência de língua escrita, respectivamente no British National Corpus (BNC) e CORIS/CODIS D. S. L. O. Para tanto, foram digitalizadas as provas da University of Cambridge Local Examination Syndicate (UCLES) dos níveis PET, FCE, CAE e CPE do ano de 2008; e Certificazione di Italiano come Lingua Straniera (CILS) do ano de 2009. Todas as provas foram posteriormente processadas no WordSmith Tools. Foram analisados os níveis B1, B2, C1 e C2, não compreendendo os níveis A1 e A2, visto serem níveis muito elementares e, dessa forma, pouco requisitados. Com a análise dos dados, esperamos que seja possível verificar uma relação entre o nível de exigência da proficiência do candidato aos exames de certificação em L2, baseados no Quadro Comum Europeu, e o registro de número de ocorrências de palavras lexicais das línguas-alvo, extraídas dos corpora mencionados acima. Esses dados podem servir de base à reflexão sobre a preparação de material didático para professores de L2 e sobre até que ponto essas provas certificam a proficiência em leitura com base em textos autênticos, representativos de uma língua em uso. Queremos ainda, com este trabalho, destacar a importância da utilização da LC como uma poderosa ferramenta para o professor de L2.

1 comment

Comment from: jpadilha1 [Member] Email
Gostaria de saber o link que informa sobre as dimensões do poster e informações complementares sobre ele.


obrigado
09/29/10 @ 13:05

Comments are not allowed from anonymous visitors.