Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 223

Strict Standards: Declaration of UserSettings::get() should be compatible with AbstractSettings::get($col_key1, $col_key2 = NULL, $col_key3 = NULL) in /home/corpus6/public_html/gelc/inc/users/model/_usersettings.class.php on line 208

Strict Standards: Declaration of UserSettings::set() should be compatible with AbstractSettings::set() in /home/corpus6/public_html/gelc/inc/users/model/_usersettings.class.php on line 208

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 304

Warning: Cannot modify header information - headers already sent by (output started at /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php:223) in /home/corpus6/public_html/gelc/inc/sessions/model/_session.class.php on line 222

Strict Standards: Declaration of BlogCache::get_option_list() should be compatible with DataObjectCache::get_option_list($default = 0, $allow_none = false, $method = 'get_name', $ignore_IDs = Array) in /home/corpus6/public_html/gelc/inc/collections/model/_blogcache.class.php on line 355

Strict Standards: Declaration of Blog::dbupdate() should be compatible with DataObject::dbupdate($auto_track_modification = true) in /home/corpus6/public_html/gelc/inc/collections/model/_blog.class.php on line 54

Strict Standards: Declaration of Blog::set() should be compatible with DataObject::set($parname, $parvalue, $make_null = false) in /home/corpus6/public_html/gelc/inc/collections/model/_blog.class.php on line 54

Strict Standards: Declaration of Skin::dbupdate() should be compatible with DataObject::dbupdate($auto_track_modification = true) in /home/corpus6/public_html/gelc/inc/skins/model/_skin.class.php on line 608

Strict Standards: Declaration of CollectionSettings::_load() should be compatible with AbstractSettings::_load($arg1 = NULL, $arg2 = NULL, $arg3 = NULL) in /home/corpus6/public_html/gelc/inc/collections/model/_collsettings.class.php on line 164

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 236

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 334

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 334

Strict Standards: Declaration of ItemListLight::query() should be compatible with Results::query($create_default_cols_if_needed = true, $append_limit = true, $append_order_by = true, $query_title = 'Results::Q...') in /home/corpus6/public_html/gelc/inc/items/model/_itemlistlight.class.php on line 48

Notice: Array to string conversion in /home/corpus6/public_html/gelc/inc/_core/_param.funcs.php on line 1199

Notice: Array to string conversion in /home/corpus6/public_html/gelc/inc/_core/_param.funcs.php on line 1199

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 334

Warning: Cannot modify header information - headers already sent by (output started at /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php:223) in /home/corpus6/public_html/gelc/inc/_core/_template.funcs.php on line 59
ELC 2010 http://corpuslg.org/gelc/elc2010.php pt-BR http://blogs.law.harvard.edu/tech/rss 60 ELC e EBRALC 2011
Strict Standards: Declaration of GenericCategoryCache::clear() should be compatible with DataObjectCache::clear($keep_shadow = false) in /home/corpus6/public_html/gelc/inc/generic/model/_genericcategorycache.class.php on line 49

Strict Standards: Declaration of GenericCategory::set() should be compatible with DataObject::set($parname, $parvalue, $make_null = false) in /home/corpus6/public_html/gelc/inc/generic/model/_genericcategory.class.php on line 45

Strict Standards: Declaration of Chapter::dbupdate() should be compatible with DataObject::dbupdate($auto_track_modification = true) in /home/corpus6/public_html/gelc/inc/chapters/model/_chapter.class.php on line 38

Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 334
http://corpuslg.org/gelc/elc2010.php/2011/05/11/elc-e-ebralc-2011 Wed, 11 May 2011 10:38:44 +0000
Strict Standards: Declaration of User::dbupdate() should be compatible with DataObject::dbupdate($auto_track_modification = true) in /home/corpus6/public_html/gelc/inc/users/model/_user.class.php on line 1551

Strict Standards: Declaration of User::dbdelete() should be compatible with DataObject::dbdelete() in /home/corpus6/public_html/gelc/inc/users/model/_user.class.php on line 1551

Strict Standards: Declaration of User::set() should be compatible with DataObject::set($parname, $parvalue, $make_null = false) in /home/corpus6/public_html/gelc/inc/users/model/_user.class.php on line 1551
blogadmin
Avisos Importantes 378@http://corpuslg.org/gelc/ <p>O <strong>X Encontro de Lingu&#237;stica de Corpus</strong> convida profissionais de Lingu&#237;stica, Lingu&#237;stica&#160;Hist&#243;rica, Lingu&#237;stica Aplicada, Ci&#234;ncias da Informa&#231;&#227;o, Computa&#231;&#227;o e outras &#225;reas que&#160;utilizem a Lingu&#237;stica de Corpus para que apresentem trabalhos conclu&#237;dos ou em&#160;desenvolvimento dentro desta &#225;rea multidisciplinar. O X ELC ser&#225; realizado entre os&#160;dias <strong>11 e 12 de novembro de 2011</strong> na Faculdade de Letras da Universidade Federal de Minas&#160;Gerais (Belo Horizonte, MG), imediatamente ap&#243;s a <strong>V Escola Brasileira de Lingu&#237;stica </strong><strong>Computacional</strong>, que acontecer&#225; nos dias <strong>9 e 10 de novembro de 2011</strong>.<span> </span></p> <p> <p>Nesta edi&#231;&#227;o do ELC, pretende-se abordar o tema AN&#193;LISE DA LINGUAGEM BASEADA EM&#160;CORPORA.</p> </p> <p><a href="http://www.letras.ufmg.br/CMS/index.asp?pasta=linguisticacorpus2011">http://www.letras.ufmg.br/CMS/index.asp?pasta=linguisticacorpus2011</a></p> <p> <p><strong>DATAS IMPORTANTES</strong><span><strong> </strong></span></p> <p>Data final para envio de resumos: 25 de maio de 2011</p> <p>Notifica&#231;&#227;o dos autores: 10 de julho de 2011</p> <p>Realiza&#231;&#227;o do Encontro: 10&#160; e 11 de novembro de 2011</p> <div><span><strong><br /></strong></span></div> </p>
Warning: Creating default object from empty value in /home/corpus6/public_html/gelc/inc/settings/model/_abstractsettings.class.php on line 334
<div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2011/05/11/elc-e-ebralc-2011">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div>
O X Encontro de Linguística de Corpus convida profissionais de Linguística, Linguística Histórica, Linguística Aplicada, Ciências da Informação, Computação e outras áreas que utilizem a Linguística de Corpus para que apresentem trabalhos concluídos ou em desenvolvimento dentro desta área multidisciplinar. O X ELC será realizado entre os dias 11 e 12 de novembro de 2011 na Faculdade de Letras da Universidade Federal de Minas Gerais (Belo Horizonte, MG), imediatamente após a V Escola Brasileira de Linguística Computacional, que acontecerá nos dias 9 e 10 de novembro de 2011.

Nesta edição do ELC, pretende-se abordar o tema ANÁLISE DA LINGUAGEM BASEADA EM CORPORA.

http://www.letras.ufmg.br/CMS/index.asp?pasta=linguisticacorpus2011

DATAS IMPORTANTES

Data final para envio de resumos: 25 de maio de 2011

Notificação dos autores: 10 de julho de 2011

Realização do Encontro: 10  e 11 de novembro de 2011


]]>
http://corpuslg.org/gelc/elc2010.php/2011/05/11/elc-e-ebralc-2011#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=378
Publicação do livro http://corpuslg.org/gelc/elc2010.php/2011/05/11/publicacao-do-livro Wed, 11 May 2011 10:30:15 +0000 blogadmin Avisos Importantes Anais 377@http://corpuslg.org/gelc/ <p>Agradecemos a todos que enviaram submiss&#245;es para o livro do ELC 2010!</p> <p>Os pareceres est&#227;o sendo feitos e em breve contactaremos os autores.</p> <p>O volume ter&#225; ainda cap&#237;tulos de autores convidados e ser&#225; publicado pela editora Mercado de Letras, Campinas, SP, na s&#233;rie&#160;Espa&#231;os da Lingu&#237;stica de Corpus.</p> <p>&#160;</p><div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2011/05/11/publicacao-do-livro">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div> Agradecemos a todos que enviaram submissões para o livro do ELC 2010!

Os pareceres estão sendo feitos e em breve contactaremos os autores.

O volume terá ainda capítulos de autores convidados e será publicado pela editora Mercado de Letras, Campinas, SP, na série Espaços da Linguística de Corpus.

 

]]>
http://corpuslg.org/gelc/elc2010.php/2011/05/11/publicacao-do-livro#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=377
Baixar apresentações / Download presentations http://corpuslg.org/gelc/elc2010.php/2010/11/05/baixar-apresentacoes Fri, 05 Nov 2010 11:48:11 +0000 blogadmin Baixar Apresentações 311@http://corpuslg.org/gelc/ <p>Seguem abaixo os arquivos das apresenta&#231;&#245;es de comunica&#231;&#227;o, p&#244;ster e modalidade 2 enviados pelos autores. Para incluir sua apresenta&#231;&#227;o, favor envi&#225;-la para <a href="mailto:elc2010@corpuslg.org">elc2010@corpuslg.org</a>.</p> <p>Download presentations given at ELC 2010 by clicking the files below.</p> <ul> <li><a href="/gelc/media/blogs/elc2010/slides/Biber.ppt">Biber.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Acunzo.ppsx">Acunzo.ppsx</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Amaral.ppt">Amaral.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Bick_Mello_Raso.ppt">Bick_Mello_Raso.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Celli.ppsx">Celli.ppsx</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Coleti.ppt">Coleti.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Dantas.pdf">Dantas.pdf</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Dayrell_et_al.ppt">Dayrell_et_al.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Di_Felippo.pdf">Di_Felippo.pdf</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Duran_and_Aluisio.ppt">Duran_and_Aluisio.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Dutra_Berber_Sardinha.ppt">Dutra_Berber_Sardinha.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Feitosa_dos_Santos.pptx">Feitosa_dos_Santos.pptx</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Figueiredo_de_Alencar.pdf">Figueiredo_de_Alencar.pdf</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Freitas.pdf">Freitas.pdf</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Fromm.pdf">Fromm.pdf</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Gates.ppt">Gates.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Goncalves.pptx">Goncalves.pptx</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Ishioka.pptx">Ishioka.pptx</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Knecht.ppt">Knecht.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Rebechi.ppt">Rebechi.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Santos.ppt">Santos.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Schenk.ppt">Schenk.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Serpa.ppt">Serpa.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Silva.pdf">Silva.pdf</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Teixeira.pdf">Teixeira.pdf</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Veirano_Pinto.ppt">Veirano_Pinto.ppt</a></li> <li><a href="/gelc/media/blogs/elc2010/slides/Zilio_Wilkens.pdf">Zilio_Wilkens.pdf</a></li> </ul><div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2010/11/05/baixar-apresentacoes">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div> Seguem abaixo os arquivos das apresentações de comunicação, pôster e modalidade 2 enviados pelos autores. Para incluir sua apresentação, favor enviá-la para elc2010@corpuslg.org.

Download presentations given at ELC 2010 by clicking the files below.

]]>
http://corpuslg.org/gelc/elc2010.php/2010/11/05/baixar-apresentacoes#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=311
Fotos / Photos http://corpuslg.org/gelc/elc2010.php/2010/10/15/fotos-photos Sat, 16 Oct 2010 00:00:45 +0000 blogadmin Fotos / Photos 274@http://corpuslg.org/gelc/ <p><a href="http://corpuslg.org/gelc/blog4.php/elc-2010/">http://corpuslg.org/gelc/blog4.php/elc-2010/</a></p><div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2010/10/15/fotos-photos">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div> http://corpuslg.org/gelc/blog4.php/elc-2010/

]]>
http://corpuslg.org/gelc/elc2010.php/2010/10/15/fotos-photos#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=274
Muito obrigado! Thank you! http://corpuslg.org/gelc/elc2010.php/2010/10/15/muito-obrigado Fri, 15 Oct 2010 15:15:11 +0000 blogadmin Avisos Importantes English 119@http://corpuslg.org/gelc/ <p>A comiss&#227;o organizadora do IX ELC e da IV Ebralc agradecem a todos os participantes, de todas as modalidades, por terem vindo e contribu&#237;do tanto para que tiv&#233;ssemos dois grandes eventos de Lingu&#237;stica de Corpus no Brasil! At&#233; a pr&#243;xima, em Belo Horizonte!! <p>The organizing committees of both ELC and Ebralc 2010 wish to thank all participants, in all sessions, for having come to Porto Alegre and for enabling us to have two great Corpus Linguistics events in Brazil! See you all next time, in Belo Horizonte!!</p></p><div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2010/10/15/muito-obrigado">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div> A comissão organizadora do IX ELC e da IV Ebralc agradecem a todos os participantes, de todas as modalidades, por terem vindo e contribuído tanto para que tivéssemos dois grandes eventos de Linguística de Corpus no Brasil! Até a próxima, em Belo Horizonte!!

The organizing committees of both ELC and Ebralc 2010 wish to thank all participants, in all sessions, for having come to Porto Alegre and for enabling us to have two great Corpus Linguistics events in Brazil! See you all next time, in Belo Horizonte!!

]]>
http://corpuslg.org/gelc/elc2010.php/2010/10/15/muito-obrigado#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=119
Sessão/Session 2: Corpora de Aprendizes e Ferramentas de processamento de corpora / Learner Corpora and Corpus-processing Tools http://corpuslg.org/gelc/elc2010.php/2010/09/28/sessao-session-2-ensino-de-lingua-estrangeira-e-corpora-de-aprendizes-foreign-language-teaching-and-learner-corpora Tue, 28 Sep 2010 16:14:51 +0000 blogadmin Programação Resumos Aceitos 73@http://corpuslg.org/gelc/ <h2>Sess&#227;o/Session 2: Corpora de Aprendizes e Ferramentas de processamento de corpora / Learner Corpora and Corpus-processing Tools</h2> <h3>2.1. Pacotes lexicais em corpora de aprendizes (Deise Prina Dutra e Tony Berber Sardinha, UFMG e PUC-SP)</h3> <p>Desde que Firth (1935) ponderou que o significado de uma palavra dependia muito das outras palavras com as quais ela ocorria, muitos linguistas t&#234;m se ocupado em desvendar os padr&#245;es de coloca&#231;&#245;es, unidades pr&#233;-fabricadas ou sequ&#234;ncias formulaicas (c.f. Wray 2002, Schmitt 2004). Esses estudos t&#234;m se tornado cada vez mais prof&#237;cuos devido aos desenvolvimentos computacionais que tornam poss&#237;vel a identifica&#231;&#227;o de padr&#245;es lexicais com palavras tanto de baixa quanto de alta frequ&#234;ncia (e.g. &#8220;rancid butter (but not *rancid bread) ... go grey, brown, white; people go (but not *turn)&#8221; O&#180;Keefee, McCarthy and Carter 2007: 59) em grandes colet&#226;neas de textos. Ressaltamos os estudos que t&#234;m utilizado o termo &#8216;pacotes lexicais&#8217; (lexical bundles; Biber et al. 1999) pelo amplo escopo em que enquadram o fen&#244;meno lingu&#237;stico de padr&#245;es lexicais. Pacotes lexicais s&#227;o definidos, ent&#227;o, como &#8220;simplesmente sequ&#234;ncias de &#160;palavras que comumente est&#227;o juntas em discurso natural&#8221; (Biber et al. 1999: 990). A ocorr&#234;ncia desses pacotes no discurso acad&#234;mico t&#234;m sido enfocada de diversos modos, como por exemplo em rela&#231;&#227;o a diferen&#231;as entre registros do discurso universit&#225;rio (Biber at al. 2004) e entre diferentes disciplinas (Hyland 2008). A extra&#231;&#227;o de pacotes lexicais &#233; computacionalmente trivial, ou seja, a maioria dos programas de processamento de corpora os identifica. Por outro lado, sua classifica&#231;&#227;o em categorias sem&#226;nticas, pragm&#225;ticas, textuais e/ou discursivas &#233; muito complexa, dependendo de julgamento humano, e tem sido objeto de poucos estudos at&#233; o momento (como Biber et al. 1999, Hyland &#160;2008 e Simpson-Vlach &amp; Ellis 2010).&#160;O uso de coloca&#231;&#245;es e seq&#252;&#234;ncias formulaicas por falantes n&#227;o nativos (FNs) &#233; um assunto de crescente interesse na &#225;rea de an&#225;lise contrastiva da interl&#237;ngua (Granger 1998) baseada em corpus. Resultados de pesquisa indicam que corpora de aprendizes cont&#234;m unidades pr&#233;-fabricadas com diferentes usos sint&#225;ticos e fun&#231;&#245;es pragm&#225;ticas &#160;(de Cock et al. 1998) das produzidas por falantes nativos; e mais pacotes com verbo e organizadores discursivos ocorrem em corpora de aprendizes do que em corpora de textos publicados, al&#233;m de apresentarem tend&#234;ncia de grandes generaliza&#231;&#245;es e repeti&#231;&#227;o de certas express&#245;es idiom&#225;ticas (Chen &amp; Baker 2010). N&#227;o havia, no entanto, at&#233; o presente estudo, uma ampla classifica&#231;&#227;o de pacotes lexicais em corpora de aprendizes. &#160;O objetivo deste trabalho, que relata pesquisa de p&#243;s-doutoramento, &#233; identificar e classificar pacotes lexicais em tr&#234;s corpora de textos escritos de aprendizes de acordo com as categorias propostas por Simpson-Vlach &amp; Ellis (2010) em sua Academic Formulas List (AFL), oriunda do Michigan Corpus of Academic Spoken English (MICASE), do British National Corpus e do corpus de Hyland (2004). Os corpora enfocados s&#227;o Louvain Corpus of Native English Essays &#8211; LOCNESS, International Corpus of Learner English - ICLE e o Br-ICLE, subcorpus do ICLE com textos de alunos brasileiros, que juntos somam 4.251.714 palavras. Este &#233; o primeiro estudo que promove uma classifica&#231;&#227;o de pacotes lexicais de todo o ICLE.&#160;A metodologia incluiu os seguintes passos. Primeiramente, os pacotes de 3 e 4 palavras foram extra&#237;dos de cada corpora com um scripts especialmente criados para esta investiga&#231;&#227;o. Em segundo lugar, os pacotes foram categorizados manualmente nas categorias principais (express&#227;o referencial, express&#245;es de julgamento e organizadores discursivos) e secund&#225;rias da AFL (e.g. atributos de enquadramento tang&#237;veis e n&#227;o tang&#237;veis, express&#245;es de habilidade e possibilidade, metadiscurso e refer&#234;ncia textual), num total de 18 subcategorias. Posteriormente, verificamos quais categorias s&#227;o as mais frequentes em cada corpora. Em seguida, analisamos subcategorias especificas e geramos linhas de concord&#226;ncia (com scripts espec&#237;ficos e com o WordSmith Tools) para verificar seu uso em contexto bem como os padr&#245;es l&#233;xico-gramaticais nos quais os pacotes tendem a ocorrer. Em terceiro lugar, a dispers&#227;o dessas ocorr&#234;ncias nos textos do Br-ICLE foi identificada, e testes estat&#237;sticos (qui-quadrado e F) foram aplicados para verificar se havia diferen&#231;as significativas entre as ocorr&#234;ncias nos corpora.&#160;Os resultados revelam que: a) a categoria mais frequente &#233; a de express&#245;es referenciais, o que reflete os achados de Simpson-Vlack e Ellis (2010), com exce&#231;&#227;o de diferen&#231;as na frequ&#234;ncia de certos pacotes lexicais, tais como with regard to; b) dentre as express&#245;es de julgamento, h&#225; poucos atenuadores (e.g. likely) e, h&#225; prefer&#234;ncia por express&#245;es de avalia&#231;&#227;o (e.g. it is important to) no Br-ICLE; c) na subcategoria express&#245;es de habilidade e possibilidade (categoria express&#245;es de julgamento) houve o uso de certos pacotes lexicais, por&#233;m, constatamos, uma diferen&#231;a significativa (p=0.022) entre o LOCNESS e o Br-ICLE quanto &#224;s ocorr&#234;ncias de be able to; d) o programa de an&#225;lise de pacotes lexicais, desenvolvido para esta pesquisa e em per&#237;odo de teste, tem se mostrado uma boa ferramenta para an&#225;lise de reda&#231;&#245;es de aprendizes de ingl&#234;s.&#160;Conclu&#237;mos que h&#225; diferen&#231;as entre os corpora quanto ao uso de pacotes lexicais, principalmente, entre os corpora LOCNESS e Br-ICLE. Essas diferen&#231;as se tornam mais significativas na categoria de express&#245;es de julgamento. No seu conjunto, as diferen&#231;as entre os corpora de aprendizes e o corpus LOCNESS ajudam a tra&#231;ar um perfil l&#233;xico-gramatical (Berber Sardinha, no prelo) da escrita de alunos de ingl&#234;s como l&#237;ngua estrangeira, apontando a utiliza&#231;&#227;o de padr&#245;es produtivos da l&#237;ngua que podem colaborar para que a escrita desses aprendizes se torne mais proficiente.&#160;Al&#233;m das v&#225;rias ferramentas desenvolvidas para processar os corpora, a pesquisa ainda permitiu criar um software dedicado exclusivamente &#224; identifica&#231;&#227;o e classifica&#231;&#227;o de pacotes lexicais. Durante a apresenta&#231;&#227;o ser&#225; feita uma demonstra&#231;&#227;o do programa, indicando seu potencial bem como suas limita&#231;&#245;es. O programa de identifica&#231;&#227;o de pacotes lexicais pode ser um caminho promissor para ajudar a disseminar o uso de desse tipo de constru&#231;&#227;o como instrumento de an&#225;lise de corpora de aprendizes, na medida em que fornece uma classifica&#231;&#227;o autom&#225;tica inicial ao pesquisador.</p> <h3>2.2. Notas metodol&#243;gicas para a elabora&#231;&#227;o de corpora digitais para fins did&#225;ticos de excertos de prosa grega antiga baseados em keywords (Anise A. G. D'Orange Ferreira, FCL/ Araraquara, UNESP)</h3> <p>Esta comunica&#231;&#227;o tem como objetivo apresentar as motiva&#231;&#245;es de um projeto em andamento &#160;para se elaborar corpora digitais para fins did&#225;ticos, de excertos de textos de prosa grega antiga, adotados no ensino de grego em curso superior, e discutir alguns pontos, crit&#233;rios e procedimentos metodol&#243;gicos envolvidos no processo, bem como apresentar alguns resultados j&#225; obtidos. Os m&#233;todos de ensino de l&#237;ngua grega, em sua maioria, seguem uma sequ&#234;ncia baseada na divis&#227;o tradicional das gram&#225;ticas gregas, para contemplar as compet&#234;ncias lingu&#237;sticas necess&#225;rias &#224; leitura de textos cl&#225;ssicos. &#160;Com isso, textos n&#227;o-aut&#234;nticos s&#227;o criados para limitar a pr&#225;tica de leitura a uma varia&#231;&#227;o lingu&#237;stica restrita &#224; &#160;se&#231;&#227;o gramatical particularmente estudada. Assim, crit&#233;rios baseados mais na manuten&#231;&#227;o da tradi&#231;&#227;o, do que em procedimentos emp&#237;ricos, como frequ&#234;ncia de uso, tem sido aplicados. &#160;Com a digitaliza&#231;&#227;o de grandes corpora de textos gregos e cria&#231;&#227;o de mecanismos autom&#225;ticos de recupera&#231;&#227;o de informa&#231;&#245;es lexicais, tornou-se poss&#237;vel testar e acrescentar novos crit&#233;rios e procedimentos emp&#237;ricos para a elabora&#231;&#227;o de materiais did&#225;ticos para o ensino de l&#237;ngua grega antiga. Dessa forma, as compet&#234;ncias lingu&#237;sticas podem ser associadas a indicadores emp&#237;ricos de frequ&#234;ncia e n&#227;o apenas a de complexidade formal, &#160;independente de uso. Naturalmente, novos crit&#233;rios s&#227;o acompanhados de novas quest&#245;es e problemas metodol&#243;gicos. Uma das quest&#245;es &#233; decidir os limiares de frequ&#234;ncia adequados para a defini&#231;&#227;o e sele&#231;&#227;o de unidades lexicais e frasais em um corpus com finalidade did&#225;tica. Alguns indicadores &#160;quantitativos &#160;tem sido calculados, como a obten&#231;&#227;o do n&#250;mero de ocorr&#234;ncia de palavras, types e tokens, em &#160;obras cl&#225;ssicas dentro de um grande projeto de biblioteca digital chamado Perseus Web Project, com um acervo, embora grande, limitado a materiais em dom&#237;nio p&#250;blico ou com distribui&#231;&#227;o &#160;p&#250;blica autorizada. Nesse projeto, dispon&#237;vel gratuitamente na Internet, todas as palavras do acervo s&#227;o indexadas e vinculadas &#224;s entradas correspondentes a um dicion&#225;rio grego-ingl&#234;s, para c&#225;lculo de lemas. Tamb&#233;m s&#227;o vinculadas a uma ferramenta que analisa automaticamente as &#160;flex&#245;es, indicando g&#234;nero, n&#250;mero, caso, pessoa, tempo, modo, aspecto e voz &#160;da palavra consultada, de acordo com sua categoria gramatical, i.e, substantivo, &#160;adjetivo, pronome, artigo, verbo, adv&#233;rbio, preposi&#231;&#227;o, conjun&#231;&#227;o ou part&#237;cula. Com o acervo maior, de outro projeto, de acesso restrito a assinantes, Thesaurus Linguae Graecae (TLG), a &#225;rea de estudos gregos da Universidade Cat&#243;lica de Louvain vem oferecendo com acesso aberto os textos digitais do TLG convertidos a unicode &#160;e apresentados em formato de hipertexto, com lista de vocabul&#225;rio, &#160;itens lexicais em faixas de frequ&#234;ncias em ordem decrescente, indica&#231;&#227;o de n&#250;mero types &#160;e tokens. &#160; A informa&#231;&#227;o sobre a rela&#231;&#227;o entre esses permite comparar a densidade lexical de obras previstas em um programa curricular, e selecionar, para alunos menos experientes, os menos densos. Ainda, a sele&#231;&#227;o de excertos de l&#237;ngua e modelos significativos &#160;do ponto de vista do uso requer outros indicadores. A proposta aqui &#233; discutir a utiliza&#231;&#227;o dos par&#226;metros de frequ&#234;ncia e keyness nas &#160;keywords como &#8220;n&#243;s&#8221; ou &#8220;&#226;ncoras&#8221; de co-ocorr&#234;ncias para localiza&#231;&#227;o de padr&#245;es frasais e sele&#231;&#227;o de excertos que contenham formas e estruturas relevantes ao ensino da leitura de textos de prosa grega, nos n&#237;veis poss&#237;veis, morfossint&#225;tico, sem&#226;ntico e enunciativo. A finalidade maior da proposta &#233; extrair excertos de obras selecionadas de 14 prosadores gregos de diferentes per&#237;odos e estilos, &#160;a saber : Apolodoro (I-II d.C.), Artemidoro (II d.C.), Arist&#243;teles (IV a.C.), Dem&#243;stenes (IV a.C.), Di&#243;genes La&#233;rcio (III d.C.), Esopo (VI a.C.), G&#243;rgias ( V-IV a.C.), Her&#243;doto (V a.C.), Is&#243;crates (V-IV a.C.), L&#237;sias (V-IV a.C.), Plat&#227;o (V e IV a.C.), Plutarco (I-II d.C), Tuc&#237;dides (V a.C.) e Xenofonte (V-IV a.C.). Para demonstrar e discutir os procedimentos metodol&#243;gicos, foi selecionado o corpus da Po&#233;tica, &#160;de Arist&#243;teles. Os procedimentos envolveram a extra&#231;&#227;o de par&#226;metros gerais do corpus, como tamanho, n&#250;mero de palavras (tokens &#160;e types), e lista de frequ&#234;ncia de ocorr&#234;ncias de itens lexicais por ordem decrescente, uma lista por ordem alfab&#233;tica, e pelas termina&#231;&#245;es (o que permite observar as flex&#245;es recorrentes), bem como listas de ocorr&#234;ncias de n-grams e clusters. Algumas particularidades do texto grego s&#227;o observadas em rela&#231;&#227;o ao alfabeto e &#224; transmiss&#227;o. Para a extra&#231;&#227;o de keywords, &#160;discutem-se &#160; par&#226;metros para a defini&#231;&#227;o do corpus de refer&#234;ncia, como tamanho e &#160;diversidade, e os valores cr&#237;ticos &#160;para keyness obtido por LL (Log-likelihood) calculado pelo software AntConc. Com 376 &#160;keywords &#160;selecionadas ao n&#237;vel de signific&#226;ncia associado a valores de keyness &#160;superiores a 10,83 (p&lt;0,001), ou com 1197 keywords, &#160;considerando-se o escore m&#233;dio, 7,88 (p&lt;0,005), comparou-se o resultado &#160;com os itens mais frequentes em termos de distribui&#231;&#227;o de frequ&#234;ncia de ocorr&#234;ncias e postos. Na lista de keywords, &#160;p&#244;de-se observar, logo entre as primeiras 20 palavras de maior keyness, t&#243;picos important&#237;ssimos tratados na Po&#233;tica, como tragoidia (trag&#233;dia), m&#237;mesis (m&#237;mese, representa&#231;&#227;o), epopoi&#237;a (epop&#233;ia) e &#160;anagnorisis (reconhecimento), &#160;nos casos genitivo, acusativo e nominativo, &#160;e os verbos flexionados dei, (&#233; preciso) e mimountai (representam). Na lista de frequ&#234;ncia, tais termos aparecem depois do cent&#233;simo posto. Com &#160;a verifica&#231;&#227;o das concord&#226;ncias e dos clusters associados &#224;s keywords, &#160;revelaram-se recorr&#234;ncias morfossint&#225;ticas (ex.: uso de dei &#160;com infinitivos e part&#237;cula explicativa), destacando &#160;mecanismos enunciativos (de&#244;ntico e epist&#234;mico) e tipo de discurso (te&#243;rico); ainda com a recorr&#234;ncia de casos, observa-se o destaque de &#160;pap&#233;is sint&#225;tico-sem&#226;nticos de determinados substantivos. Os presentes resultados parecem promissores para a elabora&#231;&#227;o de corpora com finalidade did&#225;tica, de excertos de textos de prosa grega antiga, favorecendo a continuidade de refinamentos metodol&#243;gicos com as demais obras. &#160; Descritores &#250;teis em diferentes n&#237;veis de linguagem podem ser obtidos pelos procedimentos emp&#237;ricos levantados. Espera-se estender os testes com varia&#231;&#245;es de corpus de refer&#234;ncia e n&#237;veis de signific&#226;ncia diferentes. &#160;Embora sejam procedimentos largamente difundidos entre estudos com l&#237;nguas modernas, sua aplica&#231;&#227;o em l&#237;ngua cl&#225;ssica para a finalidade proposta &#233; recente e escassa.</p> <h3>2.3. Desenvolvimento de um parser de conectores textuais e sua aplica&#231;&#227;o para an&#225;lise de g&#234;neros textuais - Leonardo Zilio (Letras/UFRGS) e Rodrigo Wilkens (PPGC/UFRGS)</h3> <p>Neste trabalho, apresentamos dois estudos interligados. O primeiro estudo se relaciona ao desenvolvimento de uma ferramenta (um parser) de an&#225;lise de corpora, enquanto o segundo se refere &#224; aplica&#231;&#227;o dessa ferramenta para observar dados sobre os g&#234;neros textuais. Come&#231;amos pela ferramenta. Os estudos sobre a Teoria de Estrutura Ret&#243;rica (RST) n&#227;o s&#227;o muito desenvolvidos no &#226;mbito lus&#243;fono. Apesar de haver estudos sobre o assunto, h&#225; poucas ferramentas que analisam automaticamente o fluxo textual e que tenham sido desenvolvidas especificamente para a nossa l&#237;ngua. Visando a suprir parte dessa lacuna, propusemo-nos, a partir de uma coopera&#231;&#227;o entre a Lingu&#237;stica e a Computa&#231;&#227;o, a desenvolver uma ferramenta que fa&#231;a uma an&#225;lise a partir da varredura de corpora. Por motivos de escopo do trabalho, n&#227;o h&#225; como abordar todas as lacunas existentes na an&#225;lise autom&#225;tica de estruturas textuais para a l&#237;ngua portuguesa, de forma que optamos por abordar a concatena&#231;&#227;o oracional dos textos. Dessa forma, nosso objetivo foi criar uma ferramenta que n&#227;o s&#243; quebrasse o texto em segmentos oracionais, mas tamb&#233;m que classificasse os tipos de ora&#231;&#227;o presentes nesse texto a partir dos conectores textuais, apresentando, assim, at&#233; certo n&#237;vel, sua estrutura de coes&#227;o. Para realizar este trabalho, utilizamos uma abordagem lingu&#237;stica e uma abordagem computacional. Na parte lingu&#237;stica, a se&#231;&#227;o sobre jun&#231;&#245;es apresentada na Gram&#225;tica de Usos do Portugu&#234;s foi de grande import&#226;ncia para a sele&#231;&#227;o e categoriza&#231;&#227;o inicial dos conectores textuais, servindo como base para posterior amplia&#231;&#227;o com base no corpus observado. Na parte computacional, utilizaram-se, como principal base te&#243;rica, artigos e trabalhos j&#225; realizados &#225;rea de Processamento da Linguagem Natural (PLN), como o DiZer, desenvolvido junto ao N&#250;cleo Institucional de Lingu&#237;stica Computacional (NILC). Nosso parser foi desenvolvido com base na linguagem de programa&#231;&#227;o Java, por ser uma linguagem de f&#225;cil portabilidade, e integra tamb&#233;m o parser de depend&#234;ncias do PALAVRAS. O corpus de teste era composto por 40 textos, perfazendo 4.105 tokens (o mesmo corpus utilizado para o DiZer). Esse dado foi obtido com o software WordSmith Tools 4. A raz&#227;o do tamanho reduzido desse corpus foi seu objetivo: goldstandard e observa&#231;&#227;o de novos conectores (n&#227;o previstos pela Gram&#225;tica de Usos). Como seria utilizado para fins de teste, o corpus foi manualmente anotado por um linguista. Nosso parser funciona da seguinte maneira: 1 &#8211; o texto a ser analisado &#233; pr&#233;-processado; 2 &#8211; o PALAVRAS gera a anota&#231;&#227;o da &#225;rvore de depend&#234;ncias de cada uma das frases; 3 &#8211; a partir da anota&#231;&#227;o de depend&#234;ncias do PALAVRAS, o parser separa as ora&#231;&#245;es/segmentos de acordo com regras e faz a anota&#231;&#227;o dos conectores encontrados em cada ora&#231;&#227;o/segmento. As categorias de ora&#231;&#245;es s&#227;o as seguintes: aditiva, adversativa, causal, comparativa, concessiva, condicional, conformativa, consecutiva, final, modal, parafr&#225;stica, complementadora e temporal. Ap&#243;s a realiza&#231;&#227;o dos testes, obtivemos um percentual de acertos de 86,2% em rela&#231;&#227;o ao corpus anotado. Tendo a ferramenta em m&#227;os, partimos para a sua aplica&#231;&#227;o em um corpus de estudo. A motiva&#231;&#227;o para este segundo trabalho foi observar at&#233; que ponto a microestrutura (neste caso, as conex&#245;es oracionais) &#233; distinta entre textos de sub&#225;reas da Medicina. Escolhemos artigos cient&#237;ficos das &#225;reas de Cardiologia e Radiologia por haver, na literatura, questionamentos quanto ao seu pertencimento a um mesmo g&#234;nero. Este estudo n&#227;o tem um tom conclusivo quanto ao objetivo, pois estamos abordando apenas um par&#226;metro da microestrutura textual, mas intencionamos colaborar com essa discuss&#227;o. Para atingirmos essa meta, montamos um corpus composto por 20 se&#231;&#245;es de artigos do peri&#243;dico Arquivos Brasileiros de Cardiologia (v. 94, n&#186; 5): 10 introdu&#231;&#245;es (3.383 tokens) e 10 discuss&#245;es (11.341 tokens); e 20 se&#231;&#245;es de artigos do peri&#243;dico Radiologia Brasileira (v. 43, n&#186; 2): 10 introdu&#231;&#245;es (4.760 tokens) e 10 discuss&#245;es (8.129 tokens). A an&#225;lise procedeu da seguinte maneira: 1 &#8211; usando nosso parser, foi analisada cada uma das se&#231;&#245;es de artigos do corpus; 2 &#8211; dados sobre tipo de ora&#231;&#245;es, quantidade de conectores e quantidade de segmentos foram armazenados em uma planilha do Excel; 3 &#8211; a partir dessa planilha, foram levantados resultados estat&#237;sticos sobre a microestrutura oracional do corpus de estudo. Al&#233;m do Excel 2007, tamb&#233;m foi utilizado o software Statistica7 para fins de c&#225;lculos estat&#237;sticos. Os resultados mostraram que a Cardiologia e a Radiologia se op&#245;em quando comparadas as se&#231;&#245;es de seus artigos. Nas introdu&#231;&#245;es, a Radiologia apresentou 41,57% de segmentos com conectores, contra 39,44% da Cardiologia. J&#225; nas discuss&#245;es, a Cardiologia apresentou 46,53% de segmentos com conectores, contra 45,20% da Radiologia. Apesar dessa oposi&#231;&#227;o, a proximidade dos resultados deixa bastante claro que a diferen&#231;a n&#227;o &#233; significativa, o que foi comprovado pelo teste t. As introdu&#231;&#245;es da Radiologia se destacaram pela presen&#231;a mais marcante de ora&#231;&#245;es relativas, enquanto a Cardiologia teve uma curva mais suave, com picos nas relativas, complementadoras e causais. Nas se&#231;&#245;es de discuss&#227;o, as complementadoras assumem a ponta, nas duas sub&#225;reas, deixando as relativas em segundo lugar, na Cardiologia, por&#233;m, a diferen&#231;a entre ambas &#233; menor. Por fim, nosso parser se mostrou uma ferramenta confi&#225;vel para a an&#225;lise de corpora. Cerca de 1/5 dos erros foram herdados do PALAVRAS. E pouco mais da metade dos erros tem como origem determinadas ora&#231;&#245;es coordenadas que optamos por n&#227;o tratar nesta primeira vers&#227;o do parser. Este trabalho n&#227;o est&#225; encerrado e prevemos melhorias para sua pr&#243;xima vers&#227;o, incluindo o tratamento dessas ora&#231;&#245;es coordenadas. Apesar de ainda n&#227;o estar em sua vers&#227;o mais robusta, o parser permitiu a an&#225;lise de corpus e auxiliou a alcan&#231;ar os objetivos propostos para um trabalho lingu&#237;stico. Ap&#243;s a observa&#231;&#227;o do corpus de estudo, percebemos que as se&#231;&#245;es observadas de Cardiologia e Radiologia n&#227;o apresentam diferen&#231;as significativas, de forma que poder&#237;amos tomar o corpus como um todo para fazermos asser&#231;&#245;es sobre a &#225;rea da Medicina. Ainda n&#227;o acreditamos em tal possibilidade porque &#233; necess&#225;rio compararmos esses dados com dados de outras sub&#225;reas, para garantirmos que essa homogeneidade se propaga atrav&#233;s da Medicina.</p> <p>&#160;</p> <h2>2.4. O mapeador sem&#226;ntico como ferramenta para o estudo de mapas conceituais em corpora eletr&#244;nicos (Marcos Gustavo Richter, UFSM)</h2> <p>Esta comunica&#231;&#227;o tem por objetivo apresentar um novo software de an&#225;lise sem&#226;ntica de corpora eletr&#244;nicos, desenvolvido conjuntamente sob os ausp&#237;cios da Pontif&#237;cia Universidade Cat&#243;lica de S&#227;o Paulo e a Universidade Federal de Santa Maria, Rio Grande do Sul. Esta ferramenta aplica o princ&#237;pio da medida da recorr&#234;ncia de strings em listas de concord&#226;ncia de n&#243;dulos-problema, candidatos para campos sem&#226;nticos hipot&#233;ticos de corpora analisados. &#160;Ao analisar qualitativa e quantitativamente as interconex&#245;es dos cotextos, o Mapeador coloca &#224; disposi&#231;&#227;o do usu&#225;rio informa&#231;&#245;es sobre o comportamento em rede sem&#226;ntica dos n&#243;dulos de interesse de sua pesquisa, as quais podem ser utilizadas qualitativa e/ou quantitativamente para elucidar quest&#245;es acerca das associa&#231;&#245;es sem&#226;nticas das palavras, bem como das respectivas for&#231;as associativas e, dessa maneira, auxiliar no mapeamento conceitual do corpus. O Mapeador Sem&#226;ntico requer o upload de arquivo &#250;nico em formato txt, sobre o qual opera comparando cotextos de palavras selecionadas, localizando, identificando, quantificando e totalizando os colocados coincidentes (links), exceto palavras por ignorar. Os resultados s&#227;o disponibilizados e exibidos na forma de um lote de arquivos texto com listagens de informa&#231;&#245;es quantificadas, assim distribu&#237;das: a) nodulos.txt: as palavras pesquisadas; b) results_left.txt: compara&#231;&#227;o dos contextos &#224; esquerda; c) results_left_right.txt: compara&#231;&#227;o dos contextos &#224; esquerda com os da direita; d) results_position_by_position.txt: compara&#231;&#227;o de posi&#231;&#227;o a posi&#231;&#227;o; e) results_right.txt: compara&#231;&#227;o dos contextos &#224; direita; f) results_right_left.txt: compara&#231;&#227;o dos contextos &#224; direita com os da esquerda. &#201; recomend&#225;vel refinar os resultados pela inclus&#227;o de uma lista de palavras para ignorar. Nesse caso, o uso desta listagem pelo programa &#233; confirmada pela sua presen&#231;a no referido lote de arquivos, com a identifica&#231;&#227;o stopwords.tmp.&#160;As propriedades do Mapeador s&#227;o demonstradas por meio de um estudo da forma&#231;&#227;o de conceitos emergentes a respeito do professor de l&#237;nguas com base na lingu&#237;stica de corpus. O contexto da pesquisa s&#227;o as iniciativas de apoio &#224; forma&#231;&#227;o inicial e continuada de profissionais qualificados numa determinada &#225;rea de atua&#231;&#227;o, no caso, a Licenciatura em Letras. &#160;O corpus de cerca de trinta mil palavras resultou da compila&#231;&#227;o de um ano de artigos publicados em uma conhecida revista direcionada a esses profissionais. A quest&#227;o que deu origem a este estudo &#233;: Com a introdu&#231;&#227;o de novas tecnologias em contextos de ensino, as expectativas sobre o papel do professor de l&#237;nguas mostram tend&#234;ncia a altera&#231;&#227;o ou insistem em estere&#243;tipos prejudiciais &#224; emancipa&#231;&#227;o profissional? O referencial te&#243;rico para a interpreta&#231;&#227;o dos dados foi a Teoria Hol&#237;stica da Atividade, um modelo heur&#237;stico especial resultante de contribui&#231;&#245;es da Teoria dos Sistemas Sociais de Niklas Luhmann e da Semi&#243;tica de Charles S. Peirce. A metodologia adotada para esta investiga&#231;&#227;o alicer&#231;ou-se na lingu&#237;stica de corpus e empregou como ferramentas computacionais o programa WordSmith Tools 4.0 e o Mapeador Sem&#226;ntico. Com este &#250;ltimo, utilizou-se a medida da coes&#227;o sem&#226;ntica entre categorias nodulares denominada Raz&#227;o Vinculativa Nodular Comparada (RVNC). Os procedimentos metodol&#243;gicos seguiram as seguintes etapas: a) Convers&#227;o dos artigos selecionados em arquivos-texto e compila&#231;&#227;o em pasta; b) Obten&#231;&#227;o de Wordlist; c) Sele&#231;&#227;o dos dois n&#243;dulos-problema, da categoria Recursos, e dos tr&#234;s n&#243;dulos mais frequentes nas categorias de Estrat&#233;gias e Conceitos; d) Gera&#231;&#227;o dos arquivos-estudo resultantes do processamento das listas no Mapeador Sem&#226;ntico; e) C&#225;lculo das freq&#252;&#234;ncias absolutas de conex&#227;o nodular e das RVNCs; f) Lan&#231;amento gr&#225;fico dos resultados e interpreta&#231;&#227;o segundo a Teoria Hol&#237;stica. Os resultados, ainda em fase explorat&#243;ria, s&#227;o sugestivos de manuten&#231;&#227;o do papel de &#8220;t&#233;cnico heterodirigido&#8221; mesmo em face dos recursos da inform&#225;tica e da Internet no contexto de ensino de l&#237;nguas.</p> <p>&#160;</p> <p>&#160;</p><div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2010/09/28/sessao-session-2-ensino-de-lingua-estrangeira-e-corpora-de-aprendizes-foreign-language-teaching-and-learner-corpora">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div> Sessão/Session 2: Corpora de Aprendizes e Ferramentas de processamento de corpora / Learner Corpora and Corpus-processing Tools

2.1. Pacotes lexicais em corpora de aprendizes (Deise Prina Dutra e Tony Berber Sardinha, UFMG e PUC-SP)

Desde que Firth (1935) ponderou que o significado de uma palavra dependia muito das outras palavras com as quais ela ocorria, muitos linguistas têm se ocupado em desvendar os padrões de colocações, unidades pré-fabricadas ou sequências formulaicas (c.f. Wray 2002, Schmitt 2004). Esses estudos têm se tornado cada vez mais profícuos devido aos desenvolvimentos computacionais que tornam possível a identificação de padrões lexicais com palavras tanto de baixa quanto de alta frequência (e.g. “rancid butter (but not *rancid bread) ... go grey, brown, white; people go (but not *turn)” O´Keefee, McCarthy and Carter 2007: 59) em grandes coletâneas de textos. Ressaltamos os estudos que têm utilizado o termo ‘pacotes lexicais’ (lexical bundles; Biber et al. 1999) pelo amplo escopo em que enquadram o fenômeno linguístico de padrões lexicais. Pacotes lexicais são definidos, então, como “simplesmente sequências de  palavras que comumente estão juntas em discurso natural” (Biber et al. 1999: 990). A ocorrência desses pacotes no discurso acadêmico têm sido enfocada de diversos modos, como por exemplo em relação a diferenças entre registros do discurso universitário (Biber at al. 2004) e entre diferentes disciplinas (Hyland 2008). A extração de pacotes lexicais é computacionalmente trivial, ou seja, a maioria dos programas de processamento de corpora os identifica. Por outro lado, sua classificação em categorias semânticas, pragmáticas, textuais e/ou discursivas é muito complexa, dependendo de julgamento humano, e tem sido objeto de poucos estudos até o momento (como Biber et al. 1999, Hyland  2008 e Simpson-Vlach & Ellis 2010). O uso de colocações e seqüências formulaicas por falantes não nativos (FNs) é um assunto de crescente interesse na área de análise contrastiva da interlíngua (Granger 1998) baseada em corpus. Resultados de pesquisa indicam que corpora de aprendizes contêm unidades pré-fabricadas com diferentes usos sintáticos e funções pragmáticas  (de Cock et al. 1998) das produzidas por falantes nativos; e mais pacotes com verbo e organizadores discursivos ocorrem em corpora de aprendizes do que em corpora de textos publicados, além de apresentarem tendência de grandes generalizações e repetição de certas expressões idiomáticas (Chen & Baker 2010). Não havia, no entanto, até o presente estudo, uma ampla classificação de pacotes lexicais em corpora de aprendizes.  O objetivo deste trabalho, que relata pesquisa de pós-doutoramento, é identificar e classificar pacotes lexicais em três corpora de textos escritos de aprendizes de acordo com as categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic Formulas List (AFL), oriunda do Michigan Corpus of Academic Spoken English (MICASE), do British National Corpus e do corpus de Hyland (2004). Os corpora enfocados são Louvain Corpus of Native English Essays – LOCNESS, International Corpus of Learner English - ICLE e o Br-ICLE, subcorpus do ICLE com textos de alunos brasileiros, que juntos somam 4.251.714 palavras. Este é o primeiro estudo que promove uma classificação de pacotes lexicais de todo o ICLE. A metodologia incluiu os seguintes passos. Primeiramente, os pacotes de 3 e 4 palavras foram extraídos de cada corpora com um scripts especialmente criados para esta investigação. Em segundo lugar, os pacotes foram categorizados manualmente nas categorias principais (expressão referencial, expressões de julgamento e organizadores discursivos) e secundárias da AFL (e.g. atributos de enquadramento tangíveis e não tangíveis, expressões de habilidade e possibilidade, metadiscurso e referência textual), num total de 18 subcategorias. Posteriormente, verificamos quais categorias são as mais frequentes em cada corpora. Em seguida, analisamos subcategorias especificas e geramos linhas de concordância (com scripts específicos e com o WordSmith Tools) para verificar seu uso em contexto bem como os padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer. Em terceiro lugar, a dispersão dessas ocorrências nos textos do Br-ICLE foi identificada, e testes estatísticos (qui-quadrado e F) foram aplicados para verificar se havia diferenças significativas entre as ocorrências nos corpora. Os resultados revelam que: a) a categoria mais frequente é a de expressões referenciais, o que reflete os achados de Simpson-Vlack e Ellis (2010), com exceção de diferenças na frequência de certos pacotes lexicais, tais como with regard to; b) dentre as expressões de julgamento, há poucos atenuadores (e.g. likely) e, há preferência por expressões de avaliação (e.g. it is important to) no Br-ICLE; c) na subcategoria expressões de habilidade e possibilidade (categoria expressões de julgamento) houve o uso de certos pacotes lexicais, porém, constatamos, uma diferença significativa (p=0.022) entre o LOCNESS e o Br-ICLE quanto às ocorrências de be able to; d) o programa de análise de pacotes lexicais, desenvolvido para esta pesquisa e em período de teste, tem se mostrado uma boa ferramenta para análise de redações de aprendizes de inglês. Concluímos que há diferenças entre os corpora quanto ao uso de pacotes lexicais, principalmente, entre os corpora LOCNESS e Br-ICLE. Essas diferenças se tornam mais significativas na categoria de expressões de julgamento. No seu conjunto, as diferenças entre os corpora de aprendizes e o corpus LOCNESS ajudam a traçar um perfil léxico-gramatical (Berber Sardinha, no prelo) da escrita de alunos de inglês como língua estrangeira, apontando a utilização de padrões produtivos da língua que podem colaborar para que a escrita desses aprendizes se torne mais proficiente. Além das várias ferramentas desenvolvidas para processar os corpora, a pesquisa ainda permitiu criar um software dedicado exclusivamente à identificação e classificação de pacotes lexicais. Durante a apresentação será feita uma demonstração do programa, indicando seu potencial bem como suas limitações. O programa de identificação de pacotes lexicais pode ser um caminho promissor para ajudar a disseminar o uso de desse tipo de construção como instrumento de análise de corpora de aprendizes, na medida em que fornece uma classificação automática inicial ao pesquisador.

2.2. Notas metodológicas para a elaboração de corpora digitais para fins didáticos de excertos de prosa grega antiga baseados em keywords (Anise A. G. D'Orange Ferreira, FCL/ Araraquara, UNESP)

Esta comunicação tem como objetivo apresentar as motivações de um projeto em andamento  para se elaborar corpora digitais para fins didáticos, de excertos de textos de prosa grega antiga, adotados no ensino de grego em curso superior, e discutir alguns pontos, critérios e procedimentos metodológicos envolvidos no processo, bem como apresentar alguns resultados já obtidos. Os métodos de ensino de língua grega, em sua maioria, seguem uma sequência baseada na divisão tradicional das gramáticas gregas, para contemplar as competências linguísticas necessárias à leitura de textos clássicos.  Com isso, textos não-autênticos são criados para limitar a prática de leitura a uma variação linguística restrita à  seção gramatical particularmente estudada. Assim, critérios baseados mais na manutenção da tradição, do que em procedimentos empíricos, como frequência de uso, tem sido aplicados.  Com a digitalização de grandes corpora de textos gregos e criação de mecanismos automáticos de recuperação de informações lexicais, tornou-se possível testar e acrescentar novos critérios e procedimentos empíricos para a elaboração de materiais didáticos para o ensino de língua grega antiga. Dessa forma, as competências linguísticas podem ser associadas a indicadores empíricos de frequência e não apenas a de complexidade formal,  independente de uso. Naturalmente, novos critérios são acompanhados de novas questões e problemas metodológicos. Uma das questões é decidir os limiares de frequência adequados para a definição e seleção de unidades lexicais e frasais em um corpus com finalidade didática. Alguns indicadores  quantitativos  tem sido calculados, como a obtenção do número de ocorrência de palavras, types e tokens, em  obras clássicas dentro de um grande projeto de biblioteca digital chamado Perseus Web Project, com um acervo, embora grande, limitado a materiais em domínio público ou com distribuição  pública autorizada. Nesse projeto, disponível gratuitamente na Internet, todas as palavras do acervo são indexadas e vinculadas às entradas correspondentes a um dicionário grego-inglês, para cálculo de lemas. Também são vinculadas a uma ferramenta que analisa automaticamente as  flexões, indicando gênero, número, caso, pessoa, tempo, modo, aspecto e voz  da palavra consultada, de acordo com sua categoria gramatical, i.e, substantivo,  adjetivo, pronome, artigo, verbo, advérbio, preposição, conjunção ou partícula. Com o acervo maior, de outro projeto, de acesso restrito a assinantes, Thesaurus Linguae Graecae (TLG), a área de estudos gregos da Universidade Católica de Louvain vem oferecendo com acesso aberto os textos digitais do TLG convertidos a unicode  e apresentados em formato de hipertexto, com lista de vocabulário,  itens lexicais em faixas de frequências em ordem decrescente, indicação de número types  e tokens.   A informação sobre a relação entre esses permite comparar a densidade lexical de obras previstas em um programa curricular, e selecionar, para alunos menos experientes, os menos densos. Ainda, a seleção de excertos de língua e modelos significativos  do ponto de vista do uso requer outros indicadores. A proposta aqui é discutir a utilização dos parâmetros de frequência e keyness nas  keywords como “nós” ou “âncoras” de co-ocorrências para localização de padrões frasais e seleção de excertos que contenham formas e estruturas relevantes ao ensino da leitura de textos de prosa grega, nos níveis possíveis, morfossintático, semântico e enunciativo. A finalidade maior da proposta é extrair excertos de obras selecionadas de 14 prosadores gregos de diferentes períodos e estilos,  a saber : Apolodoro (I-II d.C.), Artemidoro (II d.C.), Aristóteles (IV a.C.), Demóstenes (IV a.C.), Diógenes Laércio (III d.C.), Esopo (VI a.C.), Górgias ( V-IV a.C.), Heródoto (V a.C.), Isócrates (V-IV a.C.), Lísias (V-IV a.C.), Platão (V e IV a.C.), Plutarco (I-II d.C), Tucídides (V a.C.) e Xenofonte (V-IV a.C.). Para demonstrar e discutir os procedimentos metodológicos, foi selecionado o corpus da Poética,  de Aristóteles. Os procedimentos envolveram a extração de parâmetros gerais do corpus, como tamanho, número de palavras (tokens  e types), e lista de frequência de ocorrências de itens lexicais por ordem decrescente, uma lista por ordem alfabética, e pelas terminações (o que permite observar as flexões recorrentes), bem como listas de ocorrências de n-grams e clusters. Algumas particularidades do texto grego são observadas em relação ao alfabeto e à transmissão. Para a extração de keywords,  discutem-se   parâmetros para a definição do corpus de referência, como tamanho e  diversidade, e os valores críticos  para keyness obtido por LL (Log-likelihood) calculado pelo software AntConc. Com 376  keywords  selecionadas ao nível de significância associado a valores de keyness  superiores a 10,83 (p<0,001), ou com 1197 keywords,  considerando-se o escore médio, 7,88 (p<0,005), comparou-se o resultado  com os itens mais frequentes em termos de distribuição de frequência de ocorrências e postos. Na lista de keywords,  pôde-se observar, logo entre as primeiras 20 palavras de maior keyness, tópicos importantíssimos tratados na Poética, como tragoidia (tragédia), mímesis (mímese, representação), epopoiía (epopéia) e  anagnorisis (reconhecimento),  nos casos genitivo, acusativo e nominativo,  e os verbos flexionados dei, (é preciso) e mimountai (representam). Na lista de frequência, tais termos aparecem depois do centésimo posto. Com  a verificação das concordâncias e dos clusters associados às keywords,  revelaram-se recorrências morfossintáticas (ex.: uso de dei  com infinitivos e partícula explicativa), destacando  mecanismos enunciativos (deôntico e epistêmico) e tipo de discurso (teórico); ainda com a recorrência de casos, observa-se o destaque de  papéis sintático-semânticos de determinados substantivos. Os presentes resultados parecem promissores para a elaboração de corpora com finalidade didática, de excertos de textos de prosa grega antiga, favorecendo a continuidade de refinamentos metodológicos com as demais obras.   Descritores úteis em diferentes níveis de linguagem podem ser obtidos pelos procedimentos empíricos levantados. Espera-se estender os testes com variações de corpus de referência e níveis de significância diferentes.  Embora sejam procedimentos largamente difundidos entre estudos com línguas modernas, sua aplicação em língua clássica para a finalidade proposta é recente e escassa.

2.3. Desenvolvimento de um parser de conectores textuais e sua aplicação para análise de gêneros textuais - Leonardo Zilio (Letras/UFRGS) e Rodrigo Wilkens (PPGC/UFRGS)

Neste trabalho, apresentamos dois estudos interligados. O primeiro estudo se relaciona ao desenvolvimento de uma ferramenta (um parser) de análise de corpora, enquanto o segundo se refere à aplicação dessa ferramenta para observar dados sobre os gêneros textuais. Começamos pela ferramenta. Os estudos sobre a Teoria de Estrutura Retórica (RST) não são muito desenvolvidos no âmbito lusófono. Apesar de haver estudos sobre o assunto, há poucas ferramentas que analisam automaticamente o fluxo textual e que tenham sido desenvolvidas especificamente para a nossa língua. Visando a suprir parte dessa lacuna, propusemo-nos, a partir de uma cooperação entre a Linguística e a Computação, a desenvolver uma ferramenta que faça uma análise a partir da varredura de corpora. Por motivos de escopo do trabalho, não há como abordar todas as lacunas existentes na análise automática de estruturas textuais para a língua portuguesa, de forma que optamos por abordar a concatenação oracional dos textos. Dessa forma, nosso objetivo foi criar uma ferramenta que não só quebrasse o texto em segmentos oracionais, mas também que classificasse os tipos de oração presentes nesse texto a partir dos conectores textuais, apresentando, assim, até certo nível, sua estrutura de coesão. Para realizar este trabalho, utilizamos uma abordagem linguística e uma abordagem computacional. Na parte linguística, a seção sobre junções apresentada na Gramática de Usos do Português foi de grande importância para a seleção e categorização inicial dos conectores textuais, servindo como base para posterior ampliação com base no corpus observado. Na parte computacional, utilizaram-se, como principal base teórica, artigos e trabalhos já realizados área de Processamento da Linguagem Natural (PLN), como o DiZer, desenvolvido junto ao Núcleo Institucional de Linguística Computacional (NILC). Nosso parser foi desenvolvido com base na linguagem de programação Java, por ser uma linguagem de fácil portabilidade, e integra também o parser de dependências do PALAVRAS. O corpus de teste era composto por 40 textos, perfazendo 4.105 tokens (o mesmo corpus utilizado para o DiZer). Esse dado foi obtido com o software WordSmith Tools 4. A razão do tamanho reduzido desse corpus foi seu objetivo: goldstandard e observação de novos conectores (não previstos pela Gramática de Usos). Como seria utilizado para fins de teste, o corpus foi manualmente anotado por um linguista. Nosso parser funciona da seguinte maneira: 1 – o texto a ser analisado é pré-processado; 2 – o PALAVRAS gera a anotação da árvore de dependências de cada uma das frases; 3 – a partir da anotação de dependências do PALAVRAS, o parser separa as orações/segmentos de acordo com regras e faz a anotação dos conectores encontrados em cada oração/segmento. As categorias de orações são as seguintes: aditiva, adversativa, causal, comparativa, concessiva, condicional, conformativa, consecutiva, final, modal, parafrástica, complementadora e temporal. Após a realização dos testes, obtivemos um percentual de acertos de 86,2% em relação ao corpus anotado. Tendo a ferramenta em mãos, partimos para a sua aplicação em um corpus de estudo. A motivação para este segundo trabalho foi observar até que ponto a microestrutura (neste caso, as conexões oracionais) é distinta entre textos de subáreas da Medicina. Escolhemos artigos científicos das áreas de Cardiologia e Radiologia por haver, na literatura, questionamentos quanto ao seu pertencimento a um mesmo gênero. Este estudo não tem um tom conclusivo quanto ao objetivo, pois estamos abordando apenas um parâmetro da microestrutura textual, mas intencionamos colaborar com essa discussão. Para atingirmos essa meta, montamos um corpus composto por 20 seções de artigos do periódico Arquivos Brasileiros de Cardiologia (v. 94, nº 5): 10 introduções (3.383 tokens) e 10 discussões (11.341 tokens); e 20 seções de artigos do periódico Radiologia Brasileira (v. 43, nº 2): 10 introduções (4.760 tokens) e 10 discussões (8.129 tokens). A análise procedeu da seguinte maneira: 1 – usando nosso parser, foi analisada cada uma das seções de artigos do corpus; 2 – dados sobre tipo de orações, quantidade de conectores e quantidade de segmentos foram armazenados em uma planilha do Excel; 3 – a partir dessa planilha, foram levantados resultados estatísticos sobre a microestrutura oracional do corpus de estudo. Além do Excel 2007, também foi utilizado o software Statistica7 para fins de cálculos estatísticos. Os resultados mostraram que a Cardiologia e a Radiologia se opõem quando comparadas as seções de seus artigos. Nas introduções, a Radiologia apresentou 41,57% de segmentos com conectores, contra 39,44% da Cardiologia. Já nas discussões, a Cardiologia apresentou 46,53% de segmentos com conectores, contra 45,20% da Radiologia. Apesar dessa oposição, a proximidade dos resultados deixa bastante claro que a diferença não é significativa, o que foi comprovado pelo teste t. As introduções da Radiologia se destacaram pela presença mais marcante de orações relativas, enquanto a Cardiologia teve uma curva mais suave, com picos nas relativas, complementadoras e causais. Nas seções de discussão, as complementadoras assumem a ponta, nas duas subáreas, deixando as relativas em segundo lugar, na Cardiologia, porém, a diferença entre ambas é menor. Por fim, nosso parser se mostrou uma ferramenta confiável para a análise de corpora. Cerca de 1/5 dos erros foram herdados do PALAVRAS. E pouco mais da metade dos erros tem como origem determinadas orações coordenadas que optamos por não tratar nesta primeira versão do parser. Este trabalho não está encerrado e prevemos melhorias para sua próxima versão, incluindo o tratamento dessas orações coordenadas. Apesar de ainda não estar em sua versão mais robusta, o parser permitiu a análise de corpus e auxiliou a alcançar os objetivos propostos para um trabalho linguístico. Após a observação do corpus de estudo, percebemos que as seções observadas de Cardiologia e Radiologia não apresentam diferenças significativas, de forma que poderíamos tomar o corpus como um todo para fazermos asserções sobre a área da Medicina. Ainda não acreditamos em tal possibilidade porque é necessário compararmos esses dados com dados de outras subáreas, para garantirmos que essa homogeneidade se propaga através da Medicina.

 

2.4. O mapeador semântico como ferramenta para o estudo de mapas conceituais em corpora eletrônicos (Marcos Gustavo Richter, UFSM)

Esta comunicação tem por objetivo apresentar um novo software de análise semântica de corpora eletrônicos, desenvolvido conjuntamente sob os auspícios da Pontifícia Universidade Católica de São Paulo e a Universidade Federal de Santa Maria, Rio Grande do Sul. Esta ferramenta aplica o princípio da medida da recorrência de strings em listas de concordância de nódulos-problema, candidatos para campos semânticos hipotéticos de corpora analisados.  Ao analisar qualitativa e quantitativamente as interconexões dos cotextos, o Mapeador coloca à disposição do usuário informações sobre o comportamento em rede semântica dos nódulos de interesse de sua pesquisa, as quais podem ser utilizadas qualitativa e/ou quantitativamente para elucidar questões acerca das associações semânticas das palavras, bem como das respectivas forças associativas e, dessa maneira, auxiliar no mapeamento conceitual do corpus. O Mapeador Semântico requer o upload de arquivo único em formato txt, sobre o qual opera comparando cotextos de palavras selecionadas, localizando, identificando, quantificando e totalizando os colocados coincidentes (links), exceto palavras por ignorar. Os resultados são disponibilizados e exibidos na forma de um lote de arquivos texto com listagens de informações quantificadas, assim distribuídas: a) nodulos.txt: as palavras pesquisadas; b) results_left.txt: comparação dos contextos à esquerda; c) results_left_right.txt: comparação dos contextos à esquerda com os da direita; d) results_position_by_position.txt: comparação de posição a posição; e) results_right.txt: comparação dos contextos à direita; f) results_right_left.txt: comparação dos contextos à direita com os da esquerda. É recomendável refinar os resultados pela inclusão de uma lista de palavras para ignorar. Nesse caso, o uso desta listagem pelo programa é confirmada pela sua presença no referido lote de arquivos, com a identificação stopwords.tmp. As propriedades do Mapeador são demonstradas por meio de um estudo da formação de conceitos emergentes a respeito do professor de línguas com base na linguística de corpus. O contexto da pesquisa são as iniciativas de apoio à formação inicial e continuada de profissionais qualificados numa determinada área de atuação, no caso, a Licenciatura em Letras.  O corpus de cerca de trinta mil palavras resultou da compilação de um ano de artigos publicados em uma conhecida revista direcionada a esses profissionais. A questão que deu origem a este estudo é: Com a introdução de novas tecnologias em contextos de ensino, as expectativas sobre o papel do professor de línguas mostram tendência a alteração ou insistem em estereótipos prejudiciais à emancipação profissional? O referencial teórico para a interpretação dos dados foi a Teoria Holística da Atividade, um modelo heurístico especial resultante de contribuições da Teoria dos Sistemas Sociais de Niklas Luhmann e da Semiótica de Charles S. Peirce. A metodologia adotada para esta investigação alicerçou-se na linguística de corpus e empregou como ferramentas computacionais o programa WordSmith Tools 4.0 e o Mapeador Semântico. Com este último, utilizou-se a medida da coesão semântica entre categorias nodulares denominada Razão Vinculativa Nodular Comparada (RVNC). Os procedimentos metodológicos seguiram as seguintes etapas: a) Conversão dos artigos selecionados em arquivos-texto e compilação em pasta; b) Obtenção de Wordlist; c) Seleção dos dois nódulos-problema, da categoria Recursos, e dos três nódulos mais frequentes nas categorias de Estratégias e Conceitos; d) Geração dos arquivos-estudo resultantes do processamento das listas no Mapeador Semântico; e) Cálculo das freqüências absolutas de conexão nodular e das RVNCs; f) Lançamento gráfico dos resultados e interpretação segundo a Teoria Holística. Os resultados, ainda em fase exploratória, são sugestivos de manutenção do papel de “técnico heterodirigido” mesmo em face dos recursos da informática e da Internet no contexto de ensino de línguas.

 

 

]]>
http://corpuslg.org/gelc/elc2010.php/2010/09/28/sessao-session-2-ensino-de-lingua-estrangeira-e-corpora-de-aprendizes-foreign-language-teaching-and-learner-corpora#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=73
Computadores disponíveis para apresentadores da modalidade 2 http://corpuslg.org/gelc/elc2010.php/2010/09/25/computadores-disponiveis-para-apresentadores-da-modalidade-2 Sat, 25 Sep 2010 17:24:03 +0000 blogadmin Avisos Importantes Programação 118@http://corpuslg.org/gelc/ Teremos todos os laborat&#243;rios &#224; disposi&#231;&#227;o e os apresentadores da modalidade 2 v&#227;o poder usar os computadores da pr&#243;pria PUCRS se preferirem.<div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2010/09/25/computadores-disponiveis-para-apresentadores-da-modalidade-2">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div>

Original post blogged on b2evolution.

]]>
http://corpuslg.org/gelc/elc2010.php/2010/09/25/computadores-disponiveis-para-apresentadores-da-modalidade-2#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=118
Modalidade 2 / Work in Progress http://corpuslg.org/gelc/elc2010.php/2010/09/19/modalidade-2-work-in-progress Sun, 19 Sep 2010 17:35:37 +0000 blogadmin Programação Resumos Aceitos 78@http://corpuslg.org/gelc/ <p>Os trabalhos abaixo foram aceitos para apresenta&#231;&#227;o como modalidade 2 / work in progress. Os autores podem apresentar os trabalhos em <a href="/gelc/elc2010.php/2010/08/26/programacao">qualquer uma das sess&#245;es ou em ambas</a>.</p> <p>Sujeito a altera&#231;&#245;es.</p> <div><ol> <li> Investigando a tradu&#231;&#227;o de termos simples, express&#245;es fixas e semifixas em um corpus paralelo da sub&#225;rea de antropologia das civiliza&#231;&#245;es Talita Serpa UNESP <p>Com o prop&#243;sito de examinar o uso do l&#233;xico na sub&#225;rea de Antropologia das Civiliza&#231;&#245;es, procedemos &#224; compila&#231;&#227;o de um corpus de estudo, no formato paralelo, a partir de tr&#234;s obras de autoria do antrop&#243;logo Darcy Ribeiro e das respectivas tradu&#231;&#245;es para a l&#237;ngua inglesa. Nossa pesquisa insere-se em um projeto maior, coordenado pela Profa. Dra. Diva Cardoso de Camargo, sobre caracter&#237;sticas semelhantes e diferentes observadas na tradu&#231;&#227;o especializada no que concerne ao l&#233;xico, notadamente no uso de termos simples, express&#245;es fixas e semifixas (BAKER, 1996; BERBER SARDINHA, 2004; CAMARGO, 2007). Quanto &#224; fundamenta&#231;&#227;o te&#243;rica, baseamo-nos em Baker (1996, 2000), que prop&#245;e o arcabou&#231;o te&#243;rico-metodol&#243;gico para os Estudos da Tradu&#231;&#227;o Baseados em Corpus, apoiando-se principalmente no conceito de normas de Toury (1978) e nos estudos envolvendo a Lingu&#237;stica de Corpus (SINCLAIR, 1991). De acordo com Baker, o uso de ferramentas computacionais possibilita a an&#225;lise dos dados com maior rapidez e precis&#227;o, permitindo observar um n&#250;mero maior de dados e desenvolver pesquisas na &#225;rea dos Estudos da Tradu&#231;&#227;o. Prop&#245;e, como objetivo principal da disciplina, a identifica&#231;&#227;o de caracter&#237;sticas do texto traduzido que levar&#227;o ao entendimento do que &#233; e de como funciona a linguagem da tradu&#231;&#227;o. O trabalho de levantamento de dados ser&#225; realizado com o aux&#237;lio do programa computacional WordSmith Tools. Contrastaremos os dados do corpus principal em rela&#231;&#227;o aos dados de dois corpora compar&#225;veis, formados de trinta obras de mesma natureza, originalmente escritas em portugu&#234;s e em ingl&#234;s. Alguns resultados encontrados na primeira fase de an&#225;lise mostram termos simples como: &#8220;escravaria&#8221; /slaves; &#8220;pajelan&#231;a&#8221; /shamanism; &#8220;patronato&#8221;/executives; &#8220;decultura&#231;&#227;o&#8221;/deculturation; e &#8220;etnoc&#237;dio&#8221;/ethnocide. Quanto &#224;s express&#245;es fixas e semifixas foram registradas, por exemplo: &#8220;ninguendade de n&#227;o-&#237;ndios&#8221; /nobodyness of non-indians; &#8220;sincretismo da pajelan&#231;a ind&#237;gena&#8221;/syncretism of indigenous shamanism; &#8220;protoc&#233;lula &#233;tnica&#8221;/ ethnicproto-cell; &#8220;solidariedade elementar fundada no parentesco&#8221;/ elementary solidarity founded on kinship; e &#8220;retra&#231;&#227;o das tribos ind&#237;genas&#8221;/ withdrawal of interior Indian tribes. O estudo tamb&#233;m permitir&#225; a elabora&#231;&#227;o de dois gloss&#225;rios, contendo termos simples e express&#245;es fixas e semifixas, acompanhados de seus cotextos, os quais poder&#227;o fornecer subs&#237;dios a pesquisadores, tradutores, alunos de tradu&#231;&#227;o e profissionais da sub&#225;rea de Antropologia das Civiliza&#231;&#245;es. <li> O uso de corpora no ensino de l&#237;ngua estrangeira para profissionais na &#225;rea de publicidade Cristina Mayer Acunzo PUC-SP (PG) <p>Este trabalho tem como objetivo preparar materiais de ensino de ingl&#234;s como L&#237;ngua Estrangeira usando um corpus eletr&#244;nico composto por textos da &#225;rea de Publicidade. Faremos a identifica&#231;&#227;o de itens e padr&#245;es lexicogramaticais distintivos da &#225;rea (Berber Sardinha, 2009), que formar&#227;o a base dos materiais a serem aplicados em sala de aula, com estudantes do idioma que atuam nesse meio. Para tanto, embasamo-nos na Lingu&#237;stica de Corpus e na Teoria da Complexidade (Morin, 2009), a qual usaremos como abordagem de aprendizagem. A pesquisa busca preencher lacunas como a falta de pesquisa no desenvolvimento de material did&#225;tico com corpus, bem como no ensino de ingl&#234;s para a &#225;rea de Publicidade, e a falta de pesquisa no desenvolvimento de material de ensino de l&#237;nguas sob a luz da Complexidade. Para atingir esses objetivos, formulamos as seguintes quest&#245;es: (1) Quais os padr&#245;es lexicogramaticais mais caracter&#237;sticos do corpus de Publicidade? (2) Quais atividades de ensino podem ser produzidas a partir desses padr&#245;es para o p&#250;blico-alvo? (3) Qual a rea&#231;&#227;o dos alunos &#224;s atividades produzidas? Primeiramente, coletamos um corpus de estudo de 1 milh&#227;o de palavras, composto por textos impressos e orais de sites que fornecem informa&#231;&#245;es sobre a atua&#231;&#227;o das ag&#234;ncias no mundo publicit&#225;rio. Como corpus de refer&#234;ncia, escolhemos o BNC (British National Corpus), de 100 milh&#245;es de palavras, composto por ingl&#234;s brit&#226;nico escrito e falado. O levantamento das palavras-chave ser&#225; feito com o aux&#237;lio das seguintes ferramentas: (1) Wordsmith Tools (http://www.lexically.net/wordsmith/), (2) CEPRIL ToolKit, (http://lael.pucsp.br/corpora), (3) KitConc (http://www.corpuslg.org/tools/) e (4) ConcGram (http://www.edict.com.hk/pub/concgram/), que oferecem meios de analisar corpora em busca da padroniza&#231;&#227;o lexicogramatical. A escolha por diversas ferramentas tem o objetivo de fazer uma compara&#231;&#227;o entre as mesmas, discutir e apresentar como os padr&#245;es mais relevantes podem ser selecionados. Em seguida, com base em Berber Sardinha (2004 e 2009) e Willis (1990), apresentaremos os procedimentos de transposi&#231;&#227;o dos achados para os materiais de ensino, ilustrando como desenvolver diversas atividades, centradas na concord&#226;ncia e centradas no texto (Berber Sardinha, no prelo). Por fim, faremos a aplica&#231;&#227;o dos materiais em sala de aula e a subsequente coleta de impress&#245;es dos alunos por meio de question&#225;rios e entrevistas. Com base em nosso estudo piloto, acreditamos que os resultados da pesquisa contribuir&#227;o para futuros desenvolvimentos de materiais para o ensino de L&#237;ngua Estrangeira com base na Lingu&#237;stica de Corpus, assim como para a &#225;rea de Publicidade. <li> Repensando a explicita&#231;&#227;o e os universais da tradu&#231;&#227;o: um estudo baseado em corpus Edna Regina Hornes UFRGS (PPG) <p>Segundo as te&#243;ricas dos estudos de tradu&#231;&#227;o Blum-Kulka e Mona Baker, explicita&#231;&#227;o &#233; o fen&#244;meno tradut&#243;rio em que elementos impl&#237;citos em determinado texto de partida s&#227;o explicitados ou explicados no texto de chegada, num esfor&#231;o naturalmente did&#225;tico do tradutor. Tal fen&#244;meno &#233; um dos chamados universais da tradu&#231;&#227;o, fen&#244;menos correntes em toda e qualquer tradu&#231;&#227;o. O fen&#244;meno da explicita&#231;&#227;o, especialmente, demonstraria, segundo as te&#243;ricas, que textos traduzidos teriam &#8220;sempre mais palavras que o seu par original, independentemente de g&#234;nero textual e pares de l&#237;ngua envolvidos&#8221;. O objetivo deste estudo &#233;, primeiramente, observar o processo explicitativo: se este seria efetivamente universal e se a adi&#231;&#227;o de palavras ocorreria, realmente, em todas as tradu&#231;&#245;es dos corpora desta pesquisa; outro prop&#243;sito &#233; verificar poss&#237;veis comportamentos tradut&#243;rios em g&#234;neros textuais diferentes e se estes influenciariam realmente o movimento explicitativo; e, finalmente, esta pesquisa prop&#245;e-se a observar em que medida a densidade terminol&#243;gica ou grau de especialidade nos diferentes g&#234;neros textuais influenciaria o fen&#244;meno da explicita&#231;&#227;o. Para fins de observa&#231;&#227;o at&#233; o momento, os corpora de estudo foram compostos por diversas tradu&#231;&#245;es elaboradas por diferentes tradutores experientes no mercado de trabalho de dois g&#234;neros textuais diferentes: o g&#234;nero resumo cient&#237;fico e o g&#234;nero liter&#225;rio, que ocupam posi&#231;&#245;es opostas no que se refere a grau de especialidade ou densidade terminol&#243;gica. Al&#233;m disso, os textos foram divididos em dire&#231;&#227;o tradut&#243;ria por pares de l&#237;ngua: na dire&#231;&#227;o portugu&#234;s-ingl&#234;s e na dire&#231;&#227;o ingl&#234;s-portugu&#234;s. Para tanto, os corpora foram compostos, separadamente, de diversas tradu&#231;&#245;es de: a) um resumo de artigo cient&#237;fico da &#225;rea de qu&#237;mica, originalmente escrito em portugu&#234;s e traduzido para o ingl&#234;s; b) um abstract da &#225;rea de f&#237;sica, originalmente escrito em ingl&#234;s, e traduzido para o portugu&#234;s; c) um excerto de obra liter&#225;ria originalmente escrita em ingl&#234;s e traduzida para o portugu&#234;s; d) um excerto de obra liter&#225;ria originalmente escrita em portugu&#234;s e traduzido para o ingl&#234;s. As observa&#231;&#245;es foram feitas com aux&#237;lio do software Wordsmith Tools, da Oxford University, que ajuda a identificar contextos de palavras e express&#245;es espec&#237;ficas, n&#250;mero total e parcial de palavras em um texto e palavras mais frequentes de um determinado texto. Em resultados ainda parciais, foi poss&#237;vel verificar que em n&#250;mero consider&#225;vel de tradu&#231;&#245;es dos resumos t&#233;cnico-cient&#237;ficos n&#227;o houve explicita&#231;&#227;o, ocorrendo o contr&#225;rio nas tradu&#231;&#245;es do g&#234;nero liter&#225;rio, em que em v&#225;rios excertos traduzidos o aumento do n&#250;mero de palavras foi maior do que em seu par original. Tais resultados sugeririam justamente o oposto do proposto pela teoria dos universais da tradu&#231;&#227;o: uma n&#227;o-universaliza&#231;&#227;o do fen&#244;meno da explicita&#231;&#227;o, al&#233;m de uma poss&#237;vel influ&#234;ncia de g&#234;neros textuais no ato tradut&#243;rio, assim como do grau de especialidade e da densidade terminol&#243;gica presente nos textos. <li> Cover stories: um estudo lingu&#237;stico das revistas semanais Renata Condi de Souza PUC-SP (PG) <p>A pesquisa de n&#237;vel de doutoramento prop&#245;e-se a observar e analisar as dimens&#245;es ling&#252;&#237;sticas e os padr&#245;es l&#233;xicogramaticais presentes nas reportagens de capa das revistas semanais de not&#237;cias TIME e Veja, comparando e contrastando a linguagem presente nessas m&#237;dias. Para tanto, faz-se uso de uma abordagem diacr&#244;nica de estudo, que conta com a coleta de textos publicados de 1930 a 2009 (TIME) e de 1968 a 2009 (Veja), na busca por dimens&#245;es ling&#252;&#237;sticas e na identifica&#231;&#227;o e an&#225;lise de padr&#245;es l&#233;xicogramaticais ao longo das d&#233;cadas. A investiga&#231;&#227;o tem como objetivo principal destacar e analisar as caracter&#237;sticas ling&#252;&#237;sticas e funcionais das reportagens de capa de cada d&#233;cada, seus fatores e suas dimens&#245;es. Busca-se tamb&#233;m observar e analisar seus padr&#245;es l&#233;xicogramaticais, agrupame ntos (clusters) e coloca&#231;&#245;es. Metodologicamente, aplicam-se os passos descritos por Biber (1988, 2007, entre outros) para a An&#225;lise Multidimensional na an&#225;lise inicial dos corpora, os quais incluem, resumidamente, a etiquetagem, a contagem de etiquetas, o carregamento dos dados em um programa estat&#237;stico, a an&#225;lise fatorial e a identifica&#231;&#227;o de fatores, caracter&#237;sticas ling&#252;&#237;sticas e funcionais e dimens&#245;es ling&#252;&#237;sticas. Em seguida, criam-se listas de palavras por meio de um programa de an&#225;lise lexical, comparam-se as listas com corpora de refer&#234;ncia e buscam-se linhas de concord&#226;ncia e agrupamentos a fim de observar e analisar os padr&#245;es l&#233;xicogramaticais. As ferramentas usadas s&#227;o: o etiquetador morfossint&#225;tico Tree-Tagger, na etiquetagem dos corpora; o programa estat&#237;stico PASW 18.0, na an&#225;lise fatorial; e o programa de an&#225;lise lexical WordSmith Tools 3.0, na busca por padr&#245;es l&#233;xicogramaticais, agrupamentos e coloca&#231;&#245; es. Os resultados da an&#225;lise piloto indicam diferen&#231;as em termos de uso da l&#237;ngua entre d&#233;cadas e a possibilidade de relacionar caracter&#237;sticas ling&#252;&#237;sticas a caracter&#237;sticas funcionais. <li> Um corpus para o estudo dos efeitos de frequ&#234;ncia no portugu&#234;s, o vox antiqua Gustavo Augusto de Mendon&#231;a Almeida e Marco Aur&#233;lio Silva Fonseca UFMG <p>Conforme resumem McEnery e Wilson (2001:123): &#8220;A pesquisa baseada textos emp&#237;ricos &#233; uma condi&#231;&#227;o sine qua non para a lingu&#237;stica hist&#243;rica, [...] uma vez que os textos que existem de um per&#237;odo hist&#243;rico formam um conjunto fechado de dados&#8221;. O Vox Antiqua &#233; um exemplo de que os estudos hist&#243;ricos n&#227;o podem se dissociar da lingu&#237;stica de corpus. O Vox Antiqua &#233; um corpus que busca possibilitar a pesquisa fonol&#243;gica diacr&#244;nica em portugu&#234;s. Trata-se de um corpus, ainda em constru&#231;&#227;o, que possui textos que v&#227;o desde o latim arcaico at&#233; o portugu&#234;s medieval. O corpus foi arquitetado tendo em vista o modelo fonol&#243;gico proposto por Bybee (2001). Para o que &#233; de relev&#226;ncia para este trabalho, tal modelo prop&#245;e que as representa&#231;&#245;es fonol&#243;gicas s&#227;o redundantes, organizam-se por prot&#243;tipos e sofrem efeitos de frequ&#234;ncia de ocorr&#234;ncia (token) e de tipo (type). O Vox Antiqua pretende ser uma ferramenta que possibilite a pesquisa diacr&#244;nica desses efeitos de frequ&#234;ncia em portugu&#234;s. Segundo Bybee (2001), haveria dois tipos de mudan&#231;a fon&#243;logica: uma com e outra sem motiva&#231;&#227;o fon&#233;tica. A mudan&#231;a com motiva&#231;&#227;o fon&#233;tica atingiria primeiro itens lexicais de alta frequ&#234;ncia de ocorr&#234;ncia. A autora retoma os argumentos de Mowrey e Pagliuca (1995) e diz que tais itens estariam mais propensos a sofrer uma redu&#231;&#227;o ou uma sobreposi&#231;&#227;o dos gestos articulat&#243;rios que os comp&#245;em. J&#225; a mudan&#231;a sem motiva&#231;&#227;o fon&#233;tica (tamb&#233;m chamada mudan&#231;a por nivelamento anal&#243;gico) atingiria primeiro itens lexicais com baixa frequ&#234;ncia de ocorr&#234;ncia. Tais itens seriam de dif&#237;cil acesso na mem&#243;ria e estariam propensos a seguir padr&#245;es mais produtivos na l&#237;ngua, que apresentassem alta frequ&#234;ncia de tipo (type). O corpus foi organizado seguindo, em linhas gerais, as diretrizes expostas em Sinclair (1996). Os textos que o integram prov&#234;m, principalmente, dos corpora: The Latin Library, Bibliotheca Augustana, Corpus Scriptorum Latinorum, Project Gutenberg e Corpus Informatizado do Portugu&#234;s Medieval. Atualmente, ele conta com cerca de 11 milh&#245;es de tokens. O objetivo com o corpus &#233; o estudo dos efeitos de frequ&#234;ncia na organiza&#231;&#227;o do l&#233;xico, contudo, para que esse objetivo seja atingido, &#233; preciso que a procura no corpus seja r&#225;pida e eficiente. Se se busca, por exemplo, comparar os efeitos da frequ&#234;ncia de ocorr&#234;ncia e de tipo na mudan&#231;a de recip&#61441;o para recebo com a mudan&#231;a que ocorreu com os verbos da 4a conjuga&#231;&#227;o latina, &#233; preciso que as informa&#231;&#245;es de frequ&#234;ncia estejam acess&#237;veis. Para isso, &#233; preciso que o corpus esteja bem etiquetado. At&#233; o presente momento, foi feita, a partir de um dicion&#225;rio, a etiquetagem das classes de palavras dos textos em latim. Informa&#231;&#245;es morfossint&#225;ticas para verbos (como conjuga&#231;&#227;o, tema, aspecto, tempo, modo, n&#250;mero e pessoa) tamb&#233;m foram anotadas atrav&#233;s de uma lista com as termina&#231;&#245;es verbais. Ainda se precisa fazer a etiquetagem das formas nominais dos textos em latim, bem como a etiquetagem de todo o corpus em portugu&#234;s medieval. Al&#233;m disso, &#233; preciso que seja feita a liga&#231;&#227;o entre as palavras dos dois corpora, de modo a se possibilitar a busca e a compara&#231;&#227;o entre as informa&#231;&#245;es de frequ&#234;ncia. <li> Estudo comparativo da frequ&#234;ncia de palavras em portugu&#234;s em corpus de aprendizes brasileiros e chineses Cristina Becker Lopes Perna, Sheila Nunes e Sun Yuqi PUC-RS/ PUC-RS (PG)/ PUC-RS (PG) <p>Sendo o portugu&#234;s a sexta l&#237;ngua materna e a terceira l&#237;ngua europ&#233;ia mais falada no mundo com mais de 200 milh&#245;es de falantes, esta pode ser considerada como uma l&#237;ngua do futuro. A expans&#227;o econ&#244;mica dos pa&#237;ses lus&#243;fonos e as cria&#231;&#245;es das organiza&#231;&#245;es internacionais, tais como UNESCO, MERCOSUL, OEA etc., trouxe um grande interesse no ensino de portugu&#234;s como l&#237;ngua estrangeira. O ensino de portugu&#234;s na China data do ano 1960 e, na &#250;ltima d&#233;cada, o n&#250;mero de cursos vem aumentando consideravelmente. Portanto, a investiga&#231;&#227;o do ensino de portugu&#234;s por falantes de chin&#234;s &#233; um tema muito importante atualmente. No entanto, n&#227;o encontramos nenhum estudo baseado em corpora de aprendizes de portugu&#234;s como L2 por falantes de mandarim, fato este que revela uma lacuna nas pesquisas. Esta pesquisa tem por objetivo comparar a frequ&#234;ncia dos itens lexicais na produ&#231;&#227;o escrita entre os falantes brasileiros de portugu&#234;s (L1) e os falantes chineses aprendizes de portugu&#234;s (L2) atrav&#233;s de dois g&#234;neros textuais &#8211; a cr&#244;nica e o blog. A cr&#244;nica aqui, &#233; definida como uma se&#231;&#227;o ou coluna de jornal sobre o tema especializado (Houaiis, p. 202). O Blog &#233; um tipo de texto que fornece coment&#225;rios ou not&#237;cias sobre um assunto em particular. Sua estrutura e tamanho s&#227;o sempre vari&#225;veis. Tratam-se de dois g&#234;neros textuais bem distintos: a cr&#244;nica &#233; mais formal e Blog &#233; mais pessoal. Segundo Biderman (1998), &#8220;a frequ&#234;ncia &#233; uma caracter&#237;stica t&#237;pica da palavra. Ali&#225;s, a norma lingu&#237;stica se baseia na frequ&#234;ncia dos usos lingu&#237;sticos. Assim, a norma lingu&#237;stica nada mais &#233; do que a m&#233;dia dos usos frequentes das palavras que s&#227;o aceitas pelas comunidades dos falantes. E n&#227;o &#233; s&#243; isso. Tamb&#233;m as mudan&#231;as lingu&#237;sticas que, no decorrer da hist&#243;ria, levam de um estado de l&#237;ngua a outro, adv&#234;m das frequ&#234;ncias de certos usos em detrimento de outros (P. 162)&#8221; Conforme Berber Sardinha (2004, p.18), o corpus &#233; &#8220;um conjunto de dados lingu&#237;sticos (pertencentes ao uso oral ou escrito da l&#237;ngua, ou a ambos), sistematizados segundo determinados crit&#233;rios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingu&#237;stico ou de algum de seus &#226;mbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados v&#225;rios e &#250;teis para a descri&#231;&#227;o e an&#225;lise&#8221;. Tendo como base a lingu&#237;stica de corpus, pretendemos verificar o que segue: (1) Qual &#233; a diferen&#231;a, em geral, na produ&#231;&#227;o entre os dois grupos: falantes nativos e falantes de mandarim; (2) Qual &#233; a diferen&#231;a na produ&#231;&#227;o dos dois g&#234;neros coletados entre brasileiros e chineses; (3) Qual &#233; o maior desafio na aprendizagem lexical dos alunos chineses; (4) De que forma podemos aproveitar o insumo no ensino de l&#237;ngua estrangeira. Quanto &#224; metodologia, a pesquisa cont&#233;m duas etapas - a coleta de dados e a an&#225;lise estat&#237;stica dos corpora A coleta de dados foi feita com dois grupos de informantes: 22 informantes participaram da pesquisa, sendo 11 chineses (5 femininos e 6 masculinos) e 11 brasileiros (5 femininos e 6 masculinos). Todos t&#234;m a mesma faixa-et&#225;ria (20-30 anos) e est&#227;o no terceiro/quarto ano de faculdade. Os informantes chineses s&#227;o aprendizes de portugu&#234;s como L2 do terceiro ano da Faculdade de Comunica&#231;&#227;o Internacional em l&#237;ngua portuguesa da Communication University of China, Nanjing e est&#227;o fazendo interc&#226;mbio no Brasil, frequentando a faculdade de Letras da Pontif&#237;cia Universidade Cat&#243;lica do Rio Grande do Sul. Os informantes brasileiros s&#227;o alunos regulares da PUCRS que vem de diversos cursos. Todos s&#227;o falantes nativos de portugu&#234;s do Brasil e nasceram no estado do Rio Grande do Sul. Escolhemos os informantes brasileiros que v&#234;m de faculdades diferentes a fim de garantirmos que o resultado da pesquisa n&#227;o seja influenciado pela sua &#225;rea de estudo. Para formar o corpus, os sujeitos tiveram que escrever duas cr&#244;nicas e dois blogs, a partir da compreens&#227;o de textos escritos que apresentam assuntos da atualidade. N&#227;o houve exig&#234;ncia de extens&#227;o dos textos redigidos. Para realizar a parte estat&#237;stica, primeiro, inserimos cabe&#231;alho e etiquetas, separando os textos escritos pelos brasileiros e pelos chineses. Segundo, utilizamos o software WordSmith Tools para a manipula&#231;&#227;o do corpus. Faremos, ent&#227;o, a classifica&#231;&#227;o dos itens lexicais de acordo com o uso frequente para ver que tipo de palavra &#233; mais ou menos frequente na produ&#231;&#227;o escrita. Tamb&#233;m analisaremos quais itens lexicais s&#227;o mais produzidas em cada g&#234;nero e pretendemos listar as palavras mais dif&#237;ceis de serem adquiridas entre falantes chineses. A presente pesquisa ainda est&#225; sendo realizada e est&#225; na etapa de trabalho com os dados no programa WordSmith Tools. <li> Coloca&#231;&#245;es da hotelaria: um estudo direcionado pelo corpus Sandra Lago Martinez Navarro FFLCH- USP (PG) <p>O turismo &#233; um setor de bastante express&#227;o no cen&#225;rio econ&#244;mico e cultural do mundo. Intimamente relacionado a essa atividade, est&#225; o setor hoteleiro, um segmento multicultural no qual a comunica&#231;&#227;o exerce um papel crucial e a tradu&#231;&#227;o &#233; uma necessidade constante. Os tradutores, por sua vez, deparam com os desafios de uma &#225;rea t&#233;cnica que apresenta, por um lado, um grande volume de tradu&#231;&#245;es, sobretudo de sites dos estabelecimentos hoteleiros, e, por outro, uma real escassez de obras de refer&#234;ncia confi&#225;veis e abrangentes, especialmente as bil&#237;ngues voltadas &#224;s necessidades do tradutor como produtor textual. Diante desse cen&#225;rio, vivenciado durante minha experi&#234;ncia profissional como tradutora, surgiu o interesse de desenvolver uma pesquisa que auxiliasse o tradutor a chegar a uma tradu&#231;&#227;o mais natural, segundo os princ&#237;pios da Convencionalidade. Nesse sentido, o objetivo deste estudo, recorte de nossa pesquisa de mestrado, &#233; apresentar os resultados iniciais de uma proposta de gloss&#225;rio bil&#237;ngue (ingl&#234;s-portugu&#234;s), baseado em corpus, de coloca&#231;&#245;es da &#225;rea de hotelaria. Este estudo espec&#237;fico concentra-se nos padr&#245;es colocacionais mais recorrentes do termo room (quarto), identificado como um termo-chave do dom&#237;nio. Para tanto, encontramos respaldo te&#243;rico e metodol&#243;gico nos preceitos da Lingu&#237;stica de Corpus, &#225;rea que se pauta em uma vis&#227;o emp&#237;rica e probabil&#237;stica do sistema lingu&#237;stico e se ocupa da identifica&#231;&#227;o de padr&#245;es do l&#233;xico por meio da observa&#231;&#227;o de textos aut&#234;nticos, organizados em um corpus eletr&#244;nico (Tognini-Bonelli, 2001). Encontramos fundamenta&#231;&#227;o te&#243;rica tamb&#233;m nos postulados da Teoria Comunicativa da Terminologia (Cabr&#233;, 1993) e Terminologia Textual (Bourigault and Slodzian, 2004), correntes que compartem a vis&#227;o de que o texto &#233; o verdadeiro habitat das terminologias. Esta pesquisa situa-se ainda no escopo dos estudos de Convencionalidade, entendida como o conjunto dos elementos lingu&#237;sticos, cuja co-ocorr&#234;ncia n&#227;o &#233; explicada sint&#225;tica ou semanticamente, mas sim pelo uso (Fillmore, 1979) e da Fraseologia, ramo da ci&#234;ncia lingu&#237;stica que tem por objeto de estudo as combina&#231;&#245;es fixas das palavras, termos ou unidades lexicais. Para realizarmos o levantamento das coloca&#231;&#245;es, compilamos um corpus de estudo compar&#225;vel (textos originais em ingl&#234;s e em portugu&#234;s), contendo cerca de 200 mil palavras provenientes de textos descritivos publicados em sites de hot&#233;is do Brasil e EUA. Com vistas a uma maior representatividade, os subcorpora foram divididos em hot&#233;is de todas as categorias de estrelas. Em termos metodol&#243;gicos, esta pesquisa foi dividida em etapas, a saber: a revis&#227;o da bibliografia, a delimita&#231;&#227;o e compila&#231;&#227;o do corpus de estudo e a explora&#231;&#227;o do corpus por meio das ferramentas do software Wordsmith Tools (Scott, vers&#227;o 5). Esta etapa consistiu na elabora&#231;&#227;o de lista de palavras-chave, lista de colocados, lista de clusters, an&#225;lise das linhas de concord&#226;ncia, valida&#231;&#227;o dos colocados, levantamento dos equivalentes e sele&#231;&#227;o de exemplos para compor o verbete do gloss&#225;rio. Dentre os resultados obtidos a partir da primeira palavra-chave do subcorpus de ingl&#234;s, room, destaca-se seu colocado mais frequente: a preposi&#231;&#227;o &#8220;in&#8221;, que integra estruturas maiores, como in-room safe, in-room dining e in-room coffee maker. Como equivalentes, foi poss&#237;vel identificar cofre individual, room service e cafeteira, respectivamente. Nota-se o fato interessante de a palavra quarto estar ausente nos equivalentes encontrados, estando presente apenas nos contextos, como em: "Todos os quartos est&#227;o equipados com ar-condicionado, banheira, cofre individual, TV a cabo e frigobar.&#8221; Vale salientar a constata&#231;&#227;o de in-room dining ter como equivalente &#8220;em portugu&#234;s&#8221; uma coloca&#231;&#227;o em ingl&#234;s, room service, que por sua vez se mostrou mais comum que servi&#231;o de quarto nas descri&#231;&#245;es de hot&#233;is em portugu&#234;s. Apesar de os resultados apresentados neste estudo serem ainda preliminares, eles j&#225; demonstram que a &#225;rea em quest&#227;o &#233; bastante rica lexicalmente. Da&#237; nossa preocupa&#231;&#227;o em dar conta de uma terminologia in vivo, que descreva o real comportamento do l&#233;xico especializado em seu contexto de ocorr&#234;ncia. Espera-se que esta pesquisa possa fornecer ao tradutor elementos que contribuam para a maior adequa&#231;&#227;o de sua tradu&#231;&#227;o ou vers&#227;o, em especial, na &#225;rea de hotelaria. <li> Os epis&#243;dios de Chaves traduzidos para o portugu&#234;s do Brasil: an&#225;lise tradut&#243;ria e a lingu&#237;stica de corpus Orlanda Miranda Santos UFSC <p>Este projeto pretende contribuir para a forma&#231;&#227;o de pesquisadores em Estudos da Tradu&#231;&#227;o, Ensino de L&#237;nguas e L&#237;ngu&#237;stica de Corpus. Pretende proporcionar uma aplica&#231;&#227;o da Lingu&#237;stica de Corpus e de seus procedimentos e ferramentas no ensino de L&#237;ngua Espanhola, oferecendo um suporte te&#243;rico no campo disciplinar dos Estudos da Tradu&#231;&#227;o com interface nos aportes metodol&#243;gicos da Lingu&#237;stica de Corpus aplicados ao Ensino de L&#237;nguas. Justifica-se por conter um tema in&#233;dito e de grande interesse, especialmente, para professores de Espanhol como L&#237;ngua Estrangeira. Tem como objetivo geral: analisar a tradu&#231;&#227;o dos epis&#243;dios atrav&#233;s de padr&#245;es l&#233;xico-gramaticais mais frequentes nos corpora de estudo. Como objetivos espec&#237;ficos est&#227;o: levantar padr&#245;es l&#233;xico-gramaticais mais frequentes nos epis&#243;dios atrav&#233;s da Lingu&#237;stica de Corpus; verificar se esses padr&#245;es est&#227;o presentes no corpus de refer&#234;ncia; levantar padr&#245;es l&#233;xico-gramaticais mais frequentes na tradu&#231;&#227;o desses epis&#243;dios atrav&#233;s da Lingu&#237;stica de Corpus; verificar se esses padr&#245;es est&#227;o presentes no corpus de refer&#234;ncia; elaborar um material did&#225;tico que promova a conscientiza&#231;&#227;o dos alunos em rela&#231;&#227;o ao fato de que a linguagem &#233; composta por padr&#245;es l&#233;xico-gramaticais e que, ao mesmo tempo, promova o aprendizado de alguns padr&#245;es criteriosamente selecionados do corpus El Chavo del Ocho (Programa Chaves em espanhol). Chaves &#233; um programa televisivo criado na d&#233;cada de 70, no M&#233;xico, e que reproduz o contexto hist&#243;rico daquela &#233;poca e, no Brasil, Chaves &#233; considerado quase um programa brasileiro. El Chavo del Ocho, t&#237;tulo original da s&#233;rie, estreou em 1971 no M&#233;xico, exibida pela rede Televisa, com repercuss&#227;o mundial e traduzido em mais de 50 pa&#237;ses. Professores de espanhol dos diversos n&#237;veis de ensino utilizam Chaves em suas aulas. As tradu&#231;&#245;es para o portugu&#234;s do Brasil parecem alterar consideravelmente o sentido do texto original. Nesta pesquisa almeja-se responder a duas perguntas iniciais: Quais s&#227;o os padr&#245;es l&#233;xico-gramaticais mais frequentes nos corpora de estudo? Esses padr&#245;es tamb&#233;m est&#227;o presentes nos corpora de refer&#234;ncia? Ser&#227;o analisados epis&#243;dios das oito temporadas do programa. Os corpora de refer&#234;ncia ser&#227;o os de Davies (2002) e Davies e Ferreira (2006). Ser&#225;, portanto, um estudo de corpus paralelo, qualiquantitativo, com base na lingu&#237;stica emp&#237;rica e no sistema probabil&#237;stico. A Lingu&#237;stica de Corpus pode ser definida como a &#225;rea da Lingu&#237;stica que se ocupa da coleta e explora&#231;&#227;o de corpora, ou conjunto de dados ling&#252;&#237;sticos textuais, em formato leg&#237;vel por computador, que foram coletados criteriosamente com o prop&#243;sito de servirem para a pesquisa de uma l&#237;ngua ou variedade ling&#252;&#237;stica, como afirma Berber Sardinha (2004, p. 3). O computador tem capacidades como buscar, localizar e recuperar sequ&#234;ncias de caracteres ou contar ocorr&#234;ncias desta sequ&#234;ncia que s&#227;o triviais para o processamento de dados, mas seriam praticamente imposs&#237;veis para um ser humano. Gra&#231;as aos estudos baseados em corpora, j&#225; se pode afirmar que a linguagem &#233; padronizada, isto &#233;, formada por seq&#252;&#234;ncias de palavras (padr&#245;es) que se repetem v&#225;rias vezes. Tamb&#233;m j&#225; se sabe que os padr&#245;es variam de acordo com as diferentes situa&#231;&#245;es e contextos em que ocorrem (SINCLAIR, 1991; HUNSTON &amp; FRANCIS, 2000). <li> Dever e a&#231;&#227;o: a gera&#231;&#227;o de expectativas sobre o professor de l&#237;nguas no discurso midi&#225;tico, um estudo baseado em lingu&#237;stica de corpus Joseane Amaral UFSM <p>O presente trabalho deriva de um projeto de disserta&#231;&#227;o que re&#250;ne subs&#237;dios te&#243;ricos e emp&#237;ricos para analisar a gera&#231;&#227;o de expectativas e a constitui&#231;&#227;o do papel social do professor de l&#237;nguas, sob a &#243;tica do discurso midi&#225;tico. Esta pesquisa, de car&#225;ter qualiquantitativo, utiliza os aportes metodol&#243;gicos da Lingu&#237;stica de Corpus (LC), a saber o programa WordSmith Tools 4.0 e o Mapeador Sem&#226;ntico de Berber Sardinha e Richter (2009). Por meio da coleta e an&#225;lise de corpora compostos por textos midi&#225;ticos da &#225;rea de educa&#231;&#227;o de duas profiss&#245;es &#8211; o professor de Educa&#231;&#227;o F&#237;sica e o de Letras &#8211; pretendemos buscar respostas &#224; seguinte quest&#227;o: que propriedades lingu&#237;sticas marcam as expectativas relativas ao papel social do professor, discursivizado pela m&#237;dia especializada em educa&#231;&#227;o? Para tanto, procuraremos mapear expectativas cognitivas e normativas (Luhmann) em rela&#231;&#227;o aos fatores de atribui&#231;&#227;o da Teoria Hol&#237;stica da Atividade - THA (Richter, 2008, 2006), aqui entendidos como o conjunto de vari&#225;veis que definem a modelagem do papel social do professor &#8211; em suma, suas atribui&#231;&#245;es, modelos de conduta, refer&#234;ncia e perten&#231;a grupal (Richter, 2009). Pelos ind&#237;cios lingu&#237;sticos extra&#237;dos dos corpora, buscamos padr&#245;es que sobressaem, analisando semanticamente suas repercuss&#245;es. O confronto discursivo de textos em duas profiss&#245;es da esfera educacional, distintas juridicamente, procura verificar em que medida o papel social &#233; constitu&#237;do exogenamente nas profiss&#245;es n&#227;o emancipadas, como a doc&#234;ncia em Letras. O cotejo inicial dos corpora demonstra que existem discrep&#226;ncias nas atribui&#231;&#245;es do professor emancipado juridicamente, como no caso da Educa&#231;&#227;o F&#237;sica, em compara&#231;&#227;o &#224; realidade do professor desprovido de um lugar social delimitado, como o professor de l&#237;nguas. Assim, o papel social do professor de educa&#231;&#227;o lingu&#237;stica parece ser constitu&#237;do por expectativas cognitivas advindas de sistemas discursivos exteriores ao de sua esfera profissional, como &#233; o caso da m&#237;dia. <li> Val&#234;ncia de constru&#231;&#245;es emergentes: um estudo baseado em corpora e seus limites Luciana Beatriz &#193;vila UFMG <p>Com base em princ&#237;pios da Lingu&#237;stica Cognitiva, a pesquisa que, a princ&#237;pio, proponho desenvolver como tese de doutoramento tem como ponto central descrever como se apresentam, no Portugu&#234;s do Brasil (PB) e no Portugu&#234;s Europeu (PE), o que denomino constru&#231;&#245;es predicativas de conduta. Como exemplo, temos: (a) Luciana finge de inteligente. (b) Angel se faz de simp&#225;tica. (c) Nando paga de gatinho. (d) Thiago posa de hetero. (e) Cl&#225;udio ataca de escritor. Especificamente, pretendemos analisar o pareamento forma-sentido dessas constru&#231;&#245;es; investigar a integra&#231;&#227;o entre verbos e constru&#231;&#227;o; investigar as rela&#231;&#245;es pragm&#225;ticas estabelecidas; investigar como a sem&#226;ntica do verbo contribui para a sem&#226;ntica do frame interacional; propor uma generaliza&#231;&#227;o sobre as inst&#226;ncias da constru&#231;&#227;o com verbos que significam &#8220;agir como algu&#233;m que Voc&#234; n&#227;o &#233;&#8221;. Para tanto, empreenderemos uma pesquisa a partir dos dados dos corpora compar&#225;veis de fala espont&#226;nea do PB, C-ORAL-BRASIL, e do PE, C-ORAL-ROM, a fim de determinar a sua ocorr&#234;ncia e frequ&#234;ncia em mon&#243;logos, di&#225;logos e conversa&#231;&#245;es, e observar as diferen&#231;as de uso nessas duas variedades do portugu&#234;s. Os dados ser&#227;o cruzados a partir de par&#226;metros diastr&#225;ticos, diat&#243;picos, diam&#233;sicos e diaf&#225;sicos. Procederemos, tamb&#233;m, a uma an&#225;lise de base construcionista (GOLDBERG, 1995, 2006). Entendemos que uma abordagem baseada no uso realmente permite investigar os contextos em que determinado padr&#227;o &#233; encontrado e a an&#225;lise de fatores contextuais que influenciam sua varia&#231;&#227;o. No entanto, apesar de Gries destacar que &#8220;os m&#233;todos quantitativos da lingu&#237;stica de corpus podem fornecer evid&#234;ncia emp&#237;rica, sugerindo respostas para alguns problemas notoriamente dif&#237;ceis da lingu&#237;stica cognitiva&#8221; (GRIES, 2006, p. 57), observamos que um dos limites da lingu&#237;stica de corpus &#233; justamente o de n&#227;o dar conta de fen&#244;menos de baixa frequ&#234;ncia, como &#233; o caso do fen&#244;meno investigado aqui. Uma pergunta, pois, que se imp&#245;e &#233;: como levar a cabo uma pesquisa baseada no uso, se os corpora dispon&#237;veis n&#227;o apresentam frequ&#234;ncia m&#237;nima necess&#225;ria de um determinado tipo para que seu estudo possa ser significante? Consequentemente, pergunta-se mais genericamente: quais s&#227;o os refinamentos necess&#225;rios na compila&#231;&#227;o de corpora a fim de que eles possam refletir mais fidedignamente a realidade de uso da l&#237;ngua? <li> Um levantamento das caracter&#237;sticas das produ&#231;&#245;es escritas de brasileiros aprendizes de Ingl&#234;s como L&#237;ngua Estrangeira analisadas &#224; luz da Lingu&#237;stica de Corpus Wendell Dantas PUC-SP (PG) <p>Esta pesquisa em andamento tem como objetivo principal fazer um levantamento das caracter&#237;sticas salientes na produ&#231;&#227;o escrita do aluno brasileiro no idioma ingl&#234;s. Para tanto, o trabalho encontrou suporte te&#243;rico na Lingu&#237;stica de Corpus, &#225;rea que tem uma vis&#227;o probabil&#237;stica da linguagem e se ocupa da compila&#231;&#227;o, coleta e an&#225;lise eletr&#244;nica de textos em linguagem natural. Mais especificamente, o trabalho aqui apresentado fundamenta-se na &#225;rea de pesquisa chamada Corpora de Aprendizes, que se baseia na an&#225;lise de produ&#231;&#245;es de estudantes e pode servir &#224; &#225;rea de Ensino e Aprendizagem de Idiomas, e utilizou como metodologia a An&#225;lise Contrastiva de Interl&#237;ngua, que consiste na compara&#231;&#227;o eletr&#244;nica das produ&#231;&#245;es de alunos com produ&#231;&#245;es de falantes nativos e, consequentemente, na an&#225;lise das suas diferen&#231;as e semelhan&#231;as. As quest&#245;es de pesquisa propostas foram as seguintes: (1) Quais s&#227;o as caracter&#237;sticas gerais das produ&#231;&#245;es escritas do aluno brasileiro em ingl&#234;s? (2) Quais dessas caracter&#237;sticas podem gerar problemas de compreens&#227;o na intera&#231;&#227;o? Os corpora empregados na pesquisa foram um corpus de estudo compilado por n&#243;s, ao qual chamamos de COBRA-7 (Corpus Brasileiro de Aprendizes de Ingl&#234;s como L&#237;ngua Estrangeira &#8211; Seven Idiomas) com 81835 itens &#8211; compilado a partir da coleta de 425 reda&#231;&#245;es produzidas por aprendizes nos n&#237;veis pr&#233;-intermedi&#225;rio, intermedi&#225;rio e intermedi&#225;rio superior &#8211; e dois corpora de refer&#234;ncia, o BNC (British National Corpus), da variedade brit&#226;nica, e o COCA (Contemporary Corpus of American English), da variedade americana, que cont&#233;m, respectivamente, 100 e mais de 400 milh&#245;es de palavras. Para a an&#225;lise utilizamos os aplicativos Wordlist, Keywords e Concord, do software Wordsmith Tools, vers&#227;o 5.0.0.247. Os resultados de um estudo piloto do COBRA-7 apontaram para a presen&#231;a de marcas de oralidade, mas n&#227;o detectaram a presen&#231;a de fatores que dificultam a compreens&#227;o das composi&#231;&#245;es. Diante destas respostas, concluiu-se, primeiramente, que, embora este seja um estudo piloto realizado com aproximadamente 50% do corpus que pretendemos compilar, parece haver a necessidade do ensino formal dos tra&#231;os lingu&#237;sticos pertinentes &#224;s variedades oral e escrita da l&#237;ngua inglesa, uma vez que cada uma delas possui caracter&#237;sticas espec&#237;ficas e graus diferentes de formalidade. <li> Ensino e produ&#231;&#227;o de material de ingl&#234;s instrumental para a &#225;rea de Tecnologia Ambiental com base na Lingu&#237;stica de Corpus Vitor Ricardo Duarte UNISC-RS <p>O objetivo desta comunica&#231;ao &#233; apresentar uma pesquisa em andamento, n&#237;vel de Mestrado, que visa a a produ&#231;&#227;o de material did&#225;tico e de propostas para o ensino de ingl&#234;s instrumental para &#225;rea de Tecnologia Ambiental. Este estudo contempla duas etapas: a primeira etapa constitui-se dos procedimentos envolvidos para a produ&#231;&#227;o de um pequeno corpus e sua an&#225;lise lingu&#237;stica; a segunda, a elabora&#231;&#227;o do material did&#225;tico a partir dos dados coletados, considerando, conjuntamente, refer&#234;ncias da Lingu&#237;stica de Corpus (LC) e Lingu&#237;stica Cognitiva. Segundo dados apontados por Wray &amp; Perkins (2000), as sequ&#234;ncias formulaicas na comunica&#231;&#227;o podem constituir at&#233; 70% de uma l&#237;ngua. ERMANN &amp; WARREN (2000) demonstram que a frequ&#234;ncia dos elementos pr&#233;-fabricados na produ&#231;&#227;o escrita &#233; em torno de 55%. Esses dados &#8220;d&#227;o forte sustenta&#231;&#227;o ao idiom principle como formulado por Sinclair e revelam que a propor&#231;&#227;o de pr&#233;-fabricados na l&#237;ngua, de forma geral, tem sido subestimada&#8221;(ERMAN &amp; WARREN, 2000, p. 50). Acreditamos poder haver uma rela&#231;&#227;o entre o &#237;ndice de frequ&#234;ncia de um termo, o conhecimento das f&#243;rmulas lingu&#237;sticas mais utilizadas num determinado nicho cultural, a utiliza&#231;&#227;o de material aut&#234;ntico e o aprendizado de uma l&#237;ngua. A combinat&#243;ria dessas vari&#225;veis, parece-nos, pode contribuir para o aprendizado da segunda l&#237;ngua e parece ser pertinente articularmos o estudo e uso das f&#243;rmulas lingu&#237;sticas nesse &#226;mbito. A produ&#231;&#227;o de um small corpus &#233; o primeiro est&#225;gio desta pesquisa. Objetiva-se mapear e descrever o vocabul&#225;rio e padr&#245;es lingu&#237;sticos/formulaicos mais recorrentes, analisando sua frequ&#234;ncia no corpus. Este est&#225;gio da pesquisa norteia-se pelas seguintes perguntas: 1)Quais s&#227;o as palavras-chaves do corpus formado e quais termos t&#233;cnicos e express&#245;es espec&#237;ficos da &#225;rea Tecnologia Ambiental mais frequentes? 2) Quais s&#227;o as coloca&#231;&#245;es/coliga&#231;&#245;es, padr&#245;es l&#233;xico-gramaticais e vocabul&#225;rio mais recorrentes e sua frequ&#234;ncia? 3) Qual a propor&#231;&#227;o e quantidade de grupos lexicais no corpus elaborado? O desenho de atividades e tarefas pedag&#243;gicas, segunda etapa, ser&#225; realizado a partir do estudo lingu&#237;stico dos textos do small corpus compilado. Revisaremos propostas de ensino realizadas que utilizem a LC como referencial, tais como o Data Driven Learning, Lexical Approach, Lexical Syllabus. Busca-se o entrecruzamento de informa&#231;&#245;es advindas de pesquisas do campo da Lingu&#237;stica Cognitiva sobre o aprendizado de uma segunda l&#237;ngua ( relev&#226;ncia da frequ&#234;ncia da exposi&#231;&#227;o &#224; l&#237;ngua, import&#226;ncia da qualidade do input, processamento mental do l&#233;xico) que corroboram dados apontados pela LC, para a elabora&#231;&#227;o de tarefas. Nesse est&#225;gio, estas perguntas s&#227;o colocadas: 1)Como explorar didaticamente os padr&#245;es lexicais mais frequentes nas atividades propostas em conson&#226;ncia com fundamentos da Lingu&#237;stica Cognitiva? 2) Quais estrat&#233;gias poderiam ser desenvolvidas para o ensino do vocabul&#225;rio t&#233;cnico/especializado? 3) Como utilizar e explorar os recursos tecnol&#243;gicos associados &#224; LC para oportunizar aos aprendizes maior probabilidade de exposi&#231;&#227;o &#224; l&#237;ngua(input)? Objetiva-se alcan&#231;ar os seguintes resultados at&#233; a conclus&#227;o desta pesquisa em mar&#231;o 2011: 1)Conclus&#227;o e disponibiliza&#231;&#227;o do small corpus; 2) Conclus&#227;o e apresenta&#231;&#227;o do levantamento lingu&#237;stico e 3) Elabora&#231;&#227;o de duas (ou mais) tarefas e atividades pedag&#243;gicas a serem utilizadas ao longo de um curso de Ingl&#234;s Instrumental. <li> Corpus BELC Aline Pacheco PUC-RS/ UFRGS <p>Este trabalho aborda a aquisi&#231;&#227;o de morfemas em ingl&#234;s como L2 por aprendizes falantes de portugu&#234;s brasileiro como L1 atrav&#233;s do BELC &#8211; Brazilian English Learner Corpus &#8211; um corpus de aprendiz elaborado primordialmente para os fins deste estudo. A pesquisa constitui uma tese de doutorado pela Universidade Federal do Rio Grande do Sul e est&#225; em fase final. Nos anos 70 e 80, observamos o desenvolvimento de estudos que propunham uma ordem na aquisi&#231;&#227;o de morfemas em ingl&#234;s. O estudo de Brown (1973) &#233; uma refer&#234;ncia em estudos sobre a aquisi&#231;&#227;o de ingl&#234;s, tanto na condi&#231;&#227;o de L1 como na condi&#231;&#227;o de L2. Brown observou um padr&#227;o evolutivo com rela&#231;&#227;o a estruturas morf&#234;micas. Krashen (1977) tamb&#233;m observou um padr&#227;o semelhante em ingl&#234;s como L2, mostrando a seguinte ordem na aquisi&#231;&#227;o de morfemas: 1.Present Progressive, Plural, Copula; 2. Auxiliary, Article; 3. Irregular Past; 4. Regular Past, Third person singular, Possessive. Com o objetivo de verificar o comportamento dos aprendizes brasileiros de ingl&#234;s como L2, propomos a investiga&#231;&#227;o dos est&#225;gios evolutivos de aquisi&#231;&#227;o de morfemas atrav&#233;s do BELC, um corpus elaborado a partir da coleta de textos escritos, sobre tr&#234;s temas bastante amplos, produzidos espontaneamente por aprendizes de ingl&#234;s de 8 n&#237;veis. O corpus foi coletado a partir de 424 sujeitos que produziram 902 textos e totalizaram aproximadamente 103 mil palavras. A metodologia da pesquisa foi totalmente baseada em princ&#237;pios da lingu&#237;stica de corpus (cf. Berber Sardinha, 2004) especialmente aplicados a corpora de aprendizes (cf. Granger, 2002). O corpus foi devidamente etiquetado para a an&#225;lise desta pesquisa e os resultados obtidos apontaram para a seguinte sequ&#234;ncia: 1. Copula, Plural; 2. Article, Possessive; 3. Present Progressive, Auxiliary, Irregular Past; 4. Regular Past, Third person singular. Os resultados preliminares apontam para algumas semelhan&#231;as e diferen&#231;as entre estes est&#225;gios. O trabalho tenta ainda propor algumas raz&#245;es para tais semelhan&#231;as e diferen&#231;as a partir dos trabalhos de Zobl e Liceras (1994) - que oferecem uma explica&#231;&#227;o de natureza sint&#225;tica para tal ordem, e Goldschneider &amp; Dekeyser (2005), que sugerem uma explica&#231;&#227;o de natureza multifatorial para uma poss&#237;vel sequ&#234;ncia natural na aquisi&#231;&#227;o de morfemas baseada em aspectos de sali&#234;ncia. <li> Base de dados morfol&#243;gicos de terminologias do portugu&#234;s do Brasil: descri&#231;&#227;o e an&#225;lise morfol&#243;gica com vistas &#224; disponibiliza&#231;&#227;o online Joel Sossai Coleti UFSCar <p>As pesquisas nas &#225;reas de Ling&#252;&#237;stica e Letras s&#227;o extremamente ricas, constantes e eficientes no Brasil, entretanto, ainda s&#227;o pouco expressivas no cen&#225;rio brasileiro as pesquisas envolvendo quest&#245;es morfol&#243;gicas em Terminologia, sobretudo quando se considera o aspecto de disponibiliza&#231;&#227;o on-line dos resultados obtidos. Diante dessa realidade, esta pesquisa pretende descrever a estrutura de dois repert&#243;rios terminol&#243;gicos (Nanoci&#234;ncia/Nanotecnologia e Biocombust&#237;veis) no n&#237;vel da estrutura interna dos seus termos constitutivos, verificando-se os principais processos de constru&#231;&#227;o dos termos (tipos de deriva&#231;&#227;o presentes, tipos de composi&#231;&#227;o &#8211; morfol&#243;gica, morfossint&#225;tica, lexicaliza&#231;&#227;o de sintagmas, etc.). A partir dessa descri&#231;&#227;o morfol&#243;gica, pretende-se organizar uma base de dados de maneira que seja poss&#237;vel a implementa&#231;&#227;o computacional e a disponibiliza&#231;&#227;o on-line dos dados obtidos. O modelo a ser usado para a an&#225;lise morfol&#243;gica ser&#225; o modelo SILEX, criado por Danielle Corbin (1987, 1991, 1997, 2004), desenvolvido pela sua equipe de trabalho e que j&#225; conhece aplica&#231;&#245;es prof&#237;cuas para an&#225;lise do portugu&#234;s. Esta pesquisa visa, portanto, preencher uma lacuna, na medida em que ser&#227;o analisados e descritos os processos morfol&#243;gicos poss&#237;veis no &#226;mbito de terminologias em portugu&#234;s (variante brasileira). Espera-se, pois, ao final da pesquisa, ter sido efetuada a descri&#231;&#227;o morfol&#243;gica e a classifica&#231;&#227;o dos constituintes analisados numa base de dados, possibilitando a posterior disponibiliza&#231;&#227;o on-line. <li> Di&#225;rio Ga&#250;cho: palavras, constru&#231;&#245;es recorrentes e contextos de uso Bruna Rodrigues da Silva UFRGS (gradua&#231;&#227;o) <p>Textos jornal&#237;sticos t&#234;m sido utilizados para estudos de vocabul&#225;rio do portugu&#234;s do Brasil escrito (PB), sobretudo o jornal Folha de S&#227;o Paulo. Entretanto, o uso de jornais populares brasileiros n&#227;o &#233; muito comum. Pensando em diminuir essa lacuna de conhecimentos, este trabalho descreve elementos do vocabul&#225;rio tomando como fonte o jornal popular porto-alegrense Di&#225;rio Ga&#250;cho (DG). Seu n&#250;mero de leitores supera o de jornais da mesma cidade dirigidos a p&#250;blicos mais tradicionais em todo estado, o que se aplica, por exemplo, ao jornal Zero Hora, produzido pela mesma empresa. O corpus organizado compreende amostra com edi&#231;&#245;es completas do jornal publicadas ao longo de 05 meses do ano de 2008. Cada m&#234;s inclui 10 dias de edi&#231;&#227;o, selecionados de modo a alternar dias da semana. Esse corpus tem 825151 tokens (quantidade de palavras) e 69353 types (diferentes formas como cada palavra se repete). Desse material foram identificadas palavras e constru&#231;&#245;es mais freq&#252;entes com apoio das ferramentas geradoras de lista de palavras e gerador de n-gramas oferecidas no site do Projeto TEXTQUIM. A primeira etapa, no in&#237;cio da pesquisa, consistiu na organiza&#231;&#227;o do corpus com o apoio de softwares. Observamos as palavras mais freq&#252;entes, m&#234;s a m&#234;s. Quando pronta, a lista de freq&#252;&#234;ncias nos trouxe informa&#231;&#245;es sobre tokens e types. Fizemos a compara&#231;&#227;o com dados de padr&#245;es de vocabul&#225;rio colhidos do Banco do Portugu&#234;s, corpus de linguagem geral do Brasil que possui mais de 120 milh&#245;es de palavras (tomando como base o ano 2000), mantido pela PUC-SP. Fizemos tamb&#233;m observa&#231;&#245;es e contrastes com padr&#245;es de vocabul&#225;rio do jornal Zero Hora (ZH). Pelo que pudemos observar, no que tange &#224; configura&#231;&#227;o gramatical das listas de palavras mais freq&#252;entes do DG na amostra do primeiro trimestre de 2008, n&#227;o h&#225; diferen&#231;a significativa em rela&#231;&#227;o ao jornal ZH ou ao Banco de Portugu&#234;s. Atualmente, nessa nova etapa da pesquisa, ser&#227;o examinadas as combina&#231;&#245;es de palavras mais freq&#252;entes em amostras de texto dos primeiros cinco meses do corpus de 2008 e os contextos em que essas aparecem, com o intuito de verificar se tais combina&#231;&#245;es s&#227;o mais freq&#252;entes por se tratar de um jornal popular ou se s&#227;o freq&#252;entes tamb&#233;m em outros corpora. Para tanto, os dados obtidos ser&#227;o contrastados com dados do jornal Zero Hora, gerados pela pesquisa PorSimples do NILC-SP-USP. A partir dos resultados, concluiremos se as constru&#231;&#245;es s&#227;o mais recorrentes por causa do p&#250;blico a que se destina ou por causa da forma mais simplificada de escrita, por exemplo, ou se a fei&#231;&#227;o do vocabul&#225;rio do jornal popular n&#227;o difere muito em rela&#231;&#227;o &#224; do jornal tomado como contraste, como observamos nos dados analisados no in&#237;cio da pesquisa. Al&#233;m disso, para al&#233;m do aspecto de descri&#231;&#227;o vocabular, utilizar o jornal DG como fonte de estudo pode ser de grande utilidade para reflex&#227;o sobre a linguagem escrita e o ensino, j&#225; que suas cont&#237;nuas grandes tiragens e a grande ades&#227;o do seu p&#250;blico a quaisquer eventos promovidos pelo jornal demonstram, em tese, metodologia bem-sucedida de di&#225;logo com o seu leitor. <li> Ecuadorian English Learner Corpus Anna M. Gates e Nick Izquerdo Universidad Tecnica Particular de Loja <p>Although while several English learner corpora have been built and analyzed in the past two decades, no publically or academically available learner corpora have been built for Ecuadorian learners of English. Commercial corpora developed by the large publishing houses such as Pearson Education and Cambridge University Press represent Ecuadorian learners with a mere 117,100 words (personal correspondence). Considering that learner corpora are important tools for modern linguistic analysis and for the understanding of interlanguage and learner errors (Gilquin, G., Granger, S., &amp; Paquot, M.,2007); and are often used to influence the development of learning materials, this conspicuous lack of the representation has been cause for concern. In an effort to fill this void and to stimulate linguistic investigative activity in Ecuador, the authors have embarked on the development of a 250,000 word learner corpus of Ecuadorian written English (EELC). The EELC was designed with two objectives in mind: 1) the creation of a corpus comparable with the Spanish subcorpora of the International Corpus of Learner English (ICLE), and 2) the creation a corpus that would be representative of the distinct geographical regions of Ecuador. Participants were selected from a national database of proficient to advanced English learners, which included individuals from diverse geographical regions throughout Ecuador. This database was comprised of university students in their final year of study, English major alumni, current practicing English teachers, and people who had expressed interest in joining a Master degree program in teaching English as a foreign language. Language proficiency was determined through the use of demographic information; specifically, duration and quality of English language exposure. The writing samples collected were produced from an argumentative essay prompt. Data collection began in June 2010. Candidates have been sent an online survey (Lime Survey) requesting demographic information and also requesting they write an argumentative essay of between 700 and 1000 words. To improve response rates, candidates have been offered an incentive for their participation. This method was chosen to minimize data collection costs and to reach a wide geographical range within Ecuador. The software to be used in the analysis of the EELC is AntConc 3.2.1 (AC 3.2.1), a corpus analysis toolkit developed by Laurence Anthony. AC 3.2.1 was chosen since it provides a "powerful concordancer, word and keyword frequency generators, tools for cluster and lexical bundle analysis, and a word distribution plot," and support for regular expressions (Anthony, 2006; Wiechmann &amp; Fuhs, 2006). In terms of functionality and usability, AC 3.2.1 is an attractive alternative to commercial software packages. The authors have chosen CLAWS4, the general-purpose grammatical tagger developed by UCREL at Lancaster University, for the POS-tagging of the EELC. The reasons for choosing CLAWS4 over any of the other available POS-taggers are a) its high rate of accuracy, b) its robustness, and c) the advantage of making comparative analysis with other corpora that have also been tagged with CLAWS4. <li> Recupera&#231;&#227;o semiautom&#225;tica de contextos definit&#243;rios em corpus com vistas &#224; colabora&#231;&#227;o da reda&#231;&#227;o da defini&#231;&#227;o terminol&#243;gica:proposta de sistematiza&#231;&#227;o lingu&#237;stica Dayse Simon Landim Kamikawachi UFSCar (PG) <p>A confec&#231;&#227;o de corpus no trabalho terminogr&#225;fico tem como finalidade a observa&#231;&#227;o e extra&#231;&#227;o de candidatos a termos, assim como, posteriormente, serve como fonte de informa&#231;&#245;es relevantes sobre os termos, que pode auxiliar na etapa da reda&#231;&#227;o da defini&#231;&#227;o terminol&#243;gica. Tais informa&#231;&#245;es ocorrem frequentemente em contextos definit&#243;rios, j&#225; que &#233; necess&#225;rio definir t&#233;cnicas, produtos, processos, subst&#226;ncias, ou seja, conceitos da &#225;rea-objeto, de forma a transmiti-los ao leitor. A partir da premissa de que os contextos definit&#243;rios apresentam determinados padr&#245;es l&#233;xico-sint&#225;ticos, &#233; proposta, como tema de doutorado, a investiga&#231;&#227;o de padr&#245;es concernentes a eles em corpora de especialidades de l&#237;ngua portuguesa do Brasil a fim de proporcionar conhecimento lingu&#237;stico para a constru&#231;&#227;o de uma ferramenta de extra&#231;&#227;o semiautom&#225;tica de candidatos a contextos definit&#243;rios no ambiente e-Termos. Para a realiza&#231;&#227;o das an&#225;lises, ser&#227;o adotados os seguintes passos: i) an&#225;lise manual de contextos definit&#243;rios em corpora de especialidade dispon&#237;veis em l&#237;ngua portuguesa e em bases definicionais oriundas do Grupo de Estudo e Pesquisa em Terminologia (GETerm); ii) proposta de um conjunto de regras e tipologia referentes aos tipos de contextos definit&#243;rios de acordo com a an&#225;lise manual realizada, assim como lan&#231;aremos m&#227;o da descri&#231;&#227;o lingu&#237;stica realizada, em pesquisa de mestrado, acerca das rela&#231;&#245;es sem&#226;nticas (t&#233;lico, agentivo, constitutivo, exemplo e etc.) presentes nas defini&#231;&#245;es terminol&#243;gicas, pois a partir do rol das express&#245;es lingu&#237;sticas que expressam essas rela&#231;&#245;es, acreditamos ser poss&#237;vel detectar contextos definit&#243;rios tamb&#233;m, al&#233;m do que j&#225; foi investigado em estudos similares a este em outras l&#237;nguas (sobretudo para o franc&#234;s e espanhol); iii) utiliza&#231;&#227;o de dois corpora de estudo para a avalia&#231;&#227;o e adequa&#231;&#227;o das regras geradas na etapa anterior. De modo a manipular o corpus ser&#225; utilizado o UNITEX, sobretudo porque o programa: i) apresenta etiqueta morfol&#243;gica referente aos itens lexicais, possibilitando a busca por categorias gramaticais; ii) possui busca por grafo, o que permite elaborar express&#245;es de busca mais complexas. Como resultado, espera-se obter conhecimento ling&#252;&#237;stico de modo a integrar um extrator semiautom&#225;tico de candidatos a contextos definit&#243;rios a fim de auxiliar os termin&#243;logos na reda&#231;&#227;o da defini&#231;&#227;o. <li> Tradu&#231;&#227;o autom&#225;tica:um reconhecedor, analisador e gerador de express&#245;es nominais do ingl&#234;s para o portugu&#234;s Tiago Martins da Cunha UFC <p>O&#8233; compartilhamento&#8233; de&#8233; conhecimento&#8233; entre&#8233; estudos&#8233; de&#8233; ling&#252;&#237;stica&#8233; de&#8233; corpus lingu&#237;stica computacional&#8233;tem&#8233;ganhado&#8233;cada&#8233;vez&#8233;mais&#8233;import&#226;ncia&#8233;no&#8233;&#226;mbito&#8233;dos estudos&#8233;da&#8233;ling&#252;&#237;stica&#8233;aplicada. Dentro desta perspectiva, muito desse compartilhamento contribuiu para avan&#231;os nos estudos tradut&#243;rios, especialmente quanto &#224; tradu&#231;&#227;o autom&#225;tica. A tradu&#231;&#227;o autom&#225;tica perdeu muito de sua credibilidade junto ao meio acad&#234;mico devido uma longa sequ&#234;ncia de maus resultados. Grande parte dos maus resultados &#233; gerada por problemas de an&#225;lise, reconhecimento e adequa&#231;&#227;o da tradu&#231;&#227;o oferecida pelos sistemas de tradu&#231;&#227;o autom&#225;tica. Este trabalho visa apresentar parte de um estudo de doutorado que desenvolver&#225; uma ferramenta de tradu&#231;&#227;o autom&#225;tica de express&#245;es nominais do ingl&#234;s para o portugu&#234;s, tentando solucionar alguns dos problemas que os tradutores autom&#225;ticos dispon&#237;veis no mercado n&#227;o conseguem resolver. As express&#245;es nominais que ser&#227;o expostas e discutidas nesse trabalho s&#227;o aquelas que cont&#234;m o caso genitivo agregado a outros elementos de posse. A lista de express&#245;es foi analisada no corpus Brown por meio do m&#243;dulo NLTK (Natural Language Tool Kit) da linguagem de programa&#231;&#227;o Python. O NLTK &#233; um m&#243;dulo desenvolvido para os estudos de processamento natural da linguagem e est&#225; gratuitamente dispon&#237;vel ao acesso de estudiosos, entusiastas e desenvolvedores. Neste trabalho visamos apresentar de forma did&#225;tica, alguns comandos imprescind&#237;veis para a an&#225;lise de corpus pelo NLTK. Fazendo uso do corpus Brown, j&#225; dispon&#237;vel na biblioteca do NLTK, foi realizada uma busca pelas express&#245;es que contivessem as estruturas desejadas. Foi analisada o contexto de realiza&#231;&#227;o dessas express&#245;es. A estrutura de express&#245;es nominais como John&#8217;s building a spaceship, proposta por Abney (1987, p.13), que motivaram este estudo, foram encontradas com freq&#252;&#234;ncia consider&#225;vel em textos acad&#234;micos segundo o corpus Brown. Assim como estruturas que contivessem dois elementos de posse na mesma express&#227;o e.g. John&#8217;s picture of Chomsky. Tais estruturas n&#227;o possibilitam bons resultados pelos tradutores autom&#225;ticos disponibilizados no mercado, mesmo apresentando de uma consider&#225;vel freq&#252;&#234;ncia em textos acad&#234;micos. Para a an&#225;lise dessas estruturas no corpus, foi realizada a etiquetagem do corpus, que uma vez anotado, passou por regras de extra&#231;&#227;o para filtrar as estruturas desejadas nas express&#245;es nominais. Este estudo, em desenvolvimento, fazendo uso de um m&#233;todo de transfer para a tradu&#231;&#227;o autom&#225;tica (ARNOLD, 1994) visa solucionar os problemas encontrados nas estruturas dessas express&#245;es nominais encontradas. Toda metodologia assim como os c&#243;digos do NLTK utilizados para a realiza&#231;&#227;o das buscas e an&#225;lises dessas express&#245;es e o processo de funcionamento da tradu&#231;&#227;o autom&#225;tica fazendo uso de m&#233;todo de transfer ser&#227;o devidamente explicados na apresenta&#231;&#227;o deste trabalho. <li> Bases te&#243;rico metodol&#243;gicas para um dicion&#225;rio monol&#237;ngue de portugu&#234;s brasileiro para aprendizes estrangeiros Kleber Valenti Schenk UFRGS <p>A proposta deste trabalho &#233; estabelecer as bases te&#243;rico-metodol&#243;gicas para um dicion&#225;rio monol&#237;ngue de portugu&#234;s brasileiro para aprendizes estrangeiros, material did&#225;tico ainda inexistente. Partimos da revis&#227;o da literatura sobre &#8220;dicion&#225;rios para aprendizes&#8221;, que devem ter defini&#231;&#245;es, exemplos de uso e explica&#231;&#245;es lingu&#237;sticas simples para facilitar e possibilitar um bom uso por parte do aprendiz atrav&#233;s de uma apresenta&#231;&#227;o bem clara. Suas palavras-entrada devem ser escolhidas mediante o crit&#233;rio de frequ&#234;ncia atrav&#233;s de levantamentos estat&#237;sticos em grandes corpora muito diversificados, &#250;teis tamb&#233;m para a escolha do vocabul&#225;rio das par&#225;frases definit&#243;rias e para a sele&#231;&#227;o dos exemplos de uso. Seria pertinente o estudo de corpora de textos jornal&#237;sticos, preponderantes em corpora lingu&#237;sticos, em meio a outros corpora, e o segmento &#8220;jornalismo popular&#8221; tamb&#233;m pode contribuir, pois a imprensa popular se aproxima do p&#250;blico alvo atrav&#233;s de uma linguagem direta que trata dos aspectos locais e imediatos usando textos curtos com vocabul&#225;rio simples, elementos que auxiliariam no esbo&#231;o dos planos macro e microestruturias de um dicion&#225;rio de f&#225;cil acesso para estrangeiros. Para sua constru&#231;&#227;o &#233; pertinente analisar: a estrutura dos cursos oferecidos pelo Programa de Portugu&#234;s para Estrangeiros da UFRGS; dicion&#225;rios de ingl&#234;s e espanhol para aprendizes estrangeiros; livros did&#225;ticos de portugu&#234;s voltados para aprendizes estrangeiros e os crit&#233;rios para certifica&#231;&#227;o de profici&#234;ncia em portugu&#234;s como l&#237;ngua estrangeira no Brasil (Exame Celpe-Bras). Devem fazer parte do dicion&#225;rio: descri&#231;&#227;o gramatical b&#225;sica sobre o portugu&#234;s do Brasil voltado para aprendizes de portugu&#234;s como l&#237;ngua estrangeira com textos simplificados de apoio; guia de utiliza&#231;&#227;o para professores e alunos; reprodu&#231;&#227;o da pron&#250;ncia; exemplos de uso de palavras e express&#245;es em diferentes situa&#231;&#245;es e constru&#231;&#245;es; sugest&#245;es de exerc&#237;cios e de atividades individuais e em grupos de alunos. Atrav&#233;s do projeto Ensino de portugu&#234;s como l&#237;ngua estrangeira: bases para um dicion&#225;rio on-line para suporte de atividades em EAD, j&#225; em constru&#231;&#227;o no site da UFRGS, ser&#225; elaborado um espa&#231;o para se fazer testes com usu&#225;rios e para postagem de depoimentos de aprendizes sobre o uso e o sentido da palavra em foco em cada verbete, o que auxiliar&#225; na defini&#231;&#227;o do perfil de usu&#225;rio. <li> Etiquetagem morfossint&#225;tica de um corpus do portugu&#234;s do nordeste para extra&#231;&#227;o autom&#225;tica de entradas lexicais Andr&#233;a Feitosa dos Santos e Raimundo Cleodimar de Oliveira J&#250;nior UFC <p>Essa pesquisa reflete algumas das atividades que desenvolveremos ao longo de um estudo de doutorado. Somos norteados por pelo menos tr&#234;s &#225;reas de atua&#231;&#227;o e aplica&#231;&#227;o lingu&#237;stica, a teoria gramatical, a lingu&#237;stica de corpus e a lingu&#237;stica computacional. Do ponto de vista da teoria gramatical e da lingu&#237;stica de corpus, n&#243;s discutimos certos fen&#244;menos sint&#225;ticos e sem&#226;nticos do portugu&#234;s brasileiro &#224; luz de teorias lingu&#237;sticas de cunho formal e por isso consideramos de grande import&#226;ncia basear em corpus os nossos estudos, visto que evid&#234;ncias lingu&#237;sticas obtidas de corpora est&#227;o diretamente ligadas a um trabalho de an&#225;lise e descri&#231;&#227;o lingu&#237;stica e podem ajudar o pesquisador a produzir novas informa&#231;&#245;es, te&#243;ricas ou aplicadas sobre a l&#237;ngua em estudo (OLIVEIRA, 2009). Conforme Domingues, Favero e Medeiros (2008, p. 269), do ponto de vista da lingu&#237;stica computacional, &#8216;a etiquetagem morfossint&#225;tica &#233; uma tarefa b&#225;sica e importante [...] na anota&#231;&#227;o de corpus, extra&#231;&#227;o e recupera&#231;&#227;o de informa&#231;&#245;es&#8217;. Para alcan&#231;ar um dos nossos objetivos, a constru&#231;&#227;o de um analisador sint&#225;tico-sem&#226;ntico computacional, partimos da constata&#231;&#227;o de que podemos construir as entradas lexicais da nossa gram&#225;tica atrav&#233;s da extra&#231;&#227;o autom&#225;tica dos itens lexicais com suas respectivas propriedades sint&#225;ticas de corpora anotados, que, de acordo com McEnery (2004), possuem a vantagem de ser multifuncionais e f&#225;ceis de explorar. A inser&#231;&#227;o de informa&#231;&#227;o referente a cada unidade de grandes quantidades de texto pode ser feita de forma mais r&#225;pida, por isso o uso dos etiquetadores autom&#225;ticos (SARDINHA, 2004). Segundo Bird, Klein e Loper (2009), &#233; poss&#237;vel construir um etiquetador autom&#225;tico com base nos mecanismos lingu&#237;sticos e computacionais dispon&#237;veis no NLTK. Os objetivos do nosso trabalho s&#227;o: i. compilar e etiquetar morfologicamente um corpus que chamamos de Corpus Patativa; ii. construir uma ferramenta para a extra&#231;&#227;o de entradas lexicais de um corpus para a sua inser&#231;&#227;o em um analisador sint&#225;tico-sem&#226;ntico autom&#225;tico; iii. aplicar o etiquetador e a extra&#231;&#227;o autom&#225;tica em textos do Patativa do Assar&#233; em linguagem padr&#227;o, e em seguida fazer corre&#231;&#245;es manuais das anota&#231;&#245;es; iv. colaborar para a elabora&#231;&#227;o de um corpus representativo do portugu&#234;s do Nordeste, pois h&#225; essa lacuna em rela&#231;&#227;o ao material dispon&#237;vel para o processamento do portugu&#234;s. Sendo assim, al&#233;m de discutirmos assuntos relevantes para o nosso estudo de doutorado, n&#243;s tamb&#233;m esperamos contribuir para a constitui&#231;&#227;o de um corpus representativo do Nordeste brasileiro. Pretendemos colaborar com a documenta&#231;&#227;o de registros lingu&#237;sticos dessa regi&#227;o em corpora distribu&#237;dos em centros para processamento computacional do portugu&#234;s, como o NLTK, onde h&#225; poucos corpora do portugu&#234;s e para o qual pretendemos disponibilizar os corpora anotados e compartilhar a ferramenta de extra&#231;&#227;o de entradas lexicais como m&#243;dulo da sua biblioteca de programas, desenvolvida na linguagem Python. Por fim, acrescentamos que Patativa do Assar&#233; foi poeta e escritor do interior do Cear&#225;. Seu trabalho se distingue pela marcante caracter&#237;stica da oralidade, pela dimens&#227;o est&#233;tica e pol&#237;tica e pelas vertentes social/militante, tel&#250;rica, religiosa, filos&#243;fica, l&#237;rica, humor&#237;stica/ir&#244;nica, motes/glosas, entre outras*. *PATATIVA DO ASSAR&#201;. In: WIKIP&#201;DIA, a enciclop&#233;dia livre. Fl&#243;rida: Wikimedia Foundation, 2010. Dispon&#237;vel em: <http ://pt.wikipedia.org/w/index.php?title=Patativa_do_Assar%C3%A9&amp;oldid=20951006>. Acesso em: 9 jul. 2010. <li> Quest&#245;es para a tradu&#231;&#227;o facilitada da obra de Edgard Allan Poe &#224; luz da Lingu&#237;stica de Corpus Bianca Franco Pasqualini UFRGS (PPG) <p>CONTEXTUALIZA&#199;&#195;O Esta pesquisa visa reconhecer e descrever padr&#245;es de vocabul&#225;rio na obra de Edgar Allan Poe &#8211; considerando apenas a sua produ&#231;&#227;o no g&#234;nero conto &#8211; a fim de levantar dados te&#243;ricos e metodol&#243;gicos que deem suporte a tradu&#231;&#245;es e facilita&#231;&#245;es do texto desse autor para neoleitores. REVIS&#195;O DE LITERATURA A pesquisa aqui proposta partir&#225; de um conjunto de referenciais de base. Essas refer&#234;ncias envolvem as seguintes &#225;reas: estudos de tradu&#231;&#227;o, lexicologia, estudos liter&#225;rios (sobretudo cr&#237;tica liter&#225;ria), estudos do texto e do discurso e, por fim, lingu&#237;stica de corpus. OBJETIVOS O objetivo mais abrangente desta pesquisa &#233; estabelecer uma fundamenta&#231;&#227;o emp&#237;rica e te&#243;rica para guiar a tradu&#231;&#227;o e a facilita&#231;&#227;o de obras consagradas da literatura universal (tendo como ponto de partida a obra de Edgar Allan Poe), destinando-se tais produ&#231;&#245;es a comunidades interpretativas inexperientes nesse g&#234;nero de texto. Entende-se aqui que um texto n&#227;o cont&#233;m em si significados preexistentes &#224; leitura e que o ato da leitura &#233; tanto produ&#231;&#227;o de sentidos (e n&#227;o do sentido) quanto atividade interpretativa. Assim, pode-se considerar a pr&#225;tica da tradu&#231;&#227;o uma atividade essencialmente criativa. Em outras palavras, a tradu&#231;&#227;o pode ser entendida como a atividade interpretativa de um leitor-tradutor a fim de produzir significados aceit&#225;veis para uma comunidade leitora determinada. Nessa perspectiva, o texto na l&#237;ngua de chegada passa a ter a import&#226;ncia e receber a aten&#231;&#227;o normalmente dispensada ao texto-fonte, que tradicionalmente &#233; tido como um texto fechado e com significados a serem &#8220;extra&#237;dos&#8221; pelos leitores. Essa postura estabelece que h&#225; um significado hegem&#244;nico desvinculado de uma pr&#225;tica livre de leitura aberta a m&#250;ltiplas significa&#231;&#245;es. Logo, a partir dessa concep&#231;&#227;o de tradu&#231;&#227;o, &#233; fundamental para o tradutor determinar tanto o perfil lingu&#237;stico do texto-fonte quanto o perfil do leitor a quem tais textos se destinam a fim de que suas escolhas tradut&#243;rias sejam adequadas e aceitas por esses leitores. METODOLOGIA Ser&#225; selecionado um corpus composto somente pela produ&#231;&#227;o liter&#225;ria em prosa do autor, deixando de lado poesia e cr&#237;tica. Dois corpora adicionais ser&#227;o usados: um coletado do ingl&#234;s norte-americano vigente na &#233;poca em que Poe escreveu sua obra e outro do ingl&#234;s norte-americano contempor&#226;neo. A partir da coleta dos corpora mencionados, ser&#227;o usadas ferramentas como o programa AntConc (concordanciador) para extra&#231;&#227;o de estat&#237;sticas de frequ&#234;ncia lexical. Das observa&#231;&#245;es desses dados, novos passos metodol&#243;gicos ser&#227;o estabelecidos, como a necessidade de lematiza&#231;&#227;o do corpus de Poe, por exemplo. Um dos pontos importantes &#233; determinar o que &#233; particular e espec&#237;fico de Poe e diferenciar daquilo que &#233;, por contraste, particular e espec&#237;fico em rela&#231;&#227;o ao vocabul&#225;rio da sua &#233;poca. Para tanto, ferramentas como o Coh-Metrix e o Coh-Metrix-Port ser&#227;o &#250;teis, uma vez que estimam a complexidade textual e fornecem dados comparativos entre os textos de partida e de chegada. A fim de testar tais ferramentas, alguns contos traduzidos para o portugu&#234;s brasileiro foram selecionados para servir de eixo comparativo com os textos de partida. Em uma segunda fase do trabalho, ser&#225; estudado um perfil de vocabul&#225;rio do portugu&#234;s escrito que possa ser compat&#237;vel com as experi&#234;ncias de leitura e de express&#227;o do p&#250;blico neoleitor. Ser&#225; estudada, com &#234;nfase, a linguagem do jornalismo cotidiano de grandes centros urbanos, com algum destaque para o chamado jornalismo popular. Nesse segmento de fontes especialmente dirigidas para leitores de perfil de escolaridade e poder aquisitivo baixos, ser&#225; aproveitado o corpus coletado do jornal Di&#225;rio Ga&#250;cho, da pesquisa em andamento intitulada &#8220;Padr&#245;es do Portugu&#234;s Popular Escrito: PorPopular&#8221;. Uma vez que o p&#250;blico-alvo desse jornal &#233; bastante semelhante ao neoleitor, esse corpus poder&#225; ser tomado como uma boa fonte de dados para o estudo aqui proposto. RESULTADOS At&#233; o momento, apenas resultados preliminares foram obtidos. O mais importante deles &#233; a confirma&#231;&#227;o, por meio do uso da ferramenta Coh-Metrix, da maior complexidade das tradu&#231;&#245;es dispon&#237;veis em portugu&#234;s brasileiro da obra de Edgar Allan Poe. CONCLUS&#213;ES Com essas informa&#231;&#245;es em m&#227;os, ser&#225; poss&#237;vel proceder, ao final do trabalho de pesquisa, a uma tradu&#231;&#227;o experimental de um dos contos de Poe para verificar a validade e o alcance do m&#233;todo proposto. <li> O papel do feedback corretivo na aquisi&#231;&#227;o da escrita Fernanda Knecht PUC-RS (PG) <p>A disserta&#231;&#227;o de mestrado em quest&#227;o tem o objetivo de investigar o papel do feedback corretivo em textos escritos em ingl&#234;s como segunda l&#237;ngua (L2) por alunos da gradua&#231;&#227;o em Letras. Pretende-se trabalhar com leitura de textos narrativos e argumentativos, e posteriormente, com a escritura de textos destes mesmos tipos com um grupo de alunos. Deste grupo, metade, al&#233;m de escrever seus pr&#243;prios textos, corrigir&#225; os textos de um colega. A outra metade de alunos n&#227;o corrigir&#225; nenhum texto, apenas escrever&#225; os seus. Al&#233;m disso, todos os alunos ter&#227;o seus textos corrigidos por um professor. O grupo que receber dois feedbacks (do colega e do professor) ter&#225; que trabalhar com as duas corre&#231;&#245;es para reescrever seus textos, enquanto que o outro grupo reescrever&#225; os textos apenas com base no feedback do professor. Pretende-se verificar se o aluno, ao analisar e corrigir o texto do colega, apresenta crescimento na escrita de seus pr&#243;prios textos. Os alunos produzir&#227;o, no m&#237;nimo, quatro textos diferentes (no total oito por aluno, contando as reescritas de cada um), para que este seja o corpus a ser analisado. A pesquisa visa a verificar se os resultados obtidos v&#227;o ao encontro de estudos recentes (LUNDSTROM e BAKER, 2009; ZHAO, 2010), que envolvem diferentes tipos de feedback a textos escritos, e que evidenciam que o fato de o aluno fornecer feedback ao texto do colega propicia &#224;quele melhora na escrita de seus pr&#243;prios textos. <li> Kicktionary Br - Reflex&#245;es preliminares acerca da constru&#231;&#227;o de um corpus para anota&#231;&#227;o sem&#226;ntica Jo&#227;o Gabriel Padilha UNISINOS (IC) <p>Este trabalho &#233; parte de um projeto mais amplo intitulado Framecorp, cujo interesse &#233; a anota&#231;&#227;o sem&#226;ntica de corpora a partir da Sem&#226;ntica de frames (Fillmore et al., 2008). O objetivo deste estudo &#233; apresentar uma nova etapa prevista na agenda do projeto Framecorp, a qual se ocupa da investiga&#231;&#227;o da tem&#225;tica do futebol a partir das contribui&#231;&#245;es de Schmidt (2009) presentes no site Kicktionary, uma ferramenta lexical multil&#237;ngue que abrange Ingl&#234;s, Franc&#234;s e Alem&#227;o. Como desdobramento desse objetivo, este trabalho objetiva descrever o processo de compila&#231;&#227;o do corpus de estudo que ser&#225; utilizado na descri&#231;&#227;o sem&#226;ntica do l&#233;xico do futebol em Portugu&#234;s brasileiro &#8211; passo inicial para a constru&#231;&#227;o da plataforma Kicktionary Br. Vale ressaltar que os textos devem conter frames relacionados ao l&#233;xico do esporte e n&#227;o simplesmente estarem relacionados ao tema, uma vez que not&#237;cias institucionais dos clubes, embora versem sobre esporte, n&#227;o trazem aquilo que concerne ao projeto: itens lexicais ligados estritamente &#224;s cenas do jogo. A justificativa para este estudo considera o fato de que o corpus empregado durante a primeira fase do projeto Framecorp j&#225; havia sido compilado anteriormente no contexto interinstitucional do projeto PLN-BR e adequado &#224;s exig&#234;ncias t&#233;cnicas requeridas pela ferramenta de anota&#231;&#227;o SALTO (Burchardt et al., 2003), como o formato XML Tiger. A segunda fase do projeto Framecorp prev&#234;, primeiramente, a constru&#231;&#227;o de um corpus compar&#225;vel pr&#243;prio semelhante aos corpora empregados pelo projeto Kicktionary, que inspirou este subprojeto. Assim como no trabalho de Schmidt, o corpus piloto da pesquisa conta com not&#237;cias sobre resultados de partidas extra&#237;das de sites de clubes de futebol, por&#233;m em portugu&#234;s brasileiro, totalizando 76.463 palavras, com o intuito de evidenciar as peculiaridades sem&#226;nticas do idioma no que tange ao tema proposto. Para orientar o processo de constru&#231;&#227;o do corpus, este estudo fundamenta-se nos conceitos postulados por Berber Sardinha (2004) e que, de acordo com ele, devem ser levados em considera&#231;&#227;o quando se prop&#245;e tal empreitada &#8211; representatividade, autenticidade e escolha criteriosa. Quanto &#224; tipologia do corpus piloto, ela pode ser caracterizada, como quer esse te&#243;rico, pelos seguintes atributos: falado e escrito, contempor&#226;neo, din&#226;mico, especializado, produzido por falantes nativos e com a finalidade de estudar um dom&#237;nio lingu&#237;stico espec&#237;fico. Em tom complementar, aparecem neste estudo alguns procedimentos apontados por Wynne (2004) subsequentes &#224; fase inicial de constru&#231;&#227;o do corpus, referentes a quest&#245;es como armazenamento, distribui&#231;&#227;o e preserva&#231;&#227;o dos textos. Para o te&#243;rico, isso &#233; importante para garantir que, no futuro, o corpus possa ser utiliz&#225;vel por um um vasto n&#250;mero de potenciais usu&#225;rios. Como conclus&#227;o preliminar dessa primeira experi&#234;ncia de constru&#231;&#227;o de corpus, &#233; poss&#237;vel citar a necessidade de expandir seu tamanho (o que caracteriza um corpus din&#226;mico, tamb&#233;m referido como &#8220;aberto&#8221;, em fase de constru&#231;&#227;o) a fim de atingir 250.000 palavras, o que, segundo Berber Sardinha, corresponde a um corpus de tamanho m&#233;dio. <li> Helpers: um projeto de ensino de ESL na universidade Danilo Suzuki Murakami USP (PG) <p>O Projeto Helpers foi concebido pela Professora Cristina Arcuri Eluf Kindermann (atualmente doutoranda pela Universidade de S&#227;o Paulo &#8211; USP) no &#226;mbito da Universidade Paulista (UNIP). Trata-se de um curso de l&#237;ngua inglesa, paralelo &#224;s aulas curriculares, que &#233; oferecido aos alunos de diversos cursos. Seu objetivo &#233; aperfei&#231;oar o dom&#237;nio de l&#237;ngua inglesa dos alunos, especialmente por meio do contato com formas de aprendizado que envolvam novas tecnologias, particularmente as contribui&#231;&#245;es da Lingu&#237;stica de Corpus. No ano de 2010, este projeto foi levado para o curso de Letras da Universidade de S&#227;o Paulo (USP) e est&#225; em fase de implementa&#231;&#227;o. Em tal universidade, ap&#243;s um ano de mat&#233;rias introdut&#243;rias, os alunos de gradua&#231;&#227;o t&#234;m de optar por uma habilita&#231;&#227;o em uma l&#237;ngua estrangeira ou em lingu&#237;stica, al&#233;m da habilita&#231;&#227;o em portugu&#234;s. A habilita&#231;&#227;o em ingl&#234;s &#233; a &#250;nica cujas disciplinas s&#227;o ministradas em ingl&#234;s desde o in&#237;cio, o que exige que os alunos tenham um conhecimento razo&#225;vel da l&#237;ngua para cursarem as aulas. No entanto, muitos alunos n&#227;o acompanham as aulas e migram para outras habilita&#231;&#245;es, enquanto outros continuam no curso sem ter uma compreens&#227;o plena durante as aulas. Vemos, ent&#227;o, uma disparidade entre os n&#237;veis de dom&#237;nio da l&#237;ngua, fato que tem sido motivo de discuss&#227;o entre docentes e alunos. Nosso trabalho de inicia&#231;&#227;o cient&#237;fica tem como objetivo acompanhar o desenvolvimento do projeto e compilar seus resultados, tendo em vista a inser&#231;&#227;o das aplica&#231;&#245;es da Lingu&#237;stica de Corpus ao ensino de l&#237;ngua estrangeira na tentativa de amenizar o problema acima descrito. Os ganhos ocorrem em uma via de m&#227;o dupla, pois as aulas s&#227;o ministradas por alunos da gradua&#231;&#227;o que j&#225; possuem um maior conhecimento da l&#237;ngua (alunos-formadores). Ao mesmo tempo em que alunos menos preparados t&#234;m a oportunidade de alcan&#231;ar um n&#237;vel adequado para acompanharem as aulas, os alunos-formadores tamb&#233;m aprimoram seu conhecimento e sua experi&#234;ncia pedag&#243;gica. Ap&#243;s a divulga&#231;&#227;o do projeto, foram entrevistados catorze candidatos a alunos-formadores, que foram convocados para um workshop de introdu&#231;&#227;o &#224; Lingu&#237;stica de Corpus e prepara&#231;&#227;o para as aulas. Em seguida, os candidatos mais aptos ser&#227;o selecionados para atuarem como alunos-formadores. Ser&#227;o dois tipos de cursos: Language Practice, que focar&#225; a gram&#225;tica, e Writing Practice, centrado em dom&#237;nios de escrita. Cada m&#243;dulo-piloto ter&#225; dez aulas semanais de 45 minutos cada, com previs&#227;o de in&#237;cio em agosto de 2010. A produ&#231;&#227;o escrita dos alunos ser&#225; compilada em um corpus de aprendizes, cuja an&#225;lise servir&#225; para identificar as necessidades deste p&#250;blico, assim como para definir o conte&#250;do program&#225;tico do curso, o qual poder&#225; ser alterado segundo demanda dos alunos. Os exerc&#237;cios privilegiar&#227;o dados reais, retirados de linhas de concord&#226;ncia de corpora online,os quais tamb&#233;m ser&#227;o apresentados aos alunos. Esperamos obter &#234;xito com este projeto, dada sua realiza&#231;&#227;o satisfat&#243;ria em outra institui&#231;&#227;o. Esperamos tamb&#233;m que a Lingu&#237;stica de Corpus seja divulgada em n&#237;vel de gradua&#231;&#227;o para que suas aplica&#231;&#245;es sejam conhecidas por aqueles interessados em &#225;reas com a quais a Lingu&#237;stica de Corpus lida. <li> Interface pedag&#243;gica = lingu&#237;stica de corpus + multiletramentos Cristina Arcuri Eluf USP (PG) <p>Nova Interface Pedag&#243;gica &#8211; pesquisa a&#231;&#227;o &#8211; desenvolvida pela interse&#231;&#227;o da Lingu&#237;stica de Corpus e dos Multiletramentos. Pr&#225;tica pedag&#243;gica realizada em sala de aula viabilizada pelo momento contempor&#226;neo, da globaliza&#231;&#227;o, e pelo momento atual da inser&#231;&#227;o das Tecnologias de Informa&#231;&#227;o e Comunica&#231;&#227;o as TICs - tanto na sociedade quanto na educa&#231;&#227;o formal. A pr&#225;tica relaciona linhas pedag&#243;gicas que n&#227;o est&#227;o inclu&#237;das na grade curricular na forma&#231;&#227;o do graduando de Letras. A Interface Pedag&#243;gica, num primeiro momento, est&#225; sendo utilizada como alternativa &#224; produ&#231;&#227;o e constru&#231;&#227;o do conhecimento na forma&#231;&#227;o do professor de L&#237;ngua Inglesa (LI). Sua aplica&#231;&#227;o visa a promo&#231;&#227;o de autonomia ao aprendiz no processo de aprendizagem e a independ&#234;ncia ao aluno futuro professor na sua trajet&#243;ria profissional. A pesquisa analisa, ao mesmo tempo, dois momentos de aquisi&#231;&#227;o de autonomia/independ&#234;ncia no processo de aprendizagem de LI. O 1&#186; momento observado ocorre na forma&#231;&#227;o do professor durante o percurso de 50 alunos da gradua&#231;&#227;o de Letras desde o ano de 2007 na Universidade Paulista de S&#227;o Paulo. Resultados: &#183; Compila&#231;&#227;o de Corpus de aprendizes com 568 reda&#231;&#245;es (47.645 palavras) hospedados na Plataforma COMET (FFLCH-USP) [Textos coletados nas disciplinas: LI:AD; LI:GA; LI:SL; MS: LI, ministradas pela Prof&#170; Ms. Cristina]; &#183; Defini&#231;&#245;es a respeito do perfil do aprendiz; &#183; Identifica&#231;&#227;o de problemas de aprendizado de LI; &#183; Data-driven learning- produ&#231;&#227;o de exerc&#237;cios de LI a partir de linhas de concord&#226;ncia do corpus; &#183; Acompanhamento diacr&#244;nico [desde 2007] de um grupo de alunos universit&#225;rios; &#183; Inser&#231;&#227;o das TICs na forma&#231;&#227;o de professores de L&#237;ngua Inglesa. O 2&#186; momento analisado de aquisi&#231;&#227;o de autonomia compreende observa&#231;&#245;es feitas no momento da aplica&#231;&#227;o, pelos alunos graduandos, das pr&#225;ticas realizadas em sala. Esta etapa envolve a cria&#231;&#227;o do &#8220;Programa de Pr&#225;tica Situada&#8221; que acontece numa Escola Municipal de Ensino Fundamental (EMEF) da rede P&#250;blica de S&#227;o Paulo. Pr&#225;tica desenvolvida por esta pesquisa, supervisionada pela Professora Ms. Cristina Arcuri, aplicada por 3 alunas da universidade UNIP-SP. Esta pesquisa comporta alunos da 5&#170;, 6&#170;, 7&#170; e 8&#170; s&#233;ries do Ensino Fundamental II da escola. As atividades executadas na EMEF - inser&#231;&#227;o de a&#231;&#245;es simult&#226;neas de Ingl&#234;s e Inform&#225;tica - incluem a aplica&#231;&#227;o da Nova Interface Pedag&#243;gica: uso da Lingu&#237;stica de Corpus e dos multiletramentos na composi&#231;&#227;o das aulas. O desenvolvimento das aulas inclui o uso dos seguintes Corpora: COCA, Cobuild, CoMAprend e COMPARA. Envolve ainda a integra&#231;&#227;o dos quatro fatores que amparam as pr&#225;ticas da Pedagogia de Multiletramentos - propostas pelo grupo que elaborou o manifesto que deu origem a esta pedagogia (The New London Group) - 1. Pr&#225;tica Situada (Situated Practice); 2. Instru&#231;&#227;o Aberta (Over Instruction); 3. Constru&#231;&#227;o Cr&#237;tica (Critical Framing); 4. Pr&#225;tica de Transfer&#234;ncia (Transformed Practice). Resultados esperados: a. Compila&#231;&#227;o de um corpus de aprendizes da L&#237;ngua Inglesa do Ensino Fundamental II da escola p&#250;blica em quest&#227;o (parte do processo final do Doutorado). <li> Lingu&#237;stica de corpus e quadro comum europeu de refer&#234;ncia de l&#237;nguas: uma rela&#231;&#227;o necess&#225;ria Gislaine Machado Jer&#244;nimo e Paola Davi Nolasco Rodrigues Merode PUC-RS (PG) <p>O escopo do presente trabalho &#233; sondar se h&#225; rela&#231;&#227;o entre os textos selecionados para as provas de profici&#234;ncia em leitura utilizadas pela Comunidade Europ&#233;ia e a Lingu&#237;stica de Corpus (LC). Ou seja, queremos avaliar se, nessas provas, a frequ&#234;ncia das palavras presentes nos textos para avalia&#231;&#227;o da habilidade leitora refletem conson&#226;ncia com os corpora de palavras mais frequentes nas l&#237;nguas inglesa e italiana, l&#237;nguas alvo da nossa pesquisa. Segundo Sarmento (2009), a LC pode ser um grande recurso para autores de materiais did&#225;ticos, uma vez que fornece dados reais da l&#237;ngua tanto escrita como falada. Acreditamos que a LC &#233; um recurso importante n&#227;o s&#243; para autores, mas tamb&#233;m para professores de L2 para que saibam o tipo de input ao qual devem expor os seus alunos, a fim de tornar o ambiente de sala de aula menos artificial. Julgamos que um aluno deva estar exposto, no in&#237;cio do seu percurso de aprendizagem (ou aquisi&#231;&#227;o), a um input condizente com a realidade da l&#237;ngua-alvo. Logo, um candidato que se submeta &#224; prova de n&#237;vel A1 e A2, deve ser avaliado pelo conhecimento das palavras e grupos lexicais mais frequentes. Portanto, se os textos a serem interpretados fugirem a essa lista de frequ&#234;ncia, a avalia&#231;&#227;o da profici&#234;ncia, a nosso ver, &#233; duvidosa. Claramente, o inverso se espera do &#250;ltimo n&#237;vel, C2, no qual o candidato deve ter alta profici&#234;ncia e, desse modo, ser conhecedor de palavras n&#227;o t&#227;o recorrentes na sua L2 (ou LE). Escolhemos a habilidade de leitura, dentre as quatro habilidades lingu&#237;sticas, porque um aprendiz de L2 normalmente est&#225; mais exposto a textos aut&#234;nticos escritos ao longo de sua aprendizagem da L2 do que aos orais, pois eles s&#227;o mais recorrentes nos livros did&#225;ticos. Dessa forma, focalizamos nossa pesquisa em dados escritos das l&#237;nguas inglesa e italiana. O Quadro Comum Europeu (QCE) &#233; o documento que estabelece as diretrizes, em termos de habilidades e compet&#234;ncias lingu&#237;sticas, que certificam um n&#237;vel de profici&#234;ncia aos candidatos. De acordo com o QCE, espera-se, em cada n&#237;vel (Usu&#225;rio B&#225;sico: A1 e A2; Usu&#225;rio Independente: B1 e B2; Usu&#225;rio Proficiente: C1 e C2), as seguintes habilidades relacionadas &#224; leitura: A1 - ser capaz de compreender nomes conhecidos, palavras e frases muito simples, por exemplo, em avisos, cartazes ou folhetos; A2 - ser capaz de ler textos curtos e simples. Ser capaz de encontrar uma informa&#231;&#227;o previs&#237;vel e concreta em textos simples de uso corrente, por exemplo, an&#250;ncios, folhetos, ementas, hor&#225;rios. Ser capaz de compreender cartas pessoais curtas e simples; B1 - ser capaz de compreender textos em que predomine uma linguagem corrente do dia-a-dia ou relacionada com o trabalho. Ser capaz de compreender descri&#231;&#245;es de acontecimentos, sentimentos e desejos, em cartas pessoais; B2 - ser capaz de ler artigos e reportagens sobre assuntos contempor&#226;neos em rela&#231;&#227;o aos quais os autores adotam determinadas atitudes ou pontos de vista particulares. Ser capaz de compreender textos liter&#225;rios contempor&#226;neos em prosa; C1 - ser capaz de compreender textos longos e complexos, liter&#225;rios e n&#227;o liter&#225;rios, e distinguir estilos. Ser capaz de compreender artigos especializados e instru&#231;&#245;es t&#233;cnicas longas, mesmo quando n&#227;o se relacionam com a minha &#225;rea de conhecimento; C2 - ser capaz de ler com facilidade praticamente todas as formas de texto escrito, incluindo textos mais abstratos, lingu&#237;stica ou estruturalmente complexos, tais como manuais, artigos especializados e obras liter&#225;rias. A metodologia utilizada foi a an&#225;lise das 100 palavras lexicais mais frequentes no Ingl&#234;s e no Italiano em Corpora de Refer&#234;ncia de l&#237;ngua escrita, respectivamente no British National Corpus (BNC) e CORIS/CODIS D. S. L. O. Para tanto, foram digitalizadas as provas da University of Cambridge Local Examination Syndicate (UCLES) dos n&#237;veis PET, FCE, CAE e CPE do ano de 2008; e Certificazione di Italiano come Lingua Straniera (CILS) do ano de 2009. Todas as provas foram posteriormente processadas no WordSmith Tools. Foram analisados os n&#237;veis B1, B2, C1 e C2, n&#227;o compreendendo os n&#237;veis A1 e A2, visto serem n&#237;veis muito elementares e, dessa forma, pouco requisitados. Com a an&#225;lise dos dados, esperamos que seja poss&#237;vel verificar uma rela&#231;&#227;o entre o n&#237;vel de exig&#234;ncia da profici&#234;ncia do candidato aos exames de certifica&#231;&#227;o em L2, baseados no Quadro Comum Europeu, e o registro de n&#250;mero de ocorr&#234;ncias de palavras lexicais das l&#237;nguas-alvo, extra&#237;das dos corpora mencionados acima. Esses dados podem servir de base &#224; reflex&#227;o sobre a prepara&#231;&#227;o de material did&#225;tico para professores de L2 e sobre at&#233; que ponto essas provas certificam a profici&#234;ncia em leitura com base em textos aut&#234;nticos, representativos de uma l&#237;ngua em uso. Queremos ainda, com este trabalho, destacar a import&#226;ncia da utiliza&#231;&#227;o da LC como uma poderosa ferramenta para o professor de L2. </p></li></p></li></p></li></p></li></p></li></p></li></http></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></p></li></ol></div><div class="item_footer"><p><small><a href="http://corpuslg.org/gelc/elc2010.php/2010/09/19/modalidade-2-work-in-progress">Original post</a> blogged on <a href="http://b2evolution.net/">b2evolution</a>.</small></p></div> Os trabalhos abaixo foram aceitos para apresentação como modalidade 2 / work in progress. Os autores podem apresentar os trabalhos em qualquer uma das sessões ou em ambas.

Sujeito a alterações.

  1. Investigando a tradução de termos simples, expressões fixas e semifixas em um corpus paralelo da subárea de antropologia das civilizações Talita Serpa UNESP

    Com o propósito de examinar o uso do léxico na subárea de Antropologia das Civilizações, procedemos à compilação de um corpus de estudo, no formato paralelo, a partir de três obras de autoria do antropólogo Darcy Ribeiro e das respectivas traduções para a língua inglesa. Nossa pesquisa insere-se em um projeto maior, coordenado pela Profa. Dra. Diva Cardoso de Camargo, sobre características semelhantes e diferentes observadas na tradução especializada no que concerne ao léxico, notadamente no uso de termos simples, expressões fixas e semifixas (BAKER, 1996; BERBER SARDINHA, 2004; CAMARGO, 2007). Quanto à fundamentação teórica, baseamo-nos em Baker (1996, 2000), que propõe o arcabouço teórico-metodológico para os Estudos da Tradução Baseados em Corpus, apoiando-se principalmente no conceito de normas de Toury (1978) e nos estudos envolvendo a Linguística de Corpus (SINCLAIR, 1991). De acordo com Baker, o uso de ferramentas computacionais possibilita a análise dos dados com maior rapidez e precisão, permitindo observar um número maior de dados e desenvolver pesquisas na área dos Estudos da Tradução. Propõe, como objetivo principal da disciplina, a identificação de características do texto traduzido que levarão ao entendimento do que é e de como funciona a linguagem da tradução. O trabalho de levantamento de dados será realizado com o auxílio do programa computacional WordSmith Tools. Contrastaremos os dados do corpus principal em relação aos dados de dois corpora comparáveis, formados de trinta obras de mesma natureza, originalmente escritas em português e em inglês. Alguns resultados encontrados na primeira fase de análise mostram termos simples como: “escravaria” /slaves; “pajelança” /shamanism; “patronato”/executives; “deculturação”/deculturation; e “etnocídio”/ethnocide. Quanto às expressões fixas e semifixas foram registradas, por exemplo: “ninguendade de não-índios” /nobodyness of non-indians; “sincretismo da pajelança indígena”/syncretism of indigenous shamanism; “protocélula étnica”/ ethnicproto-cell; “solidariedade elementar fundada no parentesco”/ elementary solidarity founded on kinship; e “retração das tribos indígenas”/ withdrawal of interior Indian tribes. O estudo também permitirá a elaboração de dois glossários, contendo termos simples e expressões fixas e semifixas, acompanhados de seus cotextos, os quais poderão fornecer subsídios a pesquisadores, tradutores, alunos de tradução e profissionais da subárea de Antropologia das Civilizações.

  2. O uso de corpora no ensino de língua estrangeira para profissionais na área de publicidade Cristina Mayer Acunzo PUC-SP (PG)

    Este trabalho tem como objetivo preparar materiais de ensino de inglês como Língua Estrangeira usando um corpus eletrônico composto por textos da área de Publicidade. Faremos a identificação de itens e padrões lexicogramaticais distintivos da área (Berber Sardinha, 2009), que formarão a base dos materiais a serem aplicados em sala de aula, com estudantes do idioma que atuam nesse meio. Para tanto, embasamo-nos na Linguística de Corpus e na Teoria da Complexidade (Morin, 2009), a qual usaremos como abordagem de aprendizagem. A pesquisa busca preencher lacunas como a falta de pesquisa no desenvolvimento de material didático com corpus, bem como no ensino de inglês para a área de Publicidade, e a falta de pesquisa no desenvolvimento de material de ensino de línguas sob a luz da Complexidade. Para atingir esses objetivos, formulamos as seguintes questões: (1) Quais os padrões lexicogramaticais mais característicos do corpus de Publicidade? (2) Quais atividades de ensino podem ser produzidas a partir desses padrões para o público-alvo? (3) Qual a reação dos alunos às atividades produzidas? Primeiramente, coletamos um corpus de estudo de 1 milhão de palavras, composto por textos impressos e orais de sites que fornecem informações sobre a atuação das agências no mundo publicitário. Como corpus de referência, escolhemos o BNC (British National Corpus), de 100 milhões de palavras, composto por inglês britânico escrito e falado. O levantamento das palavras-chave será feito com o auxílio das seguintes ferramentas: (1) Wordsmith Tools (http://www.lexically.net/wordsmith/), (2) CEPRIL ToolKit, (http://lael.pucsp.br/corpora), (3) KitConc (http://www.corpuslg.org/tools/) e (4) ConcGram (http://www.edict.com.hk/pub/concgram/), que oferecem meios de analisar corpora em busca da padronização lexicogramatical. A escolha por diversas ferramentas tem o objetivo de fazer uma comparação entre as mesmas, discutir e apresentar como os padrões mais relevantes podem ser selecionados. Em seguida, com base em Berber Sardinha (2004 e 2009) e Willis (1990), apresentaremos os procedimentos de transposição dos achados para os materiais de ensino, ilustrando como desenvolver diversas atividades, centradas na concordância e centradas no texto (Berber Sardinha, no prelo). Por fim, faremos a aplicação dos materiais em sala de aula e a subsequente coleta de impressões dos alunos por meio de questionários e entrevistas. Com base em nosso estudo piloto, acreditamos que os resultados da pesquisa contribuirão para futuros desenvolvimentos de materiais para o ensino de Língua Estrangeira com base na Linguística de Corpus, assim como para a área de Publicidade.

  3. Repensando a explicitação e os universais da tradução: um estudo baseado em corpus Edna Regina Hornes UFRGS (PPG)

    Segundo as teóricas dos estudos de tradução Blum-Kulka e Mona Baker, explicitação é o fenômeno tradutório em que elementos implícitos em determinado texto de partida são explicitados ou explicados no texto de chegada, num esforço naturalmente didático do tradutor. Tal fenômeno é um dos chamados universais da tradução, fenômenos correntes em toda e qualquer tradução. O fenômeno da explicitação, especialmente, demonstraria, segundo as teóricas, que textos traduzidos teriam “sempre mais palavras que o seu par original, independentemente de gênero textual e pares de língua envolvidos”. O objetivo deste estudo é, primeiramente, observar o processo explicitativo: se este seria efetivamente universal e se a adição de palavras ocorreria, realmente, em todas as traduções dos corpora desta pesquisa; outro propósito é verificar possíveis comportamentos tradutórios em gêneros textuais diferentes e se estes influenciariam realmente o movimento explicitativo; e, finalmente, esta pesquisa propõe-se a observar em que medida a densidade terminológica ou grau de especialidade nos diferentes gêneros textuais influenciaria o fenômeno da explicitação. Para fins de observação até o momento, os corpora de estudo foram compostos por diversas traduções elaboradas por diferentes tradutores experientes no mercado de trabalho de dois gêneros textuais diferentes: o gênero resumo científico e o gênero literário, que ocupam posições opostas no que se refere a grau de especialidade ou densidade terminológica. Além disso, os textos foram divididos em direção tradutória por pares de língua: na direção português-inglês e na direção inglês-português. Para tanto, os corpora foram compostos, separadamente, de diversas traduções de: a) um resumo de artigo científico da área de química, originalmente escrito em português e traduzido para o inglês; b) um abstract da área de física, originalmente escrito em inglês, e traduzido para o português; c) um excerto de obra literária originalmente escrita em inglês e traduzida para o português; d) um excerto de obra literária originalmente escrita em português e traduzido para o inglês. As observações foram feitas com auxílio do software Wordsmith Tools, da Oxford University, que ajuda a identificar contextos de palavras e expressões específicas, número total e parcial de palavras em um texto e palavras mais frequentes de um determinado texto. Em resultados ainda parciais, foi possível verificar que em número considerável de traduções dos resumos técnico-científicos não houve explicitação, ocorrendo o contrário nas traduções do gênero literário, em que em vários excertos traduzidos o aumento do número de palavras foi maior do que em seu par original. Tais resultados sugeririam justamente o oposto do proposto pela teoria dos universais da tradução: uma não-universalização do fenômeno da explicitação, além de uma possível influência de gêneros textuais no ato tradutório, assim como do grau de especialidade e da densidade terminológica presente nos textos.

  4. Cover stories: um estudo linguístico das revistas semanais Renata Condi de Souza PUC-SP (PG)

    A pesquisa de nível de doutoramento propõe-se a observar e analisar as dimensões lingüísticas e os padrões léxicogramaticais presentes nas reportagens de capa das revistas semanais de notícias TIME e Veja, comparando e contrastando a linguagem presente nessas mídias. Para tanto, faz-se uso de uma abordagem diacrônica de estudo, que conta com a coleta de textos publicados de 1930 a 2009 (TIME) e de 1968 a 2009 (Veja), na busca por dimensões lingüísticas e na identificação e análise de padrões léxicogramaticais ao longo das décadas. A investigação tem como objetivo principal destacar e analisar as características lingüísticas e funcionais das reportagens de capa de cada década, seus fatores e suas dimensões. Busca-se também observar e analisar seus padrões léxicogramaticais, agrupame ntos (clusters) e colocações. Metodologicamente, aplicam-se os passos descritos por Biber (1988, 2007, entre outros) para a Análise Multidimensional na análise inicial dos corpora, os quais incluem, resumidamente, a etiquetagem, a contagem de etiquetas, o carregamento dos dados em um programa estatístico, a análise fatorial e a identificação de fatores, características lingüísticas e funcionais e dimensões lingüísticas. Em seguida, criam-se listas de palavras por meio de um programa de análise lexical, comparam-se as listas com corpora de referência e buscam-se linhas de concordância e agrupamentos a fim de observar e analisar os padrões léxicogramaticais. As ferramentas usadas são: o etiquetador morfossintático Tree-Tagger, na etiquetagem dos corpora; o programa estatístico PASW 18.0, na análise fatorial; e o programa de análise lexical WordSmith Tools 3.0, na busca por padrões léxicogramaticais, agrupamentos e colocaçõ es. Os resultados da análise piloto indicam diferenças em termos de uso da língua entre décadas e a possibilidade de relacionar características lingüísticas a características funcionais.

  5. Um corpus para o estudo dos efeitos de frequência no português, o vox antiqua Gustavo Augusto de Mendonça Almeida e Marco Aurélio Silva Fonseca UFMG

    Conforme resumem McEnery e Wilson (2001:123): “A pesquisa baseada textos empíricos é uma condição sine qua non para a linguística histórica, [...] uma vez que os textos que existem de um período histórico formam um conjunto fechado de dados”. O Vox Antiqua é um exemplo de que os estudos históricos não podem se dissociar da linguística de corpus. O Vox Antiqua é um corpus que busca possibilitar a pesquisa fonológica diacrônica em português. Trata-se de um corpus, ainda em construção, que possui textos que vão desde o latim arcaico até o português medieval. O corpus foi arquitetado tendo em vista o modelo fonológico proposto por Bybee (2001). Para o que é de relevância para este trabalho, tal modelo propõe que as representações fonológicas são redundantes, organizam-se por protótipos e sofrem efeitos de frequência de ocorrência (token) e de tipo (type). O Vox Antiqua pretende ser uma ferramenta que possibilite a pesquisa diacrônica desses efeitos de frequência em português. Segundo Bybee (2001), haveria dois tipos de mudança fonólogica: uma com e outra sem motivação fonética. A mudança com motivação fonética atingiria primeiro itens lexicais de alta frequência de ocorrência. A autora retoma os argumentos de Mowrey e Pagliuca (1995) e diz que tais itens estariam mais propensos a sofrer uma redução ou uma sobreposição dos gestos articulatórios que os compõem. Já a mudança sem motivação fonética (também chamada mudança por nivelamento analógico) atingiria primeiro itens lexicais com baixa frequência de ocorrência. Tais itens seriam de difícil acesso na memória e estariam propensos a seguir padrões mais produtivos na língua, que apresentassem alta frequência de tipo (type). O corpus foi organizado seguindo, em linhas gerais, as diretrizes expostas em Sinclair (1996). Os textos que o integram provêm, principalmente, dos corpora: The Latin Library, Bibliotheca Augustana, Corpus Scriptorum Latinorum, Project Gutenberg e Corpus Informatizado do Português Medieval. Atualmente, ele conta com cerca de 11 milhões de tokens. O objetivo com o corpus é o estudo dos efeitos de frequência na organização do léxico, contudo, para que esse objetivo seja atingido, é preciso que a procura no corpus seja rápida e eficiente. Se se busca, por exemplo, comparar os efeitos da frequência de ocorrência e de tipo na mudança de recipo para recebo com a mudança que ocorreu com os verbos da 4a conjugação latina, é preciso que as informações de frequência estejam acessíveis. Para isso, é preciso que o corpus esteja bem etiquetado. Até o presente momento, foi feita, a partir de um dicionário, a etiquetagem das classes de palavras dos textos em latim. Informações morfossintáticas para verbos (como conjugação, tema, aspecto, tempo, modo, número e pessoa) também foram anotadas através de uma lista com as terminações verbais. Ainda se precisa fazer a etiquetagem das formas nominais dos textos em latim, bem como a etiquetagem de todo o corpus em português medieval. Além disso, é preciso que seja feita a ligação entre as palavras dos dois corpora, de modo a se possibilitar a busca e a comparação entre as informações de frequência.

  6. Estudo comparativo da frequência de palavras em português em corpus de aprendizes brasileiros e chineses Cristina Becker Lopes Perna, Sheila Nunes e Sun Yuqi PUC-RS/ PUC-RS (PG)/ PUC-RS (PG)

    Sendo o português a sexta língua materna e a terceira língua européia mais falada no mundo com mais de 200 milhões de falantes, esta pode ser considerada como uma língua do futuro. A expansão econômica dos países lusófonos e as criações das organizações internacionais, tais como UNESCO, MERCOSUL, OEA etc., trouxe um grande interesse no ensino de português como língua estrangeira. O ensino de português na China data do ano 1960 e, na última década, o número de cursos vem aumentando consideravelmente. Portanto, a investigação do ensino de português por falantes de chinês é um tema muito importante atualmente. No entanto, não encontramos nenhum estudo baseado em corpora de aprendizes de português como L2 por falantes de mandarim, fato este que revela uma lacuna nas pesquisas. Esta pesquisa tem por objetivo comparar a frequência dos itens lexicais na produção escrita entre os falantes brasileiros de português (L1) e os falantes chineses aprendizes de português (L2) através de dois gêneros textuais – a crônica e o blog. A crônica aqui, é definida como uma seção ou coluna de jornal sobre o tema especializado (Houaiis, p. 202). O Blog é um tipo de texto que fornece comentários ou notícias sobre um assunto em particular. Sua estrutura e tamanho são sempre variáveis. Tratam-se de dois gêneros textuais bem distintos: a crônica é mais formal e Blog é mais pessoal. Segundo Biderman (1998), “a frequência é uma característica típica da palavra. Aliás, a norma linguística se baseia na frequência dos usos linguísticos. Assim, a norma linguística nada mais é do que a média dos usos frequentes das palavras que são aceitas pelas comunidades dos falantes. E não é só isso. Também as mudanças linguísticas que, no decorrer da história, levam de um estado de língua a outro, advêm das frequências de certos usos em detrimento de outros (P. 162)” Conforme Berber Sardinha (2004, p.18), o corpus é “um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise”. Tendo como base a linguística de corpus, pretendemos verificar o que segue: (1) Qual é a diferença, em geral, na produção entre os dois grupos: falantes nativos e falantes de mandarim; (2) Qual é a diferença na produção dos dois gêneros coletados entre brasileiros e chineses; (3) Qual é o maior desafio na aprendizagem lexical dos alunos chineses; (4) De que forma podemos aproveitar o insumo no ensino de língua estrangeira. Quanto à metodologia, a pesquisa contém duas etapas - a coleta de dados e a análise estatística dos corpora A coleta de dados foi feita com dois grupos de informantes: 22 informantes participaram da pesquisa, sendo 11 chineses (5 femininos e 6 masculinos) e 11 brasileiros (5 femininos e 6 masculinos). Todos têm a mesma faixa-etária (20-30 anos) e estão no terceiro/quarto ano de faculdade. Os informantes chineses são aprendizes de português como L2 do terceiro ano da Faculdade de Comunicação Internacional em língua portuguesa da Communication University of China, Nanjing e estão fazendo intercâmbio no Brasil, frequentando a faculdade de Letras da Pontifícia Universidade Católica do Rio Grande do Sul. Os informantes brasileiros são alunos regulares da PUCRS que vem de diversos cursos. Todos são falantes nativos de português do Brasil e nasceram no estado do Rio Grande do Sul. Escolhemos os informantes brasileiros que vêm de faculdades diferentes a fim de garantirmos que o resultado da pesquisa não seja influenciado pela sua área de estudo. Para formar o corpus, os sujeitos tiveram que escrever duas crônicas e dois blogs, a partir da compreensão de textos escritos que apresentam assuntos da atualidade. Não houve exigência de extensão dos textos redigidos. Para realizar a parte estatística, primeiro, inserimos cabeçalho e etiquetas, separando os textos escritos pelos brasileiros e pelos chineses. Segundo, utilizamos o software WordSmith Tools para a manipulação do corpus. Faremos, então, a classificação dos itens lexicais de acordo com o uso frequente para ver que tipo de palavra é mais ou menos frequente na produção escrita. Também analisaremos quais itens lexicais são mais produzidas em cada gênero e pretendemos listar as palavras mais difíceis de serem adquiridas entre falantes chineses. A presente pesquisa ainda está sendo realizada e está na etapa de trabalho com os dados no programa WordSmith Tools.

  7. Colocações da hotelaria: um estudo direcionado pelo corpus Sandra Lago Martinez Navarro FFLCH- USP (PG)

    O turismo é um setor de bastante expressão no cenário econômico e cultural do mundo. Intimamente relacionado a essa atividade, está o setor hoteleiro, um segmento multicultural no qual a comunicação exerce um papel crucial e a tradução é uma necessidade constante. Os tradutores, por sua vez, deparam com os desafios de uma área técnica que apresenta, por um lado, um grande volume de traduções, sobretudo de sites dos estabelecimentos hoteleiros, e, por outro, uma real escassez de obras de referência confiáveis e abrangentes, especialmente as bilíngues voltadas às necessidades do tradutor como produtor textual. Diante desse cenário, vivenciado durante minha experiência profissional como tradutora, surgiu o interesse de desenvolver uma pesquisa que auxiliasse o tradutor a chegar a uma tradução mais natural, segundo os princípios da Convencionalidade. Nesse sentido, o objetivo deste estudo, recorte de nossa pesquisa de mestrado, é apresentar os resultados iniciais de uma proposta de glossário bilíngue (inglês-português), baseado em corpus, de colocações da área de hotelaria. Este estudo específico concentra-se nos padrões colocacionais mais recorrentes do termo room (quarto), identificado como um termo-chave do domínio. Para tanto, encontramos respaldo teórico e metodológico nos preceitos da Linguística de Corpus, área que se pauta em uma visão empírica e probabilística do sistema linguístico e se ocupa da identificação de padrões do léxico por meio da observação de textos autênticos, organizados em um corpus eletrônico (Tognini-Bonelli, 2001). Encontramos fundamentação teórica também nos postulados da Teoria Comunicativa da Terminologia (Cabré, 1993) e Terminologia Textual (Bourigault and Slodzian, 2004), correntes que compartem a visão de que o texto é o verdadeiro habitat das terminologias. Esta pesquisa situa-se ainda no escopo dos estudos de Convencionalidade, entendida como o conjunto dos elementos linguísticos, cuja co-ocorrência não é explicada sintática ou semanticamente, mas sim pelo uso (Fillmore, 1979) e da Fraseologia, ramo da ciência linguística que tem por objeto de estudo as combinações fixas das palavras, termos ou unidades lexicais. Para realizarmos o levantamento das colocações, compilamos um corpus de estudo comparável (textos originais em inglês e em português), contendo cerca de 200 mil palavras provenientes de textos descritivos publicados em sites de hotéis do Brasil e EUA. Com vistas a uma maior representatividade, os subcorpora foram divididos em hotéis de todas as categorias de estrelas. Em termos metodológicos, esta pesquisa foi dividida em etapas, a saber: a revisão da bibliografia, a delimitação e compilação do corpus de estudo e a exploração do corpus por meio das ferramentas do software Wordsmith Tools (Scott, versão 5). Esta etapa consistiu na elaboração de lista de palavras-chave, lista de colocados, lista de clusters, análise das linhas de concordância, validação dos colocados, levantamento dos equivalentes e seleção de exemplos para compor o verbete do glossário. Dentre os resultados obtidos a partir da primeira palavra-chave do subcorpus de inglês, room, destaca-se seu colocado mais frequente: a preposição “in”, que integra estruturas maiores, como in-room safe, in-room dining e in-room coffee maker. Como equivalentes, foi possível identificar cofre individual, room service e cafeteira, respectivamente. Nota-se o fato interessante de a palavra quarto estar ausente nos equivalentes encontrados, estando presente apenas nos contextos, como em: "Todos os quartos estão equipados com ar-condicionado, banheira, cofre individual, TV a cabo e frigobar.” Vale salientar a constatação de in-room dining ter como equivalente “em português” uma colocação em inglês, room service, que por sua vez se mostrou mais comum que serviço de quarto nas descrições de hotéis em português. Apesar de os resultados apresentados neste estudo serem ainda preliminares, eles já demonstram que a área em questão é bastante rica lexicalmente. Daí nossa preocupação em dar conta de uma terminologia in vivo, que descreva o real comportamento do léxico especializado em seu contexto de ocorrência. Espera-se que esta pesquisa possa fornecer ao tradutor elementos que contribuam para a maior adequação de sua tradução ou versão, em especial, na área de hotelaria.

  8. Os episódios de Chaves traduzidos para o português do Brasil: análise tradutória e a linguística de corpus Orlanda Miranda Santos UFSC

    Este projeto pretende contribuir para a formação de pesquisadores em Estudos da Tradução, Ensino de Línguas e Línguística de Corpus. Pretende proporcionar uma aplicação da Linguística de Corpus e de seus procedimentos e ferramentas no ensino de Língua Espanhola, oferecendo um suporte teórico no campo disciplinar dos Estudos da Tradução com interface nos aportes metodológicos da Linguística de Corpus aplicados ao Ensino de Línguas. Justifica-se por conter um tema inédito e de grande interesse, especialmente, para professores de Espanhol como Língua Estrangeira. Tem como objetivo geral: analisar a tradução dos episódios através de padrões léxico-gramaticais mais frequentes nos corpora de estudo. Como objetivos específicos estão: levantar padrões léxico-gramaticais mais frequentes nos episódios através da Linguística de Corpus; verificar se esses padrões estão presentes no corpus de referência; levantar padrões léxico-gramaticais mais frequentes na tradução desses episódios através da Linguística de Corpus; verificar se esses padrões estão presentes no corpus de referência; elaborar um material didático que promova a conscientização dos alunos em relação ao fato de que a linguagem é composta por padrões léxico-gramaticais e que, ao mesmo tempo, promova o aprendizado de alguns padrões criteriosamente selecionados do corpus El Chavo del Ocho (Programa Chaves em espanhol). Chaves é um programa televisivo criado na década de 70, no México, e que reproduz o contexto histórico daquela época e, no Brasil, Chaves é considerado quase um programa brasileiro. El Chavo del Ocho, título original da série, estreou em 1971 no México, exibida pela rede Televisa, com repercussão mundial e traduzido em mais de 50 países. Professores de espanhol dos diversos níveis de ensino utilizam Chaves em suas aulas. As traduções para o português do Brasil parecem alterar consideravelmente o sentido do texto original. Nesta pesquisa almeja-se responder a duas perguntas iniciais: Quais são os padrões léxico-gramaticais mais frequentes nos corpora de estudo? Esses padrões também estão presentes nos corpora de referência? Serão analisados episódios das oito temporadas do programa. Os corpora de referência serão os de Davies (2002) e Davies e Ferreira (2006). Será, portanto, um estudo de corpus paralelo, qualiquantitativo, com base na linguística empírica e no sistema probabilístico. A Linguística de Corpus pode ser definida como a área da Linguística que se ocupa da coleta e exploração de corpora, ou conjunto de dados lingüísticos textuais, em formato legível por computador, que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística, como afirma Berber Sardinha (2004, p. 3). O computador tem capacidades como buscar, localizar e recuperar sequências de caracteres ou contar ocorrências desta sequência que são triviais para o processamento de dados, mas seriam praticamente impossíveis para um ser humano. Graças aos estudos baseados em corpora, já se pode afirmar que a linguagem é padronizada, isto é, formada por seqüências de palavras (padrões) que se repetem várias vezes. Também já se sabe que os padrões variam de acordo com as diferentes situações e contextos em que ocorrem (SINCLAIR, 1991; HUNSTON & FRANCIS, 2000).

  9. Dever e ação: a geração de expectativas sobre o professor de línguas no discurso midiático, um estudo baseado em linguística de corpus Joseane Amaral UFSM

    O presente trabalho deriva de um projeto de dissertação que reúne subsídios teóricos e empíricos para analisar a geração de expectativas e a constituição do papel social do professor de línguas, sob a ótica do discurso midiático. Esta pesquisa, de caráter qualiquantitativo, utiliza os aportes metodológicos da Linguística de Corpus (LC), a saber o programa WordSmith Tools 4.0 e o Mapeador Semântico de Berber Sardinha e Richter (2009). Por meio da coleta e análise de corpora compostos por textos midiáticos da área de educação de duas profissões – o professor de Educação Física e o de Letras – pretendemos buscar respostas à seguinte questão: que propriedades linguísticas marcam as expectativas relativas ao papel social do professor, discursivizado pela mídia especializada em educação? Para tanto, procuraremos mapear expectativas cognitivas e normativas (Luhmann) em relação aos fatores de atribuição da Teoria Holística da Atividade - THA (Richter, 2008, 2006), aqui entendidos como o conjunto de variáveis que definem a modelagem do papel social do professor – em suma, suas atribuições, modelos de conduta, referência e pertença grupal (Richter, 2009). Pelos indícios linguísticos extraídos dos corpora, buscamos padrões que sobressaem, analisando semanticamente suas repercussões. O confronto discursivo de textos em duas profissões da esfera educacional, distintas juridicamente, procura verificar em que medida o papel social é constituído exogenamente nas profissões não emancipadas, como a docência em Letras. O cotejo inicial dos corpora demonstra que existem discrepâncias nas atribuições do professor emancipado juridicamente, como no caso da Educação Física, em comparação à realidade do professor desprovido de um lugar social delimitado, como o professor de línguas. Assim, o papel social do professor de educação linguística parece ser constituído por expectativas cognitivas advindas de sistemas discursivos exteriores ao de sua esfera profissional, como é o caso da mídia.

  10. Valência de construções emergentes: um estudo baseado em corpora e seus limites Luciana Beatriz Ávila UFMG

    Com base em princípios da Linguística Cognitiva, a pesquisa que, a princípio, proponho desenvolver como tese de doutoramento tem como ponto central descrever como se apresentam, no Português do Brasil (PB) e no Português Europeu (PE), o que denomino construções predicativas de conduta. Como exemplo, temos: (a) Luciana finge de inteligente. (b) Angel se faz de simpática. (c) Nando paga de gatinho. (d) Thiago posa de hetero. (e) Cláudio ataca de escritor. Especificamente, pretendemos analisar o pareamento forma-sentido dessas construções; investigar a integração entre verbos e construção; investigar as relações pragmáticas estabelecidas; investigar como a semântica do verbo contribui para a semântica do frame interacional; propor uma generalização sobre as instâncias da construção com verbos que significam “agir como alguém que Você não é”. Para tanto, empreenderemos uma pesquisa a partir dos dados dos corpora comparáveis de fala espontânea do PB, C-ORAL-BRASIL, e do PE, C-ORAL-ROM, a fim de determinar a sua ocorrência e frequência em monólogos, diálogos e conversações, e observar as diferenças de uso nessas duas variedades do português. Os dados serão cruzados a partir de parâmetros diastráticos, diatópicos, diamésicos e diafásicos. Procederemos, também, a uma análise de base construcionista (GOLDBERG, 1995, 2006). Entendemos que uma abordagem baseada no uso realmente permite investigar os contextos em que determinado padrão é encontrado e a análise de fatores contextuais que influenciam sua variação. No entanto, apesar de Gries destacar que “os métodos quantitativos da linguística de corpus podem fornecer evidência empírica, sugerindo respostas para alguns problemas notoriamente difíceis da linguística cognitiva” (GRIES, 2006, p. 57), observamos que um dos limites da linguística de corpus é justamente o de não dar conta de fenômenos de baixa frequência, como é o caso do fenômeno investigado aqui. Uma pergunta, pois, que se impõe é: como levar a cabo uma pesquisa baseada no uso, se os corpora disponíveis não apresentam frequência mínima necessária de um determinado tipo para que seu estudo possa ser significante? Consequentemente, pergunta-se mais genericamente: quais são os refinamentos necessários na compilação de corpora a fim de que eles possam refletir mais fidedignamente a realidade de uso da língua?

  11. Um levantamento das características das produções escritas de brasileiros aprendizes de Inglês como Língua Estrangeira analisadas à luz da Linguística de Corpus Wendell Dantas PUC-SP (PG)

    Esta pesquisa em andamento tem como objetivo principal fazer um levantamento das características salientes na produção escrita do aluno brasileiro no idioma inglês. Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus, área que tem uma visão probabilística da linguagem e se ocupa da compilação, coleta e análise eletrônica de textos em linguagem natural. Mais especificamente, o trabalho aqui apresentado fundamenta-se na área de pesquisa chamada Corpora de Aprendizes, que se baseia na análise de produções de estudantes e pode servir à área de Ensino e Aprendizagem de Idiomas, e utilizou como metodologia a Análise Contrastiva de Interlíngua, que consiste na comparação eletrônica das produções de alunos com produções de falantes nativos e, consequentemente, na análise das suas diferenças e semelhanças. As questões de pesquisa propostas foram as seguintes: (1) Quais são as características gerais das produções escritas do aluno brasileiro em inglês? (2) Quais dessas características podem gerar problemas de compreensão na interação? Os corpora empregados na pesquisa foram um corpus de estudo compilado por nós, ao qual chamamos de COBRA-7 (Corpus Brasileiro de Aprendizes de Inglês como Língua Estrangeira – Seven Idiomas) com 81835 itens – compilado a partir da coleta de 425 redações produzidas por aprendizes nos níveis pré-intermediário, intermediário e intermediário superior – e dois corpora de referência, o BNC (British National Corpus), da variedade britânica, e o COCA (Contemporary Corpus of American English), da variedade americana, que contém, respectivamente, 100 e mais de 400 milhões de palavras. Para a análise utilizamos os aplicativos Wordlist, Keywords e Concord, do software Wordsmith Tools, versão 5.0.0.247. Os resultados de um estudo piloto do COBRA-7 apontaram para a presença de marcas de oralidade, mas não detectaram a presença de fatores que dificultam a compreensão das composições. Diante destas respostas, concluiu-se, primeiramente, que, embora este seja um estudo piloto realizado com aproximadamente 50% do corpus que pretendemos compilar, parece haver a necessidade do ensino formal dos traços linguísticos pertinentes às variedades oral e escrita da língua inglesa, uma vez que cada uma delas possui características específicas e graus diferentes de formalidade.

  12. Ensino e produção de material de inglês instrumental para a área de Tecnologia Ambiental com base na Linguística de Corpus Vitor Ricardo Duarte UNISC-RS

    O objetivo desta comunicaçao é apresentar uma pesquisa em andamento, nível de Mestrado, que visa a a produção de material didático e de propostas para o ensino de inglês instrumental para área de Tecnologia Ambiental. Este estudo contempla duas etapas: a primeira etapa constitui-se dos procedimentos envolvidos para a produção de um pequeno corpus e sua análise linguística; a segunda, a elaboração do material didático a partir dos dados coletados, considerando, conjuntamente, referências da Linguística de Corpus (LC) e Linguística Cognitiva. Segundo dados apontados por Wray & Perkins (2000), as sequências formulaicas na comunicação podem constituir até 70% de uma língua. ERMANN & WARREN (2000) demonstram que a frequência dos elementos pré-fabricados na produção escrita é em torno de 55%. Esses dados “dão forte sustentação ao idiom principle como formulado por Sinclair e revelam que a proporção de pré-fabricados na língua, de forma geral, tem sido subestimada”(ERMAN & WARREN, 2000, p. 50). Acreditamos poder haver uma relação entre o índice de frequência de um termo, o conhecimento das fórmulas linguísticas mais utilizadas num determinado nicho cultural, a utilização de material autêntico e o aprendizado de uma língua. A combinatória dessas variáveis, parece-nos, pode contribuir para o aprendizado da segunda língua e parece ser pertinente articularmos o estudo e uso das fórmulas linguísticas nesse âmbito. A produção de um small corpus é o primeiro estágio desta pesquisa. Objetiva-se mapear e descrever o vocabulário e padrões linguísticos/formulaicos mais recorrentes, analisando sua frequência no corpus. Este estágio da pesquisa norteia-se pelas seguintes perguntas: 1)Quais são as palavras-chaves do corpus formado e quais termos técnicos e expressões específicos da área Tecnologia Ambiental mais frequentes? 2) Quais são as colocações/coligações, padrões léxico-gramaticais e vocabulário mais recorrentes e sua frequência? 3) Qual a proporção e quantidade de grupos lexicais no corpus elaborado? O desenho de atividades e tarefas pedagógicas, segunda etapa, será realizado a partir do estudo linguístico dos textos do small corpus compilado. Revisaremos propostas de ensino realizadas que utilizem a LC como referencial, tais como o Data Driven Learning, Lexical Approach, Lexical Syllabus. Busca-se o entrecruzamento de informações advindas de pesquisas do campo da Linguística Cognitiva sobre o aprendizado de uma segunda língua ( relevância da frequência da exposição à língua, importância da qualidade do input, processamento mental do léxico) que corroboram dados apontados pela LC, para a elaboração de tarefas. Nesse estágio, estas perguntas são colocadas: 1)Como explorar didaticamente os padrões lexicais mais frequentes nas atividades propostas em consonância com fundamentos da Linguística Cognitiva? 2) Quais estratégias poderiam ser desenvolvidas para o ensino do vocabulário técnico/especializado? 3) Como utilizar e explorar os recursos tecnológicos associados à LC para oportunizar aos aprendizes maior probabilidade de exposição à língua(input)? Objetiva-se alcançar os seguintes resultados até a conclusão desta pesquisa em março 2011: 1)Conclusão e disponibilização do small corpus; 2) Conclusão e apresentação do levantamento linguístico e 3) Elaboração de duas (ou mais) tarefas e atividades pedagógicas a serem utilizadas ao longo de um curso de Inglês Instrumental.

  13. Corpus BELC Aline Pacheco PUC-RS/ UFRGS

    Este trabalho aborda a aquisição de morfemas em inglês como L2 por aprendizes falantes de português brasileiro como L1 através do BELC – Brazilian English Learner Corpus – um corpus de aprendiz elaborado primordialmente para os fins deste estudo. A pesquisa constitui uma tese de doutorado pela Universidade Federal do Rio Grande do Sul e está em fase final. Nos anos 70 e 80, observamos o desenvolvimento de estudos que propunham uma ordem na aquisição de morfemas em inglês. O estudo de Brown (1973) é uma referência em estudos sobre a aquisição de inglês, tanto na condição de L1 como na condição de L2. Brown observou um padrão evolutivo com relação a estruturas morfêmicas. Krashen (1977) também observou um padrão semelhante em inglês como L2, mostrando a seguinte ordem na aquisição de morfemas: 1.Present Progressive, Plural, Copula; 2. Auxiliary, Article; 3. Irregular Past; 4. Regular Past, Third person singular, Possessive. Com o objetivo de verificar o comportamento dos aprendizes brasileiros de inglês como L2, propomos a investigação dos estágios evolutivos de aquisição de morfemas através do BELC, um corpus elaborado a partir da coleta de textos escritos, sobre três temas bastante amplos, produzidos espontaneamente por aprendizes de inglês de 8 níveis. O corpus foi coletado a partir de 424 sujeitos que produziram 902 textos e totalizaram aproximadamente 103 mil palavras. A metodologia da pesquisa foi totalmente baseada em princípios da linguística de corpus (cf. Berber Sardinha, 2004) especialmente aplicados a corpora de aprendizes (cf. Granger, 2002). O corpus foi devidamente etiquetado para a análise desta pesquisa e os resultados obtidos apontaram para a seguinte sequência: 1. Copula, Plural; 2. Article, Possessive; 3. Present Progressive, Auxiliary, Irregular Past; 4. Regular Past, Third person singular. Os resultados preliminares apontam para algumas semelhanças e diferenças entre estes estágios. O trabalho tenta ainda propor algumas razões para tais semelhanças e diferenças a partir dos trabalhos de Zobl e Liceras (1994) - que oferecem uma explicação de natureza sintática para tal ordem, e Goldschneider & Dekeyser (2005), que sugerem uma explicação de natureza multifatorial para uma possível sequência natural na aquisição de morfemas baseada em aspectos de saliência.

  14. Base de dados morfológicos de terminologias do português do Brasil: descrição e análise morfológica com vistas à disponibilização online Joel Sossai Coleti UFSCar

    As pesquisas nas áreas de Lingüística e Letras são extremamente ricas, constantes e eficientes no Brasil, entretanto, ainda são pouco expressivas no cenário brasileiro as pesquisas envolvendo questões morfológicas em Terminologia, sobretudo quando se considera o aspecto de disponibilização on-line dos resultados obtidos. Diante dessa realidade, esta pesquisa pretende descrever a estrutura de dois repertórios terminológicos (Nanociência/Nanotecnologia e Biocombustíveis) no nível da estrutura interna dos seus termos constitutivos, verificando-se os principais processos de construção dos termos (tipos de derivação presentes, tipos de composição – morfológica, morfossintática, lexicalização de sintagmas, etc.). A partir dessa descrição morfológica, pretende-se organizar uma base de dados de maneira que seja possível a implementação computacional e a disponibilização on-line dos dados obtidos. O modelo a ser usado para a análise morfológica será o modelo SILEX, criado por Danielle Corbin (1987, 1991, 1997, 2004), desenvolvido pela sua equipe de trabalho e que já conhece aplicações profícuas para análise do português. Esta pesquisa visa, portanto, preencher uma lacuna, na medida em que serão analisados e descritos os processos morfológicos possíveis no âmbito de terminologias em português (variante brasileira). Espera-se, pois, ao final da pesquisa, ter sido efetuada a descrição morfológica e a classificação dos constituintes analisados numa base de dados, possibilitando a posterior disponibilização on-line.

  15. Diário Gaúcho: palavras, construções recorrentes e contextos de uso Bruna Rodrigues da Silva UFRGS (graduação)

    Textos jornalísticos têm sido utilizados para estudos de vocabulário do português do Brasil escrito (PB), sobretudo o jornal Folha de São Paulo. Entretanto, o uso de jornais populares brasileiros não é muito comum. Pensando em diminuir essa lacuna de conhecimentos, este trabalho descreve elementos do vocabulário tomando como fonte o jornal popular porto-alegrense Diário Gaúcho (DG). Seu número de leitores supera o de jornais da mesma cidade dirigidos a públicos mais tradicionais em todo estado, o que se aplica, por exemplo, ao jornal Zero Hora, produzido pela mesma empresa. O corpus organizado compreende amostra com edições completas do jornal publicadas ao longo de 05 meses do ano de 2008. Cada mês inclui 10 dias de edição, selecionados de modo a alternar dias da semana. Esse corpus tem 825151 tokens (quantidade de palavras) e 69353 types (diferentes formas como cada palavra se repete). Desse material foram identificadas palavras e construções mais freqüentes com apoio das ferramentas geradoras de lista de palavras e gerador de n-gramas oferecidas no site do Projeto TEXTQUIM. A primeira etapa, no início da pesquisa, consistiu na organização do corpus com o apoio de softwares. Observamos as palavras mais freqüentes, mês a mês. Quando pronta, a lista de freqüências nos trouxe informações sobre tokens e types. Fizemos a comparação com dados de padrões de vocabulário colhidos do Banco do Português, corpus de linguagem geral do Brasil que possui mais de 120 milhões de palavras (tomando como base o ano 2000), mantido pela PUC-SP. Fizemos também observações e contrastes com padrões de vocabulário do jornal Zero Hora (ZH). Pelo que pudemos observar, no que tange à configuração gramatical das listas de palavras mais freqüentes do DG na amostra do primeiro trimestre de 2008, não há diferença significativa em relação ao jornal ZH ou ao Banco de Português. Atualmente, nessa nova etapa da pesquisa, serão examinadas as combinações de palavras mais freqüentes em amostras de texto dos primeiros cinco meses do corpus de 2008 e os contextos em que essas aparecem, com o intuito de verificar se tais combinações são mais freqüentes por se tratar de um jornal popular ou se são freqüentes também em outros corpora. Para tanto, os dados obtidos serão contrastados com dados do jornal Zero Hora, gerados pela pesquisa PorSimples do NILC-SP-USP. A partir dos resultados, concluiremos se as construções são mais recorrentes por causa do público a que se destina ou por causa da forma mais simplificada de escrita, por exemplo, ou se a feição do vocabulário do jornal popular não difere muito em relação à do jornal tomado como contraste, como observamos nos dados analisados no início da pesquisa. Além disso, para além do aspecto de descrição vocabular, utilizar o jornal DG como fonte de estudo pode ser de grande utilidade para reflexão sobre a linguagem escrita e o ensino, já que suas contínuas grandes tiragens e a grande adesão do seu público a quaisquer eventos promovidos pelo jornal demonstram, em tese, metodologia bem-sucedida de diálogo com o seu leitor.

  16. Ecuadorian English Learner Corpus Anna M. Gates e Nick Izquerdo Universidad Tecnica Particular de Loja

    Although while several English learner corpora have been built and analyzed in the past two decades, no publically or academically available learner corpora have been built for Ecuadorian learners of English. Commercial corpora developed by the large publishing houses such as Pearson Education and Cambridge University Press represent Ecuadorian learners with a mere 117,100 words (personal correspondence). Considering that learner corpora are important tools for modern linguistic analysis and for the understanding of interlanguage and learner errors (Gilquin, G., Granger, S., & Paquot, M.,2007); and are often used to influence the development of learning materials, this conspicuous lack of the representation has been cause for concern. In an effort to fill this void and to stimulate linguistic investigative activity in Ecuador, the authors have embarked on the development of a 250,000 word learner corpus of Ecuadorian written English (EELC). The EELC was designed with two objectives in mind: 1) the creation of a corpus comparable with the Spanish subcorpora of the International Corpus of Learner English (ICLE), and 2) the creation a corpus that would be representative of the distinct geographical regions of Ecuador. Participants were selected from a national database of proficient to advanced English learners, which included individuals from diverse geographical regions throughout Ecuador. This database was comprised of university students in their final year of study, English major alumni, current practicing English teachers, and people who had expressed interest in joining a Master degree program in teaching English as a foreign language. Language proficiency was determined through the use of demographic information; specifically, duration and quality of English language exposure. The writing samples collected were produced from an argumentative essay prompt. Data collection began in June 2010. Candidates have been sent an online survey (Lime Survey) requesting demographic information and also requesting they write an argumentative essay of between 700 and 1000 words. To improve response rates, candidates have been offered an incentive for their participation. This method was chosen to minimize data collection costs and to reach a wide geographical range within Ecuador. The software to be used in the analysis of the EELC is AntConc 3.2.1 (AC 3.2.1), a corpus analysis toolkit developed by Laurence Anthony. AC 3.2.1 was chosen since it provides a "powerful concordancer, word and keyword frequency generators, tools for cluster and lexical bundle analysis, and a word distribution plot," and support for regular expressions (Anthony, 2006; Wiechmann & Fuhs, 2006). In terms of functionality and usability, AC 3.2.1 is an attractive alternative to commercial software packages. The authors have chosen CLAWS4, the general-purpose grammatical tagger developed by UCREL at Lancaster University, for the POS-tagging of the EELC. The reasons for choosing CLAWS4 over any of the other available POS-taggers are a) its high rate of accuracy, b) its robustness, and c) the advantage of making comparative analysis with other corpora that have also been tagged with CLAWS4.

  17. Recuperação semiautomática de contextos definitórios em corpus com vistas à colaboração da redação da definição terminológica:proposta de sistematização linguística Dayse Simon Landim Kamikawachi UFSCar (PG)

    A confecção de corpus no trabalho terminográfico tem como finalidade a observação e extração de candidatos a termos, assim como, posteriormente, serve como fonte de informações relevantes sobre os termos, que pode auxiliar na etapa da redação da definição terminológica. Tais informações ocorrem frequentemente em contextos definitórios, já que é necessário definir técnicas, produtos, processos, substâncias, ou seja, conceitos da área-objeto, de forma a transmiti-los ao leitor. A partir da premissa de que os contextos definitórios apresentam determinados padrões léxico-sintáticos, é proposta, como tema de doutorado, a investigação de padrões concernentes a eles em corpora de especialidades de língua portuguesa do Brasil a fim de proporcionar conhecimento linguístico para a construção de uma ferramenta de extração semiautomática de candidatos a contextos definitórios no ambiente e-Termos. Para a realização das análises, serão adotados os seguintes passos: i) análise manual de contextos definitórios em corpora de especialidade disponíveis em língua portuguesa e em bases definicionais oriundas do Grupo de Estudo e Pesquisa em Terminologia (GETerm); ii) proposta de um conjunto de regras e tipologia referentes aos tipos de contextos definitórios de acordo com a análise manual realizada, assim como lançaremos mão da descrição linguística realizada, em pesquisa de mestrado, acerca das relações semânticas (télico, agentivo, constitutivo, exemplo e etc.) presentes nas definições terminológicas, pois a partir do rol das expressões linguísticas que expressam essas relações, acreditamos ser possível detectar contextos definitórios também, além do que já foi investigado em estudos similares a este em outras línguas (sobretudo para o francês e espanhol); iii) utilização de dois corpora de estudo para a avaliação e adequação das regras geradas na etapa anterior. De modo a manipular o corpus será utilizado o UNITEX, sobretudo porque o programa: i) apresenta etiqueta morfológica referente aos itens lexicais, possibilitando a busca por categorias gramaticais; ii) possui busca por grafo, o que permite elaborar expressões de busca mais complexas. Como resultado, espera-se obter conhecimento lingüístico de modo a integrar um extrator semiautomático de candidatos a contextos definitórios a fim de auxiliar os terminólogos na redação da definição.

  18. Tradução automática:um reconhecedor, analisador e gerador de expressões nominais do inglês para o português Tiago Martins da Cunha UFC

    O
 compartilhamento
 de
 conhecimento
 entre
 estudos
 de
 lingüística
 de
 corpus linguística computacional
tem
ganhado
cada
vez
mais
importância
no
âmbito
dos estudos
da
lingüística
aplicada. Dentro desta perspectiva, muito desse compartilhamento contribuiu para avanços nos estudos tradutórios, especialmente quanto à tradução automática. A tradução automática perdeu muito de sua credibilidade junto ao meio acadêmico devido uma longa sequência de maus resultados. Grande parte dos maus resultados é gerada por problemas de análise, reconhecimento e adequação da tradução oferecida pelos sistemas de tradução automática. Este trabalho visa apresentar parte de um estudo de doutorado que desenvolverá uma ferramenta de tradução automática de expressões nominais do inglês para o português, tentando solucionar alguns dos problemas que os tradutores automáticos disponíveis no mercado não conseguem resolver. As expressões nominais que serão expostas e discutidas nesse trabalho são aquelas que contêm o caso genitivo agregado a outros elementos de posse. A lista de expressões foi analisada no corpus Brown por meio do módulo NLTK (Natural Language Tool Kit) da linguagem de programação Python. O NLTK é um módulo desenvolvido para os estudos de processamento natural da linguagem e está gratuitamente disponível ao acesso de estudiosos, entusiastas e desenvolvedores. Neste trabalho visamos apresentar de forma didática, alguns comandos imprescindíveis para a análise de corpus pelo NLTK. Fazendo uso do corpus Brown, já disponível na biblioteca do NLTK, foi realizada uma busca pelas expressões que contivessem as estruturas desejadas. Foi analisada o contexto de realização dessas expressões. A estrutura de expressões nominais como John’s building a spaceship, proposta por Abney (1987, p.13), que motivaram este estudo, foram encontradas com freqüência considerável em textos acadêmicos segundo o corpus Brown. Assim como estruturas que contivessem dois elementos de posse na mesma expressão e.g. John’s picture of Chomsky. Tais estruturas não possibilitam bons resultados pelos tradutores automáticos disponibilizados no mercado, mesmo apresentando de uma considerável freqüência em textos acadêmicos. Para a análise dessas estruturas no corpus, foi realizada a etiquetagem do corpus, que uma vez anotado, passou por regras de extração para filtrar as estruturas desejadas nas expressões nominais. Este estudo, em desenvolvimento, fazendo uso de um método de transfer para a tradução automática (ARNOLD, 1994) visa solucionar os problemas encontrados nas estruturas dessas expressões nominais encontradas. Toda metodologia assim como os códigos do NLTK utilizados para a realização das buscas e análises dessas expressões e o processo de funcionamento da tradução automática fazendo uso de método de transfer serão devidamente explicados na apresentação deste trabalho.

  19. Bases teórico metodológicas para um dicionário monolíngue de português brasileiro para aprendizes estrangeiros Kleber Valenti Schenk UFRGS

    A proposta deste trabalho é estabelecer as bases teórico-metodológicas para um dicionário monolíngue de português brasileiro para aprendizes estrangeiros, material didático ainda inexistente. Partimos da revisão da literatura sobre “dicionários para aprendizes”, que devem ter definições, exemplos de uso e explicações linguísticas simples para facilitar e possibilitar um bom uso por parte do aprendiz através de uma apresentação bem clara. Suas palavras-entrada devem ser escolhidas mediante o critério de frequência através de levantamentos estatísticos em grandes corpora muito diversificados, úteis também para a escolha do vocabulário das paráfrases definitórias e para a seleção dos exemplos de uso. Seria pertinente o estudo de corpora de textos jornalísticos, preponderantes em corpora linguísticos, em meio a outros corpora, e o segmento “jornalismo popular” também pode contribuir, pois a imprensa popular se aproxima do público alvo através de uma linguagem direta que trata dos aspectos locais e imediatos usando textos curtos com vocabulário simples, elementos que auxiliariam no esboço dos planos macro e microestruturias de um dicionário de fácil acesso para estrangeiros. Para sua construção é pertinente analisar: a estrutura dos cursos oferecidos pelo Programa de Português para Estrangeiros da UFRGS; dicionários de inglês e espanhol para aprendizes estrangeiros; livros didáticos de português voltados para aprendizes estrangeiros e os critérios para certificação de proficiência em português como língua estrangeira no Brasil (Exame Celpe-Bras). Devem fazer parte do dicionário: descrição gramatical básica sobre o português do Brasil voltado para aprendizes de português como língua estrangeira com textos simplificados de apoio; guia de utilização para professores e alunos; reprodução da pronúncia; exemplos de uso de palavras e expressões em diferentes situações e construções; sugestões de exercícios e de atividades individuais e em grupos de alunos. Através do projeto Ensino de português como língua estrangeira: bases para um dicionário on-line para suporte de atividades em EAD, já em construção no site da UFRGS, será elaborado um espaço para se fazer testes com usuários e para postagem de depoimentos de aprendizes sobre o uso e o sentido da palavra em foco em cada verbete, o que auxiliará na definição do perfil de usuário.

  20. Etiquetagem morfossintática de um corpus do português do nordeste para extração automática de entradas lexicais Andréa Feitosa dos Santos e Raimundo Cleodimar de Oliveira Júnior UFC

    Essa pesquisa reflete algumas das atividades que desenvolveremos ao longo de um estudo de doutorado. Somos norteados por pelo menos três áreas de atuação e aplicação linguística, a teoria gramatical, a linguística de corpus e a linguística computacional. Do ponto de vista da teoria gramatical e da linguística de corpus, nós discutimos certos fenômenos sintáticos e semânticos do português brasileiro à luz de teorias linguísticas de cunho formal e por isso consideramos de grande importância basear em corpus os nossos estudos, visto que evidências linguísticas obtidas de corpora estão diretamente ligadas a um trabalho de análise e descrição linguística e podem ajudar o pesquisador a produzir novas informações, teóricas ou aplicadas sobre a língua em estudo (OLIVEIRA, 2009). Conforme Domingues, Favero e Medeiros (2008, p. 269), do ponto de vista da linguística computacional, ‘a etiquetagem morfossintática é uma tarefa básica e importante [...] na anotação de corpus, extração e recuperação de informações’. Para alcançar um dos nossos objetivos, a construção de um analisador sintático-semântico computacional, partimos da constatação de que podemos construir as entradas lexicais da nossa gramática através da extração automática dos itens lexicais com suas respectivas propriedades sintáticas de corpora anotados, que, de acordo com McEnery (2004), possuem a vantagem de ser multifuncionais e fáceis de explorar. A inserção de informação referente a cada unidade de grandes quantidades de texto pode ser feita de forma mais rápida, por isso o uso dos etiquetadores automáticos (SARDINHA, 2004). Segundo Bird, Klein e Loper (2009), é possível construir um etiquetador automático com base nos mecanismos linguísticos e computacionais disponíveis no NLTK. Os objetivos do nosso trabalho são: i. compilar e etiquetar morfologicamente um corpus que chamamos de Corpus Patativa; ii. construir uma ferramenta para a extração de entradas lexicais de um corpus para a sua inserção em um analisador sintático-semântico automático; iii. aplicar o etiquetador e a extração automática em textos do Patativa do Assaré em linguagem padrão, e em seguida fazer correções manuais das anotações; iv. colaborar para a elaboração de um corpus representativo do português do Nordeste, pois há essa lacuna em relação ao material disponível para o processamento do português. Sendo assim, além de discutirmos assuntos relevantes para o nosso estudo de doutorado, nós também esperamos contribuir para a constituição de um corpus representativo do Nordeste brasileiro. Pretendemos colaborar com a documentação de registros linguísticos dessa região em corpora distribuídos em centros para processamento computacional do português, como o NLTK, onde há poucos corpora do português e para o qual pretendemos disponibilizar os corpora anotados e compartilhar a ferramenta de extração de entradas lexicais como módulo da sua biblioteca de programas, desenvolvida na linguagem Python. Por fim, acrescentamos que Patativa do Assaré foi poeta e escritor do interior do Ceará. Seu trabalho se distingue pela marcante característica da oralidade, pela dimensão estética e política e pelas vertentes social/militante, telúrica, religiosa, filosófica, lírica, humorística/irônica, motes/glosas, entre outras*. *PATATIVA DO ASSARÉ. In: WIKIPÉDIA, a enciclopédia livre. Flórida: Wikimedia Foundation, 2010. Disponível em: . Acesso em: 9 jul. 2010.

  21. Questões para a tradução facilitada da obra de Edgard Allan Poe à luz da Linguística de Corpus Bianca Franco Pasqualini UFRGS (PPG)

    CONTEXTUALIZAÇÃO Esta pesquisa visa reconhecer e descrever padrões de vocabulário na obra de Edgar Allan Poe – considerando apenas a sua produção no gênero conto – a fim de levantar dados teóricos e metodológicos que deem suporte a traduções e facilitações do texto desse autor para neoleitores. REVISÃO DE LITERATURA A pesquisa aqui proposta partirá de um conjunto de referenciais de base. Essas referências envolvem as seguintes áreas: estudos de tradução, lexicologia, estudos literários (sobretudo crítica literária), estudos do texto e do discurso e, por fim, linguística de corpus. OBJETIVOS O objetivo mais abrangente desta pesquisa é estabelecer uma fundamentação empírica e teórica para guiar a tradução e a facilitação de obras consagradas da literatura universal (tendo como ponto de partida a obra de Edgar Allan Poe), destinando-se tais produções a comunidades interpretativas inexperientes nesse gênero de texto. Entende-se aqui que um texto não contém em si significados preexistentes à leitura e que o ato da leitura é tanto produção de sentidos (e não do sentido) quanto atividade interpretativa. Assim, pode-se considerar a prática da tradução uma atividade essencialmente criativa. Em outras palavras, a tradução pode ser entendida como a atividade interpretativa de um leitor-tradutor a fim de produzir significados aceitáveis para uma comunidade leitora determinada. Nessa perspectiva, o texto na língua de chegada passa a ter a importância e receber a atenção normalmente dispensada ao texto-fonte, que tradicionalmente é tido como um texto fechado e com significados a serem “extraídos” pelos leitores. Essa postura estabelece que há um significado hegemônico desvinculado de uma prática livre de leitura aberta a múltiplas significações. Logo, a partir dessa concepção de tradução, é fundamental para o tradutor determinar tanto o perfil linguístico do texto-fonte quanto o perfil do leitor a quem tais textos se destinam a fim de que suas escolhas tradutórias sejam adequadas e aceitas por esses leitores. METODOLOGIA Será selecionado um corpus composto somente pela produção literária em prosa do autor, deixando de lado poesia e crítica. Dois corpora adicionais serão usados: um coletado do inglês norte-americano vigente na época em que Poe escreveu sua obra e outro do inglês norte-americano contemporâneo. A partir da coleta dos corpora mencionados, serão usadas ferramentas como o programa AntConc (concordanciador) para extração de estatísticas de frequência lexical. Das observações desses dados, novos passos metodológicos serão estabelecidos, como a necessidade de lematização do corpus de Poe, por exemplo. Um dos pontos importantes é determinar o que é particular e específico de Poe e diferenciar daquilo que é, por contraste, particular e específico em relação ao vocabulário da sua época. Para tanto, ferramentas como o Coh-Metrix e o Coh-Metrix-Port serão úteis, uma vez que estimam a complexidade textual e fornecem dados comparativos entre os textos de partida e de chegada. A fim de testar tais ferramentas, alguns contos traduzidos para o português brasileiro foram selecionados para servir de eixo comparativo com os textos de partida. Em uma segunda fase do trabalho, será estudado um perfil de vocabulário do português escrito que possa ser compatível com as experiências de leitura e de expressão do público neoleitor. Será estudada, com ênfase, a linguagem do jornalismo cotidiano de grandes centros urbanos, com algum destaque para o chamado jornalismo popular. Nesse segmento de fontes especialmente dirigidas para leitores de perfil de escolaridade e poder aquisitivo baixos, será aproveitado o corpus coletado do jornal Diário Gaúcho, da pesquisa em andamento intitulada “Padrões do Português Popular Escrito: PorPopular”. Uma vez que o público-alvo desse jornal é bastante semelhante ao neoleitor, esse corpus poderá ser tomado como uma boa fonte de dados para o estudo aqui proposto. RESULTADOS Até o momento, apenas resultados preliminares foram obtidos. O mais importante deles é a confirmação, por meio do uso da ferramenta Coh-Metrix, da maior complexidade das traduções disponíveis em português brasileiro da obra de Edgar Allan Poe. CONCLUSÕES Com essas informações em mãos, será possível proceder, ao final do trabalho de pesquisa, a uma tradução experimental de um dos contos de Poe para verificar a validade e o alcance do método proposto.

  22. O papel do feedback corretivo na aquisição da escrita Fernanda Knecht PUC-RS (PG)

    A dissertação de mestrado em questão tem o objetivo de investigar o papel do feedback corretivo em textos escritos em inglês como segunda língua (L2) por alunos da graduação em Letras. Pretende-se trabalhar com leitura de textos narrativos e argumentativos, e posteriormente, com a escritura de textos destes mesmos tipos com um grupo de alunos. Deste grupo, metade, além de escrever seus próprios textos, corrigirá os textos de um colega. A outra metade de alunos não corrigirá nenhum texto, apenas escreverá os seus. Além disso, todos os alunos terão seus textos corrigidos por um professor. O grupo que receber dois feedbacks (do colega e do professor) terá que trabalhar com as duas correções para reescrever seus textos, enquanto que o outro grupo reescreverá os textos apenas com base no feedback do professor. Pretende-se verificar se o aluno, ao analisar e corrigir o texto do colega, apresenta crescimento na escrita de seus próprios textos. Os alunos produzirão, no mínimo, quatro textos diferentes (no total oito por aluno, contando as reescritas de cada um), para que este seja o corpus a ser analisado. A pesquisa visa a verificar se os resultados obtidos vão ao encontro de estudos recentes (LUNDSTROM e BAKER, 2009; ZHAO, 2010), que envolvem diferentes tipos de feedback a textos escritos, e que evidenciam que o fato de o aluno fornecer feedback ao texto do colega propicia àquele melhora na escrita de seus próprios textos.

  23. Kicktionary Br - Reflexões preliminares acerca da construção de um corpus para anotação semântica João Gabriel Padilha UNISINOS (IC)

    Este trabalho é parte de um projeto mais amplo intitulado Framecorp, cujo interesse é a anotação semântica de corpora a partir da Semântica de frames (Fillmore et al., 2008). O objetivo deste estudo é apresentar uma nova etapa prevista na agenda do projeto Framecorp, a qual se ocupa da investigação da temática do futebol a partir das contribuições de Schmidt (2009) presentes no site Kicktionary, uma ferramenta lexical multilíngue que abrange Inglês, Francês e Alemão. Como desdobramento desse objetivo, este trabalho objetiva descrever o processo de compilação do corpus de estudo que será utilizado na descrição semântica do léxico do futebol em Português brasileiro – passo inicial para a construção da plataforma Kicktionary Br. Vale ressaltar que os textos devem conter frames relacionados ao léxico do esporte e não simplesmente estarem relacionados ao tema, uma vez que notícias institucionais dos clubes, embora versem sobre esporte, não trazem aquilo que concerne ao projeto: itens lexicais ligados estritamente às cenas do jogo. A justificativa para este estudo considera o fato de que o corpus empregado durante a primeira fase do projeto Framecorp já havia sido compilado anteriormente no contexto interinstitucional do projeto PLN-BR e adequado às exigências técnicas requeridas pela ferramenta de anotação SALTO (Burchardt et al., 2003), como o formato XML Tiger. A segunda fase do projeto Framecorp prevê, primeiramente, a construção de um corpus comparável próprio semelhante aos corpora empregados pelo projeto Kicktionary, que inspirou este subprojeto. Assim como no trabalho de Schmidt, o corpus piloto da pesquisa conta com notícias sobre resultados de partidas extraídas de sites de clubes de futebol, porém em português brasileiro, totalizando 76.463 palavras, com o intuito de evidenciar as peculiaridades semânticas do idioma no que tange ao tema proposto. Para orientar o processo de construção do corpus, este estudo fundamenta-se nos conceitos postulados por Berber Sardinha (2004) e que, de acordo com ele, devem ser levados em consideração quando se propõe tal empreitada – representatividade, autenticidade e escolha criteriosa. Quanto à tipologia do corpus piloto, ela pode ser caracterizada, como quer esse teórico, pelos seguintes atributos: falado e escrito, contemporâneo, dinâmico, especializado, produzido por falantes nativos e com a finalidade de estudar um domínio linguístico específico. Em tom complementar, aparecem neste estudo alguns procedimentos apontados por Wynne (2004) subsequentes à fase inicial de construção do corpus, referentes a questões como armazenamento, distribuição e preservação dos textos. Para o teórico, isso é importante para garantir que, no futuro, o corpus possa ser utilizável por um um vasto número de potenciais usuários. Como conclusão preliminar dessa primeira experiência de construção de corpus, é possível citar a necessidade de expandir seu tamanho (o que caracteriza um corpus dinâmico, também referido como “aberto”, em fase de construção) a fim de atingir 250.000 palavras, o que, segundo Berber Sardinha, corresponde a um corpus de tamanho médio.

  24. Helpers: um projeto de ensino de ESL na universidade Danilo Suzuki Murakami USP (PG)

    O Projeto Helpers foi concebido pela Professora Cristina Arcuri Eluf Kindermann (atualmente doutoranda pela Universidade de São Paulo – USP) no âmbito da Universidade Paulista (UNIP). Trata-se de um curso de língua inglesa, paralelo às aulas curriculares, que é oferecido aos alunos de diversos cursos. Seu objetivo é aperfeiçoar o domínio de língua inglesa dos alunos, especialmente por meio do contato com formas de aprendizado que envolvam novas tecnologias, particularmente as contribuições da Linguística de Corpus. No ano de 2010, este projeto foi levado para o curso de Letras da Universidade de São Paulo (USP) e está em fase de implementação. Em tal universidade, após um ano de matérias introdutórias, os alunos de graduação têm de optar por uma habilitação em uma língua estrangeira ou em linguística, além da habilitação em português. A habilitação em inglês é a única cujas disciplinas são ministradas em inglês desde o início, o que exige que os alunos tenham um conhecimento razoável da língua para cursarem as aulas. No entanto, muitos alunos não acompanham as aulas e migram para outras habilitações, enquanto outros continuam no curso sem ter uma compreensão plena durante as aulas. Vemos, então, uma disparidade entre os níveis de domínio da língua, fato que tem sido motivo de discussão entre docentes e alunos. Nosso trabalho de iniciação científica tem como objetivo acompanhar o desenvolvimento do projeto e compilar seus resultados, tendo em vista a inserção das aplicações da Linguística de Corpus ao ensino de língua estrangeira na tentativa de amenizar o problema acima descrito. Os ganhos ocorrem em uma via de mão dupla, pois as aulas são ministradas por alunos da graduação que já possuem um maior conhecimento da língua (alunos-formadores). Ao mesmo tempo em que alunos menos preparados têm a oportunidade de alcançar um nível adequado para acompanharem as aulas, os alunos-formadores também aprimoram seu conhecimento e sua experiência pedagógica. Após a divulgação do projeto, foram entrevistados catorze candidatos a alunos-formadores, que foram convocados para um workshop de introdução à Linguística de Corpus e preparação para as aulas. Em seguida, os candidatos mais aptos serão selecionados para atuarem como alunos-formadores. Serão dois tipos de cursos: Language Practice, que focará a gramática, e Writing Practice, centrado em domínios de escrita. Cada módulo-piloto terá dez aulas semanais de 45 minutos cada, com previsão de início em agosto de 2010. A produção escrita dos alunos será compilada em um corpus de aprendizes, cuja análise servirá para identificar as necessidades deste público, assim como para definir o conteúdo programático do curso, o qual poderá ser alterado segundo demanda dos alunos. Os exercícios privilegiarão dados reais, retirados de linhas de concordância de corpora online,os quais também serão apresentados aos alunos. Esperamos obter êxito com este projeto, dada sua realização satisfatória em outra instituição. Esperamos também que a Linguística de Corpus seja divulgada em nível de graduação para que suas aplicações sejam conhecidas por aqueles interessados em áreas com a quais a Linguística de Corpus lida.

  25. Interface pedagógica = linguística de corpus + multiletramentos Cristina Arcuri Eluf USP (PG)

    Nova Interface Pedagógica – pesquisa ação – desenvolvida pela interseção da Linguística de Corpus e dos Multiletramentos. Prática pedagógica realizada em sala de aula viabilizada pelo momento contemporâneo, da globalização, e pelo momento atual da inserção das Tecnologias de Informação e Comunicação as TICs - tanto na sociedade quanto na educação formal. A prática relaciona linhas pedagógicas que não estão incluídas na grade curricular na formação do graduando de Letras. A Interface Pedagógica, num primeiro momento, está sendo utilizada como alternativa à produção e construção do conhecimento na formação do professor de Língua Inglesa (LI). Sua aplicação visa a promoção de autonomia ao aprendiz no processo de aprendizagem e a independência ao aluno futuro professor na sua trajetória profissional. A pesquisa analisa, ao mesmo tempo, dois momentos de aquisição de autonomia/independência no processo de aprendizagem de LI. O 1º momento observado ocorre na formação do professor durante o percurso de 50 alunos da graduação de Letras desde o ano de 2007 na Universidade Paulista de São Paulo. Resultados: · Compilação de Corpus de aprendizes com 568 redações (47.645 palavras) hospedados na Plataforma COMET (FFLCH-USP) [Textos coletados nas disciplinas: LI:AD; LI:GA; LI:SL; MS: LI, ministradas pela Profª Ms. Cristina]; · Definições a respeito do perfil do aprendiz; · Identificação de problemas de aprendizado de LI; · Data-driven learning- produção de exercícios de LI a partir de linhas de concordância do corpus; · Acompanhamento diacrônico [desde 2007] de um grupo de alunos universitários; · Inserção das TICs na formação de professores de Língua Inglesa. O 2º momento analisado de aquisição de autonomia compreende observações feitas no momento da aplicação, pelos alunos graduandos, das práticas realizadas em sala. Esta etapa envolve a criação do “Programa de Prática Situada” que acontece numa Escola Municipal de Ensino Fundamental (EMEF) da rede Pública de São Paulo. Prática desenvolvida por esta pesquisa, supervisionada pela Professora Ms. Cristina Arcuri, aplicada por 3 alunas da universidade UNIP-SP. Esta pesquisa comporta alunos da 5ª, 6ª, 7ª e 8ª séries do Ensino Fundamental II da escola. As atividades executadas na EMEF - inserção de ações simultâneas de Inglês e Informática - incluem a aplicação da Nova Interface Pedagógica: uso da Linguística de Corpus e dos multiletramentos na composição das aulas. O desenvolvimento das aulas inclui o uso dos seguintes Corpora: COCA, Cobuild, CoMAprend e COMPARA. Envolve ainda a integração dos quatro fatores que amparam as práticas da Pedagogia de Multiletramentos - propostas pelo grupo que elaborou o manifesto que deu origem a esta pedagogia (The New London Group) - 1. Prática Situada (Situated Practice); 2. Instrução Aberta (Over Instruction); 3. Construção Crítica (Critical Framing); 4. Prática de Transferência (Transformed Practice). Resultados esperados: a. Compilação de um corpus de aprendizes da Língua Inglesa do Ensino Fundamental II da escola pública em questão (parte do processo final do Doutorado).

  26. Linguística de corpus e quadro comum europeu de referência de línguas: uma relação necessária Gislaine Machado Jerônimo e Paola Davi Nolasco Rodrigues Merode PUC-RS (PG)

    O escopo do presente trabalho é sondar se há relação entre os textos selecionados para as provas de proficiência em leitura utilizadas pela Comunidade Européia e a Linguística de Corpus (LC). Ou seja, queremos avaliar se, nessas provas, a frequência das palavras presentes nos textos para avaliação da habilidade leitora refletem consonância com os corpora de palavras mais frequentes nas línguas inglesa e italiana, línguas alvo da nossa pesquisa. Segundo Sarmento (2009), a LC pode ser um grande recurso para autores de materiais didáticos, uma vez que fornece dados reais da língua tanto escrita como falada. Acreditamos que a LC é um recurso importante não só para autores, mas também para professores de L2 para que saibam o tipo de input ao qual devem expor os seus alunos, a fim de tornar o ambiente de sala de aula menos artificial. Julgamos que um aluno deva estar exposto, no início do seu percurso de aprendizagem (ou aquisição), a um input condizente com a realidade da língua-alvo. Logo, um candidato que se submeta à prova de nível A1 e A2, deve ser avaliado pelo conhecimento das palavras e grupos lexicais mais frequentes. Portanto, se os textos a serem interpretados fugirem a essa lista de frequência, a avaliação da proficiência, a nosso ver, é duvidosa. Claramente, o inverso se espera do último nível, C2, no qual o candidato deve ter alta proficiência e, desse modo, ser conhecedor de palavras não tão recorrentes na sua L2 (ou LE). Escolhemos a habilidade de leitura, dentre as quatro habilidades linguísticas, porque um aprendiz de L2 normalmente está mais exposto a textos autênticos escritos ao longo de sua aprendizagem da L2 do que aos orais, pois eles são mais recorrentes nos livros didáticos. Dessa forma, focalizamos nossa pesquisa em dados escritos das línguas inglesa e italiana. O Quadro Comum Europeu (QCE) é o documento que estabelece as diretrizes, em termos de habilidades e competências linguísticas, que certificam um nível de proficiência aos candidatos. De acordo com o QCE, espera-se, em cada nível (Usuário Básico: A1 e A2; Usuário Independente: B1 e B2; Usuário Proficiente: C1 e C2), as seguintes habilidades relacionadas à leitura: A1 - ser capaz de compreender nomes conhecidos, palavras e frases muito simples, por exemplo, em avisos, cartazes ou folhetos; A2 - ser capaz de ler textos curtos e simples. Ser capaz de encontrar uma informação previsível e concreta em textos simples de uso corrente, por exemplo, anúncios, folhetos, ementas, horários. Ser capaz de compreender cartas pessoais curtas e simples; B1 - ser capaz de compreender textos em que predomine uma linguagem corrente do dia-a-dia ou relacionada com o trabalho. Ser capaz de compreender descrições de acontecimentos, sentimentos e desejos, em cartas pessoais; B2 - ser capaz de ler artigos e reportagens sobre assuntos contemporâneos em relação aos quais os autores adotam determinadas atitudes ou pontos de vista particulares. Ser capaz de compreender textos literários contemporâneos em prosa; C1 - ser capaz de compreender textos longos e complexos, literários e não literários, e distinguir estilos. Ser capaz de compreender artigos especializados e instruções técnicas longas, mesmo quando não se relacionam com a minha área de conhecimento; C2 - ser capaz de ler com facilidade praticamente todas as formas de texto escrito, incluindo textos mais abstratos, linguística ou estruturalmente complexos, tais como manuais, artigos especializados e obras literárias. A metodologia utilizada foi a análise das 100 palavras lexicais mais frequentes no Inglês e no Italiano em Corpora de Referência de língua escrita, respectivamente no British National Corpus (BNC) e CORIS/CODIS D. S. L. O. Para tanto, foram digitalizadas as provas da University of Cambridge Local Examination Syndicate (UCLES) dos níveis PET, FCE, CAE e CPE do ano de 2008; e Certificazione di Italiano come Lingua Straniera (CILS) do ano de 2009. Todas as provas foram posteriormente processadas no WordSmith Tools. Foram analisados os níveis B1, B2, C1 e C2, não compreendendo os níveis A1 e A2, visto serem níveis muito elementares e, dessa forma, pouco requisitados. Com a análise dos dados, esperamos que seja possível verificar uma relação entre o nível de exigência da proficiência do candidato aos exames de certificação em L2, baseados no Quadro Comum Europeu, e o registro de número de ocorrências de palavras lexicais das línguas-alvo, extraídas dos corpora mencionados acima. Esses dados podem servir de base à reflexão sobre a preparação de material didático para professores de L2 e sobre até que ponto essas provas certificam a proficiência em leitura com base em textos autênticos, representativos de uma língua em uso. Queremos ainda, com este trabalho, destacar a importância da utilização da LC como uma poderosa ferramenta para o professor de L2.

]]>
http://corpuslg.org/gelc/elc2010.php/2010/09/19/modalidade-2-work-in-progress#comments http://corpuslg.org/gelc/elc2010.php?tempskin=_rss2&disp=comments&p=78

Strict Standards: Non-static method Hitlist::dbprune() should not be called statically in /home/corpus6/public_html/gelc/inc/_core/_misc.funcs.php on line 248