Metodologia
Antes de partir em busca de dicionários, vocabulários, glossários, listas e demais materiais lexicográficos das línguas indígenas, foi preciso definir/delimitar o que se queria de fato repertoriar, ou seja, o objeto desse levantamento de dados, já que existe uma grande quantidade de materiais lexicográficos no mundo. Sem essa delimitação, corre-se sempre o risco de, não só empreender um esforço muito maior do que o necessário, mas também de não aproveitar adequadamente os dados que estiverem sendo encontrados.
Apesar de, aparentemente, em um primeiro momento, não haver nenhuma dúvida sobre a natureza do objeto a ser procurado – dicionários, vocabulários, glossários e listas de palavras de línguas indígenas brasileiras –, um olhar mais atento sobre esse objeto revela que a apreensão correta dele não é tão fácil, nem tão óbvia, como se percebe ao questionar a sua própria natureza e os meios pelos quais se pode apreendê-la.
Nesta seção passamos a apresentar a base teórica e a metodologia empregada na pesquisa lexicográfica que empreendemos.
Tipologia das obras lexicográficas
Produzidas no âmbito de diferentes sociedades, em épocas e lugares diversos, e com os mais variados recursos e finalidades, as obras lexicográficas assumiram uma pluralidade de formas e funções, e, por isso, classificá-las tornou-se, segundo Haensch (1982, p. 95), “una tarea muy ardua”. Logo, a distinção, por exemplo, entre materiais do tipo “dicionário” dos do tipo “vocabulário” nem sempre é tão óbvia.
Essa perspectiva assume contornos de maior complexidade se for considerado que, no caso das línguas indígenas, significativa parte delas não possui uma interface escrita, nem o povo que a fala (ou falou) domina (ou dominou) a escrita, a própria produção de materiais escritos (tais como gramáticas e dicionários), muitas vezes, só faz sentido para as pessoas que não pertencem à comunidade indígena.
Some-se a isso, no caso de comunidades indígenas que possuem registros escritos de sua(s) língua(s), a diversidade de contextos e de finalidades dos materiais lexicográficos já produzidos, que vão desde a educação escolar indígena até o uso cotidiano da população, passando ainda pelas situações de contato linguístico e bilinguísmo.
Por isso, é necessário partir de uma apreciação, mesmo que breve, da diversidade de termos e dos diferentes conceitos a eles ligados em relação às obras lexicográficas.
Um dos mais conhecidos documentos lexicográficos é o dicionário, que pode ser compreendido como “[...] livro que visa a descrição de unidades lexicais ou palavras. [...] ele contém, necessariamente, [...] informação gramatical...” (Correia, 2009, p. 25), outra definição um pouco mais abrangente é dada por Haensch (1982, p. 129): “Los diccionarios de la lengua o diccionarios lingüisticos (...) son repertorios de signos lingüísticos, cuya naturaleza (pronunciación, grafía y características gramaticales), significado, valores de uso y relaciones paradigmáticas o sintagmáticas con otros elementos del léxico, explican mediante una metalengua”.
Certamente essas duas definições não resolvem a questão da dificuldade de se estabelecer uma tipologia para o material conhecido como dicionário[1], mas trazem alguns elementos importantes, como a necessidade de repertoriar unidades lexicais de uma ou mais línguas e de apresentar componentes descritivos, como informação gramatical, valores de uso e explicitação de relações linguísticas.
Além disso, há de se considerar a falta de homogeneidade no emprego dessa tipologia por parte dos autores dos materiais, o que aumenta a dificuldade de encontrar pontos em comum entre obras tão diferentes.
Ao lado dos dicionários, os autores costumam distinguir o material lexicográfico do tipo enciclopédia, definido por Correia (2009, p. 27) como “[...] compêndio, geralmente de grandes dimensões, contendo informações sobre os mais variados domínios do saber: visa fornecer explicações sobre entidades da realidade extralinguística, [...] por meio de textos informativos, acompanhados ou não de ilustrações.” Do mesmo modo, Haensch (1982, p. 129) distingue dicionários de enciclopédias, afirmando que: “La principal función de los diccionarios de cosas, llamados por lo general ‘enciclopedias’, consiste en informarmos sobre una material determinada. En ellos predomina la información sobre el mundo extralinguístico”.
Nesse contexto da terminologia lexicográfica, há de se destacar ainda a existência dos tesauros, que são dicionários “[...] em que se procura reproduzir um percurso onomasiológico [= dicionário analógico]” (Correia, 2009, p. 31), ou ainda:
Un término como ‘thesaurus’ o ‘tesoro’ parece evocar la idea de un diccionario más o menos exhaustivo; y, en el caso de las lenguas muertas, un thesaurus puede serlo, suponiendo que todo el vocabulario familiar, vulgar y popular esté documentado en algún texto escrito. Lo thesauri de lenguas modernas, en cambio, se basan, en gran número de citas extraídas de toda clase de textos; pero, por lo general, no en las manifestaciones de la lengua hablada. (Haensch, 1982, p. 154).
A principal distinção entre um dicionário e um tesouro, no presente, parece recair sobre a exaustividade do corpus coletado em relação à língua registrada, enquanto o primeiro limita-se a um corpus, por exemplo, de palavras em uso, seja na fala seja na escrita dessa língua, os tesauri buscam reunir o maior número possível de dados, independente de sua fonte.
Outro material bastante comum de ser encontrado é o vocabulário, que, segundo Correia (2009, p. 31), consiste em: “[...] conjunto delimitado de vocábulos, isto é, de unidades efectivamente atestadas num determinado registro de língua, num conjunto de textos, na obra do autor, etc.”. Outra definição de vocabulário é dada por Vilela (1995, p. 13-14 apud Welker, 2004, p. 25),
[...] o vocabulário é o conjunto dos vocábulos realmente existentes num determinado lugar e num determinado tempo, tempo e lugar ocupados por uma comunidade lingüística; o léxico é o geral, o social e o essencial; o vocabulário é o particular, o individual e o acessório [...] Há ainda uma outra perspectiva, a de ‘colecção de unidades’, em que o vocabulário se opõe a dicionário e glossário: o dicionário é a recolha ordenada dos vocábulos duma língua, o vocabulário é a recolha de um sector determinado duma língua.
Essa distinção baseada na natureza do corpus que serve de base para construção do material não é absoluta e, na maior parte dos casos, é bastante difícil de determinar essa natureza e, como bem observa Welker (2004, p. 26), “[...] o termo vocabulário – no sentido de ‘livro de vocábulos ou termos técnico-científicos’ – freqüentemente é substituído por dicionário, de modo que existem dicionários de economia, direito, informática etc.”.
Continuando no estabelecimento dessa tipologia lexicográfica, devemos destacar os materiais do tipo glossário, que são, segundo Correia (2009, p. 31), uma “[...] lista restrita de vocábulos de um determinado domínio do conhecimento, de um determinado registro linguístico [...], específicos da obra de um autor. [...] Esta lista pode ser apresentada, p.ex., como um anexo a uma outra obra”. Além disso, o glossário:
[...] pretende ser representativo da situação lexical de um único texto manifestado [...] numa situação de enunciação e de enunciado, numa situação de discurso exclusivas e bem determinadas [...] deve recuperar, armazenar e compilar palavras-ocorrências [...] extraídas de um único discurso concretamente realizado. [...] Portanto, glossários se encontram geralmente no final de certos livros para esclarecer o significado de determinadas palavras ou expressões usadas pelo(s) autor(es). (Barbosa, 1995, p. 20; 27 apud Welcker, 2004, p. 25).
Se considerarmos a fonte dos dados do glossário como limitada a um ‘único discurso’, com a finalidade de esclarecer sentidos específicos desse discurso, somos levados a crer que a definição desse tipo de material lexicográfico seja mais fácil, no entanto, as definições apresentadas não esclarecem quase nada com relação às informações que devem constar na microestrutura desse material. No entanto, apesar de essa definição dar conta de um grande número de glossários existentes, nem todos correspondem a materiais que ficam anexados a obras, podendo existir glossários temáticos, à maneira de vocabulários e dicionários, deste em nada se distinguindo.
Nessa mesma direção, incluímos os materiais lexicográficos denominados listas, cuja definição também oferece uma grande dificuldade, justamente por abranger materiais de configurações bem diversas. De modo geral, quase todos os materiais lexicográficos correspondem a listas, ordenadas alfabeticamente ou não, mas distinguem-se, como vimos, por critérios que vão desde a fonte dos dados do corpus à estruturação das informações. No entanto, o tipo lista (ou lista de palavras, para ser mais específico), é um gênero que está presente em menor quantidade na literatura lexicográfica brasileira.
É possível distinguir desde de listas de palavras (itens lexicais) monolíngues até listas plurilíngues, listas breves e listas com grande quantidade de dados, listas ordenadas a partir do alfabeto a listas ordenadas por assunto. Assim, o termo lista apresenta-se como um dos termos com sentido mais amplo e um dos menos definidos na tipologia lexicográfica.
Contudo, ao lidar com materiais produzidos muitas vezes a partir de línguas tão diferentes entre si, que não dispunham ainda de nenhuma forma de escrita, com os mais diferentes status de uso, não esquecendo dos objetivos particulares e institucionais, do tempo e dos recursos disponíveis e também da competência técnico-científica de quem produziu ou colaborou com a produção da obra lexicográfica, todos esses fatores vão interferir diretamente na produção e na nomeação do material. Por isso, além dos materiais elencados acima, é possível que outros serão acrescentados a esse conjunto ao decorrer deste texto.
Além disso, é possível que ocorram coincidências entre os termos descritos acima com os termos usados nas obras encontradas, sem que haja nenhuma relação entre o material (publicado ou manuscrito) e a proposta acima descrita.
Outra observação importante diz respeito às múltiplas possibilidades de especificação desses materiais, oriundas de particularidades relacionadas à quantidade de línguas envolvidas no trabalho (uma, duas ou mais de duas), ao conteúdo selecionado (dados linguísticos, dados extralinguísticos ou ambos, mas também, nesses mesmos domínios, os diversos recortes possíveis), à forma de organização/ordenamento das informações (pela ordem alfabética, pelos sentidos, por imagens), à estruturação interna de cada informação (disposição, relacionamento e formatação dos elementos da microestrutura), à extensão da obra (dependendo da natureza da pesquisa e da destinação da obra, a quantidade de entradas pode variar bastante de obra para obra), ao público-alvo e finalidade a que elas atendem (para ensino de línguas, para tradução, para atendimento de diferentes áreas de especialidade, entre outros) e ao suporte em que foi construído (manuscrito, impresso em papel, digital), pois essas características podem definir a nomenclatura, que, aliás, como em todo domínio científico, apresenta variação. Por isso, em um primeiro momento, busquei fazer o registro da denominação original atribuída pelo(s) próprio(s) autor(es) de cada obra, sem nenhuma intervenção ou avaliação acerca da adequação entre título e conteúdo da obra.
[1] Para mais informações sobre essa dificuldade de estabelecimento de uma tipologia lexicográfica, consultar Welker (2004, p. 35-54).
Línguas indígenas brasileiras
Várias propostas de agrupamento ou de classificação das línguas indígenas brasileiras já foram realizadas ao longo dos últimos dois séculos, dentre as principais cito as de: Martius (1867), Steinen (1886), Ehrenreich (1892), Boas (1911), Rivet (1924), Mason (1950) e Rodrigues (1970a; 1970b; 1986; 2013). Cada uma dessas propostas trouxe contribuições para o desenvolvimento de hipóteses sobre as relações genéticas das línguas indígenas do Brasil. Dentre as principais dificuldades de classificar essas línguas está a ausência de dados linguísticos suficientes e de estudos que descrevam com segurança cada uma das línguas.[1] Embora vários agrupamentos genéticos sejam considerados consolidados, outros ainda não foram plenamente fundamentados.
Paralelamente a estas diversas propostas de classificação feitas por estudiosos, há o resultado do Censo Demográfico realizado pelo Instituto Brasileiro de Geografia e Estatística (IBGE) em 2010, que se baseou no registro das autoidentificações dos entrevistados, chegando, assim, a um total de 274 línguas.[2]
Vê-se, dessa forma, que estabelecer quais são as línguas indígenas brasileiras não é tarefa das mais fáceis.
Contudo, para delimitar um ponto de partida para este trabalho, optei pela classificação proposta por Rodrigues (2013), na obra Línguas indígenas brasileiras, por ela representar a culminância de um trabalho científico de classificação, fundado no método histórico-comparativo e em mais de meio século de pesquisa. Trata-se de uma lista que apresenta 199 línguas classificadas, quando possível, em troncos (Macro-Jê e Tupi) e famílias linguísticas (41 ao total), além de registrar línguas isoladas e também uma língua mista.
Certamente, ao longo desta pesquisa, foram incorporados materiais relacionados a línguas mortas, cujo registro poderá ser adicionado à lista original.
[1] Deve-se levar em consideração ainda o fato de vários povos indígenas, no passado e no presente, migrarem entre regiões de países diferentes, por eles não reconhecerem as fronteiras estabelecidas pelos não indígenas. Assim, um povo que antes vivia em terras brasileiras e que forneceu material linguístico para elaboração de dicionários e vocabulários, hoje, pode existir, por exemplo, somente no Peru, na Colômbia ou no Paraguai, e isso é uma questão que deve ser considerada na definição do conjunto “línguas indígenas brasileiras”.
[2] O próprio IBGE reconhece a necessidade de avaliar de modo mais aprofundado por linguistas e antropólogos esse total de línguas e de povos identificados no Censo 2010.
Coordenadas da pesquisa
Uma vez definidos os principais tipos de materiais lexicográficos e a que línguas eles se referem, passo à questão da natureza desses materiais. Ao longo da história dos estudos linguísticos das línguas indígenas brasileiras, diversos pesquisadores registraram dados dessas línguas, e a forma mais comum se deu com a utilização de registros escritos em papel. No entanto, com o advento de máquinas que armazenavam informações, como os computadores pessoais que se popularizaram na segunda metade do século XX, os dados puderam passar a ser registrados de modo digital. Mais recentemente, esses dados digitais passaram a circular na “nuvem”, ou seja, sob a forma de armazenamentos na internet, podendo ser compartilhados e acessados por meios eletrônicos de qualquer lugar do mundo.
Assim, ao se questionar sobre a natureza dos materiais a serem buscados, chega-se à questão seguinte: Onde buscar esses materiais? Pois, se a intenção for pesquisar materiais impressos ou conteúdos digitais, a forma e o local de pesquisa podem mudar drasticamente. Por exemplo, apesar de atualmente existirem muitas obras raras digitalizadas e disponíveis em site da internet, ainda há um grande acervo que só pode ser encontrado nas escuras e empoeiradas estantes de livros raros de uma biblioteca.
Logo, estabelece-se um percurso para a pesquisa dos materiais lexicográficos das línguas indígenas, que incluiu a busca em acervos físicos, acervos digitais particulares e acervos digitais disponíveis na internet, que é um grande repositório de material lexicográfico na atualidade. Ao realizar a pesquisa na internet, a primeira ideia que veio foi a de utilizar motores de busca; mas, há de se considerar que existem muitos acervos não acessíveis mesmo aos mecanismos mais modernos e potentes de busca.
Por isso, a pesquisa neste vasto universo virtual também exigiu um esforço coordenado em motores de busca, tais como Google (http://www.google.com), Yahoo (http://www.yahoo.com), Bing (http://www.bing.com), para citar apenas os maiores e mais conhecidos, cada um com sua base de dados, podendo oferecer resultados bem diferentes para um mesmo termo pesquisado. Também recorri às principais instituições de ensino e pesquisa, seus repositórios, bibliotecas e projetos relacionados a línguas indígenas do Brasil e do Exterior, pois eles, em geral, possuem sistemas próprios de busca, além de, com frequência, disponibilizarem materiais digitais para download. No Brasil, podemos citar os sites de várias instituições públicas e privadas, de acervos e de bibliotecas, como a Biblioteca Curt Nimuendajú da Fundação Nacional do Índio (http://biblioteca.funai.gov.br), a Biblioteca Nacional do Rio de Janeiro (http://www.bn.br), a Biblioteca Brasiliana Guita e José Mindlin (http://www.bbm.usp.br), o Portal Governamental Domínio Público (http://www.dominiopublico.gov.br), a Rede Pergamum de Bibliotecas Brasileiras (http://www.pergamum.pucpr.br/redepergamum/consultas/site_CRP/pesquisa.php), a Biblioteca Digital Curt Nimuendajú (http://www.etnolinguistica.org), entre outros. No exterior, consultamos o projeto internacional Europeana (http://www.europeana.eu), os repositórios The Internet Archive (https://archive.org), e Glottolog (https://glottolog.org), entre outros.
Apesar de não se constituir exatamente em um lugar, a pesquisa em catálogos especializados de referências bibliográficas (impressos ou digitais) foi bastante produtiva. Nesse sentido, já existe uma quantidade significativa de obras desse tipo, dentre as quais podemos citar:
▪ Apontamentos para a Bibliografia da língua tupí-guaraní, de Plinio Ayrosa, publicado em São Paulo, pela Gráf. Cruzeiro do Sul, em 1943.
▪ Bibliografia crítica da etnologia brasileira, de Herbert Baldus, publicado em São Paulo, por Nicolau Indústria Gráfica, em 1954.
▪ Classification of South American Indian Languages, de Čestmir Loukotka, publicado em Los Angeles, EUA, pela Latin American Center, University of California, em 1968.
▪ Catálogo do material linguístico da Comissão Rondon, de Ruth Wallace de Garcia Paula, publicado no Rio de Janeiro, pelo Museu do Índio, em 1982.
▪ Catálogo de las lenguas de América del Sur, de Antonio Tovar e Consuelo Larrucea de Tovar, publicado em Madrid, Espanha, pela editora Gredos, em 1984.
▪ The present state of the study of Brazilian Indian languages, de Aryon Dall’lgna Rodrigues, publicado em Austin, EUA, pela University of Texas Press, em 1985.
▪ Línguas brasileiras: para o conhecimento das línguas indígenas, de Aryon Dall’lgna Rodrigues, publicado em São Paulo, pela Editora Loyola, em 1986.
▪ Bibliografia das línguas Macro-Jê, de Wilmar da Rocha D’Angelis, Carla Maria Cunha e Aryon Dall’Igna Rodrigues, publicado em Campinas, SP, pela Universidade Estadual de Campinas, em 2002.
▪ Diccionario etnolingüístico y guía bibliográfica de los pueblos indígenas sudamericanos, de Alain Fabre, disponível na internet desde 2005 – http://www.ling.fi/DICCIONARIO.htm
▪ Lingüística Amerindia Sudamericana: Las lenguas indígenas de América, de Wolf Dietrich, publicado e atualizado na internet – http://www.uni-muenster.de/Romanistik/Organisation/Lehrende/Dietrich/LingAmerSud/index.html
A maior parte desses locais foi acessada e as obras consultadas, permitindo a localização e a compilação de dados e de materiais lexicográficos dentro do escopo de nosso propósito. Não podemos esquecer de que estamos lidando com materiais produzidos nas mais de 150 línguas indígenas (existentes ou extintas), ao longo de, pelo menos, 400 anos de história, e armazenados nos mais diferentes lugares do Brasil e do exterior. Por isso, a pesquisa se prolongou para além do término da proposta inicial.
Banco de dados dos materiais lexicográficos
À medida que íamos compilando os materiais lexicográficos, eles passaram a ser analisados conforme nosso objetivo proposto. Logo, foi fundamental estabelecer que informações seriam consideradas ou extraídas de cada obra.
Esse registro foi feito da maneira mais sistemática possível, pois tantas poderiam ser as referências, que ficaria inviável primeiro reunir tudo para só então iniciar o registro delas.
Logo, se o objeto inicial era determinar que obras lexicográficas já haviam sido produzidas para todas as línguas indígenas brasileiras, e quais seriam as principais características dessas obras, a proposta era a de que as informações a serem coletadas fossem:
a) Identificação da língua, com a respectiva família e tronco, se houvesse. Para cada língua, uma entrada específica, ou seja, se o material contivesse mais de uma língua línguas, seriam feitas entradas específicas para cada uma delas.
b) Identificação da tipologia atribuída no próprio material. Se o material for identificado pelo título “Dicionário Tupi”, o tipo de material será dicionário, a não ser que, no interior desse Diccionario houvesse um Vocabulário, situação bastante comum, aliás; nesse caso, a classificação deve considerar a identificação atribuída a cada parte do material.[1]
c) Elaboração da referência bibliográfica completa, apresentada conforme a norma da ABNT. A referência completa de um material bibliográfico é composta, grosso modo, dos dados de autoria, do título, da edição, dos tradutores, do local e data de publicação, da quantidade de páginas e da coleção ou série. Além disso, nessa referência é possível especificar cada parte que contenha algum material lexicográfico. Ou seja, se numa determinada obra lexicográfica, um dicionário bilíngue possuir duas partes, uma com dados no sentido da língua 1 (L1) para a língua 2 (L2) e seu reverso, isto é, da L2 para a L1, é importante que sejam feitas duas entradas, uma para cada parte do dicionário. A cada um desses conjuntos de dados contidos na obra, denominamos unidade de base lexicográfica (UBL). Logo, o dicionário bilíngue acima, usado como exemplo, possui duas UBLs, que devem ser registradas separadamente, pois, só assim, podem ser analisados em suas macro e microestruturas específicas. Desse modo, reafirmo a necessidade de informar, no interior da referência bibliográfica, os dados de cada parte destacada, inclusive citando o intervalo de páginas correspondentes a cada uma delas.
d) Identificação das línguas envolvidas no material referenciado. A informação das línguas utilizadas no material lexicográfico pode ser útil para descobrir qual a frequência de uso de determinada língua, por exemplo, na entrada do verbete. Essas línguas podem vir citadas no interior da própria referência bibliográfica, logo após a citação da parte específica destacada na obra, mas também podem vir destacadas em campo próprio. Neste último caso, para registrar essa informação também de modo destacado, utilizei um sistema de siglas para identificar as línguas e uma seta horizontal apontando para a direita a fim de indicar a direção.[2] Por exemplo, um material que tivesse o lema com uma palavra de uma língua indígena (Id) e com a tradução para o Português (Pt), seria assim representado: Id → Pt.[3] Se a relação fosse entre mais de duas línguas, indicava todas as línguas na segunda parte do esquema, separando-as por barras diagonais ( / ). Ex.: Id → Pt/In/Lt.[4]
e) Quantificação das entradas (ou verbetes). Esta questão é bastante delicada, pois não há uma única forma de apresentar as entradas de um dicionário. Por exemplo, há obras que apresentam regularmente a distribuição dos verbetes, com apenas um lema para cada entrada; outros, porém, apresentam entradas e subentradas; e outros apresentam ainda uma palavra como entrada de várias outras entradas. Há de se destacar ainda a grande diferença que existe no estabelecimento de um lema para o verbete e também do conteúdo associado a ele. Ou seja, o que para um dicionário pode constituir um verbete independente, para outro pode ser apenas um tópico dentro de outro verbete. Acredito que a solução mais prática é contar todos os itens de entrada, independentemente das suas qualidades e conteúdos; e, com relação às subentradas, estas devem ser avaliadas se se tratam de novos itens lexicais (apenas com um recuo na margem) associados semanticamente ou não ao item da entrada principal (neste caso, elas devem ser contados como itens de entrada) ou se contêm apenas dados que exemplificam o conteúdo da entrada (neste caso, não devem ser contados com itens novos). Isto só o aprofundamento da pesquisa pode revelar. Em todo caso, essa contagem deve ter um caráter apenas indicativo para uso no estabelecimento de uma classificação dos materiais.[5]
f) Classificação a partir da quantidade de entradas. A contagem indicada no tópico anterior, mais do que revelar a quantidade de entradas de um dicionário, deve servir para estabelecer uma classificação dos materiais com base na quantidade de entradas. Essa classificação, por sua vez, contribui não só para dar alguma ideia da dimensão de uma obra em relação a outra, mas também ajudar a definir se há alguma relação entre os tipos de materiais e a quantidade de entradas (por exemplo, dicionários possuem mais entradas que vocabulários?).[6] Por isso, ao término desta lista, apresento uma proposta detalhada de classificação baseada na quantidade de entradas dos materiais.
g) Identificação do ordenamento da macroestrutura. Todo material lexicográfico apresenta, a princípio, algum tipo de ordenamento que condiciona sua macroestrutura. Segundo Haensch (1982, p. 165), “El diccionario semasiológico ordena por significantes; el diccionario onomasiológico, por conceptos”.[7] Sem dúvida, não há uma fronteira nítida entre essas duas perspectivas, podendo, na prática, existirem, por exemplo, dicionários onomasiológicos (primeiro critério) com partes semasiológicas (segundo critério). Por isso, opto, para efeito de registro, para que seja considerada a primeira ordenação do material. Nesse sentido, pela ordenação dos materiais em “base semasiológica” e “base onomasiológica”, com possibilidade de ajustes à medida que as análises forem sendo processadas.[8]
h) Descrição da microestrutura. Uma informação crucial para o desenvolvimento desta pesquisa está relacionada à microestrutura de cada material lexicográfico. Essa microestrutura compõe o artigo que, segundo Haensch (1982, p. 462), “es la más pequeña unidad autónoma de um diccionario, y puede tener una fisionomía muy variada”. Essa variedade de estruturação dos artigos é resultado das opções teóricas (mas também de fatores de ordem prática) de cada projeto lexicográfico desenvolvido para determinada língua. Diante da multiplicidade de estruturas, proponho uma forma de descrição que dê conta de parte da complexidade dessa informação, ou seja, uma maneira prática e segura de apresentar os principais componentes das microestruturas encontradas. Como esta descrição requer um detalhamento maior, buscando manter, em certo sentido, a noção original do sistema microestrutural de cada obra, apresento, ao final desta subseção, a proposta completa.
i) Informação complementar. A última informação a ser apresentada nesta lista diz respeito àquelas que surgiram no decorrer da pesquisa e não puderam ser previstas com exatidão. Contudo, a título de exemplo, uma informação recorrente nesta pesquisa estava relacionada à possibilidade de uma obra reproduzir o conteúdo de outra obra, sob a forma de tradução, reedição/republicação e mudança de suporte (do escrito para o digital). Neste caso específico a informação acessória é assim apresentada: “Dados obtidos em Fulano (ano, p. NN-NN)”.
[1] Como mencionado anteriormente, não cabe neste momento avaliar se o autor da obra empregou adequadamente a classificação lexicográfica da obra, pois o que conta é a “autoidentificação” presente na mesma.
[2] O uso da seta nessa relação não define estritamente uma operação lógica do tipo condicional, mas sim que o elemento que está à esquerda da seta é o que serve como base na entrada e que os demais, à direita, ficam, de certa maneira, subordinados a ele.
[3] Abreviaturas de línguas usadas neste trabalho: Al: Alemão; Es: Espanhol; Fr: Francês; Id: Línguas Indígenas; In: Inglês; It: Italiano; Jp: Japonês; Lt: Latim; Pt: Português; Rs: Russo. Comentário: Como essas línguas são as usadas para traduzir as línguas indígenas brasileiras e são reduzidas em número, resolvi especificar cada uma delas, ao passo que para as línguas indígenas utilizei uma forma única (Id).
[4] Se uma das línguas citadas à direita tivesse uso esporádico, como ocorre no caso do uso da língua latina para designar termos científicos, a indicação dessa língua deveria vir entre parênteses. Ex.: Id → Pt/In(/Lt).
[5] Não resta dúvida acerca da dificuldade de se estabelecer uma classificação dos dicionários baseada na quantidade de entradas, uma vez que, com arranjos simples, é possível multiplicar exponencialmente a quantidade de verbetes de um dado material. Por exemplo, se, para cada caso de polissemia, que poderia ser tratado dentro de um mesmo verbete, forem geradas novas entradas, ou seja, a polissemia passa a homonímia, originando, assim, vários novos verbetes.
[6] Já foram feitos vários estudos acerca da quantidade das obras lexicográficas, assim como também foram propostas classificações baseadas nessas quantidades. No Brasil, uma das classificações mais mencionadas em trabalhos que analisam dicionários com base na quantidade de verbetes é a de Rangel (2006), adotada, inclusive, pelo MEC. Nessa proposta, os dicionários são direcionados para diferentes públicos escolares (do ensino infantil, do fundamental e do médio), baseado em um critério, sobretudo, quantitativo. Segundo essa proposta, os dicionários podem ser classificados como: Tipo 1: de 1.000 a 3.000 palavras; Tipo 2: de 3.500 a 10.000 palavras; Tipo 3: de 19.000 a 35.000 palavras.
[7] Tradução: “O dicionário semasiológico ordena por significantes; o dicionário onomasiológico, por conceitos” (Tradução nossa).
[8] Para uma discussão acerca das noções de onomasiologia e semasiologia indico a leitura dos textos de Wolf (1982), Baldinger (1966), Babini (2006) e Faulstich e Oliveira (2007).
Classificação das macroestruturas dos materiais lexicográficos
Apesar da dificuldade de estabelecer uma classificação precisa dos materiais lexicográficos baseada na quantidade de verbetes, conforme tratei anteriormente, busco classificar com isso, antes de tudo com a intenção clara de dar a conhecer esta informação, esses dados quantitativos.
Contudo, antes de apresentar a proposta, é necessário destacar que muitas outras propostas de classificação baseadas na quantidade de verbetes certamente já foram feitas, dentre as quais cito as de Sousa (1995) e Welker (2003 apud Welker, 2004). A título de exemplo, no Brasil, uma das propostas mais conhecidas para classificar os dicionários de língua é a de Biderman (1984, p. 27), segundo a qual os dicionários podem ser distribuídos em categorias, estritamente relacionadas a uma destinação do material e a um tipo de usuário. Eis os dados de sua proposta:
1) o dicionário infantil e/ou básico com 5.000 verbetes aproximadamente; 2) o dicionário escolar e/ou médio contendo 10.000 - 12.000 verbetes, podendo totalizar até 30.000 verbetes; 3) o dicionário padrão com uma média de 50.000 verbetes, um pouco mais, um pouco menos; 4) os “thesauri” que podem incluir 100.000, 200.000, 500.000 verbetes. (Biderman, 1984, p. 27).
Essa proposta de Biderman (1984), assim como muitas outras, parte da experiência com dicionários que possuem longa tradição lexicográfica, como o Português, o Francês, o Alemão e Espanhol, onde obras com mais de 50.000 são bastante comuns. No entanto, no caso das línguas indígenas brasileiras, não existem dicionários com esse volume, o que justificaria também a necessidade de apresentação de uma nova proposta de classificação quantitativa.
Sem nenhuma outra intenção senão a de estabelecer uma ordenação baseada em quantidade de verbetes, propomos um padrão baseado em formas múltiplas de 3 e chegamos aos seguintes grupos: Grupo A: de 1 a 576 verbetes; Grupo B: de 577 a 18.432 verbetes; Grupo C: de 18.433 a 589.824 verbetes. Cada grupo foi subdividido em 5 faixas, conforme apresentado no Quadro 1.
Essa classificação não busca de modo algum relacionar a quantidade de verbetes a, por exemplo, faixa etária de um possível público-alvo do material lexicográfico ou a determinado nível de escolaridade, nem tampouco estabelecer uma nomenclatura do tipo pequeno ou grande (dicionário, vocabulário, etc.).
Quadro 1 – Proposta de códigos para classificação das quantidades de entradas dos materiais lexicográficos de línguas indígenas brasileiras
Descrição das microestruturas dos materiais lexicográficos
Com o objetivo de apreender o máximo de informação acerca da microestrutura de cada material lexicográfico encontrado e acreditando que toda microestrutura representa um conjunto organizado de informações dispostas intencionalmente para dar conta de aspectos relacionados ao léxico das línguas, proponho uma maneira esquemática para realizar essa descrição.
Como não era possível determinar todos os elementos que surgiriam ao longo da pesquisa, selecionei, para início dos trabalhos, alguns dos elementos básicos de uma microestrutura básica apresentada por Faulstich (2011, p. 181-182), são eles: lema, categoria gramatical, variante(s) da entrada, marca de homonímia, indicação de área ou subárea de especialidade, exemplo (ou abonação), indicação de pronúncia, origem e etimologia, remissivas, fontes e notas. Cada um desses elementos que compõem a microestrutura recebeu uma etiquetagem. O mesmo foi feito para todos os novos itens adicionados ao longo da pesquisa. Ao término da primeira etapa da pesquisa, o conjunto de siglas havia se ampliado bastante, como é possível ver na Lista 1.
Nota: Apesar de nem todos os materiais que contêm dados lexicais sejam do tipo dicionário ou vocabulário, considero que para todos eles seja possível depreender uma estrutura mínima, logo, passível de descrição assim como os demais materiais.
Lista 1 – Siglas utilizadas na descrição de microestruturas
SIGLA DESCRIÇÃO
AAl Abonação em Alemão
AEs Abonação em Espanhol
AFr Abonação em Francês
AIn Abonação em Inglês
AIt Abonação em Italiano
AId Abonação em Língua Indígena
AJp Abonação em Japonês
ALt Abonação em Latim
APt Abonação em Português
ARs Abonação em Russo
Am Operador Análise morfológica
An Operador: Indicação de registro de Antonímia
Ar Operador Área (Arquitetura, Arqueologia, Artesanato, Astronomia, Biologia, Geografia, História, Linguística, Matemática...)
Cs Campo semântico
D Descritor
DAl Descritor (glosa, definição, paráfrase, tradução...) em Alemão
DEs Descritor (glosa, definição, paráfrase, tradução...) em Espanhol
DFr Descritor (glosa, definição, paráfrase, tradução...) em Francês
DHd Descritor (glosa, definição, paráfrase, tradução...) em Holandês
DIn Descritor (glosa, definição, paráfrase, tradução...) em Inglês
DIt Descritor (glosa, definição, paráfrase, tradução...) em Italiano
DId Descritor (glosa, definição, paráfrase, tradução...) em Língua Indígena
DJp Descritor (glosa, definição, paráfrase, tradução...) em Japonês
DLt Descritor (glosa, definição, paráfrase, tradução...) em Latim
DPt Descritor (glosa, definição, paráfrase, tradução...) em Português
DRs Descritor (glosa, definição, paráfrase, tradução...) em Russo
DTh Descritor (glosa, definição, paráfrase, tradução...) em Tcheco
Dt Operador Datação do item lexical
E Exemplo[1]
EAl Exemplo em Alemão
EEs Exemplo em Espanhol
EHd Exemplo em Holandês
EId Exemplo em Língua Indígena
EIn Exemplo em Inglês
EIt Exemplo em Italiano
EJp Exemplo em Japonês
ELt Exemplo em Latim
EPt Exemplo em Português
ERs Exemplo em Russo
ETh Exemplo em Tcheco
Et Operador Etimologia
Fn Pronúncia/Fonética/Fonologia
Fr Operador Fraseologia
Ft Operador Fonte da informação
Gf Operador Ortografia
Gr Operador: Indicação da categoria gramatical
Hm Operador: Indicação de registro de homonímia
Im Operador Imagem (ilustração)
L Lema
LAl Lema em Alemão
LEs Lema em Espanhol
LFr Lema em Francês
LHd Lema em Holandês
LId Lema na Língua Indígena
LIn Lema em Inglês
LIt Lema em Italiano
LJp Lema em Japonês
LLt Lema em Latim
LPt Lema em Português
LRs Lema em Russo
LTh Lema em Tcheco
Lu Lema em contexto
Mc Operador Marcas (de uso)
Na Operador Nota do autor
Ne Operador Nota do editor
Nt Operador Nota do tradutor
O Operador
Rm Operador Remissiva
Rz Operador Raiz/Radical (de item lexical, de palavra)
Sm Operador: Indicação de registro de Segmentação Morfológica
Sn Operador Sinonímia
Tc Operador Texto complementar
Tl Operador Tradução literal
Tm Operador Indicação de tom
Vr Operador Variante/Variedade (de qualquer natureza)
[1] Na Lexicografia, geralmente se faz a distinção entre exemplo e abonação, como estratégias para demonstrar, no interior da própria microestrutura, o lema em uso, ou seja, dentro de um contexto, construído para esse fim ou tomado de um contexto exterior.
Componentes da descrição das microestruturas
Algumas explicações necessárias sobre as informações da lista acima. Tanto a análise morfológica quanto a segmentação morfológica têm ocorrências registradas em verbetes de materiais de línguas indígenas. Optei pelo termo descritor, ao invés de definição, por aquele ser mais abrangente que este e, como há materiais de natureza bem diversa, considerei melhor não fechar em apenas uma modalidade de microestrutura. O texto complementar se refere a material linguístico acessório acrescentado ao verbete a fim de detalhar ainda mais alguma informação. Mesmo que esteja relacionado à pronúncia, a indicação de tom foi destacada porque, em geral, recebe marca própria no verbete. Sob o rótulo de Variante/Variedade foram registrados todos os casos de informação de variante semântico-lexical, fonético-fonológica ou morfossintática.
Uma vez estabelecida a base das abreviaturas, faço algumas breves considerações sobre essa proposta e passo, em seguida, à explicação das etapas de descrição das microestruturas.
Por se tratar de um estudo cuja intenção é dar conta dos principais aspectos de todas as microestruturas de todos os materiais lexicográficos já produzidos para as línguas indígenas brasileiras, importante é apreender os componentes dessas microestruturas de modo prático e abrangente, ou seja, sem detalhar demais a proposta, pois isso demandaria um tempo significativamente maior de análise, muito maior do que disponho recentemente para conclusão deste projeto. Isso não significa que a descrição proposta seja superficial, nem que ela não vá atender às necessidades deste trabalho. Por ter realizado testes com o modelo antes da aplicação definitiva neste projeto, constatei alguns problemas e fiz os ajustes necessários para aprimorar a proposta. Além disso, por ser uma proposta, só a experiência com a aplicação do modelo revelará, de fato, o que deve ser ajustado.
Essa proposta de descrição parte da ideia de que um artigo de material lexicográfico (de um dicionário, de um vocabulário ou glossário, por exemplo) possui uma determinada composição básica, totalmente inter-relacionada, constituída de quatro partes:
1) Lema, parte que geralmente inicia o verbete e está inter-relacionada com a maioria dos elementos do interior do corpo do verbete;
2) Descritor, parte que contém as informações metalinguísticas relacionadas diretamente com o Lema. Nos dicionários monolingues, identifica-se com as definições ou paráfrases, e nos dicionários bilíngues, com as glosas, explicações e traduções literais.
3) Operador, parte que se associa ao Lema ou ao(s) Descritor(es), e que pode ser identificado pelas seguintes funções: indicar variação, auxiliar na pronúncia, definir propriedades morfossintáticas, remeter para itens de outros verbetes, comentar aspectos relevantes, apresentar tradução literal, evidenciar área de especialidade, descrever etimologia, registrar a fonte da informação.
4) Exemplo, que pode conter exemplos e abonações relacionados ao Lema e/ou ao Descritor da microestrutura.
Como materiais bilíngues são uma realidade bastante comum no conjunto de materiais lexicográficos das línguas indígenas brasileiras, tanto o lema, quanto o descritor e o Exemplo devem ser capazes, nesta proposta, de registrar a língua em que estão sendo usados. Por isso, é necessário utilizar as abreviaturas acima apresentadas para construir uma descrição adequada de um material lexicográfico.
A fim de representar os relacionamentos lógicos existentes entre os componentes de uma microestrutura, proponho o uso de uma estrutura similar à de uma expressão numérica matemática,[1] por ela ser capaz de representar com eficiência os componentes e suas inter-relações.
A esta organização das informações da microestrutura denomino expressão da microestrutura lexicográfica (EML). Essa expressão consiste em definir termos (elementos da microestrutura) e relacioná-los logicamente a fim de estabelecer seus valores e funções. Logo, uma EML completa pode ser assim descrita: o primeiro elemento da esquerda é o Lema (L), destacado do restante do corpo do verbete por dois pontos; em seguida, sem nenhuma delimitação de marcadores, são apresentados os Operadores (O) que possuem associam direta com o Lema e, se houver mais de um, devem vir separados por vírgula; à direita dos Operadores, são apresentados os Descritores (D), delimitados por chaves, esses descritores devem vir separados por hífen ou, quando não recorrentes, vir dentro de parênteses, esses Descritores devem ser apresentados na mesma ordem em que aparecem com maior frequência na microestrutura; assim como o Lema, um Descritor pode ter Operadores associados a ele, para isso, basta colocá-los à direita do Descritor a que se referem, dentro de parênteses;[2] ainda dentro da área do Descritor, deve ser apresentado o Exemplo (E), entre colchetes, buscando manter a mesma sequência em que são apresentados no corpo do verbete, além disso, se houver mais de um Exemplo, estes devem vir separados por uma barra diagonal /.
Em síntese, uma EML padrão apresentará a seguinte estrutura:
L: O {D} [E]
Uma observação necessária relacionada a esse modelo é a de que ele foi projetado para descrever os componentes de uma microestrutura, buscando, em certa medida, registrar a ordem em que eles aparecem nos dados. No entanto, como em apenas uma obra lexicográfica, por exemplo, é possível ter inúmeras variações ou possibilidades de arranjo dos operadores de uma microestrutura, optamos pela disposição em ordem alfabética desses elementos, padronizando, assim, a sua apresentação.[3]
Analisando as três microestruturas, observamos que elas contêm os seguintes elementos em sequência: Lema em Asuriní (língua indígena), Operador (informação gramatical), Descritor em língua portuguesa, Exemplo em Asuriní e em Português. Logo, podemos usar uma mesma EML para descrever essas microestruturas:
LId: Gr {DPt} [EId/EPt]
Essa EML descreve que o Operador Gr está relacionado diretamente ao Lema LId. Do mesmo modo, o conjunto Descritor DPt é seguido pelos Exemplos EId e EPt.
A decisão de especificar somente as línguas não indígenas no interior da EML (abonações, exemplos, lemas e descritores) se deve ao fato de essas línguas somarem uma quantidade bastante limitada e por serem usadas com muita frequência como L1 ou L2 em materiais bilíngues de línguas indígenas. Já a língua indígena descrita recebe a forma genérica da sigla Id (AId, DId, EId, LId), devendo ser interpretada no contexto em que estiver inserida.
Essa proposta de descrição corresponde a uma forma sintética para reconhecer, de modo prático, todos os componentes de microestrutura de determinada UBL, mas que não representam, necessariamente, uma forma de EML realizada.
[1] Outros trabalhos já buscaram descrever a microestrutura por meio de operadores de expressões numéricas, mas, até onde notei, há diferenças significativas de nomenclatura e de arranjo dos componentes entre a proposta que apresento e a de outros pesquisadores. Cf. Rey-Debove (1971), Finatto (1996) e Barbosa (1999).
[2] Neste caso, pode ocorrer interposição de Operadores entre dois Descritores.
[3] Esse mesmo modelo pode vir a ser aplicado para descrever os elementos de uma microestrutura em todas as suas variações.
Referências bibliográficas desta parte introdutória
BABINI, Maurizio. Do conceito à palavra: os dicionários onomasiológicos. Ciência e Cultura, São Paulo, v. 58, n. 2, p. 38-41 jun. 2006.
BALDINGER, Kurt. Semasiologia e onomasiologia. Tradução: Ataliba T. de Castilho. Alfa: Revista de Linguística, v. 9, p. 7-36, 1966.
BIDERMAN, Maria Tereza Camargo. A ciência da lexicografia. Alfa: Revista de Linguística, n. 28 (supl.), p. 1-26, 1984.
BOAS, Franz. Handbook of American Indian Languages. Washington, D.C.: Government Printing Office, 1911.
BRASIL. IBGE. O Brasil indígena: os indígenas no Censo Demográfico 2010. Brasília, DF: Ministério da Justiça, FUNAI, IBGE, 2010.
CABRAL, Ana Suelly Arruda Câmara; RODRIGUES, Aryon Dall’Igna. Dicionário da Língua Asuriní do Tocantins. Belém: UFPA/IFNOPAP; Brasília: UnB/IL/LALI, 2003.
CORREIA, Margarita. Os dicionários portugueses. Lisboa, Portugal: Caminho, 2009.
EHRENREICH, Paul. Divisão e distribuição das tribus do Brasil segundo o estado actual dos nossos conhecimentos. Tradução de João Capistrano de Abreu. Revista da Sociedade de Geographia do Rio de Janeiro, t. VIII, p. 3-55, 1892. Rio de Janeiro: Typ. de G. Leuzinger & Filhos.
FAULSTICH, Enilde; OLIVEIRA, Michelle Machado de. Para que serve um dicionário analógico? Um estudo de lexicografia comparativa. Revista Intercâmbio dos Congressos de Humanidades, v. X, p. 1-16, 2007.
HAENSCH, G.; WOLF, L.; ETTINGER, S.; WERNER, R. La lexicografía: de la lingüística teórica a la lexicografía práctiva. Madri: Gredos, 1982.
MARTIUS, Carl Friedrich Philipp von. Glossaria Linguarum Brasiliensium: Wörtersammlung brasilianischer Sprachen. Beiträge zur Ethnographie und Sprachenkunde Amerika’s zumal Brasiliens. Leipzig: Friedrich Fleischer, 1867. V.2 (Zur Sprachenkunde).
MASON, J. A. The languages of South American Indians. In: MASON, J. A. Handbook of South American Indian. Washington, EUA, 1950. V. 6.
RIVET, P. Langues de l’Amérique du Sud et des Antilles. In: MEILLET, A.; COHEN, M. (org.). Les langues du Monde. Paris, 1924. p. 639-712.
RODRIGUES, Aryon Dall’Igna. Línguas ameríndias. In: GRANDE ENCICLOPÉDIA DELTA-LAROUSSE. Rio de Janeiro: Editora Delta, 1970a. p. 4034-4036.
RODRIGUES, Aryon Dall’Igna. Classificação genética consensual das línguas indígenas do Brasil [versão adaptada por Melatti]. In: MELATTI, Julio Cezar. Índios do Brasil. Brasília, DF: Coordenada, 1970b. p. 44-50.
RODRIGUES, Aryon Dall’Igna. Línguas brasileiras: para o conhecimento das línguas indígenas. São Paulo: Loyola, 1986.
RODRIGUES, Aryon Dall’Igna. Línguas indígenas brasileiras. Brasília, DF: Laboratório de Línguas Indígenas da UnB, 2013.
SOUSA, J. Martínez de. Diccionario de lexicografía práctica. Barcelona, Espanha: Biblograf, 1995.
STEINEN, Karl von den. Duch Central-Brasilien: Expedition zur erforschung des schingú im jahre 1884. Leipzig: F. A. Brockhaus, 1886.
WELKER, Herbert A. Dicionários: uma pequena introdução à lexicografia. 2.ed. rev. e ampl. Brasília, DF: Thesaurus, 2004.