Google, o maior site de busca da internet, deixou sua marca não só na vida das pessoas como na do próprio idioma. Já produziu neologismos como "googlar" - sinônimo de pesquisar no Google – que foi parar até no dicionário. Além disso, podemos contar o bordão irônico "joga no Google", repetido sempre que alguém desconhece uma palavra. Essa espécie de "oráculo" da era digital, visto com desconfiança por alguns, adicionou ao seu método de pesquisa mais uma função, a "busca semântica", que está deixando os resultados de investigações na internet ainda mais interessantes e enriquecedores. Além desse recurso, o recém-lançado Google Insight for Search fornece aos internautas estatísticas sobre a incidência de palavras nas pesquisas realizadas por meio da ferramenta.
Funções matemáticas usadas pelo mecanismo de busca - os algoritmos - processam dados de 235 milhões de buscas feitas diariamente no mundo todo, criando associações a partir dos termos mais procurados e sites mais visitados, entre outros hábitos de navegação. Ao todo são mais de 200 critérios usados no processamento das informações hospedadas na rede mundial de computadores, com o intuito de organizá-las e torná-las acessíveis aos usuários.
Estatísticas
Algumas Palavras corriqueiras como "bbb" ou "orkut" aparecem em quase todas as listas de termos mais procurados que o Google divulga anualmente. À parte a pretensão de querer refletir sua época fixando as palavras mais populares, trata-se de uma lista interessante, porém limitada. Isso porque o mecanismo de busca é utilizado para diversos propósitos, não só como dicionário ou enciclopédia, inclusive por quem procura links ou atalhos para outros sites, o que pode "viciar" os resultados.
Se você digitar "orkut", por exemplo, nem sempre isso irá representar um interesse pela palavra em si, mas antes pelo acesso à rede social que leva esse nome. O mesmo engano se dá com as consoantes "bbb", que não se trata de uma palavra que requer exatamente uma definição, mas que é sobretudo índice de um universo semântico subjacente (pulverizado em expressões como reality show, "paredão", "eliminado", "capa da Playboy" etc.) Em resumo, uma coisa é a ocorrência da palavra em blogs e portais de notícias; outra é quantas vezes as pessoas a digitaram como "ponte" para outros domínios virtuais. Tomado esse cuidado, a possibilidade aberta pelo Google é enorme ao campo da pesquisa do idioma.
Ligações perigosas
Basta digitar a palavra "crise", por exemplo, para que vejamos um gráfico registrando a incidência cada vez maior do temido termo ao longo de 2009. Trata-se, pois, de uma constatação empírica, e não é preciso ler vários jornais ou ver muita televisão para saber que se trata de um fato linguístico plausível. Porém, uma queda na quantidade de menções à palavra "crise" não significaria necessariamente um abrandamento da situação econômica; poderia sugerir antes certa prudência da imprensa e dos blogueiros em relação a um vocábulo que evoca privação.
Por outro lado, ao pesquisar palavras por estado, a característica interjeição "uai" dos mineiros é mais popular em seu estado de origem do que em São Paulo, o que é natural. O mesmo acontece com "tchê", que tem maioria esmagadora no Rio Grande do Sul; ao passo que "acarajé" é o campeão da Bahia não só em sabor como também em interesse entre os internautas baianos.
De posse dessa informação, ao depararmos com a expressão "receita de acarajé" ao pé da página, chegamos à conclusão de que os termos "acarajé" e "receita" vêm juntos na maioria das ocorrências e o desejo de aprender a receita deve ser uma das principais motivações dessas buscas. O céu é o limite para deduções acerca de estatísticas como essas, e é preciso cuidado com as generalizações.
Apesar da irresistível vontade de interpretar os resultados do Google indiscriminadamente, um caso ocorrido no começo do ano passado mostrou que todo sistema é passível de falhas. A cantora Preta Gil ameaçou processar o site de buscas, baseada no resultado "condicionado" de pesquisa sobre seu nome. Na busca por imagens da ferramenta, quando alguém digitava a expressão "atriz gorda" o mecanismo sugeria como possibilidade de busca: "experimente também preta gil".
A menção desabonadora havia sido "forjada" por um truque chamado Google bomb ("bomba Google"), feito por blogueiros com motivações políticas ou humorísticas. A manobra consiste em enganar os algoritmos da ferramenta, interferindo de maneira artificial na percepção sobre qual é a associação mais correta. Foi a primeira vez no país que o mecanismo de busca era acusado de ser tendencioso, sugerindo uma correlação indesejada. À época, a filha de Gilberto Gil recebeu uma ligação de Felix Ximenes, do Google Brasil, que lhe pediu desculpas. O caso acabou bem, mas o advogado de Preta Gil chegou a acusar a empresa de danos morais. Afinal, quais seriam os limites da ferramenta?
Abrangência Só no Brasil são 40 milhões de internautas em atividade, segundo o Ibope/NetRatings. De um total de 6 bilhões de habitantes no planeta, "só" 1 bilhão acessa a internet, de modo que a adesão crescente de pessoas à rede resulta na incorporação de cada vez mais interesses e assuntos a esse "vocabulário" global. Os conteúdos não param de crescer. Segundo estatísticas do Google, de cada busca efetuada no mecanismo, 20% dos conteúdos apresentados são novos, não haviam aparecido na pesquisa anterior.
Já o projeto de digitalização de bibliotecas do planeta, pelo Google Livros, está a todo vapor, com novo fôlego depois de fechar acordo com representantes dos direitos autorais americanos. Acresça a esse banco de dados o crescente acervo do Google Acadêmico - ainda incipiente, com teses e dissertações acadêmicas - para concluir que em poucos anos essa base de dados será assustadoramente maior.
- O ideal seria ter um corpus tão vasto quanto o do Google, disponível para o grande público por meio de uma interface simples e rápida, mas que permitisse buscas mais detalhadas e trouxesse resultados mais confiáveis, coisas que o Google não permite. Mas esse mundo dos sonhos de internautas, professores e pesquisadores está cada vez mais perto.
Trata-se da criação de um corpus gigantesco do português brasileiro, com 1 bilhão de palavras, que estará disponível de graça na web a partir de 2010 e permitirá buscas rápidas e confiáveis, não só por palavras, como por expressões e classes gramaticais.
Se para a ciência as ferramentas do Google ainda se restringem ao campo da experimentação, a empresa vem se dedicando ao aperfeiçoamento de projetos já existentes, que aos poucos vão sendo lançados em outros idiomas, como o português.
- A língua portuguesa está na lista de prioridades do Google. Se, o Google nos diz coisas que já sabemos, esse "nós" implica muita gente. Contribuir para um imenso banco de dados e utilizá-lo eticamente são os novos desafios que a era tecnológica nos impõe. Cabe aos internautas digerir as novidades e informações da rede mundial, policiando-se para não tirar conclusões precipitadas. Só o tempo, o grau de aprimoramento dessas ferramentas e o senso crítico do usuário poderão dizer o quanto podemos confiar nelas. Até lá, o universo de possibilidades de aplicação para o mecanismo é grande para a pesquisa. A palavra, ao que tudo indica, continuará a ter um papel vital na internet.
quarta-feira, 24 de junho de 2009
Bem-vindo ao meu blog.
Aqui você terá a oportunidade de ler textos variados, sempre tendo como foco a língua portuguesa. Poderá também tirar dúvidas sobre a língua portuguesa, assim como ficará sabendo sobre as novidades do mundo cultural de São Paulo.
Assinar:
Comentários (Atom)
