Mecanismo de busca de código livre encontra dados em tabelas

Iniciado por ucastrobr, 16 de Agosto de 2007, 18:25

tópico anterior - próximo tópico

ucastrobr

O algoritmo de buscas do Google revolucionou a Internet. Chamado de PageRank, esse programa originalmente desenvolvido na Universidade de Stanford, Estados Unidos, coloca ao alcance dos usuários uma quantidade de dados muito maior do que qualquer ser humano é capaz de "digerir".

Tabelas escondidas

Mas o PageRank não é perfeito. E uma enormidade de dados ainda ficam "escondidos" pela Internet. Ou, se não estão exatamente escondidos, eles não aparecem nos resultados das buscas com a relevância que possuem.

Este é o caso das tabelas. Esta disposição bidimensional de dados está presente em nada menos do que 70% de todos os artigos científicos publicados. E não é à toa: as tabelas permitem a comparação e a visualização rápida de dados. Hoje, porém, o título de uma tabela não possui um peso maior do que os comentários em um blog quando os crawlers dos mecanismos de busca varrem os sites.

Mecanismo de busca de tabelas

Isso agora poderá mudar, graças ao trabalho de um grupo de pesquisadores da Universidade de Pensilvânia, Estados Unidos. Eles desenvolveram um novo algoritmo de busca que consegue não apenas localizar e extrair tabelas do interior de uma série de tipos de documentos - como PDF, HTML e Word - como também é capaz de indexar e classificar os resultados utilizando dados como o título da tabela, as referências de texto e a data da publicação.

A equipe do Dr. Prasenjit Mitra não é boa apenas na construção de algoritmos: eles logo perceberam o potencial de seu novo mecanismo de buscas de tabelas e usaram seu tino comercial para batizá-lo de ... TableRank, numa clara alusão ao super bem sucedido mecanismo de buscas do Google.

Colunas de dados

O algoritmo TableRank já foi incorporado em um programa prático de buscas, o TableSeer. "O TableSeer torna fácil para cientistas e acadêmicos descobrir e acessar importantes fontes de informação apresentados na forma de tabelas e, tanto quanto sabemos, ele é o primeiro mecanismo de buscas para tabelas," diz Mitra.

O programa permite a execução de buscas por colunas, facilitando a localização de uma determinada coluna em uma tabela - como, por exemplo, os preços do petróleo, os valores calóricos de determinadas substâncias ou uma tabela de códigos genéticos.

Código livre

O desenvolvimento do TableSeer é parte de um projeto de código livre que está desenvolvendo uma infraestrutura de pesquisas na área de química. O programa já pode ser avaliado online , mas o código-fonte somente será disponibilizado ao final do projeto.
http://chemxseer.ist.psu.edu/

Spock – "After a time, you may find that having is not so pleasing a thing, after all, as wanting. It is not logical, but it is often true."
("Depois um de tempo você vai perceber que ter algo pode não ser tão prazeroso quanto deseja-lo. Isto não é lógico, mas frequentemente é verdade.")