Use este identificador para citar ou linkar para este item: http://bdm.ufmt.br/handle/1/280
Tipo documento: Trabalho de Conclusão de Curso
Título: Classificação de documentos de patentes usando o doc2vec
Autor(es): Mascarenhas, Tamara Aguiar Tavares
Orientador(a): Bonfante, Andreia Gentil
Membro da Banca: Bonfante, Andreia Gentil
Resumo : As patentes são consideradas fontes extremamente úteis para atividades relacionadas à busca e análise de informações e para a geraçãoo de novos conhecimentos. Neste artigo, usamos um algoritmo de vetor de parágrafo doc2vec, uma extensão do word2vec, que aprende representações de frases em um documento, em um esquema de aprendizagem profunda supervisionada para a classificação automática de patentes. A classificação foi realizada em documentos com resumos de patentes em inglês, em um processo hierárquico que compreende seções, classes, subclasses, de acordo com a Classificação Internacional de Patentes (IPC). Os testes foram desenvolvidos em quatro etapas, necessária, devido ao grande número de classes e subclasses, com o objetivo de identificar códigos IPC primário ou secundários, caso esteja associado a um conjunto de classificações relacionadas a outros aspectos expressos na patente. Os testes apresentaram resultados bastante promissores na classificação de patentes. Os próximos passos serão produzir avaliações qualitativas e compará-las com outros modelos de aprendizagem de máquina presentes na literatura.
Resumo em lingua estrangeira: Patents are considered extremely useful sources for activities related to the search and analysis of information and the generation of new knowledge. In this article, we use a paragraph vector algorithm doc2vec, an extension of word2vec, which learns representations of sentences in a document, in a supervised deep learning scheme for automatic patent classification. The classification was carried out in documents with summaries of patents in english, in a hierarchical process comprising sections, classes, subclasses according to the International Patent Classification (IPC). The tests were developed in four steps, required, due to the large number of classes and subclasses, with the objective of identifying primary or secondary IPC codes, if it is associated with a set of classifications related to other aspects expressed in the patent. The tests presented very promising results in the classification of patents. The next steps will be to produce qualitative assessments and compare them with other models of machine learning present in the literature.
Palavra-chave: .
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Instituição: Universidade Federal de Mato Grosso
Sigla da instituição: UFMT CUC - Cuiabá
Departamento: Instituto de Computação (IC)
Curso: Banco de Dados - CUC
Referência: MASCARENHAS, Tamara Aguiar Tavares. Classificação de documentos de patentes usando o doc2vec. 2017. 10 f. TCC (Especialização em Banco de Dados) - Universidade Federal de Mato Grosso, Instituto de Computação, Cuiabá, 2017.
Tipo de acesso: Acesso Aberto
URI: http://bdm.ufmt.br/handle/1/280
Data defesa documento: 15-Dez-2017
Aparece na(s) coleção(ções):Banco de Dados

Arquivos deste item:
Arquivo Descrição TamanhoFormato 
TCCP_2017_Tamara A. T. Mascarenhas.pdf300.92 kBAdobe PDFVer/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.