Use este identificador para citar ou linkar para este item: http://bdm.ufmt.br/handle/1/4871
Tipo documento: Trabalho de Conclusão de Curso
Título: Classificação e agrupamento de crimes relacionados à violência contra mulheres : um estudo baseado em Doc2Vec
Autor(es): Andrade, Maria de Fátima Magalhães de Souza
Orientador(a): Morita, Lia Hanna Martins
Membro da Banca: Morita, Lia Hanna Martins
Membro da Banca: Oliveira, Anderson Castro Soares de
Membro da Banca: Martins, Claudia Aparecida
Resumo : Word embedding é uma técnica que possibilita transformar palavras em representações vetoriais contínuas, permitindo que algoritmos baseados em aprendizado de máquina processem informações linguísticas de maneira mais eficiente. O doc2vec é um modelo de PLN (Processamento de Linguagem Natural) que foi desenvolvido como uma extensão do algoritmo word2vec que é um modelo que cria representações vetoriais contínuasde palavras de um conjunto de dados textuais usando duas arquiteturas: continuous bag of words (CBOW) e continuous skip-gram. O CBOW é baseado na probabilidade condicional de gerar uma palavra central a partir de palavras do contexto, e o skip-gram é baseado na probabilidade condicional de gerar palavras do contexto a partir de uma palavra central. Enquanto o word2vec cria vetores contínuos apenas de palavras, o doc2vec utiliza duas arquiteturas para criar seus vetores: PV-DM (Distributed Memory Model of Paragraph Vectors) que cria vetores de documentos inteiros, como parágrafos, frases, ou até mesmo blocos de textos maiores, capturando as relações sintáticas, semânticas e contextuais associadas aos documentos que pertencem a uma coleção de textos, a outra técnica é chamada PV-DBOW (Distributed Bag of Words of Paragraph Vectors), é semelhante ao modelo skip-gram no word2vec, pois ignora as palavras de contexto e força o modelo a prever na saída palavras do documento inteiro amostradas de forma aleatória. Utilizando a arquitetura PV-DM, treinou-se um modelo doc2vec para criar vetores contínuos de narrativas de boletins de ocorrência de crimes relacionados à violência contra mulheres para classificação e agrupamento de documentos, detecção de sentenças que revelem os tipos de violência mais prevalentes e as associações entre palavras, sentenças e documentos que permitam identificar melhor os crimes.
Resumo em lingua estrangeira: Word embedding is a technique that enables the transformation of words into continuous vector representations, allowing machine learning algorithms to process linguistic information more efficiently. Doc2vec is a Natural Language Processing (NLP) model developed as an extension of the word2vec algorithm, which creates word embeddings using two architectures: continuous bag of words (CBOW) and continuous skip-gram. CBOW is based on the conditional probability of generating a central word from context words, while skip-gram is based on the conditional probability of generating context words from a central word. While word2vec creates continuous vectors only for words, doc2vec uses two architectures to create its vectors: PV-DM (Distributed Memory Model of Paragraph Vectors), which creates vectors for entire documents, such as paragraphs, sentences, or even larger text blocks, capturing the syntactic, semantic, and contextual relationships associated with documents that belong to a text collection. The other technique is called PV-DBOW (Distributed Bag of Words of Paragraph Vectors), which is similar to the skip-gram model in word2vec as it ignores context words and forces the model to predict words from the entire document, sampled randomly, at the output. Using the PV-DM architecture, a doc2vec model was trained to create continuous vectors from crime report narratives related to violence against women for document classification and clustering, detection of sentences revealing the most prevalent types of violence, and the associations between words, sentences, and documents to better identify crimes.
Palavra-chave: Doc2vec
PV-DM
PLN
Crimes
Palavra-chave em lingua estrangeira: Doc2vec
PV-DM
NLP
Crimes
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
Idioma: por
País: Brasil
Instituição: Universidade Federal de Mato Grosso
Sigla da instituição: UFMT CUC - Cuiabá
Departamento: Instituto de Ciências Exatas e da Terra (ICET)
Programa: Estatística - CUC
Referência: ANDRADE, Maria de Fátima Magalhães de Souza. Classificação e agrupamento de crimes relacionados à violência contra mulheres: um estudo baseado em Doc2Vec. 2024. 49 f. Trabalho de Conclusão de Curso (Graduação em Estatística ) - Universidade Federal de Mato Grosso, Instituto de Ciências Exatas e da Terra, Cuiabá, 2024.
Tipo de acesso: Acesso Aberto
URI: http://bdm.ufmt.br/handle/1/4871
Data defesa documento: 30-Oct-2024
Aparece na(s) coleção(ções):Estatística

Arquivos deste item:
Arquivo Descrição TamanhoFormato 
TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf1.42 MBAdobe PDFVer/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.