Use este identificador para citar ou linkar para este item: http://bdm.ufmt.br/handle/1/4871
Registro completo de metadados
Campo DCValorIdioma
dc.creatorAndrade, Maria de Fátima Magalhães de Souza-
dc.date.accessioned2025-07-11T19:30:48Z-
dc.date.available2024-11-28-
dc.date.available2025-07-11T19:30:48Z-
dc.date.issued2024-10-30-
dc.identifier.citationANDRADE, Maria de Fátima Magalhães de Souza. Classificação e agrupamento de crimes relacionados à violência contra mulheres: um estudo baseado em Doc2Vec. 2024. 49 f. Trabalho de Conclusão de Curso (Graduação em Estatística ) - Universidade Federal de Mato Grosso, Instituto de Ciências Exatas e da Terra, Cuiabá, 2024.pt_BR
dc.identifier.urihttp://bdm.ufmt.br/handle/1/4871-
dc.description.abstractWord embedding is a technique that enables the transformation of words into continuous vector representations, allowing machine learning algorithms to process linguistic information more efficiently. Doc2vec is a Natural Language Processing (NLP) model developed as an extension of the word2vec algorithm, which creates word embeddings using two architectures: continuous bag of words (CBOW) and continuous skip-gram. CBOW is based on the conditional probability of generating a central word from context words, while skip-gram is based on the conditional probability of generating context words from a central word. While word2vec creates continuous vectors only for words, doc2vec uses two architectures to create its vectors: PV-DM (Distributed Memory Model of Paragraph Vectors), which creates vectors for entire documents, such as paragraphs, sentences, or even larger text blocks, capturing the syntactic, semantic, and contextual relationships associated with documents that belong to a text collection. The other technique is called PV-DBOW (Distributed Bag of Words of Paragraph Vectors), which is similar to the skip-gram model in word2vec as it ignores context words and forces the model to predict words from the entire document, sampled randomly, at the output. Using the PV-DM architecture, a doc2vec model was trained to create continuous vectors from crime report narratives related to violence against women for document classification and clustering, detection of sentences revealing the most prevalent types of violence, and the associations between words, sentences, and documents to better identify crimes.pt_BR
dc.description.provenanceSubmitted by Nádia Paes (nadia66paes@gmail.com) on 2025-06-14T12:27:35Z No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5)en
dc.description.provenanceApproved for entry into archive by Carlos Eduardo da Silveira (carloseduardoufmt@gmail.com) on 2025-07-11T19:30:48Z (GMT) No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5)en
dc.description.provenanceMade available in DSpace on 2025-07-11T19:30:48Z (GMT). No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5) Previous issue date: 2024-10-30en
dc.languageporpt_BR
dc.publisherUniversidade Federal de Mato Grossopt_BR
dc.rightsAcesso Abertopt_BR
dc.titleClassificação e agrupamento de crimes relacionados à violência contra mulheres : um estudo baseado em Doc2Vecpt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
dc.contributor.advisor1Morita, Lia Hanna Martins-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8952048121396398pt_BR
dc.contributor.referee1Morita, Lia Hanna Martins-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/8952048121396398pt_BR
dc.contributor.referee2Oliveira, Anderson Castro Soares de-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/8698014900594878pt_BR
dc.contributor.referee3Martins, Claudia Aparecida-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/0252766947347684pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/1597609869931562pt_BR
dc.description.resumoWord embedding é uma técnica que possibilita transformar palavras em representações vetoriais contínuas, permitindo que algoritmos baseados em aprendizado de máquina processem informações linguísticas de maneira mais eficiente. O doc2vec é um modelo de PLN (Processamento de Linguagem Natural) que foi desenvolvido como uma extensão do algoritmo word2vec que é um modelo que cria representações vetoriais contínuasde palavras de um conjunto de dados textuais usando duas arquiteturas: continuous bag of words (CBOW) e continuous skip-gram. O CBOW é baseado na probabilidade condicional de gerar uma palavra central a partir de palavras do contexto, e o skip-gram é baseado na probabilidade condicional de gerar palavras do contexto a partir de uma palavra central. Enquanto o word2vec cria vetores contínuos apenas de palavras, o doc2vec utiliza duas arquiteturas para criar seus vetores: PV-DM (Distributed Memory Model of Paragraph Vectors) que cria vetores de documentos inteiros, como parágrafos, frases, ou até mesmo blocos de textos maiores, capturando as relações sintáticas, semânticas e contextuais associadas aos documentos que pertencem a uma coleção de textos, a outra técnica é chamada PV-DBOW (Distributed Bag of Words of Paragraph Vectors), é semelhante ao modelo skip-gram no word2vec, pois ignora as palavras de contexto e força o modelo a prever na saída palavras do documento inteiro amostradas de forma aleatória. Utilizando a arquitetura PV-DM, treinou-se um modelo doc2vec para criar vetores contínuos de narrativas de boletins de ocorrência de crimes relacionados à violência contra mulheres para classificação e agrupamento de documentos, detecção de sentenças que revelem os tipos de violência mais prevalentes e as associações entre palavras, sentenças e documentos que permitam identificar melhor os crimes.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Ciências Exatas e da Terra (ICET)pt_BR
dc.publisher.initialsUFMT CUC - Cuiabápt_BR
dc.publisher.programEstatística - CUCpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICApt_BR
dc.subject.keywordDoc2vecpt_BR
dc.subject.keywordPV-DMpt_BR
dc.subject.keywordPLNpt_BR
dc.subject.keywordCrimespt_BR
dc.subject.keyword2Doc2vecpt_BR
dc.subject.keyword2PV-DMpt_BR
dc.subject.keyword2NLPpt_BR
dc.subject.keyword2Crimespt_BR
Aparece na(s) coleção(ções):Estatística

Arquivos deste item:
Arquivo Descrição TamanhoFormato 
TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf1.42 MBAdobe PDFVer/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.