Classificação e agrupamento de crimes relacionados à violência contra mulheres : um estudo baseado em Doc2Vec

Andrade, Maria de Fátima Magalhães de Souza

Use este identificador para citar ou linkar para este item: http://bdm.ufmt.br/handle/1/4871

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Andrade, Maria de Fátima Magalhães de Souza	-
dc.date.accessioned	2025-07-11T19:30:48Z	-
dc.date.available	2024-11-28	-
dc.date.available	2025-07-11T19:30:48Z	-
dc.date.issued	2024-10-30	-
dc.identifier.citation	ANDRADE, Maria de Fátima Magalhães de Souza. Classificação e agrupamento de crimes relacionados à violência contra mulheres: um estudo baseado em Doc2Vec. 2024. 49 f. Trabalho de Conclusão de Curso (Graduação em Estatística ) - Universidade Federal de Mato Grosso, Instituto de Ciências Exatas e da Terra, Cuiabá, 2024.	pt_BR
dc.identifier.uri	http://bdm.ufmt.br/handle/1/4871	-
dc.description.abstract	Word embedding is a technique that enables the transformation of words into continuous vector representations, allowing machine learning algorithms to process linguistic information more efficiently. Doc2vec is a Natural Language Processing (NLP) model developed as an extension of the word2vec algorithm, which creates word embeddings using two architectures: continuous bag of words (CBOW) and continuous skip-gram. CBOW is based on the conditional probability of generating a central word from context words, while skip-gram is based on the conditional probability of generating context words from a central word. While word2vec creates continuous vectors only for words, doc2vec uses two architectures to create its vectors: PV-DM (Distributed Memory Model of Paragraph Vectors), which creates vectors for entire documents, such as paragraphs, sentences, or even larger text blocks, capturing the syntactic, semantic, and contextual relationships associated with documents that belong to a text collection. The other technique is called PV-DBOW (Distributed Bag of Words of Paragraph Vectors), which is similar to the skip-gram model in word2vec as it ignores context words and forces the model to predict words from the entire document, sampled randomly, at the output. Using the PV-DM architecture, a doc2vec model was trained to create continuous vectors from crime report narratives related to violence against women for document classification and clustering, detection of sentences revealing the most prevalent types of violence, and the associations between words, sentences, and documents to better identify crimes.	pt_BR
dc.description.provenance	Submitted by Nádia Paes (nadia66paes@gmail.com) on 2025-06-14T12:27:35Z No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5)	en
dc.description.provenance	Approved for entry into archive by Carlos Eduardo da Silveira (carloseduardoufmt@gmail.com) on 2025-07-11T19:30:48Z (GMT) No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5)	en
dc.description.provenance	Made available in DSpace on 2025-07-11T19:30:48Z (GMT). No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5) Previous issue date: 2024-10-30	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Mato Grosso	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Classificação e agrupamento de crimes relacionados à violência contra mulheres : um estudo baseado em Doc2Vec	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.contributor.advisor1	Morita, Lia Hanna Martins	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8952048121396398	pt_BR
dc.contributor.referee1	Morita, Lia Hanna Martins	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/8952048121396398	pt_BR
dc.contributor.referee2	Oliveira, Anderson Castro Soares de	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/8698014900594878	pt_BR
dc.contributor.referee3	Martins, Claudia Aparecida	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/0252766947347684	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/1597609869931562	pt_BR
dc.description.resumo	Word embedding é uma técnica que possibilita transformar palavras em representações vetoriais contínuas, permitindo que algoritmos baseados em aprendizado de máquina processem informações linguísticas de maneira mais eficiente. O doc2vec é um modelo de PLN (Processamento de Linguagem Natural) que foi desenvolvido como uma extensão do algoritmo word2vec que é um modelo que cria representações vetoriais contínuasde palavras de um conjunto de dados textuais usando duas arquiteturas: continuous bag of words (CBOW) e continuous skip-gram. O CBOW é baseado na probabilidade condicional de gerar uma palavra central a partir de palavras do contexto, e o skip-gram é baseado na probabilidade condicional de gerar palavras do contexto a partir de uma palavra central. Enquanto o word2vec cria vetores contínuos apenas de palavras, o doc2vec utiliza duas arquiteturas para criar seus vetores: PV-DM (Distributed Memory Model of Paragraph Vectors) que cria vetores de documentos inteiros, como parágrafos, frases, ou até mesmo blocos de textos maiores, capturando as relações sintáticas, semânticas e contextuais associadas aos documentos que pertencem a uma coleção de textos, a outra técnica é chamada PV-DBOW (Distributed Bag of Words of Paragraph Vectors), é semelhante ao modelo skip-gram no word2vec, pois ignora as palavras de contexto e força o modelo a prever na saída palavras do documento inteiro amostradas de forma aleatória. Utilizando a arquitetura PV-DM, treinou-se um modelo doc2vec para criar vetores contínuos de narrativas de boletins de ocorrência de crimes relacionados à violência contra mulheres para classificação e agrupamento de documentos, detecção de sentenças que revelem os tipos de violência mais prevalentes e as associações entre palavras, sentenças e documentos que permitam identificar melhor os crimes.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto de Ciências Exatas e da Terra (ICET)	pt_BR
dc.publisher.initials	UFMT CUC - Cuiabá	pt_BR
dc.publisher.program	Estatística - CUC	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA	pt_BR
dc.subject.keyword	Doc2vec	pt_BR
dc.subject.keyword	PV-DM	pt_BR
dc.subject.keyword	PLN	pt_BR
dc.subject.keyword	Crimes	pt_BR
dc.subject.keyword2	Doc2vec	pt_BR
dc.subject.keyword2	PV-DM	pt_BR
dc.subject.keyword2	NLP	pt_BR
dc.subject.keyword2	Crimes	pt_BR
Aparece na(s) coleção(ções):	Estatística

Arquivos deste item:

Arquivo	Descrição	Tamanho	Formato
TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf		1.42 MB	Adobe PDF	Ver/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas