Use este identificador para citar ou linkar para este item:
http://bdm.ufmt.br/handle/1/4871
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | Andrade, Maria de Fátima Magalhães de Souza | - |
dc.date.accessioned | 2025-07-11T19:30:48Z | - |
dc.date.available | 2024-11-28 | - |
dc.date.available | 2025-07-11T19:30:48Z | - |
dc.date.issued | 2024-10-30 | - |
dc.identifier.citation | ANDRADE, Maria de Fátima Magalhães de Souza. Classificação e agrupamento de crimes relacionados à violência contra mulheres: um estudo baseado em Doc2Vec. 2024. 49 f. Trabalho de Conclusão de Curso (Graduação em Estatística ) - Universidade Federal de Mato Grosso, Instituto de Ciências Exatas e da Terra, Cuiabá, 2024. | pt_BR |
dc.identifier.uri | http://bdm.ufmt.br/handle/1/4871 | - |
dc.description.abstract | Word embedding is a technique that enables the transformation of words into continuous vector representations, allowing machine learning algorithms to process linguistic information more efficiently. Doc2vec is a Natural Language Processing (NLP) model developed as an extension of the word2vec algorithm, which creates word embeddings using two architectures: continuous bag of words (CBOW) and continuous skip-gram. CBOW is based on the conditional probability of generating a central word from context words, while skip-gram is based on the conditional probability of generating context words from a central word. While word2vec creates continuous vectors only for words, doc2vec uses two architectures to create its vectors: PV-DM (Distributed Memory Model of Paragraph Vectors), which creates vectors for entire documents, such as paragraphs, sentences, or even larger text blocks, capturing the syntactic, semantic, and contextual relationships associated with documents that belong to a text collection. The other technique is called PV-DBOW (Distributed Bag of Words of Paragraph Vectors), which is similar to the skip-gram model in word2vec as it ignores context words and forces the model to predict words from the entire document, sampled randomly, at the output. Using the PV-DM architecture, a doc2vec model was trained to create continuous vectors from crime report narratives related to violence against women for document classification and clustering, detection of sentences revealing the most prevalent types of violence, and the associations between words, sentences, and documents to better identify crimes. | pt_BR |
dc.description.provenance | Submitted by Nádia Paes (nadia66paes@gmail.com) on 2025-06-14T12:27:35Z No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5) | en |
dc.description.provenance | Approved for entry into archive by Carlos Eduardo da Silveira (carloseduardoufmt@gmail.com) on 2025-07-11T19:30:48Z (GMT) No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5) | en |
dc.description.provenance | Made available in DSpace on 2025-07-11T19:30:48Z (GMT). No. of bitstreams: 1 TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf: 1455042 bytes, checksum: 03df2e054d5d529423e682fc4f913fca (MD5) Previous issue date: 2024-10-30 | en |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Mato Grosso | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Classificação e agrupamento de crimes relacionados à violência contra mulheres : um estudo baseado em Doc2Vec | pt_BR |
dc.type | Trabalho de Conclusão de Curso | pt_BR |
dc.contributor.advisor1 | Morita, Lia Hanna Martins | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8952048121396398 | pt_BR |
dc.contributor.referee1 | Morita, Lia Hanna Martins | - |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/8952048121396398 | pt_BR |
dc.contributor.referee2 | Oliveira, Anderson Castro Soares de | - |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/8698014900594878 | pt_BR |
dc.contributor.referee3 | Martins, Claudia Aparecida | - |
dc.contributor.referee3Lattes | http://lattes.cnpq.br/0252766947347684 | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/1597609869931562 | pt_BR |
dc.description.resumo | Word embedding é uma técnica que possibilita transformar palavras em representações vetoriais contínuas, permitindo que algoritmos baseados em aprendizado de máquina processem informações linguísticas de maneira mais eficiente. O doc2vec é um modelo de PLN (Processamento de Linguagem Natural) que foi desenvolvido como uma extensão do algoritmo word2vec que é um modelo que cria representações vetoriais contínuasde palavras de um conjunto de dados textuais usando duas arquiteturas: continuous bag of words (CBOW) e continuous skip-gram. O CBOW é baseado na probabilidade condicional de gerar uma palavra central a partir de palavras do contexto, e o skip-gram é baseado na probabilidade condicional de gerar palavras do contexto a partir de uma palavra central. Enquanto o word2vec cria vetores contínuos apenas de palavras, o doc2vec utiliza duas arquiteturas para criar seus vetores: PV-DM (Distributed Memory Model of Paragraph Vectors) que cria vetores de documentos inteiros, como parágrafos, frases, ou até mesmo blocos de textos maiores, capturando as relações sintáticas, semânticas e contextuais associadas aos documentos que pertencem a uma coleção de textos, a outra técnica é chamada PV-DBOW (Distributed Bag of Words of Paragraph Vectors), é semelhante ao modelo skip-gram no word2vec, pois ignora as palavras de contexto e força o modelo a prever na saída palavras do documento inteiro amostradas de forma aleatória. Utilizando a arquitetura PV-DM, treinou-se um modelo doc2vec para criar vetores contínuos de narrativas de boletins de ocorrência de crimes relacionados à violência contra mulheres para classificação e agrupamento de documentos, detecção de sentenças que revelem os tipos de violência mais prevalentes e as associações entre palavras, sentenças e documentos que permitam identificar melhor os crimes. | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto de Ciências Exatas e da Terra (ICET) | pt_BR |
dc.publisher.initials | UFMT CUC - Cuiabá | pt_BR |
dc.publisher.program | Estatística - CUC | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA | pt_BR |
dc.subject.keyword | Doc2vec | pt_BR |
dc.subject.keyword | PV-DM | pt_BR |
dc.subject.keyword | PLN | pt_BR |
dc.subject.keyword | Crimes | pt_BR |
dc.subject.keyword2 | Doc2vec | pt_BR |
dc.subject.keyword2 | PV-DM | pt_BR |
dc.subject.keyword2 | NLP | pt_BR |
dc.subject.keyword2 | Crimes | pt_BR |
Aparece na(s) coleção(ções): | Estatística |
Arquivos deste item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TCC_2024_Maria de Fatima Magalhães de Souza Andrade.pdf | 1.42 MB | Adobe PDF | Ver/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.