Please use this identifier to cite or link to this item: http://repositorio.unitau.br/jspui/handle/20.500.11874/703
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorPrado, Pedro Paulo Leite dopt_BR
dc.contributor.authorAlvarenga, Rodrigo Jorgept_BR
dc.date.accessioned2019-07-03T21:16:17Z-
dc.date.available2019-07-03T21:16:17Z-
dc.date.issued2012pt_BR
dc.identifier.urihttp://repositorio.unitau.br/jspui/handle/20.500.11874/703-
dc.descriptionOrientação: Prof. Dr. Pedro Paulo Leite do Pradopt_BR
dc.descriptionDissertação (Mestrado) - Universidade de Taubaté, Departamento de Engenharia Mecânica e Elétrica, Taubaté, 2012pt_BR
dc.description.abstractResumo: Sistema de reconhecimento de fala tem amplo emprego no universo industrial, no aperfeiçoamento de operações e procedimentos humanos e no setor de entretenimento e recreação. O objetivo específico do trabalho foi conceber e desenvolver um sistema de reconhecimento de voz capaz de identificar comandos de voz, independentemente do locutor. A finalidade precípua do sistema é controlar movimentos de robôs, com aplicações na indústria e no auxílio de deficiebntes fisicos. Utilizou-se da tomada de decisão por meio de uma rede neural treinada com as características distintivas do sinal de fala de 16 locutores. As amostras dos comandos foram coletadas segundo o critério de conveniência (em idade e sexo), a fim de garantir uma maior discriminação entre as características de voz, e assim alcançar a generalização da rede neural utilizada. O pré-processamento consistiu na determinação dos pontos extremos da locução do comando e a filtragem aptativa de Wiener. Cada comando de fala foi segmentado em 200 janelas, com superposição de 25%. As features utilizadas foram a taxa de cruzamento de zeros, a energia de curto prazo e os coeficientes ceptrais na escala de frequência mel. Os dois primeiros coeficientes da codificação linear preditiva e o seu erro também foram testados. A rede reural empregada como classificador foi um perceptron multicamada, treinado pelo algoritmo backpropagation. Várias experimentações foram realizadas para a escolha de limiares, valores práticos, features e configurações da rede neural. Os resultados foram considerados muito bons, alcançando uma taxa de acertos de 89,16%, sob as condições de pior caso da amostragem dos comandos.pt_BR
dc.description.abstractAbstract: Systems for speech recognition have widespread use in the industrial universe, in the improvement of human operations and procedures and in the area of entertainment and recreation. The specific objective of this study was to design and develop a voice recognition system, capable of identifying voice commands, regardless of the speaker. The main purpose of the system is to control movement of robots, with applications in industry and in aid of disabled people. We used the approach of decision making, by means of a neural network trained with the distinctive features of the speech of 16 speakers. The samples of the voice commands were collected under the criterion of convenience (age and sex), to ensure a greater discrimination between the voice characteristics and to reach the generalization of the neural network. Preprocessing consisted in the determination of the endpoints of each command signal and in the adaptive Wiener filtering. Each speech command was segmented into 200 windows with overlapping of 25%. The features used were the zero crossing rate, the short-term energy and the mel-frequency ceptral coefficients. The first two coefficients of the linear predictive coding and its error were also tested. The neural network classifier was a multilayer perceptron, trained by the back propagation algorithm. Several experiments were performed for the choice of thresholds, practical values, features and neural network configurations. Results were considered very good, reaching an acceptance rate of 89,16%, under the "worst case" conditions for the sampling of the commands.pt_BR
dc.description.provenanceMade available in DSpace on 2019-07-03T21:16:17Z (GMT). No. of bitstreams: 1 Rodrigo Jorge Alvarenga.pdf: 1180816 bytes, checksum: c0aef5d345a1d3ca17778cbaa4d8931e (MD5) Previous issue date: 2012en
dc.format.extent73 f. : il. ; 30 cm.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade de Taubatépt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento de Engenharia Mecânica e Elétricapt_BR
dc.publisher.programPrograma de Pós-graduação em Engenharia Mecânicapt_BR
dc.publisher.initialsUNITAUpt_BR
dc.relation.requiresRequisitos do sistema: Software para leitura de arquivo em PDF.pt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0*
dc.subjectProcessamento de sinaispt_BR
dc.subjectReconhecimento de palavraspt_BR
dc.subjectCoeficientes mel-cepstralpt_BR
dc.subjectRedes neuraispt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA MECANICApt_BR
dc.titleReconhecimento de comandos de voz por redes neuraispt_BR
dc.typeDissertaçãopt_BR
dc.contributor.otherCardoso, Sebastiãopt_BR
dc.contributor.otherSoares, Álvaro Manoel de Souzapt_BR
dc.contributor.otherUniversidade de Taubaté. Programa de Pós-graduação em Engenharia Mecânicapt_BR
dc.description.degreelevelMestrado em Engenharia Mecânicapt_BR
Appears in Collections:Dissertações - Engenharia Mecânica - PPGEM/MEM

Files in This Item:
File SizeFormat 
Rodrigo Jorge Alvarenga.pdf1.15 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons