Please use this identifier to cite or link to this item: http://repositorio.unitau.br/jspui/handle/20.500.11874/703
metadata.dc.type: Dissertação
Title: Reconhecimento de comandos de voz por redes neurais
Authors: Alvarenga, Rodrigo Jorge
Abstract: Resumo: Sistema de reconhecimento de fala tem amplo emprego no universo industrial, no aperfeiçoamento de operações e procedimentos humanos e no setor de entretenimento e recreação. O objetivo específico do trabalho foi conceber e desenvolver um sistema de reconhecimento de voz capaz de identificar comandos de voz, independentemente do locutor. A finalidade precípua do sistema é controlar movimentos de robôs, com aplicações na indústria e no auxílio de deficiebntes fisicos. Utilizou-se da tomada de decisão por meio de uma rede neural treinada com as características distintivas do sinal de fala de 16 locutores. As amostras dos comandos foram coletadas segundo o critério de conveniência (em idade e sexo), a fim de garantir uma maior discriminação entre as características de voz, e assim alcançar a generalização da rede neural utilizada. O pré-processamento consistiu na determinação dos pontos extremos da locução do comando e a filtragem aptativa de Wiener. Cada comando de fala foi segmentado em 200 janelas, com superposição de 25%. As features utilizadas foram a taxa de cruzamento de zeros, a energia de curto prazo e os coeficientes ceptrais na escala de frequência mel. Os dois primeiros coeficientes da codificação linear preditiva e o seu erro também foram testados. A rede reural empregada como classificador foi um perceptron multicamada, treinado pelo algoritmo backpropagation. Várias experimentações foram realizadas para a escolha de limiares, valores práticos, features e configurações da rede neural. Os resultados foram considerados muito bons, alcançando uma taxa de acertos de 89,16%, sob as condições de pior caso da amostragem dos comandos.
Abstract: Systems for speech recognition have widespread use in the industrial universe, in the improvement of human operations and procedures and in the area of entertainment and recreation. The specific objective of this study was to design and develop a voice recognition system, capable of identifying voice commands, regardless of the speaker. The main purpose of the system is to control movement of robots, with applications in industry and in aid of disabled people. We used the approach of decision making, by means of a neural network trained with the distinctive features of the speech of 16 speakers. The samples of the voice commands were collected under the criterion of convenience (age and sex), to ensure a greater discrimination between the voice characteristics and to reach the generalization of the neural network. Preprocessing consisted in the determination of the endpoints of each command signal and in the adaptive Wiener filtering. Each speech command was segmented into 200 windows with overlapping of 25%. The features used were the zero crossing rate, the short-term energy and the mel-frequency ceptral coefficients. The first two coefficients of the linear predictive coding and its error were also tested. The neural network classifier was a multilayer perceptron, trained by the back propagation algorithm. Several experiments were performed for the choice of thresholds, practical values, features and neural network configurations. Results were considered very good, reaching an acceptance rate of 89,16%, under the "worst case" conditions for the sampling of the commands.
Keywords: Processamento de sinais
Reconhecimento de palavras
Coeficientes mel-cepstral
Redes neurais
metadata.dc.subject.cnpq: CNPQ::ENGENHARIAS::ENGENHARIA MECANICA
metadata.dc.language: Português
metadata.dc.publisher.country: Brasil
Publisher: Universidade de Taubaté
metadata.dc.publisher.initials: UNITAU
metadata.dc.publisher.department: Departamento de Engenharia Mecânica e Elétrica
metadata.dc.publisher.program: Programa de Pós-graduação em Engenharia Mecânica
metadata.dc.rights: Acesso Aberto
metadata.dc.rights.uri: https://creativecommons.org/licenses/by-nc-nd/4.0
URI: http://repositorio.unitau.br/jspui/handle/20.500.11874/703
Issue Date: 2012
Appears in Collections:Dissertações - Engenharia Mecânica - PPGEM/MEM

Files in This Item:
File SizeFormat 
Rodrigo Jorge Alvarenga.pdf1.15 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons