Este trabalho aborda o reconhecimento de sinais da Libras usando apenas sequências de vídeo, que são acessíveis e disponíveis na maioria dos dispositivos móveis, como smartphones e tablets. A abordagem utilizada extrai pontos de interesse espaço-temporal em sequências de vídeo para construir um dicionário visual de forma que os vídeos são descritos em termos desse dicionário. Um conjunto de 1500 vídeos, com até 100 sinais diferentes, realizados por vários sujeitos, que são surdos nativos ou fluentes nessa língua de sinais, foi produzido para validar o método proposto. O trabalho explora ajuste de parâmetros para construção de descritores nessa base de vídeos e considera o particionamento da base para explorar a classificação com grupos de sinais com maior ou menor similaridade. Os resultados experimentais mostram que o método produz descritores capazes de obter altas taxas de classificação considerando classificadores usuais da literatura, especialmente com o LDA. Além disso, o trabalho considera o método de classificação Imune/neural, baseado na associação de sistemas imunes com uma rede neural que, apesar de exigir maior tempo de processamento, apresenta resultados superiores ao LDA.