*Fragmento extractado del libro Manzanero, A.L. (2010). Memoria de testigos: Obtención y valoración de la prueba testifical. Ed. Pirámide (2010)*

En general nuestra capacidad para identificar a un desconocido por su voz es prácticamente nula. Esta capacidad de identificar una voz no parece correlacionar con la capacidad de los sujetos para describir las características de las voces oídas, ni con la exactitud en la descripción del contenido literal o del significado de los mensajes (Yarmey, 2001). Así pues, un testigo podría no ser capaz de precisar qué dijo pero sí quién lo dijo, y viceversa. Diferentes factores pueden mediar en el reconocimiento de voces, aunque con mínimos efectos.

Sexo

Respecto a la diferencia entre hombres y mujeres para identificar una voz, McGehee (1937) encontró que los hombres eran más eficaces identificando voces de mujeres, mientras que las voces de hombres eran igualmente reconocibles por ambos sexos. Sin embargo, la literatura nos muestra que estos datos no siempre se confirman. Bull y Clifford (1984) encuentran que las mujeres tendrían una mejor capacidad para identificar voces que los hombres, y que las voces de mujeres serían más fáciles de distinguir que las de hombres. Por su parte, Wilding y Cook (2000) encontraron que los hombres distinguían igual las voces de hombre y de mujer, mientras que las mujeres distinguían mejor las voces de mujer. Manzanero, Russo y Fretes (2008) encontraron que las mujeres discriminan peor que los hombre las voces de mujer, mientras que no había diferencias entre los sujetos de ambos sexos al discriminar las voces de hombre; pero además, se encontraron diferencias en el criterio o estrategia de respuesta, ya que las mujeres tienden a señalar esté o no la voz objetivo presente en la rueda, dando lugar a un altísimo porcentaje de falsas alarmas (un 100% para voces de mujer y un 53% para las de hombre), mientras que los hombres fueron algo más conservadores, aunque también cometieron muchas más falsas alarmas (un 60% para las voces de mujer y un 66% para las de hombre) que aciertos. Estos datos llevan a pensar que las diferencias entre estudios podrían deberse a un cambio en el criterio de respuesta y a la distintividad de las voces.

Edad

La capacidad para reconocer voces se adquiere a muy temprana edad, de modo que los bebes de poco tiempo serían capaces de diferenciar voces de personas conocidas de voces de desconocidos (Spence y Freeman, 1996). La familiaridad de la voz es el factor de más peso en la capacidad para identificar. Spence, Rollins y Jerger (2002) encontraron en una investigación con menores que los niños de tres años eran capaces de identificar el 61% de las voces de los dibujos animados que veían habitualmente, porcentaje que se incrementó hasta el 81% en niños de cuatro años y a un 86% en niños de cinco años. Los niños a partir de los 6-9 años serían capaces de identificar voces de personas desconocidas a un nivel similar a los adultos (Bennett y Montero-Díaz, 1982; Mann, Diamond y Carey, 1979). Adultos entre los 21 y los 40 años parecen ser más capaces de discriminar entre voces de personas desconocidas que adultos de más de 40 años (Bull y Clifford, 1984).

Testigos ciegos

Algunas investigaciones han tratado de evaluar la capacidad de testigos con déficit visual en comparación con la de adultos sin problemas de visión. Los resultados muestran que los testigos ciegos son más capaces a la hora de identificar el origen de un sonido o de percibir conversaciones a un volumen bajo y en condiciones de ruido (Muchnik, Efrati, Nemeth, Malin y Hildescheimer, 1991; Niemeyer y Starlinger, 1981). Sin embargo, no se han encontrado diferencias en la capacidad para identificar una voz (Elaad, Segev y Tobin, 1998; Winograd, Kerr y Spence, 1984).

---------------------------------------------------------------------------------------------------------
Aún así, la jurisprudencia en esta materia nos indica que en algunas ocasiones se procede a identificar a los delincuentes mediante "ruedas de voces" por los testigos y víctimas, e incluso por el propio tribunal. Especialmente interesante es el artículo del Magistrado Diego Díez (2003) donde se pueden observar las contradiciones entre la ley y la ciencia. Se ha recogido el fragmento que resulta más interesante:

Diego Díez, L.A. (2003). La voz como elemento identificador del delincuente. Revista del Poder Judicial, 69.

(.../...)

I. La voz como elemento identificador

La voz, por sus modulaciones y tonalidades particulares, puede llegar a ser un importante elemento identificador del delincuente (5); sobre todo si se encuentra registrada en una grabación sonora que, con las modernas tecnologías, puede cotejarse con la del sospechoso. Pero no siempre es posible obtener una grabación de la voz del delincuente y, en ocasiones, es la propia víctima o los testigos presenciales quienes reconocen directamente la voz de su agresor.

Así pues, la identificación de una voz con virtualidad probatoria puede no sólo hacerse mediante la pericia técnica correspondiente, sino también mediante el reconocimiento inmediato efectuado por testigos y víctima o, incluso, a través de una «rueda de voces», sin descartar la apreciación directa de la similitud fonética de las voces por el propio órgano de enjuiciamiento. La STS de 10 de mayo de 2001 (FJ 3.2) (6) lo confirma con estas palabras:

Como se dice en la sentencia de esta Sala de 3 de noviembre de 1997, la identidad de una voz no pasa necesaria y exclusivamente por la prueba pericial técnica realizada en los laboratorios especializados, ya que el sistema español admite que se puedan utilizar otros instrumentos probatorios, quizá menos fiables desde el punto de vista científico, pero no exentos de una cierta virtualidad probatoria. Se ha admitido en alguna sentencia, la identificación del sospechoso por medio del reconocimiento de la voz efectuado por la víctima del delito y no se descarta la posibilidad de realizar una especie de «rueda de voces» para identificar entre ellas, la que se atribuye al posible autor del hecho delictivo. La similitud fonética de las voces puede ser apreciada directamente por el Tribunal o ser deducida de la valoración del testimonio de quien ha percibido la voz del sospechoso y la identifica ante la autoridad judicial.

II. Reconocimiento personal de la voz

1. Escasa fiabilidad probatoria

La audición directa del agresor, sin su registro en cinta magnetofónica o en otro soporte, y su posterior reconocimiento por la víctima o los testigos, hay que tomarlo con suma cautela. El oído no es precisamente el sentido que más agudizado tenga la especie humana y, salvo excepciones (como, p. ej., los invidentes), si el único elemento identificador queda reducido a la voz del autor del delito, su reconocimiento por la víctima (quien la percibió en estado de angustia y tensión), lo hacen difícilmente fiable y sería, por sí solo, un muy endeble sustrato probatorio para construir una sentencia de condena (7). Muy clara es al respecto la STS de 17 de diciembre de 1992 (8):

La identificación por reconocimiento de voz es por propia naturaleza algo subsidiario a la identificación por los rasgos corporales de la persona. Así se deduce de la más reciente jurisprudencia de esta Sala (SS. 17 de abril de 1989 y 2566/1992, de 18 de noviembre), que señalan que más que un medio de prueba es un objeto de prueba carente de autonomía y dependiente de la realización de medios de prueba. Ello se refuerza sin más con la simple y literal cita del fundamental artículo 369 de la Ley de Enjuiciamiento Criminal en su referencia a las personas con «circunstancias exteriores semejantes».

También incide en estos mismos aspectos la STS de 26 de octubre de 1990 (9):

(...) el reconocimiento de la voz de una persona, amén de ser una prueba atípica y poco fiable, nada nos puede aclarar en el presente caso, no sólo porque tal reconocimiento se hizo sin una auténtica convicción, sino también, y sobre todo, porque la propia víctima, en sus declaraciones, reitera que el violador siempre le hablaba con voz «susurrante» en evitación de que fuera advertida su presencia en la vivienda; es decir, es muy difícil achacar la autoría de un hecho a una concreta persona por el tono y modulación de su voz, máxime cuando ese tono y esa modulación han de ser lógicamente distintos en el momento del acto criminoso y en el momento del referido reconocimiento en rueda.

Lo más frecuente es que el reconocimiento de la voz constituya un elemento más de identificación, pero no el único. Así sucedió en el caso examinado por la STS de 15 de septiembre de 1992 (10). Se trataba de unos asaltantes, conocidos por el dueño y el camarero del local, que utilizaron pasamontañas para cubrirse el rostro pero fueron reconocidos por su voz y vestimenta. Dice la citada sentencia:

En el caso presente afirma la Audiencia que los autores del hecho entraron en el bar «ocultando parcialmente sus rostros con pasamontañas, toda vez que eran conocidos por el dueño y camarero», añadiendo después que cuando se marcharon los asaltantes «avisaron de inmediato a la Policía Local, e indicaron los nombres de los autores, a quienes, si bien no habían reconocido facialmente por los pasamontañas que llevaban, sí en cambio por la voz y manera de vestir».

Hubo una ocultación parcial del rostro con pasamontañas, lo cual ha de entenderse en el sentido de que no se cubrió la totalidad de la cara dejando visible parte de ella. Pero tal manera de expresarse no quiere decir que no resultara eficaz el disfraz utilizado, lo que queda aclarado cuando se añade que, pese a ser conocidos del dueño del bar y del camarero, éstos no pudieron identificarlos por las facciones de su rostro, sino sólo por la voz y vestimenta.

Y lo mismo puede decirse del caso tratado por la STS de 21 de enero de 1993 (11). El Tribunal Supremo estimó entonces acertada la condena del acusado por robo y violación a partir de dos datos indiciarios apreciados conjuntamente: el hallazgo en poder del acusado de varios de los objetos sustraídos y las particulares características de su voz (ronca, como aguardentosa) reconocida por la víctima. Señala la indicada sentencia (FJ 3) lo siguiente:

Ya desde el principio la señora agredida dijo que no había podido ver la cara ni la figura de quien la había atacado, pues éste, durante el desarrollo de los hechos, le había obligado a permanecer siempre de espaldas, aunque pudo precisar que tenía aproximadamente 1’60 metros de altura y unos 25 ó 30 años, deduciendo esto último del tono de su voz particularmente ronca.

Ante esta última circunstancia, la Policía procedió a practicar el 14 de febrero de 1990 una singular diligencia de reconocimiento de la voz en rueda con asistencia de letrado, haciendo hablar al acusado y a otras cuatro personas más, puestas todas de espaldas, oyéndolas M.a del Carmen, también situada de espaldas, la cual identificó la del acusado, como, sin duda, la voz de la persona que le había agredido (folio 104).

En el acto del juicio dicha señora reiteró su seguridad respecto de la mencionada identidad de la voz y la Sala de instancia pudo apreciar que efectivamente la del procesado tenía un tono grave, ronco y aguardentoso, expresándolo así en el fundamento de derecho 1.° de la propia sentencia recurrida.

2. Rueda de voces

Aunque insólita, la «rueda de voces» se ha llevado a cabo en alguna ocasión. Señala la STS de 17 de abril de 1989 (12) que se trata de «una diligencia de identificación de sujeto incógnito como supuesto autor del delito en el que la víctima debería reconocer la voz humana del pretendido autor entre otras semejantes» y, como tal, «encuadrable en la normativa contenida en los artículos 369 y 370 de la Ley de Enjuiciamiento Criminal» (13). Esta modalidad de identificación puede resultar idónea como elemento incriminatorio de cargo, al menos con carácter complementario de otras pruebas (14), en aquellos supuestos en que el delincuente haya actuado con el rostro cubierto, haya empleado el teléfono, la víctima sea invidente, el lugar del delito carezca de iluminación o situaciones asimilables. Pero la falibilidad del oído humano y la versatilidad de la voz aconsejan acudir a ella con moderación y prudencia, y siempre con carácter subsidiario (15).

En cualquier caso, la SAP de Vizcaya de 6 de noviembre de 1985 (16) ofrece algunas pautas hermenéuticas para llevar a cabo una «rueda de voces», a partir de la aplicación analógica de lo dispuesto en la Ley de Enjuiciamiento Criminal para la rueda de reconocimiento.

1) La voz humana que haya de ser reconocida deberá compararse o contrastarse con otras voces humanas que presenten características semejantes. Deben excluirse, por tanto, aquellas voces que por razón de edad, sexo, enfermedad o especial singularidad sonora no guarden relación de semejanza con la voz que haya de ser reconocida.

2) La audición de las referidas voces por quien haya de llevar a cabo el reconocimiento se hará de forma que no pueda ver los rasgos físicos de las personas que las emiten; y ello con la finalidad de que el sentido de la vista no perturbe el protagonismo que debe tener en este momento el sentido del oído. Sin perjuicio, en cualquier caso, de la posibilidad de articular formas de reconocimiento de carácter mixto, en las que lo esencial será reproducir de la manera más exacta posible las circunstancias de la percepción global experimentada por el sujeto recognoscente y siempre en el marco de una contrastación objetiva.

3) En los restantes factores cabe aplicar directamente el sistema de garantías prevenido en la Ley de Enjuiciamiento Criminal para el reconocimiento en rueda, con las adaptaciones ténicas que el sentido común y jurídico aconsejen.

Nada impide, por lo demás, que, en el mismo plenario, el propio Tribunal efectúe una especie de rueda entre las voces de los acusados para que los testigos confirmen quién emitió determinadas frases. Así sucedió en el caso tratado en la STS de 27 de septiembre de 2000 (FJ 11.3) (17):

No obstante, la sentencia realiza una cuidada motivación sobre la autoría material del disparo y, pese a que uno de ellos, el menor de edad, se había declarado autor material del disparo, el Tribunal afirma que fue otro acusado en virtud de un razonamiento deductivo que se presenta lógico y racional, derivado de una prueba indiciaria, y de una prueba directa, la del reconocimiento de voces que el Tribunal realizó en la propia Sala para acreditar cuál de los acusados emitió las frases que el autor material expresó en el atraco.

(.../...)

----------------------

(5) María Isabel Huertas Martín, El sujeto pasivo del proceso penal..., cit., pág. 251; José Antonio Martín Pallín, «Identificación del delincuente», en La restricción de los derechos fundamentales de la persona en el proceso penal, colección «Cuadernos de Derecho Judicial», CGPJ, Madrid, 1993, tomo XXIX, pág. 144.

(6) Ponente: Excmo. Sr. D. José Antonio Martín Pallín (RJ 2001\7045).

(7) Apunta Julio Banacloche Palau, en Reconocimiento de voces..., cit., pág. 810, que, cuando el reconocimiento sólo puede realizarse sobre la base de la declaración testifical de quien escuchó la voz, fundándose exclusivamente en su memoria y en su capacidad para distinguir y reconocer voces, las especiales circunstancias de este supuesto exigen que el reconocimiento de voz esté acompañado de otras pruebas que corroboren la participación del acusado en la realización del delito.

(8) Ponente: Excmo. Sr. D. Ramón Montero Fernández_Cid (RJ 1992\10305).

(9) Ponente: Excmo. Sr. D. Gregorio García Ancos (RJ 1990\8315).

(10) Ponente: Excmo. Sr. D. Joaquín Delgado García (RJ 1992\7155).

(11) Ponente: Excmo. Sr. D. Joaquín Delgado García (RJ 1993\281).

(12) Ponente: Excmo. Sr. D. Ramón Montero Fernández_Cid (RJ 1989\3364).

(13) Véanse Juan Ramón Berdugo Gómez de la Torre, «Identificación del acusado», en Recopilación de ponencias y comunicaciones. Planes provinciales y territoriales de formación. Año 1992, vol. II, CGPJ, Madrid, 1993, pág. 1085; María Isabel Huertas Martín, El sujeto pasivo del proceso penal..., cit., pág. 253; Eloy Velasco Núñez, «El reconocimiento o identificación del autor de una infracción delictiva», en Poder Judicial, 2.ª época, núm. 24, 1991, pág. 145.

(14) Cfr. la STS de 15 de enero de 1992 (RJ 1992\160).

(15) Dicen las SSTS de 17 de diciembre de 1992 (RJ 1992\10305) y 12 de junio de 1995 (RJ 1995\4564) que la identificación por reconocimiento de voz es «por propia naturaleza algo subsidiario a la identificación por los rasgos corporales de la persona».

(16) Ponente: Ilmo. Sr. D. Juan Alberto Belloch Julbé. Sobre esta sentencia puede verse Antonio M.ª Lorca Navarrete, «La diligencia de reconocimiento de voz», en La Ley, 1987-2, págs. 1159-1162.

(17) Ponente: Excmo. Sr. D. Andrés Martínez Arrieta (RJ 2000\8254).

Psicología del Testimonio

Identificación de voces

Sexo

Edad

Testigos ciegos