Aumentan las estafas con voz por inteligencia artificial: ¿cómo saber si estás hablando por teléfono con una persona real?

30 de octubre de 2025, 21:00:48 Diario Tecnología

La línea que separa la realidad de la simulación se difumina cada vez más, y en ningún lugar es esto tan evidente como en el ámbito de las comunicaciones telefónicas. Lo que antes era un simple intento de engaño basado en un guion y la habilidad del estafador, ahora se ha transformado en una amenaza sofisticada, impulsada por la inteligencia artificial. Las estafas telefónicas, conocidas como vishing (una combinación de "voice" y "phishing"), están experimentando un auge preocupante, con la particularidad de que ya no es tan sencillo distinguir si al otro lado de la línea hay una persona de carne y hueso o un complejo algoritmo generando una voz sintética, increíblemente similar a la humana, o incluso clonada de alguien que conocemos. Esta evolución tecnológica presenta un desafío monumental para la seguridad personal y financiera, obligándonos a desarrollar nuevas habilidades de discernimiento para protegernos en un mundo donde la confianza puede ser la primera víctima. La capacidad de las inteligencias artificiales para imitar tonos, cadencias y emociones ha alcanzado un nivel que, para el oído inexperto o en momentos de vulnerabilidad, resulta prácticamente indistinguible de la voz de una persona real. Esto no solo eleva la complejidad de las estafas, sino que también introduce un componente emocional que antes era más difícil de manipular con tanta precisión, haciendo que la prevención sea más crucial que nunca.

La evolución de la estafa telefónica en la era de la IA

Aumentan las estafas con voz por inteligencia artificial: ¿cómo saber si estás hablando por teléfono con una persona real?

Las estafas no son un fenómeno nuevo; han existido desde que el ser humano encontró formas de engañar a sus semejantes. Sin embargo, la llegada de la inteligencia artificial ha catapultado estas prácticas a una nueva dimensión de sofisticación y peligro. Lo que antes se basaba en la ingeniería social y la buena fe de las víctimas, ahora cuenta con un aliado tecnológico capaz de borrar las fronteras entre lo auténtico y lo fabricado.

Del phishing tradicional al vishing con deepfakes de voz

Inicialmente, las estafas en línea se centraban en el *phishing*, correos electrónicos fraudulentos diseñados para engañar a los usuarios y que revelaran información sensible. Con el tiempo, esto evolucionó hacia el *smishing* (SMS phishing) y, de forma más preocupante, hacia el *vishing*. El *vishing* utiliza llamadas telefónicas para inducir a las víctimas a realizar acciones perjudiciales, como transferir dinero, proporcionar credenciales bancarias o datos personales. La clave de su éxito siempre ha residido en la inmediatez y el elemento de urgencia que una llamada telefónica puede infundir.

No obstante, la reciente integración de la inteligencia artificial ha dotado al *vishing* de una herramienta formidable: los *deepfakes* de voz. Gracias a algoritmos avanzados de aprendizaje profundo, es posible analizar pequeñas muestras de audio de una persona y replicar su voz con una fidelidad asombrosa. Esto significa que los estafadores pueden no solo generar voces genéricas que suenan humanas, sino que también pueden clonar la voz de un familiar, un compañero de trabajo o una figura de autoridad, haciendo que el engaño sea infinitamente más creíble y difícil de detectar. Esta capacidad representa un salto cualitativo en la efectividad de las estafas, ya que explota la confianza preexistente que tenemos en las voces que reconocemos. Para más información sobre estas amenazas, puede consultar recursos de seguridad como los ofrecidos por el INCIBE.

¿Por qué la voz sintética es tan convincente?

Los avances en el procesamiento del lenguaje natural (PLN) y el aprendizaje automático han permitido que las IA no solo generen palabras, sino que también capturen las complejidades del habla humana. Esto incluye la entonación, el ritmo, las pausas, e incluso matices emocionales como el nerviosismo o la preocupación. La calidad de los sistemas de texto a voz (TTS) ha mejorado exponencialmente en los últimos años, pasando de voces robóticas y monótonas a producciones que se acercan mucho a la naturalidad humana. Los modelos generativos son ahora capaces de imitar no solo el timbre, sino también el estilo de habla de una persona, incorporando variaciones que antes eran imposibles de replicar. Es preocupante ver la velocidad con la que estas tecnologías avanzan, a menudo superando la capacidad de la mayoría de las personas para discernir lo real de lo artificial en una conversación telefónica.

Un factor clave en esta convicción es la capacidad de las IA para modular la voz según el contexto. Si un estafador necesita simular urgencia, la IA puede añadir una cadencia más rápida y un tono más elevado. Si busca generar confianza, puede emplear una voz más pausada y amable. Esta adaptabilidad, combinada con la ausencia de ruidos de fondo inesperados o imperfecciones vocales que a veces asociamos con el habla humana, puede hacer que una voz sintética suene "demasiado perfecta", lo cual, paradójicamente, puede ser una señal de alarma, aunque no siempre lo sea de forma obvia para quien recibe la llamada.

Las tácticas más comunes de los estafadores con IA

La sofisticación de la IA ha abierto un abanico de posibilidades para los estafadores, permitiéndoles ejecutar engaños más variados y personalizados. Conocer estas tácticas es el primer paso para protegerse.

El secuestro virtual y la llamada de emergencia falsa

Una de las estafas más aterradoras y emocionalmente manipuladoras es la del secuestro virtual. Los estafadores llaman a la víctima, a menudo en horas tempranas de la madrugada, haciéndose pasar por alguien que ha secuestrado a un familiar. Con la ayuda de IA, pueden incluso hacer que la víctima escuche una voz clonada de su ser querido pidiendo ayuda, lo que aumenta exponencialmente la presión y el pánico. La urgencia es el arma principal: exigen un rescate inmediato, generalmente a través de transferencias de dinero imposibles de rastrear. La víctima, en estado de shock, a menudo actúa sin pensar en verificar la situación. Para más detalles sobre cómo funciona el secuestro virtual, la Policía Nacional ofrece información útil.

La suplantación de identidad en entidades bancarias o gubernamentales

Otra táctica común implica la suplantación de identidad de representantes de bancos, agencias tributarias o cualquier otra institución de confianza. Los estafadores utilizan voces generadas por IA que suenan profesionales y autoritarias, para informar a la víctima sobre supuestas irregularidades en su cuenta, problemas con sus impuestos o una falsa amenaza de cierre de cuenta. El objetivo es obtener información confidencial, como números de cuenta, contraseñas o datos de tarjetas de crédito. La sofisticación de la voz de IA puede hacer que parezca una llamada legítima de su banco, haciendo hincapié en la necesidad de "verificar" sus datos para evitar un problema mayor. Aquí, la IA no solo imita la voz, sino que también sigue un guion diseñado para evocar confianza y, al mismo tiempo, sembrar la duda y el miedo.

Llamadas de soporte técnico fraudulentas

Las llamadas de soporte técnico falso también se benefician enormemente de la IA. Los estafadores se hacen pasar por técnicos de grandes compañías tecnológicas, como Microsoft o Apple, alertando sobre supuestos virus o problemas críticos en el ordenador de la víctima. La voz generada por IA puede sonar calmada, experta y autoritaria, lo que convence a la víctima de que el problema es real y que el interlocutor es quien dice ser. Luego, solicitan acceso remoto al equipo o la instalación de software malicioso, para finalmente exigir un pago por un servicio inexistente. Me parece esencial que las campañas de concienciación sobre ciberseguridad se adapten rápidamente a estas nuevas amenazas, educando a la población sobre los métodos más recientes.

Clonación de voz de seres queridos

Personalmente, creo que este es el tipo de estafa más cruel y efectivo. Imaginen recibir una llamada de alguien que suena exactamente como su hijo, padre o cónyuge, pidiendo ayuda de emergencia, alegando estar en problemas, haber sufrido un accidente o necesitar dinero urgentemente. La tecnología de clonación de voz hace esto posible. Los estafadores pueden obtener una muestra de voz de las redes sociales, videos públicos o incluso grabaciones obtenidas de otros engaños, y usarla para crear una réplica. La respuesta emocional ante la voz de un ser querido en apuros es tan fuerte que la capacidad de análisis crítico de la víctima se ve severamente comprometida. Es en estos momentos de vulnerabilidad extrema donde estas estafas tienen el mayor impacto. La FCC en EE. UU. y otras autoridades ofrecen guías sobre cómo evitar la suplantación de identidad que pueden ser relevantes.

Señales clave para identificar una estafa de voz por IA

Aunque la IA ha perfeccionado la imitación de la voz humana, aún existen ciertas inconsistencias o comportamientos que pueden delatar a un estafador. Aprender a identificar estas señales es nuestra principal defensa.

Comportamientos inusuales en la conversación

Una de las pistas más reveladoras es el comportamiento de la "persona" al otro lado de la línea. Las IA, por muy avanzadas que sean, a veces luchan con la espontaneidad y las interacciones conversacionales complejas. Podrían presentar:

Falta de naturalidad en las pausas: La IA podría tener pausas poco naturales, demasiado largas o demasiado cortas, o no reaccionar con la misma inmediatez que una persona real a lo que usted dice.
Repetición de frases o un guion rígido: Si la conversación se siente demasiado estructurada, como si estuvieran leyendo un guion, o si las respuestas son demasiado genéricas y no se adaptan a sus preguntas específicas, podría ser una IA.
Incapacidad para desviarse del tema: Si intenta llevar la conversación hacia un tema diferente o hacer una pregunta que no esté en su guion, una IA podría tener dificultades para responder o ignorar su pregunta y volver al punto principal.
Falta de matices emocionales o empatía: Aunque algunas IA pueden simular emociones, a menudo carecen de la verdadera empatía o la gama completa de expresiones emocionales que un ser humano mostraría en una conversación.

Solicitudes urgentes de información personal o dinero

Esta es la señal de alarma más universal, independientemente de si la voz es real o artificial. Los estafadores siempre buscan generar un sentido de urgencia para que la víctima actúe sin pensar. Cualquier llamada que exija:

Transferencias de dinero inmediatas.
Revelación de contraseñas, números de tarjeta de crédito, PIN o datos bancarios completos.
Información personal sensible, como número de identificación, dirección o detalles familiares.
Amenazas de consecuencias graves (multas, cárcel, cierre de cuentas) si no se actúa de inmediato.

Debe ser tratada con la máxima precaución. Ninguna institución legítima (banco, gobierno, policía) le pedirá esta información por teléfono de forma urgente y sin previo aviso. Siempre he creído que la mejor defensa es la curiosidad y el escepticismo saludable. Pregunte, dude y no se deje presionar.

La calidad de la voz y el ambiente sonoro

Aunque las voces de IA son muy buenas, a veces pueden presentar características sutiles que las delatan:

Demasiado perfecta o sin imperfecciones: La voz puede sonar demasiado "limpia" o carecer de las pequeñas variaciones o imperfecciones que son naturales en el habla humana.
Falta de ruidos de fondo: Las llamadas de estafadores con IA a menudo tienen un silencio de fondo inusual. Una persona real raramente habla desde un entorno completamente sin sonido, sin el eco de una habitación, el ruido de la calle o de la oficina.
Calidad inconsistente: En algunas ocasiones, la calidad de la voz puede variar de forma abrupta, o puede haber pequeños "clics" o artefactos que no son naturales.
Tono metálico o robótico (raro, pero posible): Aunque menos común con las IA avanzadas, algunas todavía pueden tener un ligero tono artificial o metálico.

Confíe en su instinto. Si algo en la calidad del audio o en la voz no le parece del todo natural, no lo descarte como una simple mala conexión.

Preguntas de verificación inesperadas

Si la persona al otro lado de la línea no puede responder a preguntas simples que solo una persona real o alguien de confianza debería saber, es una gran señal de alarma. Por ejemplo, si se hacen pasar por un familiar, pregúntele sobre un evento compartido reciente, un chiste interno o un detalle muy específico que solo ellos conocerían. Una IA o un estafador que solo tiene la voz clonada probablemente no tendrá acceso a esta información y se pondrá nervioso o intentará evadir la pregunta. La proactividad es fundamental. Aquí es donde su conocimiento de su círculo íntimo puede convertirse en su mejor herramienta de verificación.

Estrategias de defensa y prevención

Ante la sofisticación creciente de estas estafas, es imperativo adoptar una actitud proactiva y equiparse con las herramientas y el conocimiento necesarios para protegerse.

Verificar la identidad del interlocutor

La regla de oro es simple: ante cualquier llamada sospechosa, cuelgue y verifique. Si la llamada es supuestamente de su banco, una entidad gubernamental o un familiar en apuros, nunca devuelva la llamada al número que aparece en su identificador de llamadas. Busque el número oficial de la institución en su sitio web oficial o en documentos de contacto previamente verificados, y llame directamente. En el caso de un familiar, contacte con otra persona de su círculo (otro familiar o amigo) para confirmar su paradero y situación. Este simple paso puede desbaratar la mayoría de las estafas. Tenga siempre a mano los números de teléfono oficiales de sus entidades bancarias, organismos públicos y contactos de emergencia. Recuerde que los estafadores pueden manipular el identificador de llamadas (spoofing) para que parezca que la llamada proviene de un número legítimo. Más información sobre cómo evitar estafas telefónicas puede encontrarse en recursos como los de la FTC.

Establecer una palabra clave familiar

Una estrategia muy efectiva, especialmente con su círculo más cercano, es acordar una "palabra clave" o "pregunta de seguridad" que solo ustedes conozcan. Si recibe una llamada de emergencia de un ser querido, pídale que le diga esa palabra clave. Si no puede proporcionarla o evade la pregunta, es casi seguro que se trata de una estafa. Esta simple medida puede ser una barrera formidable contra los *deepfakes* de voz, ya que la IA no tendría acceso a esta información confidencial.

Proteger tu huella de voz digital

La clonación de voz se alimenta de muestras de audio. Sea consciente de la cantidad de grabaciones de su voz o la de sus seres queridos que están disponibles públicamente en línea (redes sociales, videos de YouTube, podcasts, etc.). Limite la exposición pública de su voz si es posible, y sea cauteloso con las aplicaciones que solicitan acceso a su micrófono o graban su voz con fines de "mejora" de voz o entretenimiento. Cuanta menos huella de voz digital tenga, más difícil será para los estafadores obtener material para clonarla. Es un aspecto de la privacidad digital que a menudo pasamos por alto, pero que cobra relevancia con estas nuevas amenazas. Puede consultar guías sobre protección de datos y privacidad en línea para aprender a proteger su identidad digital.

Educarse y mantener la calma

La información es su mejor arma. Manténgase informado sobre las últimas tácticas de estafa y comparta esta información con sus amigos y familiares, especialmente con aquellos más vulnerables. La calma es esencial en estas situaciones. Los estafadores se nutren del pánico y la prisa. Tómese un momento para respirar, analizar la situación y verificar la información antes de tomar cualquier decisión. Desconfíe de cualquier historia que suene demasiado buena para ser verdad, o demasiado catastrófica para ser creíble. Si siente presión o incomodidad, cuelgue. Su seguridad y tranquilidad valen más que cualquier posible inconveniente de colgar una llamada legítima (que siempre podrá verificar después).

El futuro de la detección de voces sintéticas

A medida que los estafadores perfeccionan sus métodos con IA, la tecnología de detección también avanza. La lucha entre el engaño y la autenticación es constante.

Avances tecnológicos en la autenticación de voz

Investigadores y empresas de ciberseguridad están desarrollando herramientas basadas en IA para detectar voces sintéticas. Estos sistemas analizan patrones sutiles en la voz, como las micro-pausas, la entonación no natural, la coherencia espectral y otros marcadores que aún son difíciles de replicar perfectamente por las IA generativas. La idea es que una IA pueda identificar si otra IA está intentando hacerse pasar por un humano. Ya existen prototipos y soluciones comerciales que prometen identificar *deepfakes* de voz con alta precisión, aunque su implementación generalizada en redes telefónicas aún es un desafío. Esto me da esperanzas, aunque sé que la carrera armamentística tecnológica es incesante.

Además, se están explorando métodos para integrar sistemas de autenticación multifactoriales, donde la voz solo sea una capa de seguridad y se complemente con otras verificaciones biométricas o de conocimiento. La combinación de huellas dactilares, reconocimiento facial y reconocimiento de voz, junto con claves de seguridad dinámicas, puede ofrecer una defensa más robusta. Sin embargo, estas soluciones suelen estar más orientadas a la protección de cuentas específicas y no tanto a la detección en tiempo real de llamadas fraudulentas a nivel de red.

La responsabilidad de las empresas de telecomunicaciones

Las compañías de telecomunicaciones tienen un papel crucial en esta lucha. Pueden implementar tecnologías a nivel de red para detectar y bloquear llamadas que muestren características de voces generadas por IA o patrones de *spoofing* conocidos. La colaboración entre operadores, reguladores y empresas de seguridad es vital para crear un ecosistema más seguro. Esto incluye el desarrollo de estándares para la autenticación de llamadas (como el protocolo STIR/SHAKEN en EE. UU., que ayuda a verificar la identidad de la llamada) y la inversión en sistemas de detección de fraudes más avanzados. Es una responsab

Ciberseguridad Deepfake Voz Estafas IA Voz Sintética