Se esperan nuevas relevaciones de Panamapapers para el 9 de mayo
05/05/2016
El director de Tecnología y Transferencia del Sistema de Educación a Distancia de la Universidad Católica de Salta, Carlos Said, brindó detalles técnicos sobre la filtración de información.
Con un número de magnitud relevante, 11 millones de documentos incluidos en los denominados “Papeles Panamá”, los periodistas a los que fueron revelados los mismos, el Consorcio Internacional de Periodistas de Investigación (ICIJ), se concentró inicialmente en las revelaciones más dramáticas.
Como resultado, posiblemente hay miles de personas nombradas en los datos que hasta ahora han escapado al escrutinio público. Pero no por mucho tiempo: el ICIJ ha anunciado planes para lanzar una base de datos, sobre la cual podrán realizarse búsquedas, el 9 de Mayo. Probablemente sea la liberación de información más grande relacionada a empresas secretas en el extranjero y la gente detrás de ellas, y que generará inesperadas sorpresas.
"Mientras que la base de datos abrirá un mundo que nunca ha sido revelado en una escala tan masiva, la aplicación no será solo "volcar los datos"de los documentos originales; será una versión analizada de la información de las empresas y corporaciones", dice el ICIJ.
"ICIJ no divulgará los datos personales de manera masiva; la base de datos no incluirá los registros de las cuentas bancarias y las transacciones financieras, correos electrónicos y otra correspondencia, pasaportes y números de teléfono. La información seleccionada y limitada será publicada en base al interés público".
Fuente: SüddeutscheZeitung
El Ataque a Mossack Fonseca
El punto de entrada del atacante: versiones obsoletas/no actualizadas de software del servidor web de código abierto Drupal y WordPress. En el caso de WordPress, un “plugin” en particular fue la causa más probable. "Creemos que es probable que un atacante tuvo acceso a la página web de MF [Mossack Fonseca] WordPress a través de una vulnerabilidad conocida, llamada “Revolution Slider”, según Mark Maunder, Fundador y Director de Wordfence. "Esta vulnerabilidad es simple de ser explotada", es decir usar la misma para tener accesos no permitidos a la información.
Las versiones actualizadas de “Revolution Slider”, así como de Drupal hacía tiempo que estaban disponibles - pero Mossack Fonseca no había actualizado el software en su servidor web. De hecho, las versiones actualizadas del software que las organizaciones no instalan es una de las vulnerabilidades de seguridad cibernética más común hoy en día.
El hecho de que los servidores web de Mossack Fonseca estuvieron meses sin ser actualizados, especialmente teniendo en cuenta la sensibilidad de la información de sus clientes, es una . "Parece que han sido atrapados en un túnel del tiempo", dice Alan Woodward, un experto en seguridad cibernética de la Universidad de Surrey y consultor para el Centro Europeo de Ciberdelincuencia de Europol. "Si yo fuera un cliente de ellos estaría muy preocupado de que se estaban comunicando haciendo uso de tecnología desactualizada."
La vulnerabilidad “Revolution Slider” es conocida entre los hackers para su facilidad de ser explotado. Basta con descargar y ejecutar un utilitario desde un sitio web de hackers, y el programa descargado proporcionará a los atacantes acceso a una consola en el servidor web ‘atacado’, lo que significa que los atacantes podrán navegar por el sistema de archivos del servidor atacado, cargar, descargar y ejecutar archivos sin control.
Normalmente, una empresa que cuenta con su propio servidor web se da cuenta de que es inherentemente vulnerable, y lo separa de otros sistemas y ‘aisla’ los datos más sensibles, - pero no ocurrió esto en Mossack Fonseca.
"Su servidor web estaba en la misma red que sus servidores de correo basados en Panamá. Los datos sensibles de los clientes estaban accesibles desde el portal web, el cual incluía un inicio de sesión de cliente para acceder a esos datos ".
Factores relevantes que debe atender cualquier organización
Una de las tareas más relevantes relacionadas a la seguridad cibernética para cualquier organización es asegurar que los administradores han aplicado todas las modificaciones de seguridad del software, no sólo el software que se “enfrenta a Internet”. El régimen de aplicación de actualizaciones debe ser rápido y completo.
El más diligente de los regímenes de actualización tiene sus debilidades: siempre hay un intervalo de tiempo entre el descubrimiento de una vulnerabilidad y la disponibilidad de unactualización que proteja de ella, dando a los atacantes una ventana de tiempo para progresar en sus intentos.
En segundo lugar, las actualizaciones automáticas pueden causar sus propios problemas, especialmente en entornos empresariales complejos y otras situaciones que requieren alta disponibilidad. No se puede hacer esto en el entorno corporativo. Las actualizaciones se ejecutan en “entornos de prueba” y luego se transfieren a producción.
Mantener el software actualizado es un movimiento defensivo esencial, las organizaciones también deben tomar actitudes activas respecto de los datos. El concepto de “linaje de datos” significa saber quién tiene acceso a los datos y cuando, similar a la forma en que los oficiales de la ley debe manejar la cadena de custodia de pruebas. También debe conocerse lo que se está haciendo con la información y, en particular, la forma en que se garantiza la seguridad de la misma (Tres factores esenciales: Confidencialidad, Integridad y Disponibilidad (conocido como CIA)).
La tercera experiencia a tomar de la fuga en Mossack Fonseca: “poner los huevos en varias canastas”. Nunca dar a nadie el acceso completo todos los datos sensibles, usar técnicas de enmascaramiento estático y dinámico de datos (data masking). Mientras más sensible los datos, más necesidad de dividirlos/fragmentarlos.
Tal fragmentación de la información sensible ha sido una herramienta importante de inteligencia durante décadas: sólo las personas con estricta "necesidad de saber" deben tener acceso a información sensible (Pensar en modelos de roles y listas de control de accesos).
La importancia de la segmentación
La segmentación adecuada de un entorno es uno de los mejores enfoques para intentar mitigar estos ataques. Si Mossack Fonseca hubiera separado su servidor web y el servidor de correo electrónico de otra información confidencial, habría contenido y por lo tanto limitado el daño.
El enfoque de segmentación que es adecuado para su organización puede ser diferente, pero recuerde, lo más probable es que no toda su información confidencial está dentro de áreas seguras en su red. Una parte de ella puede estar en “la nube o en manos de terceros”. No se pueden prevenir todos los ataques y garantizar que no tendrán éxito en este tipo de entornos complejos, pero se puede mitigar el daño a través de una segmentación adecuada.
Análisis forense
Veamos a continuación algunos aspectos técnicos relevantes de este incidente de seguridad de datos.
El trabajo con estos datos es complejo por razones diferentes. La primera razón es el volumen de datos - estamos hablando de 2.6TB.
La segunda razón es que no todos los datos están disponibles al mismo tiempo; es decir que el ICIJ no recibió un disco duro/o archivo de 2.6TB. Tuvieron que hacer frente a información incremental y trabajar con una gran cantidad de imágenes. La mayoría de los archivos son mensajes de correo electrónico y archivos de base de datos. También hay una gran cantidad de archivos PDF y TIFF, esto lleva a tener que realizar OCR (Reconocimiento Óptico de Caracteres) para millones de documentos.
Así que la mayor parte de la fuga fue datos no estructurados. Tampoco fue simple trabajar con los datos estrcuturados. La base de datos interna de Mossack Fonseca no le llega al consorcio de periodistas en su formato original. Debieron realizar “ingeniería inversa” para reconstruir la base de datos y conectar los puntos basados en códigos que tenían los documentos.
Parte de la tecnología involucrada
El ICIJ usó Apache Solr para la indexación y Apache Tika para el procesamiento de documentos, ya que una de sus fortalezas es que procesa docenas de diferentes formatos de datos. Tika interactúa con Tesseract, por lo que hizo el OCR usando Tesseract.
Para realizar el Reconocimiento Óptico de Caracteres (OCR) de las Imágenes, se usaron entre 30-40 servidores temporales en Amazon que permitieron procesar los documentos en paralelo y hacer paralelas las actividades de OCR. Si el proceso era lento, se incrementaba el número de servidores - si era adecuado, se disminuían porque esos servidores tienen un costo.
A continuación, los datos estuvieron disponibles, pero el problema con Apache Solres que no tiene una interfaz de usuario adecuada, por lo que se usó el Proyecto Blacklight, que es un software de código abierto utilizado normalmente por los bibliotecarios. Se puso a disposición para los periodistas. Es sencillo y permite búsquedas por años, por tipo de archivo, etc.
Permite consultas más complejas - es compatible con las consultas en forma de expresiones regulares, por lo que los usuarios más avanzados fueron capaces de buscar documentos con un determinado patrón de números que, por ejemplo, uso de un pasaporte. Se puede también previsualizar y descargar los documentos.
Para aquellos interesado en unos pocos aspectos técnicos adicionales:
Qué es Apache Solr?
Solr es una solución que proporciona indexación distribuida y en tiempo prácticamente real, replicación y consulta, de forma escalable y tolerante a fallos, con balance de carga para atender volúmenes masivos de datos y consultas. Apache Solr es la infraestructura que permite las funciones de búsqueda y navegación de muchos de los sitios de Internet más grandes del mundo. Brinda búsquedas en textos de manera avanzada (por ejemplo: proximidad de palabras, adyacencias, etc.).
Qué es Apache Tika?
Tika es un conjunto de herramientas de análisis de contenido. El kit de herramientas Apache Tika detecta y extrae los metadatos y los datos de más miles de diferentes tipos de archivos (por ejemplo, PPT, XLS y PDF). Todos estos tipos de archivos se pueden analizar a través de una única interfaz, haciendo Tika útil para la indexación en los motores de búsqueda, análisis de contenido, traducción.
Qué es la Detección Mágica Mime?
Si se realiza la búsqueda de patrones especiales ("mágicos") de bytes cerca del inicio del archivo, a menudo es posible detectar el tipo de archivo. Para algunos tipos de archivo, este es un proceso simple. Para otros formatos, por lo general los llamados contenedores, la detección “mágica”puedeno ser suficiente.
Qué es Blacklight?
Una solución que permite a los bibliotecarios, curadores, y otros que son responsables de colecciones digitales, crear sitios web atractivos, ricos en características que ponen de relieve estas colecciones.
Como puede observarse, estas cuatro tecnologías Apache Tika, Apache Solr, Detección Mágica Mime, Blacklight, son esenciales para el almacenamiento, indexación, búsqueda de textos, de una manera confiable, simple y que garantice procesamiento de volúmenes masivos de datos.
Referencias:
ICIJ · The International Consortium of Investigative Journalists https://www.icij.org/
Más sobre: Educación.
Deja una respuesta
Noticias relacionadas