Python Forensics - Guía rápida
Python es un lenguaje de programación de uso general con código fácil de leer que puede ser fácilmente entendido tanto por desarrolladores profesionales como por programadores novatos. Python se compone de muchas bibliotecas útiles que se pueden usar con cualquier marco de pila. Muchos laboratorios confían en Python para construir modelos básicos de predicciones y ejecutar experimentos. También ayuda a controlar los sistemas operativos críticos.
Python tiene capacidades integradas para respaldar la investigación digital y proteger la integridad de la evidencia durante una investigación. En este tutorial, explicaremos los conceptos fundamentales de la aplicación de Python en informática forense o digital.
¿Qué es la informática forense?
La informática forense es un dominio de investigación emergente. Se ocupa de la resolución de problemas forenses mediante métodos digitales. Utiliza la ciencia computacional para estudiar la evidencia digital.
La informática forense incluye una amplia gama de temas en los que se investigan objetos, sustancias y procesos, principalmente basados en evidencia de patrones, como marcas de herramientas, huellas dactilares, huellas de zapatos, documentos, etc., y también incluye patrones fisiológicos y de comportamiento, ADN y evidencia digital en Escenas del crimen.
El siguiente diagrama muestra la amplia gama de temas cubiertos por la informática forense.
La ciencia forense computacional se implementa con la ayuda de algunos algoritmos. Estos algoritmos se utilizan para procesamiento de señales e imágenes, visión por computadora y gráficos. También incluye minería de datos, aprendizaje automático y robótica.
La ciencia forense computacional involucra diversos métodos digitales. La mejor solución para facilitar todos los métodos digitales en la ciencia forense es utilizar un lenguaje de programación de propósito general como Python.
Como necesitamos Python para todas las actividades de la informática forense, avancemos paso a paso y entendamos cómo instalarlo.
Step 1 - Ir a https://www.python.org/downloads/ y descargue los archivos de instalación de Python según el sistema operativo que tenga en su sistema.
Step 2 - Después de descargar el paquete / instalador, haga clic en el archivo exe para iniciar el proceso de instalación.
Verá la siguiente pantalla después de que se complete la instalación.
Step 3 - El siguiente paso es configurar las variables de entorno de Python en su sistema.
Step 4 - Una vez configuradas las variables de entorno, escriba el comando "python" en el símbolo del sistema para verificar si la instalación fue exitosa o no.
Si la instalación fue exitosa, obtendrá el siguiente resultado en la consola.
Los códigos escritos en Python se parecen bastante a los códigos escritos en otros lenguajes de programación convencionales como C o Pascal. También se dice que la sintaxis de Python está fuertemente tomada de C. Esto incluye muchas de las palabras clave de Python que son similares al lenguaje C.
Python incluye declaraciones condicionales y en bucle, que se pueden usar para extraer los datos con precisión para fines forenses. Para el control de flujo, proporcionaif/else, whiley un alto nivel for declaración que recorre cualquier objeto "iterable".
if a < b:
max = b
else:
max = a
El área principal en la que Python se diferencia de otros lenguajes de programación es en el uso de dynamic typing. Utiliza nombres de variables que se refieren a objetos. No es necesario declarar estas variables.
Tipos de datos
Python incluye un conjunto de tipos de datos integrados, como cadenas, booleanos, números, etc. También hay tipos inmutables, lo que significa que los valores no se pueden cambiar durante la ejecución.
Python también tiene tipos de datos integrados compuestos que incluyen tuples que son matrices inmutables, listsy dictionariesque son tablas hash. Todos ellos se utilizan en análisis forense digital para almacenar valores mientras se recopilan pruebas.
Módulos y paquetes de terceros
Python admite grupos de módulos y / o paquetes que también se denominan third-party modules (código relacionado agrupado en un solo archivo fuente) utilizado para organizar programas.
Python incluye una extensa biblioteca estándar, que es una de las principales razones de su popularidad en la ciencia forense computacional.
Ciclo de vida del código Python
Al principio, cuando ejecuta un código Python, el intérprete verifica el código en busca de errores de sintaxis. Si el intérprete descubre errores de sintaxis, se muestran inmediatamente como mensajes de error.
Si no hay errores de sintaxis, entonces el código se compila para producir un bytecode y enviado a PVM (máquina virtual de Python).
El PVM comprueba el código de bytes en busca de errores lógicos o de ejecución. En caso de que el PVM encuentre algún error en tiempo de ejecución, se informa inmediatamente como mensaje de error.
Si el código de bytes no tiene errores, entonces el código se procesa y obtiene su salida.
La siguiente ilustración muestra de forma gráfica cómo se interpreta primero el código Python para producir un código de bytes y cómo el código de bytes es procesado por el PVM para producir la salida.
Para crear una aplicación según las pautas forenses, es importante comprender y seguir sus convenciones y patrones de nomenclatura.
Convenciones de nombres
Durante el desarrollo de aplicaciones forenses de Python, las reglas y convenciones a seguir se describen en la siguiente tabla.
Constantes | Mayúsculas con separación de subrayado | ALTA TEMPERATURA |
Nombre de variable local | Minúsculas con mayúsculas llenas de baches (los guiones bajos son opcionales) | temperatura actual |
Nombre de variable global | Prefijo gl minúscula con mayúsculas llenas de baches (los guiones bajos son opcionales) | gl_maximumRecordedTemperature |
Nombre de las funciones | Mayúsculas con mayúsculas llenas de baches (guiones bajos opcionales) con voz activa | ConvertFarenheitToCentigrade (...) |
Nombre del objeto | Prefijo ob_ minúsculas con mayúsculas llenas de baches | ob_myTempRecorder |
Módulo | Un guión bajo seguido de minúsculas con mayúsculas llenas de baches | _tempRecorder |
Nombres de clases | Prefijo class_ luego mayúsculas llenas de baches y sea breve | class_TempSystem |
Tomemos un escenario para comprender la importancia de las convenciones de nomenclatura en Computational Forensics. Supongamos que tenemos un algoritmo hash que normalmente se usa para cifrar datos. El algoritmo hash unidireccional toma la entrada como un flujo de datos binarios; esto podría ser una contraseña, un archivo, datos binarios o cualquier dato digital. El algoritmo hash luego produce unmessage digest (md) con respecto a los datos recibidos en la entrada.
Es prácticamente imposible crear una nueva entrada binaria que genere un resumen de mensaje dado. Incluso un solo bit de los datos de entrada binaria, si se cambia, generará un mensaje único, que es diferente al anterior.
Ejemplo
Eche un vistazo al siguiente programa de muestra que sigue las convenciones mencionadas anteriormente.
import sys, string, md5 # necessary libraries
print "Please enter your full name"
line = sys.stdin.readline()
line = line.rstrip()
md5_object = md5.new()
md5_object.update(line)
print md5_object.hexdigest() # Prints the output as per the hashing algorithm i.e. md5
exit
El programa anterior produce la siguiente salida.
En este programa, la secuencia de comandos Python acepta la entrada (su nombre completo) y la convierte según el algoritmo hash md5. Cifra los datos y protege la información, si es necesario. De acuerdo con las pautas forenses, el nombre de las pruebas o cualquier otra prueba se puede asegurar en este patrón.
UN hash functionse define como la función que asigna una gran cantidad de datos a un valor fijo con una longitud específica. Esta función asegura que la misma entrada dé como resultado la misma salida, que en realidad se define como una suma hash. La suma hash incluye una característica con información específica.
Esta función es prácticamente imposible de revertir. Por lo tanto, cualquier ataque de terceros como un ataque de fuerza bruta es prácticamente imposible. Además, este tipo de algoritmo se llamaone-way cryptographic algorithm.
Una función hash criptográfica ideal tiene cuatro propiedades principales:
- Debe ser fácil calcular el valor hash para cualquier entrada dada.
- Debe ser inviable generar la entrada original a partir de su hash.
- Debe ser inviable modificar la entrada sin cambiar el hash.
- Debe ser inviable encontrar dos entradas diferentes con el mismo hash.
Ejemplo
Considere el siguiente ejemplo que ayuda a hacer coincidir contraseñas usando caracteres en formato hexadecimal.
import uuid
import hashlib
def hash_password(password):
# userid is used to generate a random number
salt = uuid.uuid4().hex #salt is stored in hexadecimal value
return hashlib.sha256(salt.encode() + password.encode()).hexdigest() + ':' + salt
def check_password(hashed_password, user_password):
# hexdigest is used as an algorithm for storing passwords
password, salt = hashed_password.split(':')
return password == hashlib.sha256(salt.encode()
+ user_password.encode()).hexdigest()
new_pass = raw_input('Please enter required password ')
hashed_password = hash_password(new_pass)
print('The string to store in the db is: ' + hashed_password)
old_pass = raw_input('Re-enter new password ')
if check_password(hashed_password, old_pass):
print('Yuppie!! You entered the right password')
else:
print('Oops! I am sorry but the password does not match')
Diagrama de flujo
Hemos explicado la lógica de este programa con la ayuda del siguiente diagrama de flujo:
Salida
Nuestro código producirá el siguiente resultado:
La contraseña ingresada dos veces coincide con la función hash. Esto asegura que la contraseña ingresada dos veces sea precisa, lo que ayuda a recopilar datos útiles y guardarlos en un formato cifrado.
En este capítulo, aprenderemos cómo descifrar datos de texto obtenidos durante el análisis y la evidencia.
Un texto sin formato en criptografía es un texto legible normal, como un mensaje. Un texto cifrado, por otro lado, es el resultado de un algoritmo de cifrado obtenido después de ingresar texto sin formato.
El algoritmo simple de cómo convertimos un mensaje de texto sin formato en un texto cifrado es el cifrado César, inventado por Julio César para mantener el texto sin formato en secreto de sus enemigos. Este cifrado implica desplazar cada letra del mensaje "hacia adelante" en tres lugares del alfabeto.
A continuación se muestra una ilustración de demostración.
a → D
b → E
c → F
....
w → Z
x → A
y → B
z → C
Ejemplo
Un mensaje ingresado cuando ejecuta un script de Python brinda todas las posibilidades de caracteres, que se usa para evidencia de patrones.
Los tipos de evidencias de patrones utilizados son los siguientes:
- Huellas y marcas de neumáticos
- Impressions
- Fingerprints
Todos los datos biométricos se componen de datos vectoriales, que necesitamos descifrar para recopilar evidencia completa.
El siguiente código de Python muestra cómo puede producir un texto cifrado a partir de texto sin formato:
import sys
def decrypt(k,cipher):
plaintext = ''
for each in cipher:
p = (ord(each)-k) % 126
if p < 32:
p+=95
plaintext += chr(p)
print plaintext
def main(argv):
if (len(sys.argv) != 1):
sys.exit('Usage: cracking.py')
cipher = raw_input('Enter message: ')
for i in range(1,95,1):
decrypt(i,cipher)
if __name__ == "__main__":
main(sys.argv[1:])
Salida
Ahora, verifique la salida de este código. Cuando ingresamos un texto simple "Radhika", el programa producirá el siguiente texto cifrado.
Virtualizationes el proceso de emular sistemas de TI como servidores, estaciones de trabajo, redes y almacenamiento. No es más que la creación de una versión virtual en lugar de real de cualquier sistema operativo, un servidor, un dispositivo de almacenamiento o procesos de red.
El componente principal que ayuda en la emulación de hardware virtual se define como un hyper-visor.
La siguiente figura explica los dos tipos principales de virtualización de sistemas que se utilizan.
La virtualización se ha utilizado en la ciencia forense computacional de varias formas. Ayuda al analista de tal manera que la estación de trabajo se puede utilizar en un estado validado para cada investigación. La recuperación de datos es posible adjuntando la imagen dd de una unidad como unidad secundaria en una máquina virtual en particular. La misma máquina se puede utilizar como software de recuperación para recopilar las evidencias.
El siguiente ejemplo ayuda a comprender la creación de una máquina virtual con la ayuda del lenguaje de programación Python.
Step 1 - Deje que la máquina virtual se llame 'dummy1'.
Cada máquina virtual debe tener 512 MB de memoria en capacidad mínima, expresada en bytes.
vm_memory = 512 * 1024 * 1024
Step 2 - La máquina virtual debe estar conectada al clúster predeterminado, que se ha calculado.
vm_cluster = api.clusters.get(name = "Default")
Step 3 - La máquina virtual debe arrancar desde la unidad de disco duro virtual.
vm_os = params.OperatingSystem(boot = [params.Boot(dev = "hd")])
Todas las opciones se combinan en un objeto de parámetro de máquina virtual, antes de usar el método de adición de la colección vms a la máquina virtual.
Ejemplo
A continuación se muestra el script de Python completo para agregar una máquina virtual.
from ovirtsdk.api import API #importing API library
from ovirtsdk.xml import params
try: #Api credentials is required for virtual machine
api = API(url = "https://HOST",
username = "Radhika",
password = "a@123",
ca_file = "ca.crt")
vm_name = "dummy1"
vm_memory = 512 * 1024 * 1024 #calculating the memory in bytes
vm_cluster = api.clusters.get(name = "Default")
vm_template = api.templates.get(name = "Blank")
#assigning the parameters to operating system
vm_os = params.OperatingSystem(boot = [params.Boot(dev = "hd")])
vm_params = params.VM(name = vm_name,
memory = vm_memory,
cluster = vm_cluster,
template = vm_template
os = vm_os)
try:
api.vms.add(vm = vm_params)
print "Virtual machine '%s' added." % vm_name #output if it is successful.
except Exception as ex:
print "Adding virtual machine '%s' failed: %s" % (vm_name, ex)
api.disconnect()
except Exception as ex:
print "Unexpected error: %s" % ex
Salida
Nuestro código producirá el siguiente resultado:
El escenario de los entornos de red modernos es tal que la investigación puede resultar complicada debido a una serie de dificultades. Esto puede suceder ya sea que esté respondiendo a una infracción de soporte, investigando actividades internas, realizando evaluaciones relacionadas con la vulnerabilidad o validando un cumplimiento normativo.
Concepto de programación de red
Las siguientes definiciones se utilizan en la programación de redes.
Client - El cliente es una parte de la arquitectura cliente-servidor de la programación de red que se ejecuta en una computadora personal y una estación de trabajo.
Server - El servidor es una parte de la arquitectura cliente-servidor que proporciona servicios a otros programas de computadora en la misma u otras computadoras.
WebSockets- WebSockets proporciona un protocolo entre el cliente y el servidor, que se ejecuta a través de una conexión TCP persistente. A través de esto, se pueden enviar mensajes bidireccionales entre la conexión de socket TCP (simultáneamente).
Los WebSockets vienen después de muchas otras tecnologías que permiten a los servidores enviar información al cliente. Aparte del protocolo de enlace del encabezado de actualización, WebSockets es independiente de HTTP.
Estos protocolos se utilizan para validar la información enviada o recibida por terceros usuarios. Dado que el cifrado es uno de los métodos utilizados para proteger los mensajes, también es importante proteger el canal a través del cual se han transferido los mensajes.
Considere el siguiente programa de Python, que el cliente usa para handshaking.
Ejemplo
# client.py
import socket
# create a socket object
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# get local machine name
host = socket.gethostname()
port = 8080
# connection to hostname on the port.
s.connect((host, port))
# Receive no more than 1024 bytes
tm = s.recv(1024)
print("The client is waiting for connection")
s.close()
Salida
Producirá la siguiente salida:
El servidor que acepta la solicitud de canal de comunicación incluirá el siguiente script.
# server.py
import socket
import time
# create a socket object
serversocket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# get local machine name
host = socket.gethostname()
port = 8080
# bind to the port
serversocket.bind((host, port))
# queue up to 5 requests
serversocket.listen(5)
while True:
# establish a connection
clientsocket,addr = serversocket.accept()
print("Got a connection from %s" % str(addr))
currentTime = time.ctime(time.time()) + "\r\n"
clientsocket.send(currentTime.encode('ascii'))
clientsocket.close()
El cliente y el servidor creados con la ayuda de la programación de Python escuchan el número de host. Inicialmente, el cliente envía una solicitud al servidor con respecto a los datos enviados en el número de host y el servidor acepta la solicitud y envía una respuesta de inmediato. De esta forma, podemos tener un canal de comunicación seguro.
Los módulos en los programas de Python ayudan a organizar el código. Ayudan a agrupar el código relacionado en un solo módulo, lo que facilita su comprensión y uso. Incluye valores nombrados arbitrariamente, que se pueden utilizar como enlace y referencia. En palabras simples, un módulo es un archivo que consta de código Python que incluye funciones, clases y variables.
El código Python para un módulo (archivo) se guarda con .py extensión que se compila cuando es necesario.
Example
def print_hello_func( par ):
print "Hello : ", par
return
Declaración de importación
El archivo fuente de Python se puede utilizar como módulo ejecutando un importdeclaración que importa otros paquetes o bibliotecas de terceros. La sintaxis utilizada es la siguiente:
import module1[, module2[,... moduleN]
Cuando el intérprete de Python encuentra la declaración de importación, importa el módulo especificado que está presente en la ruta de búsqueda.
Example
Considere el siguiente ejemplo.
#!/usr/bin/python
# Import module support
import support
# Now you can call defined function that module as follows
support.print_func("Radhika")
Producirá la siguiente salida:
Un módulo se carga solo una vez, independientemente de la cantidad de veces que el código Python lo haya importado.
De ... declaración de importación
FromEl atributo ayuda a importar atributos específicos de un módulo a un espacio de nombres actual. Aquí está su sintaxis.
from modname import name1[, name2[, ... nameN]]
Example
Para importar la función fibonacci desde el modulo fib, utilice la siguiente declaración.
from fib import fibonacci
Localización de módulos
Cuando se importa el módulo, el intérprete de Python busca las siguientes secuencias:
El directorio actual.
Si el módulo no existe, Python busca cada directorio en la variable de shell PYTHONPATH.
Si la ubicación de la variable de shell falla, Python verifica la ruta predeterminada.
La ciencia forense computacional usa módulos de Python y módulos de terceros para obtener la información y extraer evidencia con mayor facilidad. Los capítulos adicionales se centran en la implementación de módulos para obtener el resultado necesario.
DShell
Dshelles un kit de herramientas de análisis forense de redes basado en Python. Este kit de herramientas fue desarrollado por el Laboratorio de Investigación del Ejército de EE. UU. El lanzamiento de este kit de herramientas de código abierto fue en el año 2014. El objetivo principal de este kit de herramientas es realizar investigaciones forenses con facilidad.
El kit de herramientas consta de una gran cantidad de decodificadores que se enumeran en la siguiente tabla.
No Señor. | Nombre y descripción del decodificador |
---|---|
1 | dns Esto se usa para extraer consultas relacionadas con DNS |
2 | reservedips Identifica las soluciones para los problemas de DNS |
3 | large-flows Listado de netflows |
4 | rip-http Se utiliza para extraer los archivos del tráfico HTTP. |
5 | Protocols Se utiliza para la identificación de protocolos no estándar. |
El Laboratorio del Ejército de EE. UU. Ha mantenido el repositorio de clones en GitHub en el siguiente enlace:
https://github.com/USArmyResearchLab/Dshell
El clon consta de un script install-ubuntu.py () utilizado para la instalación de este kit de herramientas.
Una vez que la instalación sea exitosa, automáticamente generará los ejecutables y las dependencias que se utilizarán más adelante.
Las dependencias son las siguientes:
dependencies = {
"Crypto": "crypto",
"dpkt": "dpkt",
"IPy": "ipy",
"pcap": "pypcap"
}
Este conjunto de herramientas se puede utilizar contra los archivos pcap (captura de paquetes), que generalmente se registra durante los incidentes o durante la alerta. Estos archivos pcap son creados por libpcap en la plataforma Linux o WinPcap en la plataforma Windows.
Scapy
Scapy es una herramienta basada en Python que se utiliza para analizar y manipular el tráfico de la red. A continuación se muestra el enlace para el kit de herramientas Scapy:
http://www.secdev.org/projects/scapy/
Este kit de herramientas se utiliza para analizar la manipulación de paquetes. Es muy capaz de decodificar paquetes de una gran cantidad de protocolos y capturarlos. Scapy se diferencia del kit de herramientas de Dshell al proporcionar una descripción detallada al investigador sobre el tráfico de red. Estas descripciones se han registrado en tiempo real.
Scapy tiene la capacidad de trazar utilizando herramientas de terceros o huellas dactilares del sistema operativo.
Considere el siguiente ejemplo.
import scapy, GeoIP #Imports scapy and GeoIP toolkit
from scapy import *
geoIp = GeoIP.new(GeoIP.GEOIP_MEMORY_CACHE) #locates the Geo IP address
def locatePackage(pkg):
src = pkg.getlayer(IP).src #gets source IP address
dst = pkg.getlayer(IP).dst #gets destination IP address
srcCountry = geoIp.country_code_by_addr(src) #gets Country details of source
dstCountry = geoIp.country_code_by_addr(dst) #gets country details of destination
print src+"("+srcCountry+") >> "+dst+"("+dstCountry+")\n"
Este script ofrece una descripción detallada de los detalles del país en el paquete de red, que se están comunicando entre sí.
El script anterior producirá la siguiente salida.
Searchinges sin duda uno de los pilares de la investigación forense. Hoy en día, la búsqueda es tan buena como el investigador que está analizando las pruebas.
La búsqueda de una palabra clave del mensaje juega un papel vital en la medicina forense, cuando buscamos una evidencia con la ayuda de una palabra clave. El conocimiento de lo que se debe buscar en un archivo en particular junto con los que se encuentran en los archivos eliminados requiere experiencia y conocimiento.
Python tiene varios mecanismos incorporados con módulos de biblioteca estándar para admitir searchoperación. Básicamente, los investigadores utilizan la operación de búsqueda para encontrar respuestas a preguntas como "quién", "qué", "dónde", "cuándo", etc.
Ejemplo
En el siguiente ejemplo, hemos declarado dos cadenas y luego, hemos usado la función de búsqueda para verificar si la primera cadena contiene la segunda cadena o no.
# Searching a particular word from a message
str1 = "This is a string example for Computational forensics of gathering evidence!";
str2 = "string";
print str1.find(str2)
print str1.find(str2, 10)
print str1.find(str2, 40)
El script anterior producirá la siguiente salida.
“find”La función en Python ayuda a buscar una palabra clave en un mensaje o párrafo. Esto es fundamental para recopilar las pruebas adecuadas.
Indexingen realidad, proporciona al investigador una mirada completa a un archivo y recopilar evidencia potencial de él. La evidencia podría estar contenida en un archivo, una imagen de disco, una instantánea de la memoria o un rastreo de red.
La indexación ayuda a reducir el tiempo de las tareas que requieren mucho tiempo, como keyword searching. La investigación forense también implica una fase de búsqueda interactiva, donde el índice se utiliza para localizar rápidamente palabras clave.
La indexación también ayuda a enumerar las palabras clave en una lista ordenada.
Ejemplo
El siguiente ejemplo muestra cómo puede utilizar indexing en Python.
aList = [123, 'sample', 'zara', 'indexing'];
print "Index for sample : ", aList.index('sample')
print "Index for indexing : ", aList.index('indexing')
str1 = "This is sample message for forensic investigation indexing";
str2 = "sample";
print "Index of the character keyword found is "
print str1.index(str2)
El script anterior producirá la siguiente salida.
Extraer información valiosa de los recursos disponibles es una parte vital de la ciencia forense digital. Obtener acceso a toda la información disponible es esencial para un proceso de investigación, ya que ayuda a recuperar las pruebas adecuadas.
Los recursos que contienen datos pueden ser estructuras de datos simples como bases de datos o estructuras de datos complejas como una imagen JPEG. Se puede acceder fácilmente a estructuras de datos simples utilizando herramientas de escritorio simples, mientras que la extracción de información de estructuras de datos complejas requiere herramientas de programación sofisticadas.
Biblioteca de imágenes de Python
La biblioteca de imágenes de Python (PIL) agrega capacidades de procesamiento de imágenes a su intérprete de Python. Esta biblioteca admite muchos formatos de archivo y proporciona potentes capacidades de procesamiento de imágenes y gráficos. Puede descargar los archivos fuente de PIL desde:http://www.pythonware.com/products/pil/
La siguiente ilustración muestra el diagrama de flujo completo de la extracción de datos de imágenes (estructuras de datos complejas) en PIL.
Ejemplo
Ahora, tengamos un ejemplo de programación para entender cómo funciona realmente.
Step 1 - Supongamos que tenemos la siguiente imagen de donde necesitamos extraer información.
Step 2- Cuando abrimos esta imagen usando PIL, primero notará los puntos necesarios requeridos para extraer evidencia, que incluye varios valores de píxeles. Aquí está el código para abrir la imagen y registrar sus valores de píxeles:
from PIL import Image
im = Image.open('Capture.jpeg', 'r')
pix_val = list(im.getdata())
pix_val_flat = [x for sets in pix_val for x in sets]
print pix_val_flat
Step 3 - Nuestro código producirá la siguiente salida, después de extraer los valores de píxeles de la imagen.
La salida entregada representa los valores de píxeles de la combinación RGB, lo que brinda una mejor imagen de qué datos se necesitan para la evidencia. Los datos obtenidos se representan en forma de matriz.
La investigación forense y el análisis de hardware informático estándar, como los discos duros, se han convertido en una disciplina estable y se sigue con la ayuda de técnicas para analizar hardware no estándar o pruebas transitorias.
Aunque los teléfonos inteligentes se utilizan cada vez más en investigaciones digitales, todavía se consideran no estándar.
Análisis forense
Las investigaciones forenses buscan datos como llamadas recibidas o números marcados desde el teléfono inteligente. Puede incluir mensajes de texto, fotos o cualquier otra prueba incriminatoria. La mayoría de los teléfonos inteligentes tienen funciones de bloqueo de pantalla mediante contraseñas o caracteres alfanuméricos.
Aquí, tomaremos un ejemplo para mostrar cómo Python puede ayudar a descifrar la contraseña de bloqueo de pantalla para recuperar datos de un teléfono inteligente.
Examen manual
Android admite el bloqueo de contraseña con número PIN o contraseña alfanumérica. El límite de ambas frases de contraseña debe estar entre 4 y 16 dígitos o caracteres. La contraseña de un teléfono inteligente se almacena en el sistema Android en un archivo especial llamadopassword.key en /data/system.
Android almacena un SHA1-hashsum salado y un MD5-hashsum de la contraseña. Estas contraseñas se pueden procesar en el siguiente código.
public byte[] passwordToHash(String password) {
if (password == null) {
return null;
}
String algo = null;
byte[] hashed = null;
try {
byte[] saltedPassword = (password + getSalt()).getBytes();
byte[] sha1 = MessageDigest.getInstance(algo = "SHA-1").digest(saltedPassword);
byte[] md5 = MessageDigest.getInstance(algo = "MD5").digest(saltedPassword);
hashed = (toHex(sha1) + toHex(md5)).getBytes();
} catch (NoSuchAlgorithmException e) {
Log.w(TAG, "Failed to encode string because of missing algorithm: " + algo);
}
return hashed;
}
No es posible descifrar la contraseña con la ayuda de dictionary attack ya que la contraseña hash se almacena en un salt file. Estasaltes una cadena de representación hexadecimal de un entero aleatorio de 64 bits. Es fácil acceder alsalt mediante el uso Rooted Smartphone o JTAG Adapter.
Smartphone rooteado
El volcado del archivo /data/system/password.key se almacena en la base de datos SQLite bajo el lockscreen.password_saltllave. Debajosettings.db, la contraseña se almacena y el valor es claramente visible en la siguiente captura de pantalla.
Adaptador JTAG
Se puede utilizar un hardware especial conocido como adaptador JTAG (Joint Test Action Group) para acceder al salt. Del mismo modo, unRiff-Box o un JIG-Adapter también se puede utilizar para la misma funcionalidad.
Utilizando la información obtenida de Riff-box, podemos encontrar la posición de los datos cifrados, es decir, el salt. Las siguientes son las reglas:
Busque la cadena asociada "lockscreen.password_salt".
El byte representa el ancho real de la sal, que es su length.
Esta es la longitud que realmente se busca para obtener la contraseña / pin almacenado de los teléfonos inteligentes.
Este conjunto de reglas ayuda a obtener los datos de sal adecuados.
El protocolo más utilizado para sincronizar la hora y que ha sido ampliamente aceptado como práctica se realiza mediante Network Time Protocol (NTP).
NTP usa el Protocolo de datagramas de usuario (UDP) que usa un tiempo mínimo para comunicar los paquetes entre el servidor y el cliente que desea sincronizar con la fuente de tiempo dada.
Las características del protocolo de tiempo de red son las siguientes:
El puerto del servidor predeterminado es 123.
Este protocolo consta de muchos servidores horarios accesibles sincronizados con los laboratorios nacionales.
El estándar de protocolo NTP se rige por el IETF y el estándar propuesto es RFC 5905, titulado “Protocolo de tiempo de red versión 4: Especificación de protocolos y algoritmos” [NTP RFC]
Los sistemas operativos, programas y aplicaciones usan NTP para sincronizar la hora de manera adecuada.
En este capítulo, nos centraremos en el uso de NTP con Python, que es factible desde la biblioteca de Python de terceros ntplib. Esta biblioteca maneja de manera eficiente el trabajo pesado, que compara los resultados con el reloj de mi sistema local.
Instalación de la biblioteca NTP
los ntplib está disponible para descargar en https://pypi.python.org/pypi/ntplib/ como se muestra en la siguiente figura.
La biblioteca proporciona una interfaz simple para los servidores NTP con la ayuda de métodos que pueden traducir los campos del protocolo NTP. Esto ayuda a acceder a otros valores clave, como los segundos intercalares.
El siguiente programa de Python ayuda a comprender el uso de NTP.
import ntplib
import time
NIST = 'nist1-macon.macon.ga.us'
ntp = ntplib.NTPClient()
ntpResponse = ntp.request(NIST)
if (ntpResponse):
now = time.time()
diff = now-ntpResponse.tx_time
print diff;
El programa anterior producirá el siguiente resultado.
La diferencia de tiempo se calcula en el programa anterior. Estos cálculos ayudan en las investigaciones forenses. Los datos de la red obtenidos son fundamentalmente diferentes al análisis de los datos que se encuentran en el disco duro.
La diferencia en las zonas horarias o la obtención de zonas horarias precisas pueden ayudar a recopilar pruebas para capturar los mensajes a través de este protocolo.
Los especialistas forenses normalmente encuentran difícil aplicar soluciones digitales para analizar las montañas de evidencia digital en delitos comunes. La mayoría de las herramientas de investigación digital son de un solo hilo y solo pueden ejecutar un comando a la vez.
En este capítulo, nos centraremos en las capacidades de multiprocesamiento de Python, que pueden relacionarse con los desafíos forenses comunes.
Multiprocesamiento
El multiprocesamiento se define como la capacidad del sistema informático para admitir más de un proceso. Los sistemas operativos que admiten multiprocesamiento permiten que varios programas se ejecuten al mismo tiempo.
Hay varios tipos de multiprocesamiento como symmetric y asymmetric processing. El siguiente diagrama se refiere a un sistema de multiprocesamiento simétrico que generalmente se sigue en la investigación forense.
Ejemplo
El siguiente código muestra cómo se enumeran los diferentes procesos internamente en la programación de Python.
import random
import multiprocessing
def list_append(count, id, out_list):
#appends the count of number of processes which takes place at a time
for i in range(count):
out_list.append(random.random())
if __name__ == "__main__":
size = 999
procs = 2
# Create a list of jobs and then iterate through
# the number of processes appending each process to
# the job list
jobs = []
for i in range(0, procs):
out_list = list() #list of processes
process1 = multiprocessing.Process(
target = list_append, args = (size, i, out_list))
# appends the list of processes
jobs.append(process)
# Calculate the random number of processes
for j in jobs:
j.start() #initiate the process
# After the processes have finished execution
for j in jobs:
j.join()
print "List processing complete."
Aquí, la función list_append() ayuda a enumerar el conjunto de procesos en el sistema.
Salida
Nuestro código producirá el siguiente resultado:
En este capítulo, nos centraremos en investigar la memoria volátil con la ayuda de Volatility, un marco forense basado en Python aplicable en las siguientes plataformas: Android y Linux.
Memoria volatil
La memoria volátil es un tipo de almacenamiento en el que el contenido se borra cuando se apaga o interrumpe la alimentación del sistema. La RAM es el mejor ejemplo de memoria volátil. Significa que si estaba trabajando en un documento que no se ha guardado en una memoria no volátil, como un disco duro, y la computadora perdió energía, entonces todos los datos se perderán.
En general, los análisis forenses de memoria volátil siguen el mismo patrón que otras investigaciones forenses:
- Seleccionar el objetivo de la investigación
- Adquirir datos forenses
- Análisis forense
Lo básico volatility plugins que se utilizan para recopilaciones de Android RAM dumppara analizar. Una vez que se recopila el volcado de RAM para su análisis, es importante comenzar a buscar malware en la RAM.
Reglas YARA
YARA es una herramienta popular que proporciona un lenguaje robusto, es compatible con Expresiones regulares basadas en Perl y se utiliza para examinar los archivos / directorios sospechosos y buscar cadenas.
En esta sección, usaremos YARA basados en la implementación de coincidencia de patrones y los combinaremos con energía de la red. El proceso completo será beneficioso para el análisis forense.
Ejemplo
Considere el siguiente código. Este código ayuda a extraer el código.
import operator
import os
import sys
sys.path.insert(0, os.getcwd())
import plyara.interp as interp
# Plyara is a script that lexes and parses a file consisting of one more Yara
# rules into a python dictionary representation.
if __name__ == '__main__':
file_to_analyze = sys.argv[1]
rulesDict = interp.parseString(open(file_to_analyze).read())
authors = {}
imps = {}
meta_keys = {}
max_strings = []
max_string_len = 0
tags = {}
rule_count = 0
for rule in rulesDict:
rule_count += 1
# Imports
if 'imports' in rule:
for imp in rule['imports']:
imp = imp.replace('"','')
if imp in imps:
imps[imp] += 1
else:
imps[imp] = 1
# Tags
if 'tags' in rule:
for tag in rule['tags']:
if tag in tags:
tags[tag] += 1
else:
tags[tag] = 1
# Metadata
if 'metadata' in rule:
for key in rule['metadata']:
if key in meta_keys:
meta_keys[key] += 1
else:
meta_keys[key] = 1
if key in ['Author', 'author']:
if rule['metadata'][key] in authors:
authors[rule['metadata'][key]] += 1
else:
authors[rule['metadata'][key]] = 1
#Strings
if 'strings' in rule:
for strr in rule['strings']:
if len(strr['value']) > max_string_len:
max_string_len = len(strr['value'])
max_strings = [(rule['rule_name'], strr['name'], strr['value'])]
elif len(strr['value']) == max_string_len:
max_strings.append((rule['rule_name'], strr['key'], strr['value']))
print("\nThe number of rules implemented" + str(rule_count))
ordered_meta_keys = sorted(meta_keys.items(), key = operator.itemgetter(1),
reverse = True)
ordered_authors = sorted(authors.items(), key = operator.itemgetter(1),
reverse = True)
ordered_imps = sorted(imps.items(), key = operator.itemgetter(1), reverse = True)
ordered_tags = sorted(tags.items(), key = operator.itemgetter(1), reverse = True)
El código anterior producirá el siguiente resultado.
El número de reglas YARA implementadas ayuda a dar una mejor imagen de los archivos sospechosos. De manera indirecta, la lista de archivos sospechosos ayuda a recopilar la información adecuada para el análisis forense.
A continuación se muestra el código fuente en github: https://github.com/radhikascs/Python_yara
La principal preocupación de las investigaciones digitales es asegurar evidencias o datos importantes con cifrado o cualquier otro formato. El ejemplo básico es almacenar las contraseñas. Por lo tanto, es necesario comprender el uso del sistema operativo Linux para la implementación forense digital para proteger estos datos valiosos.
La información de todos los usuarios locales se almacena principalmente en los dos archivos siguientes:
- /etc/passwd
- etc/shadow
El primero es obligatorio, que almacena todas las contraseñas. El segundo archivo es opcional y almacena información sobre los usuarios locales, incluidas las contraseñas hash.
Surgen problemas con respecto al problema de seguridad de almacenar la información de la contraseña en un archivo, que todos los usuarios pueden leer. Por lo tanto, las contraseñas hash se almacenan en/etc/passwd, donde el contenido se reemplaza por un valor especial "x".
Los hashes correspondientes deben buscarse en /etc/shadow. La configuración en/etc/passwd puede anular los detalles en /etc/shadow.
Ambos archivos de texto en Linux incluyen una entrada por línea y la entrada consta de varios campos, separados por dos puntos.
El formato de /etc/passwd es como sigue -
No Señor. | Nombre de campo y descripción |
---|---|
1 | Username Este campo consta de los atributos del formato legible por humanos |
2 | Password hash Consiste en la contraseña en forma codificada de acuerdo con la función de cripta Posix |
Si la contraseña hash se guarda como empty, el usuario correspondiente no requerirá ninguna contraseña para iniciar sesión en el sistema. Si este campo contiene un valor que el algoritmo hash no puede generar, como un signo de exclamación, el usuario no puede iniciar sesión con una contraseña.
Un usuario con una contraseña bloqueada aún puede iniciar sesión utilizando otros mecanismos de autenticación, por ejemplo, claves SSH. Como se mencionó anteriormente, el valor especial "x"significa que el hash de la contraseña debe encontrarse en el archivo de sombra.
los password hash incluye lo siguiente:
Encrypted salt - el encrypted salt ayuda a mantener los bloqueos de pantalla, los pines y las contraseñas.
Numerical user ID- Este campo denota el ID del usuario. El kernel de Linux asigna este ID de usuario al sistema.
Numerical group ID - Este campo se refiere al grupo principal del usuario.
Home directory - Los nuevos procesos se inician con una referencia de este directorio.
Command shell - Este campo opcional denota el shell predeterminado que se iniciará después de un inicio de sesión exitoso en el sistema.
El análisis forense digital incluye la recopilación de información que es relevante para rastrear una evidencia. Por lo tanto, los identificadores de usuario son útiles para mantener los registros.
Usando Python, toda esta información se puede analizar automáticamente para los Indicadores de Análisis, reconstruyendo la actividad reciente del sistema. El seguimiento es simple y fácil con la implementación de Linux Shell.
Programación de Python con Linux
Ejemplo
import sys
import hashlib
import getpass
def main(argv):
print '\nUser & Password Storage Program in Linux for forensic detection v.01\n'
if raw_input('The file ' + sys.argv[1] + ' will be erased or overwrite if
it exists .\nDo you wish to continue (Y/n): ') not in ('Y','y') :
sys.exit('\nChanges were not recorded\n')
user_name = raw_input('Please Enter a User Name: ')
password = hashlib.sha224(getpass.getpass('Please Enter a Password:')).hexdigest()
# Passwords which are hashed
try:
file_conn = open(sys.argv[1],'w')
file_conn.write(user_name + '\n')
file_conn.write(password + '\n')
file_conn.close()
except:
sys.exit('There was a problem writing the passwords to file!')
if __name__ == "__main__":
main(sys.argv[1:])
Salida
La contraseña se almacena en formato hexadecimal en pass_db.txtcomo se muestra en la siguiente captura de pantalla. Los archivos de texto se guardan para su uso posterior en informática forense.
Los Indicadores de Compromiso (IOC) se definen como "piezas de datos forenses, que incluyen datos que se encuentran en las entradas o archivos del registro del sistema, que identifican la actividad potencialmente maliciosa en un sistema o red".
Al monitorear el IOC, las organizaciones pueden detectar ataques y actuar rápidamente para evitar que ocurran tales violaciones o limitar los daños al detener los ataques en etapas anteriores.
Hay algunos casos de uso, que permiten consultar los artefactos forenses como:
- Buscando un archivo específico por MD5
- Buscar una entidad específica, que en realidad está almacenada en la memoria.
- Entrada específica o conjunto de entradas, que se almacena en el registro de Windows
La combinación de todo lo anterior proporciona mejores resultados en la búsqueda de artefactos. Como se mencionó anteriormente, el registro de Windows brinda una plataforma perfecta para generar y mantener IOC, lo que ayuda directamente en la informática forense.
Metodología
Busque las ubicaciones en el sistema de archivos y específicamente por ahora en el registro de Windows.
Busque el conjunto de artefactos, que han sido diseñados por herramientas forenses.
Busque los signos de cualquier actividad adversa.
Ciclo de vida investigativo
Investigative Life Cycle sigue a la IOC y busca entradas específicas en un registro.
Stage 1: Initial Evidence- La evidencia del compromiso se detecta en un host o en la red. Los socorristas investigarán e identificarán la solución exacta, que es un indicador forense concreto.
Stage 2: Create IOCs for Host & Network- Siguiendo los datos recopilados, se crea el IOC, que es fácilmente posible con el registro de Windows. La flexibilidad de OpenIOC ofrece un número ilimitado de permutaciones sobre cómo se puede diseñar un indicador.
Stage 3: Deploy IOCs in the Enterprise - Una vez que se ha creado el IOC especificado, el investigador desplegará estas tecnologías con la ayuda de API en los registros de Windows.
Stage 4: Identification of Suspects- El despliegue del COI ayuda a identificar a los sospechosos de forma normal. Incluso se identificarán sistemas adicionales.
Stage 5: Collect and Analyze Evidence - Las pruebas contra los sospechosos se recopilan y analizan en consecuencia.
Stage 6: Refine & Create New IOCs - El equipo de investigación puede crear nuevos IOC basados en sus evidencias y datos encontrados en la empresa e inteligencia adicional, y continuar refinando su ciclo.
La siguiente ilustración muestra las fases del ciclo de vida investigativo:
Cloud computingse puede definir como una colección de servicios alojados proporcionados a los usuarios a través de Internet. Permite a las organizaciones consumir o incluso calcular el recurso, que incluye máquinas virtuales (VM), almacenamiento o una aplicación como utilidad.
Una de las ventajas más importantes de crear aplicaciones en el lenguaje de programación Python es que incluye la capacidad de implementar aplicaciones virtualmente en cualquier plataforma, lo que incluye cloudtambién. Implica que Python se puede ejecutar en servidores en la nube y también se puede iniciar en dispositivos útiles como computadoras de escritorio, tabletas o teléfonos inteligentes.
Una de las perspectivas interesantes es la creación de una base en la nube con la generación de Rainbow tables. Ayuda a integrar versiones de la aplicación de procesamiento único y multiprocesamiento, lo que requiere algunas consideraciones.
Pi Cloud
Pi Cloud es la plataforma de computación en la nube, que integra el lenguaje de programación Python con la potencia informática de Amazon Web Services.
Echemos un vistazo a un ejemplo de implementación de nubes Pi con rainbow tables.
Mesas Arcoiris
UN rainbow table se define como una lista de todas las posibles permutaciones de texto sin formato de contraseñas cifradas específicas de un algoritmo hash dado.
Las tablas Rainbow siguen un patrón estándar, que crea una lista de contraseñas hash.
Se utiliza un archivo de texto para generar contraseñas, que incluyen caracteres o texto sin formato de las contraseñas que se van a cifrar.
El archivo es utilizado por Pi Cloud, que llama a la función principal para que se almacene.
La salida de las contraseñas con hash también se almacena en el archivo de texto.
Este algoritmo también se puede utilizar para guardar contraseñas en la base de datos y tener un almacenamiento de respaldo en el sistema en la nube.
El siguiente programa incorporado crea una lista de contraseñas cifradas en un archivo de texto.
Ejemplo
import os
import random
import hashlib
import string
import enchant #Rainbow tables with enchant
import cloud #importing pi-cloud
def randomword(length):
return ''.join(random.choice(string.lowercase) for i in range(length))
print('Author- Radhika Subramanian')
def mainroutine():
engdict = enchant.Dict("en_US")
fileb = open("password.txt","a+")
# Capture the values from the text file named password
while True:
randomword0 = randomword(6)
if engdict.check(randomword0) == True:
randomkey0 = randomword0+str(random.randint(0,99))
elif engdict.check(randomword0) == False:
englist = engdict.suggest(randomword0)
if len(englist) > 0:
randomkey0 = englist[0]+str(random.randint(0,99))
else:
randomkey0 = randomword0+str(random.randint(0,99))
randomword3 = randomword(5)
if engdict.check(randomword3) == True:
randomkey3 = randomword3+str(random.randint(0,99))
elif engdict.check(randomword3) == False:
englist = engdict.suggest(randomword3)
if len(englist) > 0:
randomkey3 = englist[0]+str(random.randint(0,99))
else:
randomkey3 = randomword3+str(random.randint(0,99))
if 'randomkey0' and 'randomkey3' and 'randomkey1' in locals():
whasher0 = hashlib.new("md5")
whasher0.update(randomkey0)
whasher3 = hashlib.new("md5")
whasher3.update(randomkey3)
whasher1 = hashlib.new("md5")
whasher1.update(randomkey1)
print(randomkey0+" + "+str(whasher0.hexdigest())+"\n")
print(randomkey3+" + "+str(whasher3.hexdigest())+"\n")
print(randomkey1+" + "+str(whasher1.hexdigest())+"\n")
fileb.write(randomkey0+" + "+str(whasher0.hexdigest())+"\n")
fileb.write(randomkey3+" + "+str(whasher3.hexdigest())+"\n")
fileb.write(randomkey1+" + "+str(whasher1.hexdigest())+"\n")
jid = cloud.call(randomword) #square(3) evaluated on PiCloud
cloud.result(jid)
print('Value added to cloud')
print('Password added')
mainroutine()
Salida
Este código producirá el siguiente resultado:
Las contraseñas se almacenan en los archivos de texto, que son visibles, como se muestra en la siguiente captura de pantalla.