Расследование с использованием электронной почты

В предыдущих главах обсуждались важность и процесс сетевой криминалистики, а также используемые концепции. В этой главе давайте узнаем о роли электронных писем в цифровой криминалистике и их расследовании с использованием Python.

Роль электронной почты в расследовании

Электронная почта играет очень важную роль в деловом общении и стала одним из самых важных приложений в Интернете. Это удобный режим для отправки сообщений и документов не только с компьютеров, но и с других электронных устройств, таких как мобильные телефоны и планшеты.

Отрицательная сторона электронных писем состоит в том, что преступники могут утечь важную информацию о своей компании. Следовательно, в последние годы роль электронной почты в цифровой криминалистике возросла. В цифровой криминалистике электронные письма рассматриваются как важные доказательства, и анализ заголовков электронных писем стал важным для сбора доказательств в ходе судебно-экспертного процесса.

При проведении криминалистической экспертизы электронной почты следователь преследует следующие цели:

  • Выявить главного преступника
  • Собрать необходимые доказательства
  • К представлению результатов
  • Чтобы построить корпус

Проблемы электронной почты

Электронная криминалистика играет очень важную роль в расследовании, поскольку большая часть общения в нынешнюю эпоху зависит от электронной почты. Однако судебно-медицинский эксперт по электронной почте может столкнуться со следующими проблемами во время расследования:

Поддельные электронные письма

Самая большая проблема в экспертизе электронной почты - это использование поддельных электронных писем, которые создаются путем манипулирования заголовками и написания сценариев и т. Д. В этой категории преступники также используют временную электронную почту, которая представляет собой услугу, которая позволяет зарегистрированному пользователю получать электронную почту на временный адрес, срок действия которого истекает. через определенный промежуток времени.

Спуфинг

Еще одна проблема судебной экспертизы электронной почты - это спуфинг, когда преступники представляли электронное письмо как чужое. В этом случае машина получит как поддельный, так и оригинальный IP-адрес.

Анонимная пересылка по электронной почте

Здесь сервер электронной почты удаляет идентифицирующую информацию из сообщения электронной почты перед его дальнейшей пересылкой. Это создает еще одну серьезную проблему для расследования электронной почты.

Методы, используемые в судебной экспертизе электронной почты

Экспертиза электронной почты - это исследование источника и содержания электронной почты в качестве доказательства для идентификации фактического отправителя и получателя сообщения вместе с некоторой другой информацией, такой как дата / время передачи и намерение отправителя. Он включает в себя исследование метаданных, сканирование портов, а также поиск по ключевым словам.

Некоторые из распространенных методов, которые можно использовать для судебного расследования электронной почты:

  • Анализ заголовка
  • Исследование сервера
  • Исследование сетевого устройства
  • Отпечатки отправителя почтовой программы
  • Программные встроенные идентификаторы

В следующих разделах мы узнаем, как получать информацию с помощью Python для расследования электронной почты.

Извлечение информации из файлов EML

Файлы EML - это в основном электронные письма в формате файлов, которые широко используются для хранения сообщений электронной почты. Это структурированные текстовые файлы, совместимые с несколькими почтовыми клиентами, такими как Microsoft Outlook, Outlook Express и Windows Live Mail.

EML-файл хранит заголовки электронной почты, основной текст и данные вложения в виде простого текста. Он использует base64 для кодирования двоичных данных и кодировку Quoted-Printable (QP) для хранения информации о содержимом. Скрипт Python, который можно использовать для извлечения информации из файла EML, приведен ниже -

Сначала импортируйте следующие библиотеки Python, как показано ниже -

from __future__ import print_function
from argparse import ArgumentParser, FileType
from email import message_from_file

import os
import quopri
import base64

В указанных выше библиотеках quopriиспользуется для декодирования значений в кодировке QP из файлов EML. Любые данные в кодировке base64 можно декодировать с помощьюbase64 библиотека.

Затем давайте предоставим аргумент для обработчика командной строки. Обратите внимание, что здесь он будет принимать только один аргумент, который будет путем к файлу EML, как показано ниже -

if __name__ == '__main__':
   parser = ArgumentParser('Extracting information from EML file')
   parser.add_argument("EML_FILE",help="Path to EML File", type=FileType('r'))
   args = parser.parse_args()
   main(args.EML_FILE)

Теперь нам нужно определить main() функция, в которой мы будем использовать метод с именем message_from_file()из библиотеки электронной почты, чтобы прочитать файл как объект. Здесь мы получим доступ к заголовкам, содержимому тела, вложениям и другой полезной информации, используя результирующую переменную с именемemlfile как показано в приведенном ниже коде -

def main(input_file):
   emlfile = message_from_file(input_file)
   for key, value in emlfile._headers:
      print("{}: {}".format(key, value))
print("\nBody\n")

if emlfile.is_multipart():
   for part in emlfile.get_payload():
      process_payload(part)
else:
   process_payload(emlfile[1])

Теперь нам нужно определить process_payload() метод, в котором мы будем извлекать содержимое тела сообщения, используя get_payload()метод. Мы будем декодировать данные в кодировке QP, используяquopri.decodestring()функция. Мы также проверим MIME-тип содержимого, чтобы он мог правильно хранить электронную почту. Соблюдайте код, приведенный ниже -

def process_payload(payload):
   print(payload.get_content_type() + "\n" + "=" * len(payload.get_content_type()))
   body = quopri.decodestring(payload.get_payload())
   
   if payload.get_charset():
      body = body.decode(payload.get_charset())
else:
   try:
      body = body.decode()
   except UnicodeDecodeError:
      body = body.decode('cp1252')

if payload.get_content_type() == "text/html":
   outfile = os.path.basename(args.EML_FILE.name) + ".html"
   open(outfile, 'w').write(body)
elif payload.get_content_type().startswith('application'):
   outfile = open(payload.get_filename(), 'wb')
   body = base64.b64decode(payload.get_payload())
   outfile.write(body)
   outfile.close()
   print("Exported: {}\n".format(outfile.name))
else:
   print(body)

После выполнения вышеуказанного скрипта мы получим информацию заголовка вместе с различными полезными нагрузками на консоли.

Анализ файлов MSG с использованием Python

Электронные сообщения бывают разных форматов. MSG - один из таких форматов, используемых в Microsoft Outlook и Exchange. Файлы с расширением MSG могут содержать простой текст ASCII для заголовков и основного тела сообщения, а также гиперссылки и вложения.

В этом разделе мы узнаем, как извлечь информацию из файла MSG с помощью Outlook API. Обратите внимание, что следующий сценарий Python будет работать только в Windows. Для этого нам нужно установить стороннюю библиотеку Python с именемpywin32 следующим образом -

pip install pywin32

Теперь импортируйте следующие библиотеки, используя показанные команды -

from __future__ import print_function
from argparse import ArgumentParser

import os
import win32com.client
import pywintypes

Теперь давайте предоставим аргумент для обработчика командной строки. Здесь он примет два аргумента: один будет путем к файлу MSG, а другой - желаемой выходной папкой, как показано ниже:

if __name__ == '__main__':
   parser = ArgumentParser(‘Extracting information from MSG file’)
   parser.add_argument("MSG_FILE", help="Path to MSG file")
   parser.add_argument("OUTPUT_DIR", help="Path to output folder")
   args = parser.parse_args()
   out_dir = args.OUTPUT_DIR
   
   if not os.path.exists(out_dir):
      os.makedirs(out_dir)
   main(args.MSG_FILE, args.OUTPUT_DIR)

Теперь нам нужно определить main() функция, в которой мы будем вызывать win32com библиотека для настройки Outlook API что дополнительно позволяет получить доступ к MAPI пространство имен.

def main(msg_file, output_dir):
   mapi = win32com.client.Dispatch("Outlook.Application").GetNamespace("MAPI")
   msg = mapi.OpenSharedItem(os.path.abspath(args.MSG_FILE))
   
   display_msg_attribs(msg)
   display_msg_recipients(msg)
   
   extract_msg_body(msg, output_dir)
   extract_attachments(msg, output_dir)

Теперь определите различные функции, которые мы используем в этом скрипте. В приведенном ниже коде показано определениеdisplay_msg_attribs() функция, которая позволяет нам отображать различные атрибуты сообщения, такие как тема, кому, BCC, CC, размер, SenderName, отправлено и т. д.

def display_msg_attribs(msg):
   attribs = [
      'Application', 'AutoForwarded', 'BCC', 'CC', 'Class',
      'ConversationID', 'ConversationTopic', 'CreationTime',
      'ExpiryTime', 'Importance', 'InternetCodePage', 'IsMarkedAsTask',
      'LastModificationTime', 'Links','ReceivedTime', 'ReminderSet',
      'ReminderTime', 'ReplyRecipientNames', 'Saved', 'Sender',
      'SenderEmailAddress', 'SenderEmailType', 'SenderName', 'Sent',
      'SentOn', 'SentOnBehalfOfName', 'Size', 'Subject',
      'TaskCompletedDate', 'TaskDueDate', 'To', 'UnRead'
   ]
   print("\nMessage Attributes")
   for entry in attribs:
      print("{}: {}".format(entry, getattr(msg, entry, 'N/A')))

Теперь определим display_msg_recipeints() функция, которая выполняет итерацию по сообщениям и отображает сведения о получателе.

def display_msg_recipients(msg):
   recipient_attrib = ['Address', 'AutoResponse', 'Name', 'Resolved', 'Sendable']
   i = 1
   
   while True:
   try:
      recipient = msg.Recipients(i)
   except pywintypes.com_error:
      break
   print("\nRecipient {}".format(i))
   print("=" * 15)
   
   for entry in recipient_attrib:
      print("{}: {}".format(entry, getattr(recipient, entry, 'N/A')))
   i += 1

Далее мы определяем extract_msg_body() функция, которая извлекает из сообщения основное содержимое, HTML, а также обычный текст.

def extract_msg_body(msg, out_dir):
   html_data = msg.HTMLBody.encode('cp1252')
   outfile = os.path.join(out_dir, os.path.basename(args.MSG_FILE))
   
   open(outfile + ".body.html", 'wb').write(html_data)
   print("Exported: {}".format(outfile + ".body.html"))
   body_data = msg.Body.encode('cp1252')
   
   open(outfile + ".body.txt", 'wb').write(body_data)
   print("Exported: {}".format(outfile + ".body.txt"))

Далее мы определим extract_attachments() функция, которая экспортирует данные вложения в желаемый выходной каталог.

def extract_attachments(msg, out_dir):
   attachment_attribs = ['DisplayName', 'FileName', 'PathName', 'Position', 'Size']
   i = 1 # Attachments start at 1
   
   while True:
      try:
         attachment = msg.Attachments(i)
   except pywintypes.com_error:
      break

После того, как все функции определены, мы напечатаем все атрибуты на консоли со следующей строкой кодов:

print("\nAttachment {}".format(i))
print("=" * 15)
   
for entry in attachment_attribs:
   print('{}: {}'.format(entry, getattr(attachment, entry,"N/A")))
outfile = os.path.join(os.path.abspath(out_dir),os.path.split(args.MSG_FILE)[-1])
   
if not os.path.exists(outfile):
os.makedirs(outfile)
outfile = os.path.join(outfile, attachment.FileName)
attachment.SaveAsFile(outfile)
   
print("Exported: {}".format(outfile))
i += 1

После запуска вышеуказанного сценария мы получим атрибуты сообщения и его вложений в окне консоли вместе с несколькими файлами в выходном каталоге.

Структурирование файлов MBOX из Google Takeout с помощью Python

Файлы MBOX - это текстовые файлы со специальным форматированием, которые разделяют хранящиеся внутри сообщения. Их часто можно найти в сочетании с системами UNIX, Thunderbolt и Google Takeouts.

В этом разделе вы увидите скрипт Python, в котором мы будем структурировать файлы MBOX, полученные из Google Takeouts. Но перед этим мы должны знать, как мы можем сгенерировать эти файлы MBOX с помощью нашей учетной записи Google или Gmail.

Получение почтового ящика учетной записи Google в формате MBX

Получение почтового ящика учетной записи Google подразумевает создание резервной копии нашей учетной записи Gmail. Резервное копирование может быть выполнено по разным личным или профессиональным причинам. Обратите внимание, что Google обеспечивает резервное копирование данных Gmail. Чтобы получить почтовый ящик нашей учетной записи Google в формате MBOX, вам необходимо выполнить следующие действия:

  • открыто My account приборная доска.

  • Перейдите в раздел «Личная информация и конфиденциальность» и выберите ссылку «Управление контентом».

  • Вы можете создать новый архив или управлять существующим. Если мы нажмем,CREATE ARCHIVE ссылка, то мы получим несколько флажков для каждого продукта Google, который мы хотим включить.

  • После выбора продуктов мы получим свободу выбора типа файла и максимального размера для нашего архива, а также способ доставки, который можно выбрать из списка.

  • Наконец, мы получим эту резервную копию в формате MBOX.

Код Python

Теперь обсуждаемый выше файл MBOX может быть структурирован с использованием Python, как показано ниже -

Во-первых, необходимо импортировать библиотеки Python следующим образом:

from __future__ import print_function
from argparse import ArgumentParser

import mailbox
import os
import time
import csv
from tqdm import tqdm

import base64

Все библиотеки были использованы и объяснены в более ранних сценариях, за исключением mailbox библиотека, которая используется для разбора файлов MBOX.

Теперь предоставьте аргумент для обработчика командной строки. Здесь он будет принимать два аргумента: один - это путь к файлу MBOX, а другой - желаемая выходная папка.

if __name__ == '__main__':
   parser = ArgumentParser('Parsing MBOX files')
   parser.add_argument("MBOX", help="Path to mbox file")
   parser.add_argument(
      "OUTPUT_DIR",help = "Path to output directory to write report ""and exported content")
   args = parser.parse_args()
   main(args.MBOX, args.OUTPUT_DIR)

Теперь определим main() функция и вызов mbox класс библиотеки почтовых ящиков, с помощью которого мы можем проанализировать файл MBOX, указав его путь -

def main(mbox_file, output_dir):
   print("Reading mbox file")
   mbox = mailbox.mbox(mbox_file, factory=custom_reader)
   print("{} messages to parse".format(len(mbox)))

Теперь определите метод чтения для mailbox библиотека следующим образом -

def custom_reader(data_stream):
   data = data_stream.read()
   try:
      content = data.decode("ascii")
   except (UnicodeDecodeError, UnicodeEncodeError) as e:
      content = data.decode("cp1252", errors="replace")
   return mailbox.mboxMessage(content)

Теперь создайте несколько переменных для дальнейшей обработки следующим образом:

parsed_data = []
attachments_dir = os.path.join(output_dir, "attachments")

if not os.path.exists(attachments_dir):
   os.makedirs(attachments_dir)
columns = [
   "Date", "From", "To", "Subject", "X-Gmail-Labels", "Return-Path", "Received", 
   "Content-Type", "Message-ID","X-GM-THRID", "num_attachments_exported", "export_path"]

Далее используйте tqdm для создания индикатора выполнения и отслеживания процесса итерации следующим образом:

for message in tqdm(mbox):
   msg_data = dict()
   header_data = dict(message._headers)
for hdr in columns:
   msg_data[hdr] = header_data.get(hdr, "N/A")

Теперь проверьте, есть ли полезные данные в сообщении о погоде. Если есть, то мы определимwrite_payload() метод следующим образом -

if len(message.get_payload()):
   export_path = write_payload(message, attachments_dir)
   msg_data['num_attachments_exported'] = len(export_path)
   msg_data['export_path'] = ", ".join(export_path)

Теперь нужно добавить данные. Тогда мы позвонимcreate_report() метод следующим образом -

parsed_data.append(msg_data)
create_report(
   parsed_data, os.path.join(output_dir, "mbox_report.csv"), columns)
def write_payload(msg, out_dir):
   pyld = msg.get_payload()
   export_path = []
   
if msg.is_multipart():
   for entry in pyld:
      export_path += write_payload(entry, out_dir)
else:
   content_type = msg.get_content_type()
   if "application/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "image/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))

   elif "video/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "audio/" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "text/csv" in content_type.lower():
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "info/" in content_type.lower():
      export_path.append(export_content(msg, out_dir,
      msg.get_payload()))
   elif "text/calendar" in content_type.lower():
      export_path.append(export_content(msg, out_dir,
      msg.get_payload()))
   elif "text/rtf" in content_type.lower():
      export_path.append(export_content(msg, out_dir,
      msg.get_payload()))
   else:
      if "name=" in msg.get('Content-Disposition', "N/A"):
         content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
   elif "name=" in msg.get('Content-Type', "N/A"):
      content = base64.b64decode(msg.get_payload())
      export_path.append(export_content(msg, out_dir, content))
return export_path

Обратите внимание, что приведенные выше операторы if-else легко понять. Теперь нам нужно определить метод, который будет извлекать имя файла изmsg объект следующим образом -

def export_content(msg, out_dir, content_data):
   file_name = get_filename(msg)
   file_ext = "FILE"
   
   if "." in file_name: file_ext = file_name.rsplit(".", 1)[-1]
   file_name = "{}_{:.4f}.{}".format(file_name.rsplit(".", 1)[0], time.time(), file_ext)
   file_name = os.path.join(out_dir, file_name)

Теперь, с помощью следующих строк кода, вы можете экспортировать файл:

if isinstance(content_data, str):
   open(file_name, 'w').write(content_data)
else:
   open(file_name, 'wb').write(content_data)
return file_name

Теперь давайте определим функцию для извлечения имен файлов из message чтобы точно представить имена этих файлов следующим образом -

def get_filename(msg):
   if 'name=' in msg.get("Content-Disposition", "N/A"):
      fname_data = msg["Content-Disposition"].replace("\r\n", " ")
      fname = [x for x in fname_data.split("; ") if 'name=' in x]
      file_name = fname[0].split("=", 1)[-1]
   elif 'name=' in msg.get("Content-Type", "N/A"):
      fname_data = msg["Content-Type"].replace("\r\n", " ")
      fname = [x for x in fname_data.split("; ") if 'name=' in x]
      file_name = fname[0].split("=", 1)[-1]
   else:
      file_name = "NO_FILENAME"
   fchars = [x for x in file_name if x.isalnum() or x.isspace() or x == "."]
   return "".join(fchars)

Теперь мы можем написать файл CSV, определив create_report() функционируют следующим образом -

def create_report(output_data, output_file, columns):
   with open(output_file, 'w', newline="") as outfile:
      csvfile = csv.DictWriter(outfile, columns)
      csvfile.writeheader()
      csvfile.writerows(output_data)

Как только вы запустите приведенный выше скрипт, мы получим отчет в формате CSV и каталог, полный вложений.