ईमेल का उपयोग कर जांच
पिछले अध्यायों में नेटवर्क फोरेंसिक के महत्व और प्रक्रिया और शामिल अवधारणाओं के बारे में चर्चा की गई थी। इस अध्याय में, आइए हम डिजिटल फोरेंसिक में ईमेल की भूमिका और पायथन का उपयोग करके उनकी जांच के बारे में जानें।
जांच में ईमेल की भूमिका
ईमेल व्यावसायिक संचार में बहुत महत्वपूर्ण भूमिका निभाते हैं और इंटरनेट पर सबसे महत्वपूर्ण अनुप्रयोगों में से एक के रूप में उभरे हैं। वे न केवल कंप्यूटर से, बल्कि अन्य इलेक्ट्रॉनिक गैजेट्स जैसे मोबाइल फोन और टैबलेट से भी संदेश भेजने के लिए एक सुविधाजनक मोड हैं।
ईमेल का नकारात्मक पक्ष यह है कि अपराधी अपनी कंपनी के बारे में महत्वपूर्ण जानकारी लीक कर सकते हैं। इसलिए, हाल के वर्षों में डिजिटल फोरेंसिक में ईमेल की भूमिका बढ़ गई है। डिजिटल फोरेंसिक में, ईमेल को महत्वपूर्ण साक्ष्य माना जाता है और फोरेंसिक प्रक्रिया के दौरान साक्ष्य एकत्र करने के लिए ईमेल हैडर विश्लेषण महत्वपूर्ण हो गया है।
ईमेल फोरेंसिक करते समय एक अन्वेषक के निम्नलिखित लक्ष्य होते हैं -
- मुख्य अपराधी की पहचान करना
- आवश्यक साक्ष्य एकत्र करने के लिए
- निष्कर्ष प्रस्तुत करने के लिए
- मामला बनाने के लिए
ईमेल फॉरेंसिक में चुनौतियां
ईमेल फोरेंसिक जांच में बहुत महत्वपूर्ण भूमिका निभाते हैं क्योंकि वर्तमान युग में अधिकांश संचार ईमेल पर निर्भर करते हैं। हालांकि, एक ईमेल फोरेंसिक जांचकर्ता को जांच के दौरान निम्नलिखित चुनौतियों का सामना करना पड़ सकता है -
नकली ईमेल
ईमेल फोरेंसिक में सबसे बड़ी चुनौती नकली ई-मेल का उपयोग है जो हेरफेर और स्क्रिप्टिंग हेडर आदि द्वारा बनाई गई है। इस श्रेणी में अपराधी अस्थायी ईमेल का भी उपयोग करते हैं जो एक ऐसी सेवा है जो एक पंजीकृत उपयोगकर्ता को एक अस्थायी पते पर ईमेल प्राप्त करने की अनुमति देती है - समाप्त हो जाती है। एक निश्चित समय अवधि के बाद।
स्पूफिंग
ईमेल फोरेंसिक में एक और चुनौती खराब हो रही है जिसमें अपराधी ईमेल को किसी और के रूप में प्रस्तुत करते थे। इस मामले में मशीन दोनों नकली और साथ ही मूल आईपी पते को प्राप्त करेगी।
अनाम पुन: ईमेल
यहां, ईमेल सर्वर स्ट्रिप्स को आगे भेजने से पहले ईमेल संदेश से जानकारी की पहचान करता है। यह ईमेल जांच के लिए एक और बड़ी चुनौती है।
ईमेल फॉरेंसिक जांच में प्रयुक्त तकनीक
ईमेल फॉरेंसिक ईमेल के स्रोत और सामग्री का अध्ययन है, जो संदेश के वास्तविक प्रेषक और प्राप्तकर्ता की पहचान करने के साक्ष्य के रूप में है, साथ ही कुछ अन्य जानकारी जैसे कि प्रेषक के प्रसारण / समय और इरादे की सूचना। इसमें मेटाडेटा, पोर्ट स्कैनिंग के साथ-साथ कीवर्ड खोज की जांच शामिल है।
कुछ सामान्य तकनीकों का उपयोग ईमेल फोरेंसिक जांच के लिए किया जा सकता है
- हैडर विश्लेषण
- सर्वर की जांच
- नेटवर्क डिवाइस जांच
- प्रेषक मेलर फ़िंगरप्रिंट
- सॉफ्टवेयर एंबेडेड पहचानकर्ता
निम्नलिखित अनुभागों में, हम यह जानने जा रहे हैं कि ईमेल जांच के उद्देश्य से पायथन का उपयोग करके जानकारी कैसे प्राप्त करें।
ईएमएल फाइलों से जानकारी निकालना
ईएमएल फाइलें मूल रूप से फाइल फॉर्मेट में ईमेल होती हैं जो ईमेल संदेशों को संग्रहीत करने के लिए व्यापक रूप से उपयोग की जाती हैं। वे संरचित पाठ फाइलें हैं जो Microsoft आउटलुक, आउटलुक एक्सप्रेस, और विंडोज लाइव मेल जैसे कई ईमेल ग्राहकों के अनुकूल हैं।
ईएमएल फ़ाइल ईमेल हेडर, बॉडी कंटेंट, अटैचमेंट डेटा को प्लेन टेक्स्ट के रूप में स्टोर करती है। यह बाइनरी डेटा और कोटेड-प्रिंट करने योग्य (QP) एन्कोडिंग को सामग्री की जानकारी को संग्रहीत करने के लिए बेस 64 का उपयोग करता है। पायलॉन स्क्रिप्ट जिसका उपयोग ईएमएल फ़ाइल से जानकारी निकालने के लिए किया जा सकता है -
सबसे पहले, निम्न पायथन पुस्तकालयों को आयात करें जैसा कि नीचे दिखाया गया है -
from __future__ import print_function
from argparse import ArgumentParser, FileType
from email import message_from_file
import os
import quopri
import base64
उपरोक्त पुस्तकालयों में, quopriEML फ़ाइलों से QP एन्कोडेड मानों को डीकोड करने के लिए उपयोग किया जाता है। किसी भी बेस 64 एनकोडेड डेटा की मदद से डीकोड किया जा सकता हैbase64 पुस्तकालय।
अगला, कमांड-लाइन हैंडलर के लिए तर्क प्रदान करते हैं। ध्यान दें कि यहां केवल एक तर्क को स्वीकार किया जाएगा जो नीचे दिखाए गए अनुसार ईएमएल फ़ाइल का पथ होगा -
if __name__ == '__main__':
parser = ArgumentParser('Extracting information from EML file')
parser.add_argument("EML_FILE",help="Path to EML File", type=FileType('r'))
args = parser.parse_args()
main(args.EML_FILE)
अब, हमें परिभाषित करने की आवश्यकता है main() फ़ंक्शन जिसमें हम नामित विधि का उपयोग करेंगे message_from_file()ऑब्जेक्ट की तरह फ़ाइल को पढ़ने के लिए ईमेल लाइब्रेरी से। यहां हम हेडर, बॉडी कंटेंट, अटैचमेंट और अन्य पेलोड जानकारी को एक्सेस नामांकित चर का उपयोग करके एक्सेस करेंगेemlfile जैसा कि नीचे दिए गए कोड में दिखाया गया है -
def main(input_file):
emlfile = message_from_file(input_file)
for key, value in emlfile._headers:
print("{}: {}".format(key, value))
print("\nBody\n")
if emlfile.is_multipart():
for part in emlfile.get_payload():
process_payload(part)
else:
process_payload(emlfile[1])
अब, हमें परिभाषित करने की आवश्यकता है process_payload() वह विधि जिसमें हम संदेश की सामग्री का उपयोग करके निकाले जाएंगे get_payload()तरीका। हम QP एन्कोडेड डेटा का उपयोग करके डिकोड करेंगेquopri.decodestring()समारोह। हम सामग्री MIME प्रकार की भी जांच करेंगे ताकि यह ईमेल के भंडारण को ठीक से संभाल सके। नीचे दिए गए कोड को देखें -
def process_payload(payload):
print(payload.get_content_type() + "\n" + "=" * len(payload.get_content_type()))
body = quopri.decodestring(payload.get_payload())
if payload.get_charset():
body = body.decode(payload.get_charset())
else:
try:
body = body.decode()
except UnicodeDecodeError:
body = body.decode('cp1252')
if payload.get_content_type() == "text/html":
outfile = os.path.basename(args.EML_FILE.name) + ".html"
open(outfile, 'w').write(body)
elif payload.get_content_type().startswith('application'):
outfile = open(payload.get_filename(), 'wb')
body = base64.b64decode(payload.get_payload())
outfile.write(body)
outfile.close()
print("Exported: {}\n".format(outfile.name))
else:
print(body)
उपरोक्त स्क्रिप्ट को निष्पादित करने के बाद, हम कंसोल पर विभिन्न पेलोड के साथ हेडर की जानकारी प्राप्त करेंगे।
पायथन का उपयोग करके MSG फ़ाइलों का विश्लेषण
ईमेल संदेश कई अलग-अलग स्वरूपों में आते हैं। MSG Microsoft Outlook और Exchange द्वारा उपयोग किया जाने वाला एक प्रकार का प्रारूप है। MSG एक्सटेंशन वाली फाइलों में हेडर के लिए सादा ASCII टेक्स्ट और मुख्य संदेश बॉडी के साथ-साथ हाइपरलिंक और अटैचमेंट हो सकते हैं।
इस खंड में, हम सीखेंगे कि आउटलुक एपीआई का उपयोग करके एमएसजी फ़ाइल से जानकारी कैसे निकाली जाए। ध्यान दें कि निम्न पायथन स्क्रिप्ट केवल विंडोज पर काम करेगी। इसके लिए, हमें नाम से तीसरे पक्ष के पायथन पुस्तकालय को स्थापित करने की आवश्यकता हैpywin32 निम्नानुसार है -
pip install pywin32
अब दिखाए गए आदेशों का उपयोग करते हुए निम्नलिखित पुस्तकालयों को आयात करें -
from __future__ import print_function
from argparse import ArgumentParser
import os
import win32com.client
import pywintypes
अब, हम कमांड-लाइन हैंडलर के लिए एक तर्क प्रदान करते हैं। यहाँ यह दो तर्क स्वीकार करेगा एक MSG फ़ाइल के लिए रास्ता होगा और अन्य वांछित आउटपुट फ़ोल्डर के रूप में निम्नानुसार होगा -
if __name__ == '__main__':
parser = ArgumentParser(‘Extracting information from MSG file’)
parser.add_argument("MSG_FILE", help="Path to MSG file")
parser.add_argument("OUTPUT_DIR", help="Path to output folder")
args = parser.parse_args()
out_dir = args.OUTPUT_DIR
if not os.path.exists(out_dir):
os.makedirs(out_dir)
main(args.MSG_FILE, args.OUTPUT_DIR)
अब, हमें परिभाषित करने की आवश्यकता है main() फ़ंक्शन जिसमें हम कॉल करेंगे win32com पुस्तकालय स्थापित करने के लिए Outlook API जो आगे तक पहुँच प्रदान करता है MAPI नाम स्थान।
def main(msg_file, output_dir):
mapi = win32com.client.Dispatch("Outlook.Application").GetNamespace("MAPI")
msg = mapi.OpenSharedItem(os.path.abspath(args.MSG_FILE))
display_msg_attribs(msg)
display_msg_recipients(msg)
extract_msg_body(msg, output_dir)
extract_attachments(msg, output_dir)
अब, अलग-अलग फ़ंक्शन परिभाषित करें जो हम इस स्क्रिप्ट में उपयोग कर रहे हैं। नीचे दिया गया कोड परिभाषित करता हैdisplay_msg_attribs() फ़ंक्शन जो हमें किसी संदेश की विभिन्न विशेषताओं जैसे विषय, बीसीसी, सीसी, आकार, प्रेषक, भेजे गए, आदि को प्रदर्शित करने की अनुमति देता है।
def display_msg_attribs(msg):
attribs = [
'Application', 'AutoForwarded', 'BCC', 'CC', 'Class',
'ConversationID', 'ConversationTopic', 'CreationTime',
'ExpiryTime', 'Importance', 'InternetCodePage', 'IsMarkedAsTask',
'LastModificationTime', 'Links','ReceivedTime', 'ReminderSet',
'ReminderTime', 'ReplyRecipientNames', 'Saved', 'Sender',
'SenderEmailAddress', 'SenderEmailType', 'SenderName', 'Sent',
'SentOn', 'SentOnBehalfOfName', 'Size', 'Subject',
'TaskCompletedDate', 'TaskDueDate', 'To', 'UnRead'
]
print("\nMessage Attributes")
for entry in attribs:
print("{}: {}".format(entry, getattr(msg, entry, 'N/A')))
अब, परिभाषित करें display_msg_recipeints() फ़ंक्शन जो संदेशों के माध्यम से प्रसारित होता है और प्राप्तकर्ता विवरण प्रदर्शित करता है।
def display_msg_recipients(msg):
recipient_attrib = ['Address', 'AutoResponse', 'Name', 'Resolved', 'Sendable']
i = 1
while True:
try:
recipient = msg.Recipients(i)
except pywintypes.com_error:
break
print("\nRecipient {}".format(i))
print("=" * 15)
for entry in recipient_attrib:
print("{}: {}".format(entry, getattr(recipient, entry, 'N/A')))
i += 1
अगला, हम परिभाषित करते हैं extract_msg_body() फ़ंक्शन जो शरीर की सामग्री, HTML के साथ-साथ प्लेन पाठ, संदेश से निकालता है।
def extract_msg_body(msg, out_dir):
html_data = msg.HTMLBody.encode('cp1252')
outfile = os.path.join(out_dir, os.path.basename(args.MSG_FILE))
open(outfile + ".body.html", 'wb').write(html_data)
print("Exported: {}".format(outfile + ".body.html"))
body_data = msg.Body.encode('cp1252')
open(outfile + ".body.txt", 'wb').write(body_data)
print("Exported: {}".format(outfile + ".body.txt"))
अगला, हम परिभाषित करेंगे extract_attachments() फ़ंक्शन जो वांछित आउटपुट निर्देशिका में अनुलग्नक डेटा निर्यात करता है।
def extract_attachments(msg, out_dir):
attachment_attribs = ['DisplayName', 'FileName', 'PathName', 'Position', 'Size']
i = 1 # Attachments start at 1
while True:
try:
attachment = msg.Attachments(i)
except pywintypes.com_error:
break
एक बार सभी कार्यों को परिभाषित करने के बाद, हम कोड के निम्नलिखित लाइन के साथ कंसोल पर सभी विशेषताओं को प्रिंट करेंगे -
print("\nAttachment {}".format(i))
print("=" * 15)
for entry in attachment_attribs:
print('{}: {}'.format(entry, getattr(attachment, entry,"N/A")))
outfile = os.path.join(os.path.abspath(out_dir),os.path.split(args.MSG_FILE)[-1])
if not os.path.exists(outfile):
os.makedirs(outfile)
outfile = os.path.join(outfile, attachment.FileName)
attachment.SaveAsFile(outfile)
print("Exported: {}".format(outfile))
i += 1
उपरोक्त स्क्रिप्ट को चलाने के बाद, हम आउटपुट विंडो में कई फाइलों के साथ कंसोल विंडो में संदेश और इसके अनुलग्नकों की विशेषताएं प्राप्त करेंगे।
पाइथन का उपयोग करके Google टेकआउट से MBOX फ़ाइलों को संरचित करना
MBOX फाइलें विशेष स्वरूपण के साथ पाठ फाइलें होती हैं जो संदेशों को अंदर संग्रहीत करती हैं। वे अक्सर UNIX सिस्टम, थंडरबोल्ट, और Google टेकआउट के सहयोग से पाए जाते हैं।
इस खंड में, आपको एक पायथन स्क्रिप्ट दिखाई देगी, जहाँ हम Google टेकआउट से प्राप्त MBOX फ़ाइलों को संरचित करेंगे। लेकिन इससे पहले हमें यह पता होना चाहिए कि हम अपने Google खाते या जीमेल खाते का उपयोग करके इन MBOX फ़ाइलों को कैसे उत्पन्न कर सकते हैं।
MBX प्रारूप में Google खाता मेलबॉक्स को प्राप्त करना
Google खाते के मेलबॉक्स को प्राप्त करने का तात्पर्य हमारे जीमेल खाते का बैकअप लेना है। विभिन्न व्यक्तिगत या व्यावसायिक कारणों से बैकअप लिया जा सकता है। ध्यान दें कि Google जीमेल डेटा का बैकअप प्रदान करता है। हमारे Google खाता मेलबॉक्स को MBOX प्रारूप में प्राप्त करने के लिए, आपको नीचे दिए गए चरणों का पालन करना होगा -
खुला हुआ My account डैशबोर्ड।
व्यक्तिगत जानकारी और गोपनीयता अनुभाग पर जाएं और अपनी सामग्री लिंक नियंत्रित करें चुनें।
आप एक नया संग्रह बना सकते हैं या मौजूदा एक का प्रबंधन कर सकते हैं। अगर हम क्लिक करें,CREATE ARCHIVE लिंक, तो हम प्रत्येक Google उत्पाद के लिए कुछ चेक बॉक्स प्राप्त करेंगे जिन्हें हम शामिल करना चाहते हैं।
उत्पादों का चयन करने के बाद, हमें सूची से चयन करने के लिए डिलीवरी पद्धति के साथ-साथ हमारे संग्रह के लिए फ़ाइल प्रकार और अधिकतम आकार चुनने की स्वतंत्रता मिलेगी।
अंत में, हमें MBOX प्रारूप में यह बैकअप मिलेगा।
पायथन कोड
अब, ऊपर चर्चा की गई MBOX फ़ाइल को नीचे दिखाए गए अनुसार पायथन का उपयोग करके संरचित किया जा सकता है -
सबसे पहले, अजगर पुस्तकालयों को आयात करने की आवश्यकता इस प्रकार है -
from __future__ import print_function
from argparse import ArgumentParser
import mailbox
import os
import time
import csv
from tqdm import tqdm
import base64
सभी पुस्तकालयों का उपयोग किया गया है और पहले की लिपियों में समझाया गया है, को छोड़कर mailbox पुस्तकालय जो MBOX फ़ाइलों को पार्स करने के लिए उपयोग किया जाता है।
अब, कमांड-लाइन हैंडलर के लिए एक तर्क प्रदान करें। यहाँ यह दो तर्कों को स्वीकार करेगा- एक तो MBOX फ़ाइल का पथ होगा, और दूसरा वांछित आउटपुट फ़ोल्डर होगा।
if __name__ == '__main__':
parser = ArgumentParser('Parsing MBOX files')
parser.add_argument("MBOX", help="Path to mbox file")
parser.add_argument(
"OUTPUT_DIR",help = "Path to output directory to write report ""and exported content")
args = parser.parse_args()
main(args.MBOX, args.OUTPUT_DIR)
अब, परिभाषित करेगा main() फ़ंक्शन और कॉल करें mbox मेलबॉक्स लाइब्रेरी की श्रेणी जिसकी सहायता से हम एक MBOX फ़ाइल को उसका पथ प्रदान कर सकते हैं -
def main(mbox_file, output_dir):
print("Reading mbox file")
mbox = mailbox.mbox(mbox_file, factory=custom_reader)
print("{} messages to parse".format(len(mbox)))
अब, के लिए एक पाठक विधि को परिभाषित करें mailbox पुस्तकालय निम्नानुसार है -
def custom_reader(data_stream):
data = data_stream.read()
try:
content = data.decode("ascii")
except (UnicodeDecodeError, UnicodeEncodeError) as e:
content = data.decode("cp1252", errors="replace")
return mailbox.mboxMessage(content)
अब आगे की प्रक्रिया के लिए कुछ चर बनाएं, जो निम्नानुसार हैं -
parsed_data = []
attachments_dir = os.path.join(output_dir, "attachments")
if not os.path.exists(attachments_dir):
os.makedirs(attachments_dir)
columns = [
"Date", "From", "To", "Subject", "X-Gmail-Labels", "Return-Path", "Received",
"Content-Type", "Message-ID","X-GM-THRID", "num_attachments_exported", "export_path"]
अगला, उपयोग करें tqdm एक प्रगति पट्टी उत्पन्न करने और निम्नानुसार पुनरावृत्ति प्रक्रिया को ट्रैक करने के लिए -
for message in tqdm(mbox):
msg_data = dict()
header_data = dict(message._headers)
for hdr in columns:
msg_data[hdr] = header_data.get(hdr, "N/A")
अब, चेक मौसम संदेश में पेलोड है या नहीं। अगर यह हो रहा है तो हम परिभाषित करेंगेwrite_payload() विधि इस प्रकार है -
if len(message.get_payload()):
export_path = write_payload(message, attachments_dir)
msg_data['num_attachments_exported'] = len(export_path)
msg_data['export_path'] = ", ".join(export_path)
अब, डेटा संलग्न किया जाना चाहिए। फिर हम फोन करेंगेcreate_report() विधि इस प्रकार है -
parsed_data.append(msg_data)
create_report(
parsed_data, os.path.join(output_dir, "mbox_report.csv"), columns)
def write_payload(msg, out_dir):
pyld = msg.get_payload()
export_path = []
if msg.is_multipart():
for entry in pyld:
export_path += write_payload(entry, out_dir)
else:
content_type = msg.get_content_type()
if "application/" in content_type.lower():
content = base64.b64decode(msg.get_payload())
export_path.append(export_content(msg, out_dir, content))
elif "image/" in content_type.lower():
content = base64.b64decode(msg.get_payload())
export_path.append(export_content(msg, out_dir, content))
elif "video/" in content_type.lower():
content = base64.b64decode(msg.get_payload())
export_path.append(export_content(msg, out_dir, content))
elif "audio/" in content_type.lower():
content = base64.b64decode(msg.get_payload())
export_path.append(export_content(msg, out_dir, content))
elif "text/csv" in content_type.lower():
content = base64.b64decode(msg.get_payload())
export_path.append(export_content(msg, out_dir, content))
elif "info/" in content_type.lower():
export_path.append(export_content(msg, out_dir,
msg.get_payload()))
elif "text/calendar" in content_type.lower():
export_path.append(export_content(msg, out_dir,
msg.get_payload()))
elif "text/rtf" in content_type.lower():
export_path.append(export_content(msg, out_dir,
msg.get_payload()))
else:
if "name=" in msg.get('Content-Disposition', "N/A"):
content = base64.b64decode(msg.get_payload())
export_path.append(export_content(msg, out_dir, content))
elif "name=" in msg.get('Content-Type', "N/A"):
content = base64.b64decode(msg.get_payload())
export_path.append(export_content(msg, out_dir, content))
return export_path
निरीक्षण करें कि ऊपर दिए गए अन्य विवरणों को समझना आसान है। अब, हमें एक विधि को परिभाषित करने की आवश्यकता है जो फ़ाइल नाम को इसमें से निकालेगीmsg वस्तु इस प्रकार है -
def export_content(msg, out_dir, content_data):
file_name = get_filename(msg)
file_ext = "FILE"
if "." in file_name: file_ext = file_name.rsplit(".", 1)[-1]
file_name = "{}_{:.4f}.{}".format(file_name.rsplit(".", 1)[0], time.time(), file_ext)
file_name = os.path.join(out_dir, file_name)
अब, कोड की निम्नलिखित पंक्तियों की मदद से, आप वास्तव में फ़ाइल निर्यात कर सकते हैं -
if isinstance(content_data, str):
open(file_name, 'w').write(content_data)
else:
open(file_name, 'wb').write(content_data)
return file_name
अब, हम filenames को निकालने के लिए एक फंक्शन को परिभाषित करते हैं message इन फाइलों के नामों को सही-सही दर्शाने के लिए -
def get_filename(msg):
if 'name=' in msg.get("Content-Disposition", "N/A"):
fname_data = msg["Content-Disposition"].replace("\r\n", " ")
fname = [x for x in fname_data.split("; ") if 'name=' in x]
file_name = fname[0].split("=", 1)[-1]
elif 'name=' in msg.get("Content-Type", "N/A"):
fname_data = msg["Content-Type"].replace("\r\n", " ")
fname = [x for x in fname_data.split("; ") if 'name=' in x]
file_name = fname[0].split("=", 1)[-1]
else:
file_name = "NO_FILENAME"
fchars = [x for x in file_name if x.isalnum() or x.isspace() or x == "."]
return "".join(fchars)
अब, हम एक CSV फ़ाइल को परिभाषित करके लिख सकते हैं create_report() कार्य निम्नानुसार है -
def create_report(output_data, output_file, columns):
with open(output_file, 'w', newline="") as outfile:
csvfile = csv.DictWriter(outfile, columns)
csvfile.writeheader()
csvfile.writerows(output_data)
एक बार जब आप ऊपर दी गई स्क्रिप्ट को चलाते हैं, तो हमें CSV रिपोर्ट और निर्देशिका संलग्नक से भरनी होगी।