एंबेडेड मेटाडेटा की जांच
इस अध्याय में, हम पायथन डिजिटल फोरेंसिक का उपयोग करके एम्बेडेड मेटाडेटा की जांच के बारे में विस्तार से जानेंगे।
परिचय
एंबेडेड मेटाडेटा उसी फ़ाइल में संग्रहीत डेटा के बारे में जानकारी है जो उस डेटा द्वारा वर्णित ऑब्जेक्ट के पास है। दूसरे शब्दों में, यह डिजिटल फ़ाइल में ही संग्रहीत डिजिटल संपत्ति के बारे में जानकारी है। यह हमेशा फ़ाइल से जुड़ा होता है और इसे कभी अलग नहीं किया जा सकता है।
डिजिटल फोरेंसिक के मामले में, हम किसी विशेष फ़ाइल के बारे में सभी जानकारी नहीं निकाल सकते हैं। दूसरी तरफ, एम्बेडेड मेटाडेटा हमें जांच के लिए महत्वपूर्ण जानकारी प्रदान कर सकता है। उदाहरण के लिए, एक टेक्स्ट फ़ाइल के मेटाडेटा में लेखक, उसकी लंबाई, लिखित तारीख और उस दस्तावेज़ के बारे में एक संक्षिप्त सारांश की जानकारी हो सकती है। एक डिजिटल छवि में मेटाडेटा शामिल हो सकता है जैसे छवि की लंबाई, शटर गति आदि।
मेटाडेटा विशेषताएँ और उनके निष्कर्षण युक्त कलाकृतियाँ
इस खंड में, हम मेटाडेटा विशेषताओं और पायथन का उपयोग करके उनके निष्कर्षण प्रक्रिया वाले विभिन्न कलाकृतियों के बारे में जानेंगे।
ऑडियो और वीडियो
ये दो बहुत ही सामान्य कलाकृतियां हैं जिनमें एम्बेडेड मेटाडेटा है। यह मेटाडेटा जांच के उद्देश्य से निकाला जा सकता है।
आप ऑडियो या एमपी 3 फ़ाइल और एक वीडियो या एक MP4 फ़ाइल से सामान्य विशेषताओं या मेटाडेटा को निकालने के लिए निम्न पायथन स्क्रिप्ट का उपयोग कर सकते हैं।
ध्यान दें कि इस स्क्रिप्ट के लिए, हमें mutagen नाम से एक थर्ड पार्टी पायथन लाइब्रेरी स्थापित करने की आवश्यकता है जो हमें ऑडियो और वीडियो फ़ाइलों से मेटाडेटा निकालने की अनुमति देती है। इसे निम्नलिखित कमांड की सहायता से स्थापित किया जा सकता है -
pip install mutagen
इस पाइथन लिपि के लिए कुछ उपयोगी पुस्तकालयों को आयात करने की आवश्यकता इस प्रकार है -
from __future__ import print_function
import argparse
import json
import mutagen
कमांड लाइन हैंडलर एक तर्क लेगा जो एमपी 3 या MP4 फ़ाइलों के लिए पथ का प्रतिनिधित्व करता है। फिर, हम उपयोग करेंगेmutagen.file() फाइल को हैंडल खोलने की विधि इस प्रकार है -
if __name__ == '__main__':
parser = argparse.ArgumentParser('Python Metadata Extractor')
parser.add_argument("AV_FILE", help="File to extract metadata from")
args = parser.parse_args()
av_file = mutagen.File(args.AV_FILE)
file_ext = args.AV_FILE.rsplit('.', 1)[-1]
if file_ext.lower() == 'mp3':
handle_id3(av_file)
elif file_ext.lower() == 'mp4':
handle_mp4(av_file)
अब, हमें दो हैंडल का उपयोग करना होगा, एक को एमपी 3 से डेटा निकालने के लिए और एक को MP4 फ़ाइल से डेटा निकालने के लिए। हम इन हैंडल को इस प्रकार परिभाषित कर सकते हैं -
def handle_id3(id3_file):
id3_frames = {'TIT2': 'Title', 'TPE1': 'Artist', 'TALB': 'Album','TXXX':
'Custom', 'TCON': 'Content Type', 'TDRL': 'Date released','COMM': 'Comments',
'TDRC': 'Recording Date'}
print("{:15} | {:15} | {:38} | {}".format("Frame", "Description","Text","Value"))
print("-" * 85)
for frames in id3_file.tags.values():
frame_name = id3_frames.get(frames.FrameID, frames.FrameID)
desc = getattr(frames, 'desc', "N/A")
text = getattr(frames, 'text', ["N/A"])[0]
value = getattr(frames, 'value', "N/A")
if "date" in frame_name.lower():
text = str(text)
print("{:15} | {:15} | {:38} | {}".format(
frame_name, desc, text, value))
def handle_mp4(mp4_file):
cp_sym = u"\u00A9"
qt_tag = {
cp_sym + 'nam': 'Title', cp_sym + 'art': 'Artist',
cp_sym + 'alb': 'Album', cp_sym + 'gen': 'Genre',
'cpil': 'Compilation', cp_sym + 'day': 'Creation Date',
'cnID': 'Apple Store Content ID', 'atID': 'Album Title ID',
'plID': 'Playlist ID', 'geID': 'Genre ID', 'pcst': 'Podcast',
'purl': 'Podcast URL', 'egid': 'Episode Global ID',
'cmID': 'Camera ID', 'sfID': 'Apple Store Country',
'desc': 'Description', 'ldes': 'Long Description'}
genre_ids = json.load(open('apple_genres.json'))
अब, हमें इस MP4 फ़ाइल के माध्यम से पुनरावृति करने की आवश्यकता है -
print("{:22} | {}".format('Name', 'Value'))
print("-" * 40)
for name, value in mp4_file.tags.items():
tag_name = qt_tag.get(name, name)
if isinstance(value, list):
value = "; ".join([str(x) for x in value])
if name == 'geID':
value = "{}: {}".format(
value, genre_ids[str(value)].replace("|", " - "))
print("{:22} | {}".format(tag_name, value))
उपरोक्त स्क्रिप्ट हमें एमपी 3 के साथ-साथ MP4 फ़ाइलों के बारे में अतिरिक्त जानकारी देगी।
इमेजिस
छवियों में फ़ाइल प्रारूप के आधार पर विभिन्न प्रकार के मेटाडेटा हो सकते हैं। हालाँकि, अधिकांश चित्र GPS जानकारी एम्बेड करते हैं। हम तीसरे पक्ष के पायथन पुस्तकालयों का उपयोग करके इस जीपीएस जानकारी को निकाल सकते हैं। आप निम्नलिखित पायथन लिपि का उपयोग कर सकते हैं इसका उपयोग करने के लिए किया जा सकता है -
सबसे पहले, थर्ड पार्टी पायथन लाइब्रेरी नाम से डाउनलोड करें Python Imaging Library (PIL) निम्नानुसार है -
pip install pillow
यह हमें छवियों से मेटाडेटा निकालने में मदद करेगा।
हम KML फ़ाइल में छवियों में एम्बेडेड जीपीएस विवरण भी लिख सकते हैं, लेकिन इसके लिए हमें तीसरे पक्ष के पायथन पुस्तकालय को डाउनलोड करने की आवश्यकता है simplekml निम्नानुसार है -
pip install simplekml
इस स्क्रिप्ट में, पहले हमें निम्न पुस्तकालयों को आयात करने की आवश्यकता है -
from __future__ import print_function
import argparse
from PIL import Image
from PIL.ExifTags import TAGS
import simplekml
import sys
अब, कमांड लाइन हैंडलर एक स्थितिगत तर्क को स्वीकार करेगा जो मूल रूप से तस्वीरों के फ़ाइल पथ का प्रतिनिधित्व करता है।
parser = argparse.ArgumentParser('Metadata from images')
parser.add_argument('PICTURE_FILE', help = "Path to picture")
args = parser.parse_args()
अब, हमें उन URL को निर्दिष्ट करने की आवश्यकता है जो समन्वय जानकारी को पॉप्युलेट करेंगे। URLs हैंgmaps तथा open_maps। पीआईएल पुस्तकालय द्वारा प्रदान की गई डिग्री मिनट सेकंड (डीएमएस) टपल समन्वय को दशमलव में बदलने के लिए हमें एक फ़ंक्शन की भी आवश्यकता है। इसे निम्नानुसार किया जा सकता है -
gmaps = "https://www.google.com/maps?q={},{}"
open_maps = "http://www.openstreetmap.org/?mlat={}&mlon={}"
def process_coords(coord):
coord_deg = 0
for count, values in enumerate(coord):
coord_deg += (float(values[0]) / values[1]) / 60**count
return coord_deg
अब, हम उपयोग करेंगे image.open() फ़ाइल को PIL ऑब्जेक्ट के रूप में खोलने के लिए फ़ंक्शन।
img_file = Image.open(args.PICTURE_FILE)
exif_data = img_file._getexif()
if exif_data is None:
print("No EXIF data found")
sys.exit()
for name, value in exif_data.items():
gps_tag = TAGS.get(name, name)
if gps_tag is not 'GPSInfo':
continue
खोजने के बाद GPSInfo टैग, हम GPS संदर्भ को संचित करेंगे और निर्देशांक को संसाधित करेंगे process_coords() तरीका।
lat_ref = value[1] == u'N'
lat = process_coords(value[2])
if not lat_ref:
lat = lat * -1
lon_ref = value[3] == u'E'
lon = process_coords(value[4])
if not lon_ref:
lon = lon * -1
अब, दीक्षा दें kml से वस्तु simplekml पुस्तकालय निम्नानुसार है -
kml = simplekml.Kml()
kml.newpoint(name = args.PICTURE_FILE, coords = [(lon, lat)])
kml.save(args.PICTURE_FILE + ".kml")
अब हम संसाधित जानकारी से निर्देशांक प्रिंट कर सकते हैं -
print("GPS Coordinates: {}, {}".format(lat, lon))
print("Google Maps URL: {}".format(gmaps.format(lat, lon)))
print("OpenStreetMap URL: {}".format(open_maps.format(lat, lon)))
print("KML File {} created".format(args.PICTURE_FILE + ".kml"))
पीडीएफ दस्तावेज़
पीडीएफ दस्तावेजों में चित्रों, पाठ, प्रपत्रों सहित मीडिया की एक विस्तृत विविधता है। जब हम पीडीएफ दस्तावेजों में एम्बेडेड मेटाडेटा निकालते हैं, तो हम परिणामी डेटा को एक्सटेंसिबल मेटाडेटा प्लेटफ़ॉर्म (एक्सएमपी) नामक प्रारूप में प्राप्त कर सकते हैं। हम निम्नलिखित पायथन कोड की मदद से मेटाडेटा निकाल सकते हैं -
सबसे पहले, एक तीसरी पार्टी पायथन लाइब्रेरी स्थापित करें जिसका नाम है PyPDF2पढ़ने के लिए मेटाडेटा XMP प्रारूप में संग्रहीत। इसे निम्नानुसार स्थापित किया जा सकता है -
pip install PyPDF2
अब, पीडीएफ फाइलों से मेटाडेटा निकालने के लिए निम्न पुस्तकालयों को आयात करें -
from __future__ import print_function
from argparse import ArgumentParser, FileType
import datetime
from PyPDF2 import PdfFileReader
import sys
अब, कमांड लाइन हैंडलर एक स्थिति तर्क को स्वीकार करेगा जो मूल रूप से पीडीएफ फाइल के फ़ाइल पथ का प्रतिनिधित्व करता है।
parser = argparse.ArgumentParser('Metadata from PDF')
parser.add_argument('PDF_FILE', help='Path to PDF file',type=FileType('rb'))
args = parser.parse_args()
अब हम उपयोग कर सकते हैं getXmpMetadata() निम्न मेटाडाटा युक्त वस्तु प्रदान करने की विधि इस प्रकार है -
pdf_file = PdfFileReader(args.PDF_FILE)
xmpm = pdf_file.getXmpMetadata()
if xmpm is None:
print("No XMP metadata found in document.")
sys.exit()
हम प्रयोग कर सकते हैं custom_print() शीर्षक, निर्माता, योगदानकर्ता आदि जैसे प्रासंगिक मूल्यों को निकालने और मुद्रित करने की विधि निम्नानुसार है -
custom_print("Title: {}", xmpm.dc_title)
custom_print("Creator(s): {}", xmpm.dc_creator)
custom_print("Contributors: {}", xmpm.dc_contributor)
custom_print("Subject: {}", xmpm.dc_subject)
custom_print("Description: {}", xmpm.dc_description)
custom_print("Created: {}", xmpm.xmp_createDate)
custom_print("Modified: {}", xmpm.xmp_modifyDate)
custom_print("Event Dates: {}", xmpm.dc_date)
हम भी परिभाषित कर सकते हैं custom_print() विधि यदि पीडीएफ कई सॉफ्टवेयर का उपयोग करके बनाई गई है इस प्रकार है -
def custom_print(fmt_str, value):
if isinstance(value, list):
print(fmt_str.format(", ".join(value)))
elif isinstance(value, dict):
fmt_value = [":".join((k, v)) for k, v in value.items()]
print(fmt_str.format(", ".join(value)))
elif isinstance(value, str) or isinstance(value, bool):
print(fmt_str.format(value))
elif isinstance(value, bytes):
print(fmt_str.format(value.decode()))
elif isinstance(value, datetime.datetime):
print(fmt_str.format(value.isoformat()))
elif value is None:
print(fmt_str.format("N/A"))
else:
print("warn: unhandled type {} found".format(type(value)))
हम सॉफ्टवेयर द्वारा बचाई गई किसी अन्य कस्टम संपत्ति को निम्नानुसार भी निकाल सकते हैं -
if xmpm.custom_properties:
print("Custom Properties:")
for k, v in xmpm.custom_properties.items():
print("\t{}: {}".format(k, v))
उपरोक्त स्क्रिप्ट पीडीएफ दस्तावेज़ को पढ़ेगी और एक्सएमपी प्रारूप में संग्रहीत मेटाडाटा को प्रिंट करेगी जिसमें सॉफ्टवेयर द्वारा संग्रहीत कुछ कस्टम गुण शामिल हैं जिनकी मदद से पीडीएफ बनाया गया है।
Windows निष्पादन फ़ाइलें
कभी-कभी हम एक संदिग्ध या अनधिकृत निष्पादन योग्य फ़ाइल का सामना कर सकते हैं। लेकिन जांच के उद्देश्य से यह एम्बेडेड मेटाडेटा के कारण उपयोगी हो सकता है। हम इसके स्थान, इसके उद्देश्य और अन्य विशेषताओं जैसे निर्माता, संकलन तिथि आदि के बारे में जानकारी प्राप्त कर सकते हैं। पायथन लिपि का अनुसरण करने की मदद से हम संकलन तिथि, शीर्षलेखों से उपयोगी डेटा और आयातित प्रतीकों के साथ ही प्राप्त कर सकते हैं।
इस उद्देश्य के लिए, पहले थर्ड पार्टी पायथन लाइब्रेरी स्थापित करें pefile। इसे निम्नानुसार किया जा सकता है -
pip install pefile
एक बार जब आप इसे सफलतापूर्वक स्थापित कर लेते हैं, तो निम्न पुस्तकालयों को निम्नानुसार आयात करें -
from __future__ import print_function
import argparse
from datetime import datetime
from pefile import PE
अब, कमांड लाइन हैंडलर एक स्थितिगत तर्क को स्वीकार करेगा जो मूल रूप से निष्पादन योग्य फ़ाइल के फ़ाइल पथ का प्रतिनिधित्व करता है। आप आउटपुट की शैली भी चुन सकते हैं, चाहे आपको इसकी विस्तृत और क्रियात्मक तरीके से या सरलीकृत तरीके से आवश्यकता हो। इसके लिए आपको एक वैकल्पिक तर्क देने की आवश्यकता है जैसा कि नीचे दिखाया गया है -
parser = argparse.ArgumentParser('Metadata from executable file')
parser.add_argument("EXE_FILE", help = "Path to exe file")
parser.add_argument("-v", "--verbose", help = "Increase verbosity of output",
action = 'store_true', default = False)
args = parser.parse_args()
अब, हम PE क्लास का उपयोग करके इनपुट निष्पादन योग्य फ़ाइल को लोड करेंगे। हम निष्पादन योग्य डेटा का उपयोग करके किसी डिक्शनरी ऑब्जेक्ट को डंप भी करेंगेdump_dict() तरीका।
pe = PE(args.EXE_FILE)
ped = pe.dump_dict()
हम नीचे दिखाए गए कोड का उपयोग करके बुनियादी फ़ाइल मेटाडेटा जैसे कि एम्बेडेड ऑथरशिप, संस्करण और संकलन समय निकाल सकते हैं -
file_info = {}
for structure in pe.FileInfo:
if structure.Key == b'StringFileInfo':
for s_table in structure.StringTable:
for key, value in s_table.entries.items():
if value is None or len(value) == 0:
value = "Unknown"
file_info[key] = value
print("File Information: ")
print("==================")
for k, v in file_info.items():
if isinstance(k, bytes):
k = k.decode()
if isinstance(v, bytes):
v = v.decode()
print("{}: {}".format(k, v))
comp_time = ped['FILE_HEADER']['TimeDateStamp']['Value']
comp_time = comp_time.split("[")[-1].strip("]")
time_stamp, timezone = comp_time.rsplit(" ", 1)
comp_time = datetime.strptime(time_stamp, "%a %b %d %H:%M:%S %Y")
print("Compiled on {} {}".format(comp_time, timezone.strip()))
हम निम्नानुसार हेडर से उपयोगी डेटा निकाल सकते हैं -
for section in ped['PE Sections']:
print("Section '{}' at {}: {}/{} {}".format(
section['Name']['Value'], hex(section['VirtualAddress']['Value']),
section['Misc_VirtualSize']['Value'],
section['SizeOfRawData']['Value'], section['MD5'])
)
अब, निष्पादन योग्य फ़ाइलों से आयात और निर्यात की सूची को नीचे दिखाए अनुसार हटा दें -
if hasattr(pe, 'DIRECTORY_ENTRY_IMPORT'):
print("\nImports: ")
print("=========")
for dir_entry in pe.DIRECTORY_ENTRY_IMPORT:
dll = dir_entry.dll
if not args.verbose:
print(dll.decode(), end=", ")
continue
name_list = []
for impts in dir_entry.imports:
if getattr(impts, "name", b"Unknown") is None:
name = b"Unknown"
else:
name = getattr(impts, "name", b"Unknown")
name_list.append([name.decode(), hex(impts.address)])
name_fmt = ["{} ({})".format(x[0], x[1]) for x in name_list]
print('- {}: {}'.format(dll.decode(), ", ".join(name_fmt)))
if not args.verbose:
print()
अब, प्रिंट करें exports, names तथा addresses नीचे दिखाए गए अनुसार कोड का उपयोग करना -
if hasattr(pe, 'DIRECTORY_ENTRY_EXPORT'):
print("\nExports: ")
print("=========")
for sym in pe.DIRECTORY_ENTRY_EXPORT.symbols:
print('- {}: {}'.format(sym.name.decode(), hex(sym.address)))
उपरोक्त स्क्रिप्ट मूल मेटाडेटा को निकाल देगी, हेडर से विंडोज़ निष्पादन योग्य फ़ाइलों की जानकारी।
कार्यालय दस्तावेज़ मेटाडेटा
कंप्यूटर में ज्यादातर काम एमएस ऑफिस के तीन एप्लिकेशन- वर्ड, पॉवरपॉइंट और एक्सेल में होता है। इन फाइलों में विशाल मेटाडेटा होता है, जो उनके लेखन और इतिहास के बारे में दिलचस्प जानकारी को उजागर कर सकता है।
ध्यान दें कि मेटाडेटा 2007 शब्द (.docx), एक्सेल (.xlsx) और पावरपॉइंट (.pptx) से XML फ़ाइल में संग्रहीत है। हम नीचे दिखाए गए पायथन लिपि की मदद से पाइथन में इन XML फाइलों को प्रोसेस कर सकते हैं -
सबसे पहले, आवश्यक पुस्तकालयों को नीचे दिखाए अनुसार आयात करें -
from __future__ import print_function
from argparse import ArgumentParser
from datetime import datetime as dt
from xml.etree import ElementTree as etree
import zipfile
parser = argparse.ArgumentParser('Office Document Metadata’)
parser.add_argument("Office_File", help="Path to office file to read")
args = parser.parse_args()
अब, जांचें कि क्या फाइल जिप फाइल है। और, एक त्रुटि बढ़ाएँ। अब, फ़ाइल खोलें और निम्नलिखित कोड का उपयोग करके प्रसंस्करण के लिए प्रमुख तत्वों को निकालें -
zipfile.is_zipfile(args.Office_File)
zfile = zipfile.ZipFile(args.Office_File)
core_xml = etree.fromstring(zfile.read('docProps/core.xml'))
app_xml = etree.fromstring(zfile.read('docProps/app.xml'))
अब, मेटाडेटा के निष्कर्षण को शुरू करने के लिए एक शब्दकोश बनाएं -
core_mapping = {
'title': 'Title',
'subject': 'Subject',
'creator': 'Author(s)',
'keywords': 'Keywords',
'description': 'Description',
'lastModifiedBy': 'Last Modified By',
'modified': 'Modified Date',
'created': 'Created Date',
'category': 'Category',
'contentStatus': 'Status',
'revision': 'Revision'
}
उपयोग iterchildren() XML फ़ाइल में प्रत्येक टैग तक पहुँचने की विधि -
for element in core_xml.getchildren():
for key, title in core_mapping.items():
if key in element.tag:
if 'date' in title.lower():
text = dt.strptime(element.text, "%Y-%m-%dT%H:%M:%SZ")
else:
text = element.text
print("{}: {}".format(title, text))
इसी तरह, app.xml फ़ाइल के लिए ऐसा करें जिसमें दस्तावेज़ की सामग्री के बारे में सांख्यिकीय जानकारी हो -
app_mapping = {
'TotalTime': 'Edit Time (minutes)',
'Pages': 'Page Count',
'Words': 'Word Count',
'Characters': 'Character Count',
'Lines': 'Line Count',
'Paragraphs': 'Paragraph Count',
'Company': 'Company',
'HyperlinkBase': 'Hyperlink Base',
'Slides': 'Slide count',
'Notes': 'Note Count',
'HiddenSlides': 'Hidden Slide Count',
}
for element in app_xml.getchildren():
for key, title in app_mapping.items():
if key in element.tag:
if 'date' in title.lower():
text = dt.strptime(element.text, "%Y-%m-%dT%H:%M:%SZ")
else:
text = element.text
print("{}: {}".format(title, text))
अब उपरोक्त स्क्रिप्ट को चलाने के बाद, हम विशेष दस्तावेज के बारे में विभिन्न विवरण प्राप्त कर सकते हैं। ध्यान दें कि हम इस स्क्रिप्ट को Office 2007 या बाद के संस्करण दस्तावेज़ों पर ही लागू कर सकते हैं।