Gensim - การเปลี่ยนแปลง

บทนี้จะช่วยคุณในการเรียนรู้เกี่ยวกับการเปลี่ยนแปลงต่างๆใน Gensim ให้เราเริ่มต้นด้วยการทำความเข้าใจเอกสารการเปลี่ยนแปลง

การแปลงเอกสาร

การแปลงเอกสารหมายถึงการนำเสนอเอกสารในลักษณะที่เอกสารสามารถจัดการได้ทางคณิตศาสตร์ นอกเหนือจากการสรุปโครงสร้างแฝงของคลังข้อมูลแล้วการแปลงเอกสารยังช่วยให้บรรลุเป้าหมายดังต่อไปนี้ -

  • มันค้นพบความสัมพันธ์ระหว่างคำ

  • นำโครงสร้างที่ซ่อนอยู่ในคลังข้อมูลออกมา

  • อธิบายเอกสารในรูปแบบใหม่และมีความหมายมากขึ้น

  • ทำให้การแสดงเอกสารมีขนาดกะทัดรัดมากขึ้น

  • ปรับปรุงประสิทธิภาพเนื่องจากการเป็นตัวแทนใหม่ใช้ทรัพยากรน้อยลง

  • ช่วยเพิ่มประสิทธิภาพเนื่องจากแนวโน้มข้อมูลส่วนขอบในการเป็นตัวแทนใหม่จะถูกละเลย

  • เสียงรบกวนยังลดลงในการแสดงเอกสารใหม่

มาดูขั้นตอนการใช้งานสำหรับการแปลงเอกสารจากการแทนพื้นที่เวกเตอร์หนึ่งไปยังอีก

ขั้นตอนการดำเนินการ

ในการแปลงเอกสารเราต้องทำตามขั้นตอนต่อไปนี้ -

ขั้นตอนที่ 1: การสร้าง Corpus

ขั้นตอนแรกและขั้นพื้นฐานคือการสร้างคลังข้อมูลจากเอกสาร เราได้สร้างคลังข้อมูลในตัวอย่างก่อนหน้านี้แล้ว มาสร้างใหม่ด้วยการปรับปรุงบางอย่าง (ลบคำทั่วไปและคำที่ปรากฏเพียงครั้งเดียว) -

import gensim
import pprint
from collections import defaultdict
from gensim import corpora

ตอนนี้จัดเตรียมเอกสารสำหรับสร้างคลังข้อมูล -

t_corpus = ["CNTK เดิมเรียกว่า Computational Network Toolkit", "เป็นชุดเครื่องมือเกรดเชิงพาณิชย์แบบโอเพนซอร์สที่ใช้งานง่ายฟรี", "ที่ช่วยให้เราสามารถฝึกอัลกอริทึมการเรียนรู้เชิงลึกเพื่อเรียนรู้เหมือนสมองของมนุษย์ คุณสามารถดูบทแนะนำได้ฟรีที่ tutorialspoint.com "," Tutorialspoint.com ยังมีบทแนะนำทางเทคนิคที่ดีที่สุดเกี่ยวกับเทคโนโลยีเช่น AI deep learning machine learning ได้ฟรี "]

ต่อไปเราต้องทำโทเค็นและเราจะลบคำทั่วไปออกไปด้วย -

stoplist = set('for a of the and to in'.split(' '))
processed_corpus = [
   [
      word for word in document.lower().split() if word not in stoplist
   ]
	for document in t_corpus
]

สคริปต์ต่อไปนี้จะลบคำที่ปรากฏเท่านั้น -

frequency = defaultdict(int)
for text in processed_corpus:
   for token in text:
      frequency[token] += 1
   processed_corpus = [
      [token for token in text if frequency[token] > 1] 
      for text in processed_corpus
   ]
pprint.pprint(processed_corpus)

เอาต์พุต

[
   ['toolkit'],
   ['free', 'toolkit'],
   ['deep', 'learning', 'like'],
   ['free', 'on', 'tutorialspoint.com'],
   ['tutorialspoint.com', 'on', 'like', 'deep', 'learning', 'learning', 'free']
]

ตอนนี้ส่งไปยังไฟล์ corpora.dictionary() วัตถุที่จะได้รับวัตถุที่ไม่ซ้ำกันในคลังข้อมูลของเรา -

dictionary = corpora.Dictionary(processed_corpus)
print(dictionary)

เอาต์พุต

Dictionary(7 unique tokens: ['toolkit', 'free', 'deep', 'learning', 'like']...)

จากนั้นโค้ดบรรทัดต่อไปนี้จะสร้างแบบจำลอง Bag of Word สำหรับคลังข้อมูลของเรา -

BoW_corpus = [dictionary.doc2bow(text) for text in processed_corpus]
pprint.pprint(BoW_corpus)

เอาต์พุต

[
   [(0, 1)],
   [(0, 1), (1, 1)],
   [(2, 1), (3, 1), (4, 1)],
   [(1, 1), (5, 1), (6, 1)],
   [(1, 1), (2, 1), (3, 2), (4, 1), (5, 1), (6, 1)]
]

ขั้นตอนที่ 2: การสร้างการเปลี่ยนแปลง

การแปลงเป็นวัตถุ Python มาตรฐานบางอย่าง เราสามารถเริ่มต้นการแปลงเหล่านี้เช่นวัตถุ Python โดยใช้คลังข้อมูลที่ได้รับการฝึกฝน ที่นี่เราจะใช้tf-idf แบบจำลองเพื่อสร้างการเปลี่ยนแปลงของคลังข้อมูลที่ได้รับการฝึกฝนของเราเช่น BoW_corpus.

ก่อนอื่นเราต้องนำเข้าแพ็คเกจโมเดลจาก gensim

from gensim import models

ตอนนี้เราต้องเริ่มต้นโมเดลดังนี้ -

tfidf = models.TfidfModel(BoW_corpus)

ขั้นตอนที่ 3: การเปลี่ยนเวกเตอร์

ตอนนี้ในขั้นตอนสุดท้ายนี้เวกเตอร์จะถูกแปลงจากการแสดงแบบเก่าไปเป็นการแสดงใหม่ ในขณะที่เราได้เริ่มต้นโมเดล tfidf ในขั้นตอนข้างต้นตอนนี้ tfidf จะถือว่าเป็นอ็อบเจ็กต์แบบอ่านอย่างเดียว ที่นี่โดยใช้วัตถุ tfidf นี้เราจะแปลงเวกเตอร์ของเราจากถุงแทนคำ (การแทนค่าแบบเก่า) เป็นน้ำหนักมูลค่าจริงของ Tfidf (การแทนค่าใหม่)

doc_BoW = [(1,1),(3,1)]
print(tfidf[doc_BoW]

เอาต์พุต

[(1, 0.4869354917707381), (3, 0.8734379353188121)]

เราใช้การเปลี่ยนแปลงกับค่าสองค่าของคอร์ปัส แต่เราสามารถนำไปใช้กับคลังข้อมูลทั้งหมดได้ดังนี้ -

corpus_tfidf = tfidf[BoW_corpus]
for doc in corpus_tfidf:
   print(doc)

เอาต์พุต

[(0, 1.0)]
[(0, 0.8734379353188121), (1, 0.4869354917707381)]
[(2, 0.5773502691896257), (3, 0.5773502691896257), (4, 0.5773502691896257)]
[(1, 0.3667400603126873), (5, 0.657838022678017), (6, 0.657838022678017)]
[
   (1, 0.19338287240886842), (2, 0.34687949360312714), (3, 0.6937589872062543), 
   (4, 0.34687949360312714), (5, 0.34687949360312714), (6, 0.34687949360312714)
]

ตัวอย่างการใช้งานที่สมบูรณ์

import gensim
import pprint
from collections import defaultdict
from gensim import corpora
t_corpus = [
   "CNTK formerly known as Computational Network Toolkit", 
   "is a free easy-to-use open-source commercial-grade toolkit", 
   "that enable us to train deep learning algorithms to learn like the human brain.", 
   "You can find its free tutorial on tutorialspoint.com", 
   "Tutorialspoint.com also provide best technical tutorials on 
   technologies like AI deep learning machine learning for free"
]
stoplist = set('for a of the and to in'.split(' '))
processed_corpus = [
   [word for word in document.lower().split() if word not in stoplist]
   for document in t_corpus
]
frequency = defaultdict(int)
for text in processed_corpus:
   for token in text:
      frequency[token] += 1
   processed_corpus = [
      [token for token in text if frequency[token] > 1] 
      for text in processed_corpus
   ]
pprint.pprint(processed_corpus)
dictionary = corpora.Dictionary(processed_corpus)
print(dictionary)
BoW_corpus = [dictionary.doc2bow(text) for text in processed_corpus]
pprint.pprint(BoW_corpus)
   from gensim import models
   tfidf = models.TfidfModel(BoW_corpus)
   doc_BoW = [(1,1),(3,1)]
   print(tfidf[doc_BoW])
   corpus_tfidf = tfidf[BoW_corpus]
   for doc in corpus_tfidf:
print(doc)

การเปลี่ยนแปลงต่างๆใน Gensim

การใช้ Gensim ทำให้เราสามารถใช้การแปลงที่เป็นที่นิยมได้เช่นอัลกอริทึม Vector Space Model บางส่วนมีดังนี้ -

Tf-Idf (ความถี่ระยะ - ความถี่เอกสารผกผัน)

ในระหว่างการเริ่มต้นอัลกอริทึมแบบจำลอง tf-idf นี้คาดว่าคลังข้อมูลการฝึกอบรมจะมีค่าจำนวนเต็ม (เช่นแบบจำลอง Bag-of-Words) หลังจากนั้นในช่วงเวลาของการเปลี่ยนแปลงจะใช้การแทนค่าเวกเตอร์และส่งกลับการแสดงเวกเตอร์อื่น

เวกเตอร์เอาต์พุตจะมีขนาดเท่ากัน แต่ค่าของคุณสมบัติที่หายาก (ในขณะฝึกอบรม) จะเพิ่มขึ้น โดยทั่วไปแล้วมันจะแปลงเวกเตอร์ที่มีมูลค่าจำนวนเต็มเป็นเวกเตอร์ที่มีมูลค่าจริง ต่อไปนี้เป็นไวยากรณ์ของการแปลง Tf-idf -

Model=models.TfidfModel(corpus, normalize=True)

LSI (การสร้างดัชนีความหมายแฝง)

อัลกอริทึมแบบจำลอง LSI สามารถแปลงเอกสารจากแบบจำลองเวกเตอร์ที่มีมูลค่าจำนวนเต็ม (เช่นแบบจำลองถุงคำ) หรือพื้นที่ถ่วงน้ำหนัก Tf-Idf ให้เป็นช่องว่างแฝง เวกเตอร์เอาต์พุตจะมีขนาดต่ำกว่า ต่อไปนี้เป็นไวยากรณ์ของการแปลง LSI -

Model=models.LsiModel(tfidf_corpus, id2word=dictionary, num_topics=300)

LDA (การจัดสรร Dirichlet แฝง)

อัลกอริทึมแบบจำลอง LDA เป็นอัลกอริทึมอื่นที่เปลี่ยนเอกสารจากพื้นที่แบบจำลองถุงคำเป็นช่องว่างหัวข้อ เวกเตอร์เอาต์พุตจะมีขนาดต่ำกว่า ต่อไปนี้เป็นไวยากรณ์ของการแปลง LSI -

Model=models.LdaModel(corpus, id2word=dictionary, num_topics=100)

การคาดการณ์แบบสุ่ม (RP)

RP ซึ่งเป็นแนวทางที่มีประสิทธิภาพมากมีจุดมุ่งหมายเพื่อลดขนาดของพื้นที่เวกเตอร์ โดยพื้นฐานแล้ววิธีนี้เป็นการประมาณระยะ Tf-Idf ระหว่างเอกสาร ทำได้โดยการสุ่มตัวอย่างเล็กน้อย

Model=models.RpModel(tfidf_corpus, num_topics=500)

กระบวนการ Dirichlet ตามลำดับชั้น (HDP)

HDP เป็นวิธีการแบบ Bayesian ที่ไม่ใช่พาราเมตริกซึ่งเป็นส่วนเสริมใหม่ของ Gensim เราควรต้องดูแลขณะใช้งาน

Model=models.HdpModel(corpus, id2word=dictionary