PHP'de HTML / XML'i nasıl ayrıştırır ve işlersiniz?

Aug 27 2010

HTML / XML nasıl ayrıştırılır ve ondan bilgi çıkarılır?

Yanıtlar

1933 Gordon Aug 27 2010 at 00:19

Yerel XML Uzantıları

PHP ile birlikte geldikleri için yerel XML uzantılarından birini kullanmayı tercih ederim , genellikle tüm 3. taraf kitaplıklardan daha hızlıdır ve işaretleme üzerinde ihtiyacım olan tüm kontrolü bana verir.

DOM

DOM uzantısı, PHP 5 ile DOM API aracılığıyla XML belgeleri üzerinde çalışmanıza olanak tanır. Programların ve komut dosyalarının dinamik olarak erişmesine ve güncellenmesine olanak tanıyan, platform ve dilden bağımsız bir arayüz olan W3C'nin Belge Nesne Modeli Temel Seviye 3'ün bir uygulamasıdır. belgelerin içeriği, yapısı ve stili.

DOM, gerçek dünyadaki (bozuk) HTML'yi ayrıştırma ve değiştirme yeteneğine sahiptir ve XPath sorguları yapabilir . Libxml tabanlıdır .

DOM ile üretken olmak biraz zaman alır, ancak bu süre buna değer. IMO. DOM dilden bağımsız bir arayüz olduğundan, birçok dilde uygulamalar bulacaksınız, bu nedenle programlama dilinizi değiştirmeniz gerekirse, o dilin DOM API'sini nasıl kullanacağınızı zaten biliyorsunuzdur.

Temel bir kullanım örneği, bir A öğesinin href özniteliğini yakalama bölümünde bulunabilir ve genel bir kavramsal genel bakış php'de DOMDocument'da bulunabilir.

DOM uzantısının nasıl kullanılacağı StackOverflow'da kapsamlı bir şekilde ele alınmıştır , bu nedenle kullanmayı seçerseniz, karşılaştığınız sorunların çoğunun Stack Overflow'u arayarak / tarayarak çözülebileceğinden emin olabilirsiniz.

XMLReader

XMLReader uzantısı bir XML çekme ayrıştırıcısıdır. Okuyucu, belge akışında ileriye doğru giden ve yoldaki her düğümde duran bir imleç görevi görür.

XMLReader, DOM gibi, libxml'ye dayanır. HTML Ayrıştırıcı Modülünü nasıl tetikleyeceğimi bilmiyorum, bu nedenle bozuk HTML'yi ayrıştırmak için XMLReader kullanma şansı, ona libxml'in HTML Ayrıştırıcı Modülünü kullanmasını açıkça söyleyebileceğiniz DOM'u kullanmaktan daha az güçlü olabilir.

Php kullanarak h1 etiketlerinden tüm değerleri almak için temel bir kullanım örneği bulunabilir.

XML Ayrıştırıcı

Bu uzantı, XML ayrıştırıcıları oluşturmanıza ve ardından farklı XML olayları için işleyiciler tanımlamanıza olanak tanır. Her XML ayrıştırıcısının ayarlayabileceğiniz birkaç parametresi de vardır.

XML Ayrıştırıcı kitaplığı da libxml tabanlıdır ve SAX tarzı XML itme ayrıştırıcısı uygular . Bellek yönetimi için DOM veya SimpleXML'den daha iyi bir seçim olabilir, ancak bununla çalışmak XMLReader tarafından uygulanan çekme ayrıştırıcısından daha zor olacaktır.

SimpleXml

SimpleXML uzantısı, XML'i normal özellik seçiciler ve dizi yineleyicilerle işlenebilen bir nesneye dönüştürmek için çok basit ve kolay kullanılabilir bir araç seti sağlar.

SimpleXML, HTML'nin geçerli XHTML olduğunu bildiğinizde bir seçenektir. Kırık HTML'yi ayrıştırmanız gerekiyorsa, boğulacağı için SimpleXml'yi düşünmeyin bile.

Temel bir kullanım örneği bulunabilir xml dosyasının CRUD düğüm ve düğüm değerleri basit bir programı ve orada Manuel PHP ek örnekler çok .


3. Taraf Kitaplıkları (libxml tabanlı)

Üçüncü taraf kitaplığı kullanmayı tercih ederseniz , dizge ayrıştırma yerine DOM / libxml'yi gerçekten kullanan bir kitaplık kullanmanızı öneririm .

FluentDom - Repo

FluentDOM, PHP'deki DOMDocument için jQuery benzeri akıcı bir XML arayüzü sağlar. Seçiciler, XPath veya CSS'de yazılır (CSS'den XPath'e dönüştürücü kullanılarak). Mevcut sürümler, DOM uygulama standart arayüzlerini genişletir ve DOM Yaşam Standardından özellikler ekler. FluentDOM, JSON, CSV, JsonML, RabbitFish ve diğerleri gibi formatları yükleyebilir. Composer aracılığıyla kurulabilir.

HtmlPageDom

Wa72 \ HtmlPageDom`, kullanarak HTML belgelerinin kolay işlenmesi için bir PHP kitaplığıdır . DOM ağacında gezinmek için Symfony2 bileşenlerinden DomCrawler gerektirir ve HTML belgelerinin DOM ağacını işlemek için yöntemler ekleyerek bunu genişletir.

phpQuery (yıllarca güncellenmez)

phpQuery, PHP5'te yazılan jQuery JavaScript Kitaplığına dayalı, sunucu tarafı, zincirlenebilir, CSS3 seçici odaklı Belge Nesne Modeli (DOM) API'sidir ve ek Komut Satırı Arayüzü (CLI) sağlar.

Ayrıca bkz: https://github.com/electrolinux/phpquery

Zend_Dom

Zend_Dom, DOM belgeleri ve yapılarıyla çalışmak için araçlar sağlar. Şu anda, hem XPath hem de CSS seçicilerini kullanan DOM belgelerini sorgulamak için birleşik bir arayüz sağlayan Zend_Dom_Query'yi sunuyoruz.

QueryPath

QueryPath, XML ve HTML'yi işlemek için bir PHP kitaplığıdır. Yalnızca yerel dosyalarla değil, aynı zamanda web hizmetleri ve veritabanı kaynaklarıyla da çalışmak üzere tasarlanmıştır. JQuery arayüzünün çoğunu (CSS tarzı seçiciler dahil) uygular, ancak sunucu tarafında kullanım için büyük ölçüde ayarlanmıştır. Composer aracılığıyla kurulabilir.

fDOMDocument

fDOMDocument, standart DOM'u PHP uyarıları veya bildirimleri yerine tüm hata durumlarında istisnaları kullanacak şekilde genişletir. Ayrıca, kolaylık sağlamak ve DOM kullanımını basitleştirmek için çeşitli özel yöntemler ve kısayollar eklerler.

saber / xml

saber / xml, basit bir "xml'den nesneye / diziye" eşleme sistemi ve tasarım modeli oluşturmak için XMLReader ve XMLWriter sınıflarını saran ve genişleten bir kitaplıktır. XML yazma ve okuma tek geçişlidir ve bu nedenle hızlı olabilir ve büyük xml dosyalarında düşük bellek gerektirir.

FluidXML

FluidXML, XML'i kısa ve akıcı bir API ile işlemek için kullanılan bir PHP kitaplığıdır. Eğlenceli ve etkili olması için XPath ve akıcı programlama modelini kullanır.


3. Taraf (libxml tabanlı değil)

DOM / libxml üzerine inşa etmenin yararı, yerel bir uzantıya dayalı olduğunuz için kutudan çıkar çıkmaz iyi performans elde etmenizdir. Ancak, tüm 3. taraf kitaplıklar bu yoldan gitmez. Bazıları aşağıda listelenmiştir

PHP Basit HTML DOM Ayrıştırıcı

  • PHP5 + ile yazılmış bir HTML DOM ayrıştırıcısı, HTML'yi çok kolay bir şekilde işlemenizi sağlar!
  • PHP 5+ gerektirir.
  • Geçersiz HTML'yi destekler.
  • JQuery gibi seçicilere sahip bir HTML sayfasında etiketleri bulun.
  • İçeriği HTML'den tek bir satırda çıkarın.

Genelde bu ayrıştırıcıyı önermem. Kod tabanı korkunç ve ayrıştırıcının kendisi oldukça yavaş ve hafızaya aç. Tüm jQuery Seçiciler ( çocuk seçiciler gibi ) mümkün değildir. Libxml tabanlı kitaplıklardan herhangi biri bundan kolayca daha iyi performans göstermelidir.

PHP Html Ayrıştırıcı

PHPHtmlParser, jQuery gibi herhangi bir css seçici kullanarak etiketleri seçmenize olanak tanıyan basit, esnek bir html ayrıştırıcısıdır. Hedef, geçerli olsun ya da olmasın html'yi hızlı ve kolay bir şekilde hurdaya çıkarmanın yollarını gerektiren araçların geliştirilmesine yardımcı olmaktır! Bu proje orijinal olarak sunra / php-simple-html-dom-parser tarafından desteklendi, ancak destek durmuş gibi görünüyor, bu yüzden bu proje benim önceki çalışmasının uyarlaması.

Yine, bu ayrıştırıcıyı tavsiye etmem. Yüksek CPU kullanımıyla oldukça yavaştır. Oluşturulan DOM nesnelerinin belleğini temizleme işlevi de yoktur. Bu sorunlar özellikle iç içe geçmiş döngülerle ölçeklenir. Belgelerin kendisi yanlış ve yanlış yazılmış, 14 Nisan 16'dan bu yana düzeltmelere yanıt verilmiyor.

Ganon

  • Evrensel bir belirteç ve HTML / XML / RSS DOM Ayrıştırıcı
    • Öğeleri ve özniteliklerini değiştirme yeteneği
    • Geçersiz HTML ve UTF8'i destekler
  • Öğeler üzerinde CSS3 benzeri gelişmiş sorgular gerçekleştirebilir (jQuery gibi - desteklenen ad alanları)
  • Bir HTML güzelleştirici (HTML Tidy gibi)
    • CSS ve Javascript'i küçültün
    • Nitelikleri sıralayın, büyük / küçük harf değiştirin, girintiyi düzeltin vb.
  • Genişletilebilir
    • Geri aramaları kullanarak belgeleri geçerli karakter / belirteç temelinde ayrıştırma
    • Kolay geçersiz kılma için daha küçük işlevlere ayrılmış işlemler
  • Hızlı ve kolay

Hiç kullanmadım. İyi olup olmadığını anlayamıyorum.


HTML 5

Yukarıdakileri HTML5'i ayrıştırmak için kullanabilirsiniz, ancak HTML5'in izin verdiği biçimlendirme nedeniyle tuhaflıklar olabilir . Dolayısıyla, HTML5 için özel bir ayrıştırıcı kullanmayı düşünebilirsiniz, örneğin

html5lib

Büyük masaüstü web tarayıcıları ile maksimum uyumluluk için WHATWG HTML5 spesifikasyonuna dayalı bir HTML ayrıştırıcısının Python ve PHP uygulamaları.

HTML5 sonlandırıldığında daha fazla özel ayrıştırıcı görebiliriz. Ayrıca W3'ün html 5 ayrıştırması için Nasıl Yapılır başlıklı bir blog gönderisi de var ve incelemeye değer.


Ağ hizmetleri

PHP'yi programlamak istemiyorsanız, Web hizmetlerini de kullanabilirsiniz. Genel olarak, bunlar için çok az fayda buldum, ancak bu sadece ben ve kullanım durumlarım.

ScraperWiki .

ScraperWiki'nin harici arayüzü, web'de veya kendi uygulamalarınızda kullanmak istediğiniz formdaki verileri çıkarmanıza olanak tanır. Ayrıca herhangi bir sıyırıcının durumu hakkında bilgi alabilirsiniz.


Düzenli ifadeler

Son ve en az önerilen , verileri HTML'den normal ifadelerle çıkarabilirsiniz . Genel olarak, HTML üzerinde Normal İfadeler kullanılması önerilmez.

İşaretlemeyle eşleşmek için web'de bulacağınız parçaların çoğu kırılgandır. Çoğu durumda, yalnızca çok özel bir HTML parçası için çalışırlar. Bir yere boşluk eklemek veya bir etikete öznitelikler eklemek veya değiştirmek gibi küçük biçimlendirme değişiklikleri, düzgün yazılmadığında RegEx'in başarısız olmasına neden olabilir. HTML'de RegEx'i kullanmadan önce ne yaptığınızı bilmelisiniz.

HTML ayrıştırıcıları, HTML'nin sözdizimsel kurallarını zaten biliyor. Yazdığınız her yeni Normal İfade için normal ifadeler öğretilmelidir. Normal İfadeler bazı durumlarda iyidir, ancak gerçekten kullanım durumunuza bağlıdır.

Sen daha güvenilir ayrıştırıcılar yazabilirsiniz , ancak bir yazma tam ve güvenilir düzenli ifadeler ile özel ayrıştırıcı yukarıda belirtilen kütüphaneler zaten var ve bu konuda çok daha iyi bir iş yapmak zaman kaybıdır.

Html Ayrıştırma Cthulhu Yöntemine de bakın


Kitabın

Biraz para harcamak istiyorsanız, bir göz atın

  • PHP Architect's Guide to Webscraping with PHP

PHP Architect veya yazarlara bağlı değilim.

327 Naveed Aug 27 2010 at 00:18

Simple HTML DOM Parser'ı deneyin

  • PHP 5+ ile yazılmış bir HTML DOM ayrıştırıcısı, HTML'yi çok kolay bir şekilde işlemenizi sağlar!
  • PHP 5+ gerektirir.
  • Geçersiz HTML'yi destekler.
  • JQuery gibi seçicilere sahip bir HTML sayfasında etiketleri bulun.
  • İçeriği HTML'den tek bir satırda çıkarın.
  • İndir


Örnekler:

HTML öğeleri nasıl alınır:

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/'); // Find all images foreach($html->find('img') as $element) echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';


HTML öğeleri nasıl değiştirilir:

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar'; $html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html;


HTML'den içerik ayıklayın:

// Dump contents (without tags) from HTML
echo file_get_html('http://www.google.com/')->plaintext;


Slashdot'u kazıma:

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title'] = $article->find('div.title', 0)->plaintext;
    $item['intro'] = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);
239 EdwardZ.Yang Nov 27 2008 at 03:02

Sadece kullanmak DomDocument> loadHTML () ve onunla yapılabilir. libxml'in HTML ayrıştırma algoritması oldukça iyi ve hızlıdır ve popüler inancın aksine, hatalı biçimlendirilmiş HTML'yi boğmaz.

150 mario Sep 06 2010 at 16:40

Normal ifadeleri neden kullanmamalısınız ve ne zaman kullanmalısınız?

Öncelikle, yaygın bir yanlış adlandırma: Normal ifadeler HTML'yi " ayrıştırmak " için değildir . Ancak normal ifadeler verileri " çıkarabilir " . Çıkarma, bunun için yapılmıştır. Düzenli ifade HTML çıkarmanın uygun SGML araç takımlarına veya temel XML ayrıştırıcılarına göre en büyük dezavantajı, sözdizimsel çabaları ve değişken güvenilirlikleridir.

Biraz güvenilir bir HTML çıkarma normal ifadesi oluşturmayı düşünün:

<a\s+class="?playbutton\d?[^>]+id="(\d+)".+?    <a\s+class="[\w\s]*title
[\w\s]*"[^>]+href="(http://[^">]+)"[^>]*>([^<>]+)</a>.+?

basit bir phpQuery veya QueryPath eşdeğerinden çok daha az okunabilir:

$div->find(".stationcool a")->attr("title");

Bununla birlikte, yardımcı olabilecekleri özel kullanım durumları vardır.

  • Çoğu DOM geçişi ön ucu HTML yorumlarını açığa çıkarmaz <!--, ancak bunlar bazen ayıklama için daha kullanışlı bağlantılardır. Özellikle sözde HTML varyasyonlarının <$var>veya SGML kalıntılarının regexps ile evcilleştirilmesi kolaydır.
  • Çoğu zaman normal ifadeler işlem sonrası kaydedebilir. Bununla birlikte, HTML varlıkları genellikle manuel düzeltme gerektirir.
  • Ve son olarak, <img src = url'leri ayıklamak gibi son derece basit görevler için , bunlar aslında olası bir araçtır. SGML / XML ayrıştırıcılara göre hız avantajı çoğunlukla bu çok temel ayıklama prosedürleri için devreye giriyor.

Bazen bir HTML parçacığını normal ifadeler kullanarak önceden ayıklamak /<!--CONTENT-->(.+?)<!--END-->/ve kalanını daha basit HTML ayrıştırıcı ön uçlarını kullanarak işlemek bile tavsiye edilir .

Not: Aslında, alternatif olarak XML ayrıştırma ve normal ifadeler kullandığım bu uygulamaya sahibim. Daha geçen hafta PyQuery ayrıştırması bozuldu ve normal ifade hala çalışıyordu. Evet tuhaf ve bunu kendim açıklayamam. Ama öyle oldu.
Bu yüzden lütfen gerçek dünya düşüncelerini aşağıya oylamayın, çünkü bu regex = evil mem ile eşleşmiyor. Ama buna çok da oy vermeyelim. Bu konu için sadece bir yan not.

133 mario Sep 07 2010 at 21:45

phpQuery ve QueryPath , akıcı jQuery API'sini çoğaltmada son derece benzerdir. Bu yüzden PHP'de HTML'yi düzgün bir şekilde ayrıştırmak için en kolay iki yaklaşımdır .

QueryPath örnekleri

Temel olarak, önce bir HTML dizesinden sorgulanabilir bir DOM ağacı oluşturursunuz:

 $qp = qp("<html><body><h1>title</h1>..."); // or give filename or URL

Ortaya çıkan nesne, HTML belgesinin tam bir ağaç temsilini içerir. DOM yöntemleri kullanılarak üzerinden geçilebilir. Ancak genel yaklaşım, jQuery'deki gibi CSS seçicileri kullanmaktır:

 $qp->find("div.classname")->children()->...;

 foreach ($qp->find("p img") as $img) {
     print qp($img)->attr("src");
 }

Çoğunlukla için basit #idve / .classveya DIVetiket seçicileri kullanmak istiyorsunuz ->find(). Ancak bazen daha hızlı olan XPath ifadelerini de kullanabilirsiniz . Gibi Ayrıca tipik jQuery yöntemleri ->children()ve ->text()özellikle ->attr()sağ HTML parçacıkları ayıklanması basitleştirmek. (Ve SGML varlıklarının kodu zaten çözüldü.)

 $qp->xpath("//div/p[1]");  // get first paragraph in a div

QueryPath ayrıca yeni etiketlerin akışa ( ->append) enjekte edilmesine ve daha sonra güncellenmiş bir belgenin ( ->writeHTML) çıktılanmasına ve güzelleştirilmesine izin verir . Yalnızca yanlış biçimlendirilmiş HTML'yi değil, aynı zamanda çeşitli XML lehçelerini (ad alanlarıyla) ayrıştırabilir ve hatta HTML mikro biçimlerinden (XFN, vCard) veri çıkarabilir.

 $qp->find("a[target=_blank]")->toggleClass("usability-blunder");

.

phpQuery veya QueryPath?

Genellikle QueryPath, belgelerin işlenmesi için daha uygundur. PhpQuery ayrıca jQuery'ye daha çok benzemek için bazı sözde AJAX yöntemlerini (sadece HTTP istekleri) uygular. PhpQuery'nin genellikle QueryPath'ten daha hızlı olduğu söylenir (daha az genel özellik nedeniyle).

Farklılıklar hakkında daha fazla bilgi için tagbyte.org'dan geri dönüş makinesindeki bu karşılaştırmaya bakın . (Orijinal kaynak kayboldu, işte bir internet arşiv bağlantısı. Evet, yine de eksik sayfaları bulabilirsiniz, insanlar.)

Ve işte kapsamlı bir QueryPath girişi .

Avantajlar

  • Basitlik ve Güvenilirlik
  • Kullanımı basit alternatifler ->find("a img, a object, div a")
  • Uygun veri çıkışını kaldırma (normal ifade grplemesine kıyasla)
88 RobertElwell Nov 16 2008 at 05:16

Basit HTML DOM, harika bir açık kaynak ayrıştırıcıdır:

simplehtmldom.sourceforge

DOM öğelerini nesneye yönelik bir şekilde ele alır ve yeni yinelemenin, uyumlu olmayan kod için çok fazla kapsamı vardır. JavaScript'te gördüğünüz gibi, bu etiket adının tüm öğelerinin örneklerini döndüren "bul" işlevi gibi bazı harika işlevler de vardır.

Bunu bir dizi araçta kullandım, birçok farklı web sayfasında test ettim ve harika çalıştığını düşünüyorum.

61 Eli May 01 2011 at 09:04

Burada bahsetmediğim genel bir yaklaşım, HTML'yi garantili geçerli XHTML'yi tükürmek için ayarlanabilen Tidy aracılığıyla çalıştırmaktır . Daha sonra herhangi bir eski XML kitaplığını kullanabilirsiniz.

Ancak özel sorununuz için, bu projeye bir göz atmalısınız: http://fivefilters.org/content-only/- bir sayfadan yalnızca metin içeriğini (üstbilgi ve altbilgi değil) çıkarmak için tasarlanmış Okunabilirlik algoritmasının değiştirilmiş bir sürümüdür .

56 Timo Sep 06 2010 at 16:19

1a ve 2 için: Yeni Symfony Componet sınıfı DOMCrawler'a ( DomCrawler ) oy verirdim . Bu sınıf, CSS Seçicilerine benzer sorgulara izin verir. Gerçek dünyadan örnekler için bu sunuma bir göz atın: symfony2 dünyası haberleri .

Bileşen bağımsız çalışacak şekilde tasarlanmıştır ve Symfony olmadan kullanılabilir.

Tek dezavantajı, yalnızca PHP 5.3 veya daha yenisi ile çalışacak olmasıdır.

53 JoelVerhagen Aug 27 2010 at 00:20

Bu arada, buna genel olarak elek kazıma denir . Bunun için kullandığım kütüphane Simple HTML Dom Parser .

42 jancha Oct 04 2011 at 20:14

Daha önce ihtiyaçlarımız için epeyce tarayıcı oluşturduk. Günün sonunda, işi en iyi yapan şey genellikle basit normal ifadelerdir. Yukarıda listelenen kitaplıklar, oluşturuldukları için iyi olsa da, ne aradığınızı biliyorsanız, normal ifadeler daha güvenli bir yoldur, çünkü yüklenirse başarısız olan geçersiz HTML / XHTML yapılarını da işleyebilirsiniz. ayrıştırıcıların çoğu aracılığıyla.

39 Greg Nov 07 2012 at 04:02

PHP Simple HTML DOM Parser'ı öneririm .

Gerçekten güzel özelliklere sahip, örneğin:

foreach($html->find('img') as $element)
       echo $element->src . '<br>';
36 Jens Apr 15 2011 at 02:08

Bu, W3C XPath teknolojisinin iyi bir görev tanımına benziyor . " İç içe geçmiş etiketlerdeki tüm hreföznitelikleri döndür" gibi sorguları ifade etmek kolaydır . Bir PHP tutkunu olmamakla birlikte, size XPath'in hangi formda mevcut olabileceğini söyleyemem. HTML dosyasını işlemek için harici bir program çağırabiliyorsanız, XPath'in komut satırı sürümünü kullanabilmeniz gerekir. Hızlı bir giriş için bkz.img<foo><bar><baz> elementshttp://en.wikipedia.org/wiki/XPath.

30 AmalMurali Sep 07 2010 at 15:57

Dize Ayrıştırma yerine DOM kullanan SimpleHtmlDom'a üçüncü taraf alternatifler: phpQuery , Zend_Dom , QueryPath ve FluentDom .

25 Rafay Jan 05 2012 at 21:49

Evet, amaç için simple_html_dom kullanabilirsiniz. Ancak simple_html_dom ile, özellikle web hurdaya çıkarma için oldukça fazla çalıştım ve çok savunmasız olduğunu gördüm. Temel işi yapıyor ama yine de tavsiye etmeyeceğim.

Curl'yi hiç bu amaçla kullanmadım ama öğrendiğim şey curl'nin işi çok daha verimli bir şekilde yapabildiği ve çok daha sağlam olduğu.

Lütfen şu bağlantıya göz atın: curl ile web siteleri kazıma

23 ChristopherThomas Apr 15 2012 at 20:12

QueryPath iyidir, ancak "izleme durumu" konusunda dikkatli olun çünkü bunun ne anlama geldiğini anlamadıysanız, ne olduğunu ve kodun neden çalışmadığını bulmaya çalışırken çok fazla hata ayıklama zamanı harcayacağınız anlamına gelebilir.

Bunun anlamı, sonuç kümesindeki her çağrının nesnedeki sonuç kümesini değiştirmesidir, jquery'de olduğu gibi zincirleme yapılamaz, her bağlantının yeni bir küme olduğu, sorgunuzun sonuçları olan tek bir kümeniz vardır ve her işlev çağrısı değiştirir o tek set.

jquery benzeri davranış elde etmek için, bir filtreleme / değiştirme işlemi yapmadan önce dallanmanız gerekir, bu, jquery'de olanları çok daha yakından yansıtacağı anlamına gelir.

$results = qp("div p"); $forename = $results->find("input[name='forename']");

$resultsşimdi input[name='forename']orijinal sorgu DEĞİL sonuç kümesini içeriyor, "div p"bu beni çok heyecanlandırdı , bulduğum şey, QueryPath'in filtreleri ve bulduğu her şeyi ve sonuçlarınızı değiştiren ve bunları nesnede depolayan her şeyi izlediğiydi . bunun yerine bunu yapmalısın

$forename = $results->branch()->find("input[name='forname']")

daha sonra $resultsdeğiştirilmez ve sonuç kümesini tekrar tekrar kullanabilirsiniz, belki çok daha fazla bilgiye sahip biri bunu biraz açıklayabilir, ama temelde bulduğum şey böyle.

22 pguardiario Dec 18 2014 at 11:29

Advanced Html Dom , aynı arayüzü sunan basit bir HTML DOM değişimidir, ancak DOM tabanlıdır, bu da ilişkili bellek sorunlarının hiçbirinin meydana gelmediği anlamına gelir.

Ayrıca jQuery uzantıları da dahil olmak üzere tam CSS desteğine sahiptir .

20 ReidJohnson Jul 09 2013 at 01:50

İçin HTML5 , HTML5 lib yıllardır terk edildi. Son güncelleme ve bakım kayıtlarıyla bulabildiğim tek HTML5 kitaplığı , bir haftadan biraz daha uzun bir süre önce beta 1.0'a getirilen html5-php .

19 JohnSlegers Jul 09 2015 at 21:33

PHPPowertools / DOM-Query adlı bir kitaplık oluşturdum , bu da jQuery'de yaptığınız gibi HTML5 ve XML belgelerini taramanıza izin veriyor.

Başlık altında, CSS seçicilerinin XPath seçicilere dönüştürülmesi için symfony / DomCrawler kullanır . İyi performans sağlamak için bir nesneyi diğerine aktarırken bile her zaman aynı DomDocument'i kullanır.


Örnek kullanım:

namespace PowerTools;

// Get file content
$htmlcode = file_get_contents('https://github.com'); // Define your DOMCrawler based on file string $H = new DOM_Query($htmlcode); // Define your DOMCrawler based on an existing DOM_Query instance $H = new DOM_Query($H->select('body')); // Passing a string (CSS selector) $s = $H->select('div.foo'); // Passing an element object (DOM Element) $s = $H->select($documentBody);

// Passing a DOM Query object
$s = $H->select( $H->select('p + p')); // Select the body tag $body = $H->select('body'); // Combine different classes as one selector to get all site blocks $siteblocks = $body->select('.site-header, .masthead, .site-body, .site-footer'); // Nest your methods just like you would with jQuery $siteblocks->select('button')->add('span')->addClass('icon icon-printer');

// Use a lambda function to set the text of all site blocks
$siteblocks->text(function( $i, $val) { return $i . " - " . $val->attr('class'); }); // Append the following HTML to all site blocks $siteblocks->append('<div class="site-center"></div>');

// Use a descendant selector to select the site's footer
$sitefooter = $body->select('.site-footer > .site-center');

// Set some attributes for the site's footer
$sitefooter->attr(array('id' => 'aweeesome', 'data-val' => 'see')); // Use a lambda function to set the attributes of all site blocks $siteblocks->attr('data-val', function( $i, $val) {
    return $i . " - " . $val->attr('class') . " - photo by Kelly Clark";
});

// Select the parent of the site's footer
$sitefooterparent = $sitefooter->parent();

// Remove the class of all i-tags within the site's footer's parent
$sitefooterparent->select('i')->removeAttr('class'); // Wrap the site's footer within two nex selectors $sitefooter->wrap('<section><div class="footer-wrapper"></div></section>');

[...]

Desteklenen yöntemler:

  • [x] $ (1)
  • [x] $ .parseHTML
  • [x] $ .parseXML
  • [x] $ .parseJSON
  • [x] $ seçim.add
  • [x] $ selection.addClass
  • [x] $ seçim.sonrası
  • [x] $ selection.append
  • [x] $ selection.attr
  • [x] $ selection.before
  • [x] $ selection.children
  • [x] $ selection.closest
  • [x] $ selection.contents
  • [x] $ seçim.detach
  • [x] $ seçim. her biri
  • [x] $ selection.eq
  • [x] $ seçim.boş (2)
  • [x] $ selection.find
  • [x] $ selection.first
  • [x] $ selection.get
  • [x] $ selection.insertAfter
  • [x] $ selection.insertBefore
  • [x] $ selection.last
  • [x] $ selection.parent
  • [x] $ selection.parents
  • [x] $ seçim.kaldır
  • [x] $ selection.removeAttr
  • [x] $ selection.removeClass
  • [x] $ seçim.text
  • [x] $ selection.wrap

  1. Bariz nedenlerden dolayı "seç" olarak yeniden adlandırıldı
  2. PHP'de "boş" ayrılmış bir kelime olduğundan "void" olarak yeniden adlandırıldı

NOT :

Kitaplık ayrıca PSR-0 uyumlu kitaplıklar için kendi sıfır konfigürasyonlu otomatik yükleyicisini içerir. Dahil edilen örnek, herhangi bir ek yapılandırma olmadan kutudan çıktığı gibi çalışmalıdır. Alternatif olarak, besteci ile de kullanabilirsiniz.

17 PaulWarelis May 12 2013 at 08:23

GB dosyalarını kolayca işleyebilen genel amaçlı bir XML ayrıştırıcı yazdım. XMLReader'a dayalıdır ve kullanımı çok kolaydır:

$source = new XmlExtractor("path/to/tag", "/path/to/file.xml"); foreach ($source as $tag) { echo $tag->field1;
    echo $tag->field2->subfield1;
}

İşte github deposu : XmlExtractor

16 Ric May 31 2011 at 22:12

Deneyebileceğiniz başka bir seçenek de QueryPath'dir . Bu jQuery esinlenerek, ancak PHP sunucu üzerinde ve içinde kullanılan Drupal .

15 CesarB Nov 16 2008 at 05:24

Herhangi bir "bozuk" HTML'yi temizlemek için HTML Tidy gibi bir şey kullanmayı deneyebilir ve HTML'yi XHTML'ye dönüştürebilir ve daha sonra bir XML ayrıştırıcıyla ayrıştırabilirsiniz.

12 troelskn Nov 16 2008 at 02:55

XML_HTMLSaxoldukça kararlıdır - artık korunmasa bile. Başka bir seçenek de HTML'yi Html Tidy aracılığıyla yönlendirmek ve ardından standart XML araçlarıyla ayrıştırmak olabilir.

12 JohnSlegers Jul 03 2014 at 16:55

Birçoğundan daha önce bahsedilmiş olan HTML / XML DOM'u işlemenin birçok yolu vardır. Bu nedenle, bunları kendim listelemeye çalışmayacağım.

Yalnızca kişisel olarak DOM uzantısını kullanmayı tercih ettiğimi ve bunun nedenini eklemek istiyorum:

  • iit, temeldeki C kodunun performans avantajından en iyi şekilde yararlanır
  • OO PHP'dir (ve onu alt sınıflara ayırmama izin verir)
  • oldukça düşük seviyeli (bu, onu daha gelişmiş davranışlar için şişirilmemiş bir temel olarak kullanmama izin veriyor)
  • DOM'un her bölümüne erişim sağlar (örneğin, daha az bilinen bazı XML özelliklerini yok sayan SimpleXml'den farklı olarak)
  • DOM taraması için kullanılan, yerel Javascript'te kullanılan sözdizimine benzer bir sözdizimi vardır.

Ve CSS seçicilerini kullanma yeteneğini özlememe DOMDocumentrağmen, bu özelliği eklemenin oldukça basit ve kullanışlı bir yolu var: alt sınıflara DOMDocumentJS benzeri querySelectorAllve querySelectoralt sınıfınıza yöntemler eklemek.

Seçicileri ayrıştırmak için Symfony çerçevesinden çok minimalist CssSelector bileşenini kullanmanızı tavsiye ederim . Bu bileşen sadece CSS seçicilerini XPath seçicilerine çevirir ve bu daha sonra ilgili Nodelist'i almak için a'ya beslenebilir.DOMXpath

Daha sonra bu (hala çok düşük seviyeli) alt sınıfı daha yüksek seviyeli sınıflar için bir temel olarak kullanabilirsiniz, örneğin. çok özel XML türlerini ayrıştırın veya daha fazla jQuery benzeri davranış ekleyin.

Aşağıdaki kod doğrudan DOM-Query kitaplığımdan çıkar ve anlattığım tekniği kullanır.

HTML ayrıştırması için:

namespace PowerTools;

use \Symfony\Component\CssSelector\CssSelector as CssSelector;

class DOM_Document extends \DOMDocument {
    public function __construct($data = false, $doctype = 'html', $encoding = 'UTF-8', $version = '1.0') {
        parent::__construct($version, $encoding);
        if ($doctype && $doctype === 'html') {
            @$this->loadHTML($data);
        } else {
            @$this->loadXML($data);
        }
    }

    public function querySelectorAll($selector, $contextnode = null) {
        if (isset($this->doctype->name) && $this->doctype->name == 'html') {
            CssSelector::enableHtmlExtension();
        } else {
            CssSelector::disableHtmlExtension();
        }
        $xpath = new \DOMXpath($this);
        return $xpath->query(CssSelector::toXPath($selector, 'descendant::'), $contextnode); } [...] public function loadHTMLFile($filename, $options = 0) { $this->loadHTML(file_get_contents($filename), $options);
    }

    public function loadHTML($source, $options = 0) {
        if ($source && $source != '') {
            $data = trim($source);
            $html5 = new HTML5(array('targetDocument' => $this, 'disableHtmlNsInDom' => true));
            $data_start = mb_substr($data, 0, 10);
            if (strpos($data_start, '<!DOCTYPE ') === 0 || strpos($data_start, '<html>') === 0) {
                $html5->loadHTML($data);
            } else {
                @$this->loadHTML('<!DOCTYPE html><html><head><meta charset="' . $encoding . '" /></head><body></body></html>');
                $t = $html5->loadHTMLFragment($data); $docbody = $this->getElementsByTagName('body')->item(0); while ($t->hasChildNodes()) {
                    $docbody->appendChild($t->firstChild);
                }
            }
        }
    }

    [...]
}

Symfony için CssSelector bileşenini oluşturma kararı ve nasıl kullanılacağı hakkında Symfony'nin yaratıcısı Fabien Potencier'in yazdığı CSS seçicilerle XML belgelerini ayrıştırma bölümüne de bakın .

11 TuongLe Dec 29 2011 at 17:07

Symfony'nin çerçeve HTML ayrıştırmak olabilir demetleri vardır ve seçmek için CSS stilini kullanabilirsiniz document object modelini kullanmak yerine XPath .

10 DanieleOrlando Dec 11 2015 at 10:51

FluidXML ile , XPath ve CSS Seçicileri kullanarak XML'i sorgulayabilir ve yineleyebilirsiniz .

$doc = fluidxml('<html>...</html>'); $title = $doc->query('//head/title')[0]->nodeValue; $doc->query('//body/p', 'div.active', '#bgId')
        ->each(function($i, $node) {
            // $node is a DOMNode. $tag   = $node->nodeName; $text  = $node->nodeValue; $class = $node->getAttribute('class');
        });

https://github.com/servo-php/fluidxml

8 AntonioMax Oct 16 2013 at 04:35

JSON ve XML'den üç satırda dizi:

$xml = simplexml_load_string($xml_string);
$json = json_encode($xml);
$array = json_decode($json,TRUE);

Ta da!

8 DanielLoureiro Dec 05 2013 at 20:05

HTML'yi normal ifadeyle ayrıştırmamak için birkaç neden vardır. Ancak, hangi HTML'nin oluşturulacağı konusunda tam kontrole sahipseniz, basit normal ifadeyle yapabilirsiniz.

Yukarıda, HTML'yi normal ifadeyle ayrıştıran bir işlevdir. Bu işlevin çok hassas olduğunu ve HTML'nin belirli kurallara uymasını gerektirdiğini, ancak birçok senaryoda çok iyi çalıştığını unutmayın. Basit bir ayrıştırıcı istiyorsanız ve kitaplıklar kurmak istemiyorsanız, buna bir şans verin:

function array_combine_($keys, $values) {
    $result = array(); foreach ($keys as $i => $k) {
        $result[$k][] = $values[$i];
    }
    array_walk($result, create_function('&$v', '$v = (count($v) == 1)? array_pop($v): $v;'));

    return $result; } function extract_data($str) {
    return (is_array($str)) ? array_map('extract_data', $str)
        : ((!preg_match_all('#<([A-Za-z0-9_]*)[^>]*>(.*?)</\1>#s', $str, $matches))
            ? $str : array_map(('extract_data'), array_combine_($matches[1], $matches[2])));
}

print_r(extract_data(file_get_contents("http://www.google.com/")));
2 IvoPetkov Dec 21 2017 at 15:38

HTML5DOMDocument adında ücretsiz olarak kullanılabilen bir kitaplık oluşturdum https://github.com/ivopetkov/html5-dom-document-php

Sizin durumunuzda son derece yararlı olacağını düşündüğüm sorgu seçicileri de destekliyor. İşte bazı örnek kod:

$dom = new IvoPetkov\HTML5DOMDocument(); $dom->loadHTML('<!DOCTYPE html><html><body><h1>Hello</h1><div class="content">This is some text</div></body></html>');
echo $dom->querySelector('h1')->innerHTML;
1 StefansArya Aug 16 2018 at 19:35

JQuery selector hakkında bilginiz varsa, ScarletsQuery for PHP kullanabilirsiniz

<pre><?php
include "ScarletsQuery.php";

// Load the HTML content and parse it
$html = file_get_contents('https://www.lipsum.com'); $dom = Scarlets\Library\MarkupLanguage::parseText($html); // Select meta tag on the HTML header $description = $dom->selector('head meta[name="description"]')[0]; // Get 'content' attribute value from meta tag print_r($description->attr('content'));

$description = $dom->selector('#Content p');

// Get element array
print_r($description->view);

Bu kitaplığın çevrimdışı html'yi işlemesi genellikle 1 saniyeden az sürer.
Ayrıca etiket özniteliklerinde geçersiz HTML veya eksik alıntı kabul eder.

1 2revs,2users70%user8031209 Mar 29 2019 at 23:05

Xml'yi ayrıştırmak için en iyi yöntem:

$xml='http://www.example.com/rss.xml'; $rss = simplexml_load_string($xml); $i = 0;
foreach ($rss->channel->item as $feedItem) {
  $i++; echo $title=$feedItem->title; echo '<br>'; echo $link=$feedItem->link; echo '<br>'; if($feedItem->description !='') {
    $des=$feedItem->description;
  } else {
    $des=''; } echo $des;
  echo '<br>';
  if($i>5) break;
}