Crawl dữ liệu từ một website sử dụng php

Ủng hộ AnonyHome Team
Chờ một chút: bạn thấy bài viết có ích chứ? Hãy chia sẻ nó với mọi người nhé!

Trong bài viết này AnonyHome sẽ hướng dẫn các bạn lấy dữ liệu từ 1 website khác bằng cách sử dụng thư viện trong php. Và thư viện AnonyHome giới thiệu hôm nay đó là PHP Simple HTML DOM Parser.

Crawl dữ liệu từ một website sử dụng php

Giới thiệu về php Simple HTML DOM Parser

Hiểu đơn giản PHP Simple HTML DOM Parser là một thư viện của PHP giúp chúng ta có thể lấy các thuộc tính của các thẻ HTML trong 1 website rất dễ dàng. Nó hỗi trợ một số tính năng như hỗ trợ bóc tách dữ liệu theo từng class, id hoặc theo các thẻ img, a, table..

Cài đặt

Để cài đặt thư viện này các bạn có thể truy cập vào trang chủ của nó theo đường dẫn sau http://simplehtmldom.sourceforge.net/  để tải về. Sau khi đã có thư viện các bạn có thể copy file simple_html_dom.php vào dự án của mình và include file đó vào file bạn muốn lấy dữ liệu để sử dụng.
Các bạn có thể xem các phương thức của thư viện simple_html_dom.php tại đây  http://simplehtmldom.sourceforge.net/manual.htm/

Demo một số phương thức của simple_html_dom.php

Ví dụ 1. Hiển thị toàn bộ nội dung trang Cr- Thắng Blog.
<?php 
include('simple_html_dom.php');
$url = 'https://crthang.blogspot.com/';
$html = file_get_html($url);
echo $html;
?>

Kết quả nhận được:
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog
Ví dụ 2. Lấy ảnh từ trang Cr- Thắng Blog trên
<?php 
include('simple_html_dom.php');
$url =
'https://crthang.blogspot.com/';
$html = file_get_html($url);
foreach($html->find('img') as $element) {
echo '<img src="'.$element->src.'" /><br>';
}

?>

Kết quả nhận được:
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog

Ví dụ 3. Lấy các link từ Cr- Thắng Blog
<?php 
include('simple_html_dom.php');
$url =
'https://crthang.blogspot.com/';
$html = file_get_html($url);
foreach($html->find('a') as $element)
echo $element->href . '<br>';

?>
kết quả nhận được: 
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog

Kết luận 

Như vậy trong bài viết này AnonyHome đã giới thiệu cho các bạn cách lấy dữ liệu từ một website thông qua thư viện simple_html_dom.php . Hi vọng nó sẽ ít nhiều giúp ích cho các bạn trong thực tế. 
Share
0 0 vote
Vui lòng đánh giá bài viết
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
XEM THÊM
Ở bài trước chúng ta đã…
0
Bạn thích bài viết chứ? Hãy để lại bình luận.x
()
x