Code Dạo, Lập Trình, Thủ thuật

Crawl dữ liệu từ một website sử dụng php

Written by AnonyHome
· 1 min read >

Trong bài viết này AnonyHome sẽ hướng dẫn các bạn lấy dữ liệu từ 1 website khác bằng cách sử dụng thư viện trong php. Và thư viện AnonyHome giới thiệu hôm nay đó là PHP Simple HTML DOM Parser.

Crawl dữ liệu từ một website sử dụng php

Giới thiệu về php Simple HTML DOM Parser

Hiểu đơn giản PHP Simple HTML DOM Parser là một thư viện của PHP giúp chúng ta có thể lấy các thuộc tính của các thẻ HTML trong 1 website rất dễ dàng. Nó hỗi trợ một số tính năng như hỗ trợ bóc tách dữ liệu theo từng class, id hoặc theo các thẻ img, a, table..

Cài đặt

Để cài đặt thư viện này các bạn có thể truy cập vào trang chủ của nó theo đường dẫn sau http://simplehtmldom.sourceforge.net/  để tải về. Sau khi đã có thư viện các bạn có thể copy file simple_html_dom.php vào dự án của mình và include file đó vào file bạn muốn lấy dữ liệu để sử dụng.
Các bạn có thể xem các phương thức của thư viện simple_html_dom.php tại đây  http://simplehtmldom.sourceforge.net/manual.htm/

Demo một số phương thức của simple_html_dom.php

Ví dụ 1. Hiển thị toàn bộ nội dung trang Cr- Thắng Blog.
<?php 
include('simple_html_dom.php');
$url = 'https://crthang.blogspot.com/';
$html = file_get_html($url);
echo $html;
?>

Kết quả nhận được:
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog
Ví dụ 2. Lấy ảnh từ trang Cr- Thắng Blog trên
<?php 
include('simple_html_dom.php');
$url =
'https://crthang.blogspot.com/';
$html = file_get_html($url);
foreach($html->find('img') as $element) {
echo '<img src="'.$element->src.'" /><br>';
}

?>

Kết quả nhận được:
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog

Ví dụ 3. Lấy các link từ Cr- Thắng Blog
<?php 
include('simple_html_dom.php');
$url =
'https://crthang.blogspot.com/';
$html = file_get_html($url);
foreach($html->find('a') as $element)
echo $element->href . '<br>';

?>
kết quả nhận được: 
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog

Kết luận 

Như vậy trong bài viết này AnonyHome đã giới thiệu cho các bạn cách lấy dữ liệu từ một website thông qua thư viện simple_html_dom.php . Hi vọng nó sẽ ít nhiều giúp ích cho các bạn trong thực tế. 
Written by AnonyHome
Fullstack Developer ! Profile

Leave a Reply

Your email address will not be published. Required fields are marked *

ĐĂNG KÝ KHÓA HỌC JAVA CƠ BẢN
Đăng ký tham gia khóa học Java cơ bản Online. Học lập trình cùng AnonyHome
HỢP TÁC CÙNG CHÚNG TÔI
Chúng tôi nhận thực hiện các dự án:
  1. Phát triển ứng dụng Mobile
  2. Xây dựng website
  3. Đồ án sinh viên, luận văn thạc sĩ
  4. ..v.v
Mọi dự án đều được xây dựng với chi phí hợp lý.
Tham gia group Facebook: click here
Hợp tác phát triển các nền tảng ứng dụng
Chúng tôi nhận các dự án:
  1. Phát triển ứng dụng Mobile
  2. Xây dựng website
  3. Đồ án sinh viên, luận văn thạc sĩ