Big Data Ecosystem - Spark Và Tableau

Discussion in 'Tableau' started by tableau, Aug 21, 2017.

  1. tableau

    tableau Well-Known Member

    Trong bài này chúng tôi sẽ cung cấp cho bạn một bức tranh toàn cảnh về cách big data phù hợp với kiến trúc BI hiện tại của bạn và cách kết nối tableau với Spark để làm phong phú báo cáo BI và Dashboard bằng các dữ liệu mà bạn không thể phân tích trước đây. Cung cấp cho báo cáo và Dashboard một chế độ xem 360 độ và hiểu những gì, khi nào, tại sao, ai, ở đâu và bằng cách nào.

    Sinh Thái Big Data

    Khi xem xét một giải pháp big data, điều quan trọng là hãy ghi nhớ kiến trúc của một hệ thống BI truyền thống và cách Big Data xuất hiện.

    Với hệ thống này, nó cho phép xử lý dữ liệu nhanh hơn, da dạng hơn, tạo cơ hội thu thập dữ liệu hiệu quả và an toàn .

    Ngoài ra, sử dụng Big Data chol phép cấu trúc phần cứng phát hiện chiều ngang, tiết kiệm và linh hoạt hơn.

    Vì vậy, làm thế nào để đưa sinh thái big data này vào? Khái niệm kiến trúc là khá giống nhau, nhưng có sự thay đổi lớn. Sự khác biệt chính là một bộ nguồn dữ liệu hoàn toàn mới, đặc biệt là không có cấu trúc và môi trường hoàn toàn mới để lưu trữ dữ liệu và lấy dữ liệu.
    upload_2017-8-21_8-31-43.png

    Trong hình trên, ở phía trên ta có kiến trúc BI truyền thống. Dưới đây ta có thể kiến trúc Big Data mới vẫn dữ được cùng một khái niệm, thu thập dữ liệu ,vv. Chúng tôi đang hiển thị một vài công cụ có sẵn trong dự án Apache Hadoop.

    Điều quan trọng cần chỉ ra là báo cáo và trực quan được kết hợp. Chúng ta phải kết hợp dữ liệu lớn để cụng caapschees độ xem 360 độ, giá trị thực sự nằm ở đó. Để kết hợp nó có nhiều lựa chọn khác nhau.

    Triển khai dữ liệu lớn: Apache Spark + Tableau

    Khi tiếp cận thực hiện Triển khai Dữ liệu Lớn, có nhiều lựa chọn và khả năng khác nhau, từ các nguồn dữ liệu mới và các kết nối đến lớp hiển thị cuối cùng, đi qua cụm và các thành phần của nó để lưu trữ và xử lý dữ liệu.

    Cách tiếp cận tốt đối với giải pháp Big Data là sự kết hợp của Apache Spark để xử lý trong các nhóm Hadoop sử dụng dữ liệu từ các hệ thống lưu trữ như HDFS, Cassandra, Hbase hoặc S3, và Tableau như phần mềm trực quan sẽ làm cho thông tin có thể kết thúc Người dùng.

    Spark đã chứng tỏ sự cải thiện lớn về hiệu năng so với mô hình MapReduce của Hadoop. Nó cũng nổi bật như giải pháp một thành phần cho xử lý dữ liệu lớn, với sự hỗ trợ cho ETL, truy vấn tương tác, phân tích tiên tiến và luồng trực tuyến. Kết quả là một công cụ thống nhất cho dữ liệu lớn, nổi bật trong các ứng dụng độ trễ thấp và tính toán lặp đi lặp lại, đòi hỏi phải có hiệu năng nhanh, như xử lý lặp, truy vấn tương tác, tính toán hàng loạt, tính toán trực tuyến hoặc biểu đồ. Tableau đang phát triển rất nhanh và đã chứng tỏ là một trong những công cụ trực quan hóa dữ liệu mạnh mẽ nhất. Nó có các kết nối đến gần như bất kỳ nguồn dữ liệu như Excel, kho dữ liệu của công ty hoặc SparkSQL. Nhưng khi Tableau thực sự nổi bật là khi chuyển đổi dữ liệu thành bảng điều khiển hấp dẫn và tương tác và hình ảnh hóa thông qua giao diện người dùng trực quan của nó.

    Sự kết hợp của Apache Spark với Tableau nổi bật lên như một giải pháp Big Data hoàn chỉnh cuối cùng, dựa vào khả năng của Spark để xử lý dữ liệu và chuyên môn của Tableau để hình dung. Lồng ghép Tableau với Apache Spark cho phép phân tích trực quan dữ liệu lớn một cách dễ dàng và thân thiện với doanh nghiệp, không cần mã Spark SQL ở đây.

    Kết nối Tableau với Apache Spark

    Kết nối Apache Spark với Tableau là một trong những phương pháp tốt nhất để xử lý và hiển thị dữ liệu lớn. Vậy giải pháp này hoạt động như thế nào? Chúng tôi đã làm việc với công nghệ này, và tự hào cho thấy một cuộc biểu tình của Tableau kết nối với Apache Spark.

    Điều kiên tiên quyết:

    - Tableau Desktop bất kỳ phiên bản nào hổ trợ Spark SQL connecter

    - Cài Apache Spark

    Lấy dữ liệu phân tích

    Có thể sử dụng một kết nối SparkSQL cụ thể, giao tiếp với Spark Thrift Server để sử dụng công cụ Apache Spark.
    upload_2017-8-21_8-32-15.png

    Software components
    Thiết lập môi trường

    Cài đặt Tableau Desktop và Apache Spark nằm ngoài phạm vi của bài viết này. Tôi giả định bạn đã cài đặt Tableau Desktop và Apache Spark.

    Apache Spark cần phải được xây dựng với sự hỗ trợ của Hive, tức là thêm -Phive và -Phive-thriftserver profiles để xây dựng các tùy chọn của bạn. Chi tiết hơn ở đây. https://spark.apache.org/docs/latest/building-spark.html
    Cài Đặt Apache Spark Driver cho ODBC với SQL Connector
    Cài đặt trình kết nối Apache Spark từ trang web Simba http://www.simba.com/drivers/spark-jdbc-odbc/.

    upload_2017-8-21_8-38-28.png

    Họ đang cung cấp một thời gian dùng thử miễn phí có thể được sử dụng để làm theo bài hướng dẫn này.

    Nó có một phương pháp làm cho việc cài đặt một quá trình trở nên đơn giản.

    Cấu hình và bắt đầu Máy chủ Apache Spark Thrift Server

    Configuration files
    Spark Thrift Server sử dụng Hive Metastore theo mặc định trừ khi một cơ sở dữ liệu khác được chỉ định. Chúng ta cần phải sao chép tập tin cấu hình hive-site.xml từ thư mục Hive sang Spark conf.

    cp /etc/hive/hive-site.xml /usr/lib/spark/conf/

    Spark cần truy cập thư viện Hive để kết nối với Hive Metastore. Nếu những thư viện này không có trong biến Spark CLASSPATH, chúng cần được thêm vào.

    Thêm dòng sau vào /usr/lib/spark/bin/compute-classpath.sh

    CLASSPATH=“$CLASSPATH:/usr/lib/hive/lib/*”

    Start Apache Spark Thrift Server
    Chúng ta có thể start Spark Thrift Server với các command sau:

    ./sbin/start-thriftserver.sh --master <master-uri>

    <master-uri> might be yarn-cluster if you are running yarn, or spark://host:7077 if you are running spark in standalone mode.

    Additionally, you can specify the host and port using the following properties:


    ./sbin/start-thriftserver.sh \

    --hiveconf hive.server2.thrift.port=<listening-port> \

    --hiveconf hive.server2.thrift.bind.host=<listening-host> \

    --master <master-uri>

    Để kiểm tra xem Spark Thrift Server đã bắt đầu thành công hay không, bạn có thể xem nhật ký của máy chủ lưu trữ Thrift. <Thriftserver-log-file> được hiển thị sau khi bắt đầu Spark Thrift Server trong giao diện điều khiển.

    tail -f <thriftserver-log-file>

    Spark Thrift Server đã sẵn sàng để phục vụ các yêu cầu ngay khi tệp nhật ký cho biết các dòng sau:

    INFO AbstractService: Service:ThriftBinaryCLIService is started.

    INFO AbstractService: Service:HiveServer2 is started.

    INFO HiveThriftServer2: HiveThriftServer2 started

    INFO ThriftCLIService: ThriftBinaryCLIService listening on 0.0.0.0/0.0.0.0:10000

    Connect Tableau using SparkSQL connector
    Start Tableau và chọn tùy chọn để kết nối với Spark SQL.

    Chọn Loại thích hợp tùy thuộc vào phiên bản Spark và Xác thực phù hợp tùy thuộc vào tính bảo mật của bạn.
    upload_2017-8-21_8-38-56.png

    Các bước tiếp theo là chọn lược đồ, bảng và các mối quan hệ mong muốn, giống như khi sử dụng bất kỳ trình kết nối Tableau nào khác. Bây giờ bạn có thể chạy phân tích của riêng bạn về dữ liệu lớn được hỗ trợ bởi Spark!
    upload_2017-8-21_8-39-19.png
    Trang tổng quan ở trên đã được tạo trong Bảng 9.0 sau khi thực hiện theo các hướng dẫn được cung cấp. Apache Spark được sử dụng bởi Tableau để thu thập và thực hiện minh bạch dữ liệu trên dữ liệu của chúng tôi được lưu trữ trong HDFS. Chỉ cho chúng tôi chụp màn hình và báo cáo của Spark. Chia sẻ với chúng tôi những ấn tượng của bạn về Spark và Tableau của Apache trong phần nhận xét ở phía dưới.
     
    Last edited: Aug 21, 2017
  2. Loading...


  3. Từ Châu

    Từ Châu New Member

    Chào bạn cái model phía trên mình không hiểu lắm , bạn có thể giải thích rõ hơn ko ạ.
    Cái này bạn tự vẽ hay có link gốc thì cho mình xin link gốc của model phía trên nhé.
     

Share This Page