Sparkを使用したOCI Data FlowおよびOCI Big DataサービスでのORCファイル読取りパフォーマンスの向上
Blog: Oracle BPM
Apache Sparkは、OCI Data FlowやBig Dataサービスなどのオブジェクト・ストレージ・サービスからORCファイルを読み取って処理するなど、様々なユースケース向けのビッグ・データ処理エンジンになりました。これらのクラウド・ストレージ・サービスから大規模なORCファイルを読み取ると、パフォーマンスの問題が発生する可能性があります。このブログでは、ORCファイル読取りパフォーマンスの問題にどのように対処し、特定のSpark構成をチューニングすることで大幅な改善を実現したかについてご紹介します。