{"id":944,"date":"2021-01-29T05:36:19","date_gmt":"2021-01-29T05:36:19","guid":{"rendered":"https:\/\/showmethedata.blog\/?p=944"},"modified":"2021-05-12T12:01:40","modified_gmt":"2021-05-12T12:01:40","slug":"how-do-column-types-affect-join-speeds-in-data-warehouses","status":"publish","type":"post","link":"https:\/\/showmethedata.blog\/how-do-column-types-affect-join-speeds-in-data-warehouses","title":{"rendered":"How Do Column Types Affect Join Speeds In Data Warehouses?"},"content":{"rendered":"\n<p>When I first started building the Data Vault at <a rel=\"noreferrer noopener\" href=\"https:\/\/georgian.io\/\" target=\"_blank\">Georgian<\/a>, I couldn&#8217;t decide what column data type to use as my tables&#8217; primary key. <\/p>\n\n\n\n<p>I had heard that integer joins vastly outperform string joins, and was worried about degrading join performance as our data grew.<\/p>\n\n\n\n<p>In the SQL databases of the operational world, this decision is pretty much made for you by giving you auto-incrementing <strong>int<\/strong> primary keys out of the box.<\/p>\n\n\n\n<p>In the Data Warehousing world, however, whether you&#8217;re building a Kimball or Data Vault or something else, you need to make this choice explicitly.<\/p>\n\n\n\n<p>You can generate an <strong>integer<\/strong>, a <strong>UUID string<\/strong>, or <strong>hash<\/strong> your columns into a single column, which <a rel=\"noreferrer noopener\" href=\"https:\/\/showmethedata.blog\/generating-unique-keys-in-bigquery\" target=\"_blank\">comes with many benefits<\/a>. As if that wasn&#8217;t complex enough, your hashed keys can be stored as <strong>strings<\/strong> or <strong>bytes<\/strong>, and each algorithm&#8217;s output may vary in length.<\/p>\n\n\n\n<p>This brings up a question:<\/p>\n\n\n\n<figure class=\"wp-block-pullquote\"><blockquote><p>How does the column type of keys affect the speed of joins in Data Warehouses?<\/p><\/blockquote><\/figure>\n\n\n\n<p>After some digging, I found some benchmarks for transactional databases, but that&#8217;s not what I was looking for. Logically speaking, <strong>integers<\/strong> <em>must<\/em> be faster than strings and byte-strings because there are generally fewer bytes to scan. But&#8230; by how much!? <\/p>\n\n\n\n<p>Knowing the answer seemed very important because, in a data warehouse, a bad choice can get multiplied a billion-fold.<\/p>\n\n\n\n<p>I finally buckled under the pressure of curiosity and decided to run a benchmark on BigQuery to answer this question for myself.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Experiment Design<\/h2>\n\n\n\n<p>I decided to generate 5 million rows of random numbers and test joining them (without cache) on the following types of keys:<\/p>\n\n\n\n<ul><li>sequential <strong>integer<\/strong> (1-5M)<\/li><li>farm fingerprint hash <strong>integer<\/strong><\/li><li>MD5 as <strong>bytes<\/strong><\/li><li>MD5 as a <strong>string<\/strong> (hex-encoded)<\/li><li>SHA1 as bytes<\/li><li>SHA1 as a <strong>string<\/strong> (hex-encoded)<\/li><\/ul>\n\n\n\n<p>Here is the code I used to generate the tables I wanted to join:<\/p>\n\n\n\n<pre title=\"\" class=\"wp-block-code\"><code lang=\"sql\" class=\"language-sql\">\/* GENERATE_ARRAY has a limit of 1M rows\n   so I had to union a bunch of them together *\/\n\nWITH\n  keys_1 AS (SELECT * FROM UNNEST(GENERATE_ARRAY(1,1000000)) AS key),\n  keys_2 AS (SELECT * FROM UNNEST(GENERATE_ARRAY(1000001,2000000)) AS key),\n  keys_3 AS (SELECT * FROM UNNEST(GENERATE_ARRAY(2000001,3000000)) AS key),\n  keys_4 AS (SELECT * FROM UNNEST(GENERATE_ARRAY(3000001,4000000)) AS key),\n  keys_5 AS (SELECT * FROM UNNEST(GENERATE_ARRAY(4000001,5000000)) AS key),\n  keys_union AS (\n    SELECT key FROM keys_1 UNION ALL\n    SELECT key FROM keys_2 UNION ALL\n    SELECT key FROM keys_3 UNION ALL\n    SELECT key FROM keys_4 UNION ALL\n    SELECT key FROM keys_5\n  ),\n  keys_hashed AS (\n    SELECT\n      key,\n      MD5(CAST(key AS STRING)) as key_md5_bytes,\n      TO_HEX(MD5(CAST(key AS STRING))) as key_md5_str,\n      FARM_FINGERPRINT(CAST(key AS STRING)) AS key_farm,\n      SHA1(CAST(key AS STRING)) AS key_sha_bytes,\n      TO_HEX(SHA1(CAST(key AS STRING))) AS key_sha_str\n     FROM keys_union\n  )\n  SELECT *, rand() AS val FROM keys_hashed<\/code><\/pre>\n\n\n\n<p>And here is the code I used to test make join:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"sql\" class=\"language-sql\">SELECT\n  t1.val, t2.val\nFROM bq_benchmark.t1\nJOIN bq_benchmark.t2\nUSING(&lt;key column here&gt;);   <\/code><\/pre>\n\n\n\n<p>I ran the join query 30 times for <em>each key type<\/em> to use a Z-test to test for the difference between the mean query times and get reliable confidence intervals.<\/p>\n\n\n\n<div style=\"height:54px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h2 class=\"wp-block-heading\">Experiment Results<\/h2>\n\n\n\n<p>Some definitions you may find helpful when interpreting the results:<\/p>\n\n\n\n<p><strong>Lower Bound 90% Confidence Interval: <\/strong>There&#8217;s a 5% probability that the true mean query time is <strong>below<\/strong> this number.<\/p>\n\n\n\n<p><strong>Upper Bound 90% Confidence Interval: <\/strong>There&#8217;s a 5% probability that the true mean query time is <strong>Above<\/strong> this number.<\/p>\n\n\n\n<p><strong>Standard Deviation: <\/strong>A measure of how much deviation (on either side) from the mean query time we observed in our sample on average.<\/p>\n\n\n\n<p><strong>Standard Error of the Estimate of The Mean: <\/strong>How much the true mean query time deviates from the estimated mean query time of our sample.<\/p>\n\n\n\n<div style=\"height:26px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<figure class=\"wp-block-table alignfull is-style-stripes mw-800\"><table><thead><tr><th class=\"has-text-align-right\" data-align=\"right\"><\/th><th class=\"has-text-align-right\" data-align=\"right\">MB<br> Processed<\/th><th class=\"has-text-align-right\" data-align=\"right\">Lower Bound<br>90% CI (s)<\/th><th class=\"has-text-align-right\" data-align=\"right\">Mean Query <br>Time (s)<\/th><th class=\"has-text-align-right\" data-align=\"right\">Upper Bound<br>90% CI (s)<\/th><th class=\"has-text-align-right\" data-align=\"right\">Std. Dev<\/th><th class=\"has-text-align-right\" data-align=\"right\">Std. Error<br>of Estimate <br>of Mean<\/th><\/tr><\/thead><tbody><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>Int<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">153<\/td><td class=\"has-text-align-right\" data-align=\"right\">3.92<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.05<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.18<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.42<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.078<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>Farm Int<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">153<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.19<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.30<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.40<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.34<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.06<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>MD5 Bytes<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">248<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.40<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.57<\/td><td class=\"has-text-align-right\" data-align=\"right\">5.90<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.56<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.10<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>MD5 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">400<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.74<\/td><td class=\"has-text-align-right\" data-align=\"right\">6.09<\/td><td class=\"has-text-align-right\" data-align=\"right\">6.28<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.63<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.12<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>SHA1 Bytes<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">286<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.61<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.77<\/td><td class=\"has-text-align-right\" data-align=\"right\">4.94<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.55<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.10<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>SHA1 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">477<\/td><td class=\"has-text-align-right\" data-align=\"right\">5.50<\/td><td class=\"has-text-align-right\" data-align=\"right\">5.65<\/td><td class=\"has-text-align-right\" data-align=\"right\">5.80<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.50<\/td><td class=\"has-text-align-right\" data-align=\"right\">0.09<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<div style=\"height:56px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p>You may also care to have a comparative view of the above data. To keep things simple, I will only compare the difference in mean query times and ignore the confidence intervals of the differences (which I&#8217;ve made available in the excel download below).<\/p>\n\n\n\n<div style=\"height:56px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<figure class=\"wp-block-table alignwide is-style-stripes mw-800\"><table><thead><tr><th class=\"has-text-align-right\" data-align=\"right\">Base Type<\/th><th class=\"has-text-align-left\" data-align=\"left\">Compared Type<\/th><th class=\"has-text-align-right\" data-align=\"right\">Absolute Diff<\/th><th class=\"has-text-align-right\" data-align=\"right\">Relative<br>(<em>1+ is Slower<\/em>)<\/th><th class=\"has-text-align-right\" data-align=\"right\">Confidence<br>in Difference<\/th><\/tr><\/thead><tbody><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>Int<\/strong><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>Farm<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.24 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.06\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">99.27%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>MD5 Bytes<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.52 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.13\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>MD5 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">2.03 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.5\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>SHA1 Bytes<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.72s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.18\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>SHA1 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">1.59 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.39\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>Farm<\/strong><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>MD5 Bytes<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.28 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.06\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">98.96%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>MD5 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">1.79 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.42\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>SHA1 Bytes<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.48 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.11\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>SHA1 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">1.35 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.31\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>MD5 Bytes<\/strong><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>MD5 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">1.51 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.33\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>SHA1 Bytes<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.2 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.03\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">91.93%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>SHA1 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">1.07 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.23\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>SHA1 Bytes<\/strong><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>MD5 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">1.31 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.27\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>SHA1 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.87 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.18\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">100%<\/td><\/tr><tr><td class=\"has-text-align-right\" data-align=\"right\"><strong>SHA1 String<\/strong><\/td><td class=\"has-text-align-left\" data-align=\"left\"><strong>MD5 String<\/strong><\/td><td class=\"has-text-align-right\" data-align=\"right\">0.44 s<\/td><td class=\"has-text-align-right\" data-align=\"right\">1.08\u2179<\/td><td class=\"has-text-align-right\" data-align=\"right\">99.83<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<div style=\"height:58px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusion<\/h2>\n\n\n\n<p>Here is everything I took away from this experiment.<\/p>\n\n\n\n<ol><li>Integers are about 1.2x faster than bytes and about 1.4x faster than strings.<\/li><li>If you have access to FARM_FINGERPRINT and you&#8217;re only using BigQuery, go ahead and use that (you can always switch it up later)<\/li><li>Otherwise, simply use MD5 as your hash function stored as <strong>bytes<\/strong>.<\/li><li>If you choose to use a string, don&#8217;t use hex encoding as I did. Base64 encoding will result in smaller strings and thus faster query times than this (but not as fast as raw bytes)<\/li><\/ol>\n\n\n\n<p>I&#8217;ve made my entire experiment available for you to download in an Excel sheet. I&#8217;ve made it dead simple to use. Feel free to add your own data to it and experiment on the data warehouse of your choice!<\/p>\n\n\n\n<div style=\"height:58px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h3 class=\"has-text-align-center wp-block-heading\"><a href=\"https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/BQ-Join-Benchmarks.xlsx\">Click To Download The Experiment Sheet<\/a><\/h3>\n\n\n\n<figure class=\"wp-block-image alignwide size-large is-style-default\"><a href=\"https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/BQ-Join-Benchmarks.xlsx\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"550\" src=\"https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/image-5-1024x550.png\" alt=\"\" class=\"wp-image-959\" srcset=\"https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/image-5-1024x550.png 1024w, https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/image-5-300x161.png 300w, https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/image-5-768x412.png 768w, https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/image-5-1536x824.png 1536w, https:\/\/showmethedata.blog\/wp-content\/uploads\/2021\/01\/image-5.png 1580w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/a><\/figure>\n\n\n\n<div style=\"height:34px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Does the type of your columns affect the speed of your joins in data warehouses? If so, by how much? Let&#8217;s run an experiment&#8230;<\/p>\n","protected":false},"author":1,"featured_media":963,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_eb_attr":"","footnotes":""},"categories":[14],"tags":[20,19,31],"_links":{"self":[{"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/posts\/944"}],"collection":[{"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/comments?post=944"}],"version-history":[{"count":0,"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/posts\/944\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/media\/963"}],"wp:attachment":[{"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/media?parent=944"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/categories?post=944"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/showmethedata.blog\/wp-json\/wp\/v2\/tags?post=944"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}