From 7bf45dda7d06f67352ccd264355be7a5c7545869 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Wed, 11 Apr 2018 16:49:48 -0300
Subject: [PATCH 01/36] Adds zip function to sparksql

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py               | 18 ++++++
 .../catalyst/analysis/FunctionRegistry.scala  |  1 +
 .../expressions/collectionOperations.scala    | 56 +++++++++++++++++++
 .../org/apache/spark/sql/functions.scala      |  8 +++
 .../spark/sql/DataFrameFunctionsSuite.scala   | 11 ++++
 5 files changed, 94 insertions(+)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 1759195c6fcc0..692c98948feb3 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -2394,6 +2394,24 @@ def array_repeat(col, count):
     return Column(sc._jvm.functions.array_repeat(_to_java_column(col), count))
 
 
+@since(2.4)
+def zip(col1, col2):
+    """
+    Merge two columns into one, such that the M-th element of the N-th argument will be
+    the N-th field of the M-th output element.
+
+    :param col1: name of the first column
+    :param col2: name of the second column
+
+    >>> from pyspark.sql.functions import zip
+    >>> df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
+    >>> df.select(zip(df.vals1, df.vals2).alias('zipped')).collect()
+    [Row(zipped=[1, 2]), Row(zipped=[2, 3]), Row(zipped=[3, 4])]
+    """
+    sc = SparkContext._active_spark_context
+    return Column(sc._jvm.functions.zip(_to_java_column(col1), _to_java_column(col2)))
+
+
 # ---------------------------- User Defined Function ----------------------------------
 
 class PandasUDFType(object):
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
index 49fb35b083580..18c1f0f2ff1a5 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
@@ -423,6 +423,7 @@ object FunctionRegistry {
     expression[Size]("size"),
     expression[Slice]("slice"),
     expression[Size]("cardinality"),
+    expression[ZipLists]("zip_lists"),
     expression[SortArray]("sort_array"),
     expression[ArrayMin]("array_min"),
     expression[ArrayMax]("array_max"),
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 176995affe701..984f453e69305 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -128,6 +128,62 @@ case class MapKeys(child: Expression)
   override def prettyName: String = "map_keys"
 }
 
+@ExpressionDescription(
+  usage = """_FUNC_(a1, a2) - Returns a merged array matching N-th element of first
+  array with the N-th element of second.""",
+  examples = """
+    Examples
+      > SELECT _FUNC_(array(1, 2, 3), array(2, 3, 4));
+        [[1, 2], [2, 3], [3, 4]]
+  """,
+  since = "2.4.0")
+case class Zip(left: Expression, right: Expression)
+  extends BinaryExpression with ExpectsInputTypes {
+
+  override def inputTypes: Seq[AbstractDataType] = Seq(ArrayType, ArrayType)
+
+  override def dataType: DataType = ArrayType(left.dataType.asInstanceOf[ArrayType].elementType)
+
+  override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
+    nullSafeCodeGen(ctx, ev, (arr1, arr2) => {
+      val i = ctx.freshName("i")
+      s"""
+      for (int $i = 0; $i < $arr1.numElements(); $i ++) {
+        if ($arr1.isNullAt($i)) {
+          ${ev.isNull} = true;
+        } else {
+          ${ev.value}[$i] = ($arr1[$i], $arr2[$i]);
+        }
+      }
+     """
+    })
+  }
+
+  override def nullSafeEval(a1: Any, a2: Any): Any = {
+    var hasNull = false
+    val pair = (a1.asInstanceOf[ArrayData], a2.asInstanceOf[ArrayData])
+    val sizes = (pair._1.numElements(), pair._2.numElements())
+    val zipped: ArrayData = pair._1.copy()
+
+    val elementType = left.dataType.asInstanceOf[ArrayType].elementType
+    val data = pair._1.toArray[AnyRef](elementType)
+
+    if (sizes._1 < sizes._2) {
+      // maintain first array as the longest
+      pair.swap
+      sizes.swap
+    }
+
+    var i = 0
+    while (i < sizes._1) {
+      zipped.update(i, (pair._1.get(i, left.dataType), pair._2.get(i, right.dataType)))
+      i += 1
+    }
+
+    zipped
+  }
+}
+
 /**
  * Returns an unordered array containing the values of the map.
  */
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
index a2aae9a708ff3..5489bbda342b1 100644
--- a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
+++ b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
@@ -3508,6 +3508,14 @@ object functions {
    */
   def map_entries(e: Column): Column = withExpr { MapEntries(e.expr) }
 
+  /**
+   * Merge two columns into a resulting one.
+   *
+   * @group collection_funcs
+   * @since 2.4.0
+   */
+  def zip(e1: Column, e2: Column): Column = withExpr { Zip(e1.expr, e2.expr) }
+
   //////////////////////////////////////////////////////////////////////////////////////////////
   // Mask functions
   //////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index 59119bbbd8a2c..d6c1edb2ae8d9 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -479,6 +479,17 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
     )
   }
 
+  test("array zip function") {
+    val df = Seq(
+      (Seq[Int](1, 2, 3, 4)),
+      (Seq[Int](5, 6, 7, 8))
+    ).toDF("vals1", "vals2")
+    checkAnswer(
+      df.select(zip($"vals1", $"vals2") as "zipped"),
+      Seq(Row((1, 5), (2, 6), (3, 7), (4, 8)))
+    )
+  }
+
   test("map size function") {
     val df = Seq(
       (Map[Int, Int](1 -> 1, 2 -> 2), "x"),

From 99848fe7c595e5b89caf4a6fe2fa054cecb56781 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 13 Apr 2018 15:28:58 -0300
Subject: [PATCH 02/36] Changes zip construction

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 46 +++++++++----------
 1 file changed, 23 insertions(+), 23 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 984f453e69305..37e249eea12d0 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -146,41 +146,41 @@ case class Zip(left: Expression, right: Expression)
 
   override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     nullSafeCodeGen(ctx, ev, (arr1, arr2) => {
-      val i = ctx.freshName("i")
-      s"""
-      for (int $i = 0; $i < $arr1.numElements(); $i ++) {
-        if ($arr1.isNullAt($i)) {
-          ${ev.isNull} = true;
-        } else {
-          ${ev.value}[$i] = ($arr1[$i], $arr2[$i]);
-        }
-      }
-     """
+      (arr1, arr2).zipped.map((a, b) => (a, b)).mkString("[", ",", "]")
     })
   }
 
   override def nullSafeEval(a1: Any, a2: Any): Any = {
-    var hasNull = false
-    val pair = (a1.asInstanceOf[ArrayData], a2.asInstanceOf[ArrayData])
-    val sizes = (pair._1.numElements(), pair._2.numElements())
-    val zipped: ArrayData = pair._1.copy()
+    var entries = (a1.asInstanceOf[ArrayData], a2.asInstanceOf[ArrayData])
+
+    var lens = (entries._1.numElements(), entries._2.numElements())
+
+    var types = (left.dataType.asInstanceOf[ArrayType].elementType,
+      right.dataType.asInstanceOf[ArrayType].elementType)
 
-    val elementType = left.dataType.asInstanceOf[ArrayType].elementType
-    val data = pair._1.toArray[AnyRef](elementType)
+    var arrays = (entries._1.toArray[AnyRef](types._1),
+      entries._2.toArray[AnyRef](types._2))
 
-    if (sizes._1 < sizes._2) {
-      // maintain first array as the longest
-      pair.swap
-      sizes.swap
+    if (lens._1 < lens._2) {
+      arrays = arrays.swap
+      lens = lens.swap
+      entries = entries.swap
+      types = types.swap
     }
 
+    val zipped = Array.ofDim[(Any, Any)](lens._1)
+
     var i = 0
-    while (i < sizes._1) {
-      zipped.update(i, (pair._1.get(i, left.dataType), pair._2.get(i, right.dataType)))
+    while ( i < lens._1) {
+      if (lens._2 > i) {
+        zipped(i) = (arrays._1(i), arrays._2(i))
+      } else {
+        zipped(i) = (arrays._1(i), null)
+      }
       i += 1
     }
 
-    zipped
+    new GenericArrayData(zipped.asInstanceOf[Array[(Any, Any)]])
   }
 }
 

From 27b0bc293ea98e5897cefa6ec7f6d166bf9b0123 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 13 Apr 2018 16:45:12 -0300
Subject: [PATCH 03/36] Changes tests and uses builtin namespace in pyspark

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py                      |  9 ++++++---
 .../apache/spark/sql/DataFrameFunctionsSuite.scala   | 12 ++++--------
 2 files changed, 10 insertions(+), 11 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 692c98948feb3..9da2b5907e23a 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -348,9 +348,10 @@ def coalesce(*cols):
 def corr(col1, col2):
     """Returns a new :class:`Column` for the Pearson Correlation Coefficient for ``col1`` and ``col2``.
 
+    >>> import __builtin__
     >>> a = range(20)
     >>> b = [2 * x for x in range(20)]
-    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
     >>> df.agg(corr("a", "b").alias('c')).collect()
     [Row(c=1.0)]
     """
@@ -362,9 +363,10 @@ def corr(col1, col2):
 def covar_pop(col1, col2):
     """Returns a new :class:`Column` for the population covariance of ``col1`` and ``col2``.
 
+    >>> import __builtin__
     >>> a = [1] * 10
     >>> b = [1] * 10
-    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
     >>> df.agg(covar_pop("a", "b").alias('c')).collect()
     [Row(c=0.0)]
     """
@@ -376,9 +378,10 @@ def covar_pop(col1, col2):
 def covar_samp(col1, col2):
     """Returns a new :class:`Column` for the sample covariance of ``col1`` and ``col2``.
 
+    >>> import __builtin__
     >>> a = [1] * 10
     >>> b = [1] * 10
-    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
     >>> df.agg(covar_samp("a", "b").alias('c')).collect()
     [Row(c=0.0)]
     """
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index d6c1edb2ae8d9..95ce7af43c482 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -480,14 +480,10 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
   }
 
   test("array zip function") {
-    val df = Seq(
-      (Seq[Int](1, 2, 3, 4)),
-      (Seq[Int](5, 6, 7, 8))
-    ).toDF("vals1", "vals2")
-    checkAnswer(
-      df.select(zip($"vals1", $"vals2") as "zipped"),
-      Seq(Row((1, 5), (2, 6), (3, 7), (4, 8)))
-    )
+    val df1 = Seq((Seq(1, 2, 3), Seq(4, 5, 6))).toDF("val1", "val2")
+    val ans1 = Row( (1, 4), (2, 5), (3, 6))
+    checkAnswer(df1.select(zip($"val1", $"val2")), ans1)
+    checkAnswer(df1.selectExpr("zip(val1, val2)"), ans1)
   }
 
   test("map size function") {

From 93826b6b94b987aae05b8ba96f8f445ba724ff3e Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Thu, 26 Apr 2018 11:00:09 -0300
Subject: [PATCH 04/36] fixes examples string and uses struct instead of arrays

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py               | 17 ++---
 .../expressions/collectionOperations.scala    | 73 ++++++++++++-------
 .../org/apache/spark/sql/functions.scala      |  2 +-
 .../spark/sql/DataFrameFunctionsSuite.scala   | 21 ++++--
 4 files changed, 69 insertions(+), 44 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 9da2b5907e23a..3922b1a814d84 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -348,10 +348,9 @@ def coalesce(*cols):
 def corr(col1, col2):
     """Returns a new :class:`Column` for the Pearson Correlation Coefficient for ``col1`` and ``col2``.
 
-    >>> import __builtin__
     >>> a = range(20)
     >>> b = [2 * x for x in range(20)]
-    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
     >>> df.agg(corr("a", "b").alias('c')).collect()
     [Row(c=1.0)]
     """
@@ -363,10 +362,9 @@ def corr(col1, col2):
 def covar_pop(col1, col2):
     """Returns a new :class:`Column` for the population covariance of ``col1`` and ``col2``.
 
-    >>> import __builtin__
     >>> a = [1] * 10
     >>> b = [1] * 10
-    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
     >>> df.agg(covar_pop("a", "b").alias('c')).collect()
     [Row(c=0.0)]
     """
@@ -378,10 +376,9 @@ def covar_pop(col1, col2):
 def covar_samp(col1, col2):
     """Returns a new :class:`Column` for the sample covariance of ``col1`` and ``col2``.
 
-    >>> import __builtin__
     >>> a = [1] * 10
     >>> b = [1] * 10
-    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
     >>> df.agg(covar_samp("a", "b").alias('c')).collect()
     [Row(c=0.0)]
     """
@@ -2398,7 +2395,7 @@ def array_repeat(col, count):
 
 
 @since(2.4)
-def zip(col1, col2):
+def zip_lists(col1, col2):
     """
     Merge two columns into one, such that the M-th element of the N-th argument will be
     the N-th field of the M-th output element.
@@ -2406,13 +2403,13 @@ def zip(col1, col2):
     :param col1: name of the first column
     :param col2: name of the second column
 
-    >>> from pyspark.sql.functions import zip
+    >>> from pyspark.sql.functions import zip_lists
     >>> df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
-    >>> df.select(zip(df.vals1, df.vals2).alias('zipped')).collect()
+    >>> df.select(zip_lists(df.vals1, df.vals2).alias('zipped')).collect()
     [Row(zipped=[1, 2]), Row(zipped=[2, 3]), Row(zipped=[3, 4])]
     """
     sc = SparkContext._active_spark_context
-    return Column(sc._jvm.functions.zip(_to_java_column(col1), _to_java_column(col2)))
+    return Column(sc._jvm.functions.zip_lists(_to_java_column(col1), _to_java_column(col2)))
 
 
 # ---------------------------- User Defined Function ----------------------------------
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 37e249eea12d0..6b1f4716dee73 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -132,55 +132,72 @@ case class MapKeys(child: Expression)
   usage = """_FUNC_(a1, a2) - Returns a merged array matching N-th element of first
   array with the N-th element of second.""",
   examples = """
-    Examples
+    Examples:
       > SELECT _FUNC_(array(1, 2, 3), array(2, 3, 4));
         [[1, 2], [2, 3], [3, 4]]
   """,
   since = "2.4.0")
-case class Zip(left: Expression, right: Expression)
+case class ZipLists(left: Expression, right: Expression)
   extends BinaryExpression with ExpectsInputTypes {
 
   override def inputTypes: Seq[AbstractDataType] = Seq(ArrayType, ArrayType)
 
-  override def dataType: DataType = ArrayType(left.dataType.asInstanceOf[ArrayType].elementType)
+  override def dataType: DataType = ArrayType(StructType(
+    StructField("_1", left.dataType.asInstanceOf[ArrayType].elementType, true) ::
+    StructField("_2", right.dataType.asInstanceOf[ArrayType].elementType, true) ::
+  Nil))
+
+  override def prettyName: String = "zip_lists"
 
   override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     nullSafeCodeGen(ctx, ev, (arr1, arr2) => {
-      (arr1, arr2).zipped.map((a, b) => (a, b)).mkString("[", ",", "]")
+      val i = ctx.freshName("i")
+      val len = ctx.freshName("len1")
+      val javaType = CodeGenerator.javaType(dataType)
+      val getValue1 = CodeGenerator.getValue(arr1, left.dataType, i)
+      val getValue2 = CodeGenerator.getValue(arr2, right.dataType, i)
+      s"""
+      int $len = $arr1.numElements();
+      for (int $i = 0; $i < $len; $i ++) {
+        final Object[] mytuple = new Object[2];
+        mytuple[0] = $getValue1;
+        mytuple[1] = $getValue2;
+        ${ev.value}.update($i, mytuple);
+      }
+      """
     })
   }
 
-  override def nullSafeEval(a1: Any, a2: Any): Any = {
-    var entries = (a1.asInstanceOf[ArrayData], a2.asInstanceOf[ArrayData])
-
-    var lens = (entries._1.numElements(), entries._2.numElements())
+  def extendWithNull(a1: Array[AnyRef], a2: Array[AnyRef]):
+  (Array[AnyRef], Array[AnyRef]) = {
+    val lens = (a1.length, a2.length)
 
-    var types = (left.dataType.asInstanceOf[ArrayType].elementType,
-      right.dataType.asInstanceOf[ArrayType].elementType)
-
-    var arrays = (entries._1.toArray[AnyRef](types._1),
-      entries._2.toArray[AnyRef](types._2))
+    var arr1 = a1
+    var arr2 = a2
 
+    val diff = lens._1 - lens._2
+    if (lens._1 > lens._2) {
+      arr2 = a2 ++ Array.fill(diff)(null)
+    }
     if (lens._1 < lens._2) {
-      arrays = arrays.swap
-      lens = lens.swap
-      entries = entries.swap
-      types = types.swap
+      arr1 = a1 ++ Array.fill(-diff)(null)
     }
 
-    val zipped = Array.ofDim[(Any, Any)](lens._1)
+    (arr1, arr2)
+  }
 
-    var i = 0
-    while ( i < lens._1) {
-      if (lens._2 > i) {
-        zipped(i) = (arrays._1(i), arrays._2(i))
-      } else {
-        zipped(i) = (arrays._1(i), null)
-      }
-      i += 1
-    }
+  override def nullSafeEval(a1: Any, a2: Any): Any = {
+    val type1 = left.dataType.asInstanceOf[ArrayType].elementType
+    val type2 = right.dataType.asInstanceOf[ArrayType].elementType
+
+    val arrays = (
+      a1.asInstanceOf[ArrayData].toArray[AnyRef](type1),
+      a2.asInstanceOf[ArrayData].toArray[AnyRef](type2)
+    )
+
+    val extendedArrays = extendWithNull(arrays._1, arrays._2)
 
-    new GenericArrayData(zipped.asInstanceOf[Array[(Any, Any)]])
+    new GenericArrayData(extendedArrays.zipped.map((a, b) => InternalRow.apply(a, b)))
   }
 }
 
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
index 5489bbda342b1..0cacc1f00879a 100644
--- a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
+++ b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
@@ -3514,7 +3514,7 @@ object functions {
    * @group collection_funcs
    * @since 2.4.0
    */
-  def zip(e1: Column, e2: Column): Column = withExpr { Zip(e1.expr, e2.expr) }
+  def zip_lists(e1: Column, e2: Column): Column = withExpr { ZipLists(e1.expr, e2.expr) }
 
   //////////////////////////////////////////////////////////////////////////////////////////////
   // Mask functions
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index 95ce7af43c482..52cdc7d33d853 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -479,11 +479,22 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
     )
   }
 
-  test("array zip function") {
-    val df1 = Seq((Seq(1, 2, 3), Seq(4, 5, 6))).toDF("val1", "val2")
-    val ans1 = Row( (1, 4), (2, 5), (3, 6))
-    checkAnswer(df1.select(zip($"val1", $"val2")), ans1)
-    checkAnswer(df1.selectExpr("zip(val1, val2)"), ans1)
+  test("array zip_lists function") {
+    val df1 = Seq((Seq(9001, 9002, 9003), Seq(4, 5, 6))).toDF("val1", "val2")
+    val df2 = Seq((Seq(9001, 9002), Seq(4, 5, 6))).toDF("val1", "val2")
+    val df3 = Seq((Seq("a", "b"), Seq(4, 5, 6))).toDF("val1", "val2")
+
+    val expectedValue1 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(9003, 6)))
+    checkAnswer(df1.select(zip_lists($"val1", $"val2")), expectedValue1)
+    checkAnswer(df1.selectExpr("zip_lists(val1, val2)"), expectedValue1)
+
+    val expectedValue2 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(null, 6)))
+    checkAnswer(df2.select(zip_lists($"val1", $"val2")), expectedValue2)
+    checkAnswer(df2.selectExpr("zip_lists(val1, val2)"), expectedValue2)
+
+    val expectedValue3 = Row(Seq(Row("a", 4), Row("b", 5), Row(null, 6)))
+    checkAnswer(df3.select(zip_lists($"val1", $"val2")), expectedValue3)
+    checkAnswer(df3.selectExpr("zip_lists(val1, val2)"), expectedValue3)
   }
 
   test("map size function") {

From a7e29f6068a89230be35f5ad63ce3670405abcc6 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 11 May 2018 15:39:29 -0300
Subject: [PATCH 05/36] working pyspark zip_lists

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 31 +++++++++++++------
 1 file changed, 21 insertions(+), 10 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 6b1f4716dee73..8240ecc94a4c6 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -151,19 +151,30 @@ case class ZipLists(left: Expression, right: Expression)
 
   override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     nullSafeCodeGen(ctx, ev, (arr1, arr2) => {
+      val genericArrayData = classOf[GenericArrayData].getName
+      val genericInternalRow = classOf[GenericInternalRow].getName
+
       val i = ctx.freshName("i")
-      val len = ctx.freshName("len1")
-      val javaType = CodeGenerator.javaType(dataType)
-      val getValue1 = CodeGenerator.getValue(arr1, left.dataType, i)
-      val getValue2 = CodeGenerator.getValue(arr2, right.dataType, i)
+      val values = ctx.freshName("values")
+      val len1 = ctx.freshName("len1")
+      val pair = ctx.freshName("pair")
+      val getValue1 = CodeGenerator.getValue(
+        arr1, left.dataType.asInstanceOf[ArrayType].elementType, i)
+      val getValue2 = CodeGenerator.getValue(
+        arr2, right.dataType.asInstanceOf[ArrayType].elementType, i)
+
       s"""
-      int $len = $arr1.numElements();
-      for (int $i = 0; $i < $len; $i ++) {
-        final Object[] mytuple = new Object[2];
-        mytuple[0] = $getValue1;
-        mytuple[1] = $getValue2;
-        ${ev.value}.update($i, mytuple);
+      int $len1 = $arr1.numElements();
+      Object[] $values;
+      $values = new Object[$len1];
+      for (int $i = 0; $i < $len1; $i ++) {
+        Object[] $pair;
+        $pair = new Object[2];
+        $pair[0] = $getValue1;
+        $pair[1] = $getValue2;
+        $values[$i] = new $genericInternalRow($pair);
       }
+      ${ev.value} = new $genericArrayData($values);
       """
     })
   }

From 7130fec16b833a47b7ba4390e29425f989cb6da6 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 11 May 2018 16:17:37 -0300
Subject: [PATCH 06/36] Fixes java version when arrays have different lengths

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 41 +++++++++++++++----
 1 file changed, 34 insertions(+), 7 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 8240ecc94a4c6..1c005f4f806d6 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -157,7 +157,12 @@ case class ZipLists(left: Expression, right: Expression)
       val i = ctx.freshName("i")
       val values = ctx.freshName("values")
       val len1 = ctx.freshName("len1")
+      val schema = ctx.freshName("schema")
+      val len2 = ctx.freshName("len2")
       val pair = ctx.freshName("pair")
+      val higher = ctx.freshName("higher")
+      val leftType = left.dataType.asInstanceOf[ArrayType].elementType
+      val rightType = right.dataType.asInstanceOf[ArrayType].elementType
       val getValue1 = CodeGenerator.getValue(
         arr1, left.dataType.asInstanceOf[ArrayType].elementType, i)
       val getValue2 = CodeGenerator.getValue(
@@ -165,14 +170,36 @@ case class ZipLists(left: Expression, right: Expression)
 
       s"""
       int $len1 = $arr1.numElements();
+      int $len2 = $arr2.numElements();
+      int $higher = $len2;
+
       Object[] $values;
-      $values = new Object[$len1];
-      for (int $i = 0; $i < $len1; $i ++) {
-        Object[] $pair;
-        $pair = new Object[2];
-        $pair[0] = $getValue1;
-        $pair[1] = $getValue2;
-        $values[$i] = new $genericInternalRow($pair);
+      if ($len1 > $len2) {
+        $values = new Object[$len1];
+        for (int $i = 0; $i < $len1; $i ++) {
+          Object[] $pair;
+          $pair = new Object[2];
+          $pair[0] = $getValue1;
+          if ($i >= $len2) {
+            $pair[1] = null;
+          } else {
+            $pair[1] = $getValue2;
+          }
+          $values[$i] = new $genericInternalRow($pair);
+        }
+      } else {
+        $values = new Object[$len2];
+        for (int $i = 0; $i < $len2; $i ++) {
+          Object[] $pair;
+          $pair = new Object[2];
+          $pair[1] = $getValue2;
+          if ($i >= $len1) {
+            $pair[0] = null;
+          } else {
+            $pair[0] = $getValue1;
+          }
+          $values[$i] = new $genericInternalRow($pair);
+        }
       }
       ${ev.value} = new $genericArrayData($values);
       """

From d5522168c88a5b64cba103569dad2f24a6c0fc6e Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 11 May 2018 16:20:52 -0300
Subject: [PATCH 07/36] remove unused variables

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../sql/catalyst/expressions/collectionOperations.scala      | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 1c005f4f806d6..4560fa4dbef45 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -157,12 +157,8 @@ case class ZipLists(left: Expression, right: Expression)
       val i = ctx.freshName("i")
       val values = ctx.freshName("values")
       val len1 = ctx.freshName("len1")
-      val schema = ctx.freshName("schema")
       val len2 = ctx.freshName("len2")
       val pair = ctx.freshName("pair")
-      val higher = ctx.freshName("higher")
-      val leftType = left.dataType.asInstanceOf[ArrayType].elementType
-      val rightType = right.dataType.asInstanceOf[ArrayType].elementType
       val getValue1 = CodeGenerator.getValue(
         arr1, left.dataType.asInstanceOf[ArrayType].elementType, i)
       val getValue2 = CodeGenerator.getValue(
@@ -171,7 +167,6 @@ case class ZipLists(left: Expression, right: Expression)
       s"""
       int $len1 = $arr1.numElements();
       int $len2 = $arr2.numElements();
-      int $higher = $len2;
 
       Object[] $values;
       if ($len1 > $len2) {

From 1fecef47610dd9222b8e6e2ba62c19850e32041d Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 11 May 2018 17:34:37 -0300
Subject: [PATCH 08/36] rename zip_lists to zip

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py                    |  8 ++++----
 .../sql/catalyst/analysis/FunctionRegistry.scala   |  2 +-
 .../expressions/collectionOperations.scala         |  4 ++--
 .../scala/org/apache/spark/sql/functions.scala     |  2 +-
 .../apache/spark/sql/DataFrameFunctionsSuite.scala | 14 +++++++-------
 5 files changed, 15 insertions(+), 15 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 3922b1a814d84..692c98948feb3 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -2395,7 +2395,7 @@ def array_repeat(col, count):
 
 
 @since(2.4)
-def zip_lists(col1, col2):
+def zip(col1, col2):
     """
     Merge two columns into one, such that the M-th element of the N-th argument will be
     the N-th field of the M-th output element.
@@ -2403,13 +2403,13 @@ def zip_lists(col1, col2):
     :param col1: name of the first column
     :param col2: name of the second column
 
-    >>> from pyspark.sql.functions import zip_lists
+    >>> from pyspark.sql.functions import zip
     >>> df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
-    >>> df.select(zip_lists(df.vals1, df.vals2).alias('zipped')).collect()
+    >>> df.select(zip(df.vals1, df.vals2).alias('zipped')).collect()
     [Row(zipped=[1, 2]), Row(zipped=[2, 3]), Row(zipped=[3, 4])]
     """
     sc = SparkContext._active_spark_context
-    return Column(sc._jvm.functions.zip_lists(_to_java_column(col1), _to_java_column(col2)))
+    return Column(sc._jvm.functions.zip(_to_java_column(col1), _to_java_column(col2)))
 
 
 # ---------------------------- User Defined Function ----------------------------------
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
index 18c1f0f2ff1a5..6676b2390d59d 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
@@ -423,7 +423,7 @@ object FunctionRegistry {
     expression[Size]("size"),
     expression[Slice]("slice"),
     expression[Size]("cardinality"),
-    expression[ZipLists]("zip_lists"),
+    expression[Zip]("zip"),
     expression[SortArray]("sort_array"),
     expression[ArrayMin]("array_min"),
     expression[ArrayMax]("array_max"),
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 4560fa4dbef45..6eafd51203225 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -137,7 +137,7 @@ case class MapKeys(child: Expression)
         [[1, 2], [2, 3], [3, 4]]
   """,
   since = "2.4.0")
-case class ZipLists(left: Expression, right: Expression)
+case class Zip(left: Expression, right: Expression)
   extends BinaryExpression with ExpectsInputTypes {
 
   override def inputTypes: Seq[AbstractDataType] = Seq(ArrayType, ArrayType)
@@ -147,7 +147,7 @@ case class ZipLists(left: Expression, right: Expression)
     StructField("_2", right.dataType.asInstanceOf[ArrayType].elementType, true) ::
   Nil))
 
-  override def prettyName: String = "zip_lists"
+  override def prettyName: String = "zip"
 
   override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     nullSafeCodeGen(ctx, ev, (arr1, arr2) => {
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
index 0cacc1f00879a..5489bbda342b1 100644
--- a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
+++ b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
@@ -3514,7 +3514,7 @@ object functions {
    * @group collection_funcs
    * @since 2.4.0
    */
-  def zip_lists(e1: Column, e2: Column): Column = withExpr { ZipLists(e1.expr, e2.expr) }
+  def zip(e1: Column, e2: Column): Column = withExpr { Zip(e1.expr, e2.expr) }
 
   //////////////////////////////////////////////////////////////////////////////////////////////
   // Mask functions
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index 52cdc7d33d853..97b78d640498a 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -479,22 +479,22 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
     )
   }
 
-  test("array zip_lists function") {
+  test("dataframe zip function") {
     val df1 = Seq((Seq(9001, 9002, 9003), Seq(4, 5, 6))).toDF("val1", "val2")
     val df2 = Seq((Seq(9001, 9002), Seq(4, 5, 6))).toDF("val1", "val2")
     val df3 = Seq((Seq("a", "b"), Seq(4, 5, 6))).toDF("val1", "val2")
 
     val expectedValue1 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(9003, 6)))
-    checkAnswer(df1.select(zip_lists($"val1", $"val2")), expectedValue1)
-    checkAnswer(df1.selectExpr("zip_lists(val1, val2)"), expectedValue1)
+    checkAnswer(df1.select(zip($"val1", $"val2")), expectedValue1)
+    checkAnswer(df1.selectExpr("zip(val1, val2)"), expectedValue1)
 
     val expectedValue2 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(null, 6)))
-    checkAnswer(df2.select(zip_lists($"val1", $"val2")), expectedValue2)
-    checkAnswer(df2.selectExpr("zip_lists(val1, val2)"), expectedValue2)
+    checkAnswer(df2.select(zip($"val1", $"val2")), expectedValue2)
+    checkAnswer(df2.selectExpr("zip(val1, val2)"), expectedValue2)
 
     val expectedValue3 = Row(Seq(Row("a", 4), Row("b", 5), Row(null, 6)))
-    checkAnswer(df3.select(zip_lists($"val1", $"val2")), expectedValue3)
-    checkAnswer(df3.selectExpr("zip_lists(val1, val2)"), expectedValue3)
+    checkAnswer(df3.select(zip($"val1", $"val2")), expectedValue3)
+    checkAnswer(df3.selectExpr("zip(val1, val2)"), expectedValue3)
   }
 
   test("map size function") {

From f71151a59430be14f3870a503597a6263cb3c830 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Sat, 12 May 2018 12:29:46 -0300
Subject: [PATCH 09/36] adds expression tests and uses strip margin syntax

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 64 +++++++++----------
 .../CollectionExpressionsSuite.scala          | 15 +++++
 2 files changed, 46 insertions(+), 33 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 6eafd51203225..f268795d03fc0 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -165,39 +165,37 @@ case class Zip(left: Expression, right: Expression)
         arr2, right.dataType.asInstanceOf[ArrayType].elementType, i)
 
       s"""
-      int $len1 = $arr1.numElements();
-      int $len2 = $arr2.numElements();
-
-      Object[] $values;
-      if ($len1 > $len2) {
-        $values = new Object[$len1];
-        for (int $i = 0; $i < $len1; $i ++) {
-          Object[] $pair;
-          $pair = new Object[2];
-          $pair[0] = $getValue1;
-          if ($i >= $len2) {
-            $pair[1] = null;
-          } else {
-            $pair[1] = $getValue2;
-          }
-          $values[$i] = new $genericInternalRow($pair);
-        }
-      } else {
-        $values = new Object[$len2];
-        for (int $i = 0; $i < $len2; $i ++) {
-          Object[] $pair;
-          $pair = new Object[2];
-          $pair[1] = $getValue2;
-          if ($i >= $len1) {
-            $pair[0] = null;
-          } else {
-            $pair[0] = $getValue1;
-          }
-          $values[$i] = new $genericInternalRow($pair);
-        }
-      }
-      ${ev.value} = new $genericArrayData($values);
-      """
+         |int $len1 = $arr1.numElements();
+         |int $len2 = $arr2.numElements();
+         |Object[] $values;
+         |Object[] $pair;
+         |if ($len1 > $len2) {
+         |  $values = new Object[$len1];
+         |  for (int $i = 0; $i < $len1; $i ++) {
+         |    $pair = new Object[2];
+         |    $pair[0] = $getValue1;
+         |    if ($i >= $len2) {
+         |      $pair[1] = null;
+         |    } else {
+         |      $pair[1] = $getValue2;
+         |    }
+         |    $values[$i] = new $genericInternalRow($pair);
+         |  }
+         |} else {
+         |  $values = new Object[$len2];
+         |  for (int $i = 0; $i < $len2; $i ++) {
+         |    $pair = new Object[2];
+         |    $pair[1] = $getValue2;
+         |    if ($i >= $len1) {
+         |      $pair[0] = null;
+         |    } else {
+         |      $pair[0] = $getValue1;
+         |    }
+         |    $values[$i] = new $genericInternalRow($pair);
+         |  }
+         |}
+         |${ev.value} = new $genericArrayData($values);
+      """.stripMargin
     })
   }
 
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index f8ad624ce0e3d..146150e3d7b82 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -19,6 +19,7 @@ package org.apache.spark.sql.catalyst.expressions
 
 import org.apache.spark.SparkFunSuite
 import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.sql.Row
 import org.apache.spark.sql.types._
 
 class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper {
@@ -315,6 +316,20 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
       Some(Literal.create(null, StringType))), null)
   }
 
+  test("Zip") {
+    val lit1 = (Literal.create(Seq(9001, 9002, 9003)), Literal.create(Seq(4, 5, 6)))
+    val lit2 = (Literal.create(Seq(9001, 9002)), Literal.create(Seq(4, 5, 6)))
+    val lit3 = (Literal.create(Seq("a", "b", null)), Literal.create(Seq(4)))
+
+    val val1 = List(Row(9001, 4), Row(9002, 5), Row(9003, 6))
+    val val2 = List(Row(9001, 4), Row(9002, 5), Row(null, 6))
+    val val3 = List(Row("a", 4), Row("b", null), Row(null, null))
+
+    checkEvaluation(Zip(lit1._1, lit1._2), val1)
+    checkEvaluation(Zip(lit2._1, lit2._2), val2)
+    checkEvaluation(Zip(lit3._1, lit3._2), val3)
+  }
+
   test("Array Min") {
     checkEvaluation(ArrayMin(Literal.create(Seq(-11, 10, 2), ArrayType(IntegerType))), -11)
     checkEvaluation(

From 6b4bc94051a3f86150a6be15b44bbb6b25e5fc67 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Tue, 15 May 2018 10:19:12 -0300
Subject: [PATCH 10/36] Adds variable number of inputs to zip function

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py               |   7 +-
 .../expressions/collectionOperations.scala    | 134 ++++++++----------
 .../CollectionExpressionsSuite.scala          |   8 +-
 .../org/apache/spark/sql/functions.scala      |   4 +-
 .../spark/sql/DataFrameFunctionsSuite.scala   |   8 +-
 5 files changed, 70 insertions(+), 91 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 692c98948feb3..0bc32de15e749 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -2395,13 +2395,12 @@ def array_repeat(col, count):
 
 
 @since(2.4)
-def zip(col1, col2):
+def zip(*cols):
     """
     Merge two columns into one, such that the M-th element of the N-th argument will be
     the N-th field of the M-th output element.
 
-    :param col1: name of the first column
-    :param col2: name of the second column
+    :param cols: columns in input
 
     >>> from pyspark.sql.functions import zip
     >>> df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
@@ -2409,7 +2408,7 @@ def zip(col1, col2):
     [Row(zipped=[1, 2]), Row(zipped=[2, 3]), Row(zipped=[3, 4])]
     """
     sc = SparkContext._active_spark_context
-    return Column(sc._jvm.functions.zip(_to_java_column(col1), _to_java_column(col2)))
+    return Column(sc._jvm.functions.zip(_to_seq(sc, cols, _to_java_column)))
 
 
 # ---------------------------- User Defined Function ----------------------------------
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index f268795d03fc0..1ed653c98503b 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -129,106 +129,84 @@ case class MapKeys(child: Expression)
 }
 
 @ExpressionDescription(
-  usage = """_FUNC_(a1, a2) - Returns a merged array matching N-th element of first
-  array with the N-th element of second.""",
+  usage = """_FUNC_(a1, a2, ...) - Returns a merged array containing in the N-th position the
+  N-th value of each array given.""",
   examples = """
     Examples:
       > SELECT _FUNC_(array(1, 2, 3), array(2, 3, 4));
         [[1, 2], [2, 3], [3, 4]]
+      > SELECT _FUNC_(array(1, 2), array(2, 3), array(3, 4));
+        [[1, 2, 3], [2, 3, 4]]
   """,
   since = "2.4.0")
-case class Zip(left: Expression, right: Expression)
-  extends BinaryExpression with ExpectsInputTypes {
+case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTypes {
+  private[this] val childrenArray = children.toArray
+
+  override def inputTypes: Seq[AbstractDataType] = Seq.fill(childrenArray.length)(ArrayType)
+
+  def mountSchema(): StructType = {
+    val arrayAT = childrenArray.map(_.dataType.asInstanceOf[ArrayType])
+    val n = childrenArray.length
+    var i = n - 1
+    var myList = List[StructField]()
+    while (i >= 0) {
+      myList = StructField(s"_$i", arrayAT(i).elementType, arrayAT(i).containsNull) :: myList
+      i -= 1
+    }
 
-  override def inputTypes: Seq[AbstractDataType] = Seq(ArrayType, ArrayType)
+    StructType(myList)
+  }
 
-  override def dataType: DataType = ArrayType(StructType(
-    StructField("_1", left.dataType.asInstanceOf[ArrayType].elementType, true) ::
-    StructField("_2", right.dataType.asInstanceOf[ArrayType].elementType, true) ::
-  Nil))
+  override def dataType: DataType = ArrayType(mountSchema())
 
   override def prettyName: String = "zip"
 
   override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
-    nullSafeCodeGen(ctx, ev, (arr1, arr2) => {
-      val genericArrayData = classOf[GenericArrayData].getName
-      val genericInternalRow = classOf[GenericInternalRow].getName
-
-      val i = ctx.freshName("i")
-      val values = ctx.freshName("values")
-      val len1 = ctx.freshName("len1")
-      val len2 = ctx.freshName("len2")
-      val pair = ctx.freshName("pair")
-      val getValue1 = CodeGenerator.getValue(
-        arr1, left.dataType.asInstanceOf[ArrayType].elementType, i)
-      val getValue2 = CodeGenerator.getValue(
-        arr2, right.dataType.asInstanceOf[ArrayType].elementType, i)
-
-      s"""
-         |int $len1 = $arr1.numElements();
-         |int $len2 = $arr2.numElements();
-         |Object[] $values;
-         |Object[] $pair;
-         |if ($len1 > $len2) {
-         |  $values = new Object[$len1];
-         |  for (int $i = 0; $i < $len1; $i ++) {
-         |    $pair = new Object[2];
-         |    $pair[0] = $getValue1;
-         |    if ($i >= $len2) {
-         |      $pair[1] = null;
-         |    } else {
-         |      $pair[1] = $getValue2;
-         |    }
-         |    $values[$i] = new $genericInternalRow($pair);
-         |  }
-         |} else {
-         |  $values = new Object[$len2];
-         |  for (int $i = 0; $i < $len2; $i ++) {
-         |    $pair = new Object[2];
-         |    $pair[1] = $getValue2;
-         |    if ($i >= $len1) {
-         |      $pair[0] = null;
-         |    } else {
-         |      $pair[0] = $getValue1;
-         |    }
-         |    $values[$i] = new $genericInternalRow($pair);
-         |  }
-         |}
-         |${ev.value} = new $genericArrayData($values);
-      """.stripMargin
-    })
-  }
+    val genericArrayData = classOf[GenericArrayData].getName
+    val genericInternalRow = classOf[GenericInternalRow].getName
 
-  def extendWithNull(a1: Array[AnyRef], a2: Array[AnyRef]):
-  (Array[AnyRef], Array[AnyRef]) = {
-    val lens = (a1.length, a2.length)
+    val evals = children.map(_.genCode(ctx))
+    val numArrs = evals.length
 
-    var arr1 = a1
-    var arr2 = a2
+    val values = children.zip(evals).map { case(child, eval) =>
 
-    val diff = lens._1 - lens._2
-    if (lens._1 > lens._2) {
-      arr2 = a2 ++ Array.fill(diff)(null)
-    }
-    if (lens._1 < lens._2) {
-      arr1 = a1 ++ Array.fill(-diff)(null)
     }
 
-    (arr1, arr2)
+    ev.copy(code =
+    s"""
+    """.stripMargin)
   }
 
-  override def nullSafeEval(a1: Any, a2: Any): Any = {
-    val type1 = left.dataType.asInstanceOf[ArrayType].elementType
-    val type2 = right.dataType.asInstanceOf[ArrayType].elementType
+  override def nullable: Boolean = children.forall(_.nullable)
 
-    val arrays = (
-      a1.asInstanceOf[ArrayData].toArray[AnyRef](type1),
-      a2.asInstanceOf[ArrayData].toArray[AnyRef](type2)
-    )
+  override def eval(input: InternalRow): Any = {
+    val inputArrays = childrenArray.map(_.eval(input).asInstanceOf[ArrayData])
+    val arrayTypes = childrenArray.map(_.dataType.asInstanceOf[ArrayType].elementType)
+    val numberOfArrays = childrenArray.length
 
-    val extendedArrays = extendWithNull(arrays._1, arrays._2)
+    var biggestCardinality = 0
+    for (e <- inputArrays) {
+      biggestCardinality = biggestCardinality max e.numElements()
+    }
 
-    new GenericArrayData(extendedArrays.zipped.map((a, b) => InternalRow.apply(a, b)))
+    var i = 0
+    var j = 0
+    var result = Seq[InternalRow]()
+    while (i < biggestCardinality) {
+      var myList = List[Any]()
+      j = numberOfArrays - 1
+      while (j >= 0) {
+        if (inputArrays(j).numElements() > i) {
+          myList = inputArrays(j).get(i, arrayTypes(j)) :: myList
+        } else {
+          myList = null :: myList
+        }
+        j -= 1
+      }
+      result = result :+ InternalRow.apply(myList: _*)
+      i += 1
+    }
+    new GenericArrayData(result)
   }
 }
 
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index 146150e3d7b82..8ade56859d3d8 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -325,9 +325,11 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
     val val2 = List(Row(9001, 4), Row(9002, 5), Row(null, 6))
     val val3 = List(Row("a", 4), Row("b", null), Row(null, null))
 
-    checkEvaluation(Zip(lit1._1, lit1._2), val1)
-    checkEvaluation(Zip(lit2._1, lit2._2), val2)
-    checkEvaluation(Zip(lit3._1, lit3._2), val3)
+    checkEvaluation(Zip(Seq(Literal.create(Seq(1, 0)), Literal.create(Seq(1, 0)))),
+      List(Row(1, 0), Row(1, 0)))
+    checkEvaluation(Zip(Seq(lit1._1, lit1._2)), val1)
+    checkEvaluation(Zip(Seq(lit2._1, lit2._2)), val2)
+    checkEvaluation(Zip(Seq(lit3._1, lit3._2)), val3)
   }
 
   test("Array Min") {
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
index 5489bbda342b1..84e10a94c1c6c 100644
--- a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
+++ b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
@@ -3509,12 +3509,12 @@ object functions {
   def map_entries(e: Column): Column = withExpr { MapEntries(e.expr) }
 
   /**
-   * Merge two columns into a resulting one.
+   * Merge multiple columns into a resulting one.
    *
    * @group collection_funcs
    * @since 2.4.0
    */
-  def zip(e1: Column, e2: Column): Column = withExpr { Zip(e1.expr, e2.expr) }
+  def zip(e: Column*): Column = withExpr { Zip(e.map(_.expr)) }
 
   //////////////////////////////////////////////////////////////////////////////////////////////
   // Mask functions
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index 97b78d640498a..1d3c77fa6ce4a 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -481,16 +481,16 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
 
   test("dataframe zip function") {
     val df1 = Seq((Seq(9001, 9002, 9003), Seq(4, 5, 6))).toDF("val1", "val2")
-    val df2 = Seq((Seq(9001, 9002), Seq(4, 5, 6))).toDF("val1", "val2")
+    val df2 = Seq((Seq("a", "b"), Seq(4, 5), Seq(10, 11))).toDF("val1", "val2", "val3")
     val df3 = Seq((Seq("a", "b"), Seq(4, 5, 6))).toDF("val1", "val2")
 
     val expectedValue1 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(9003, 6)))
     checkAnswer(df1.select(zip($"val1", $"val2")), expectedValue1)
     checkAnswer(df1.selectExpr("zip(val1, val2)"), expectedValue1)
 
-    val expectedValue2 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(null, 6)))
-    checkAnswer(df2.select(zip($"val1", $"val2")), expectedValue2)
-    checkAnswer(df2.selectExpr("zip(val1, val2)"), expectedValue2)
+    val expectedValue2 = Row(Seq(Row("a", 4, 10), Row("b", 5, 11)))
+    checkAnswer(df2.select(zip($"val1", $"val2", $"val3")), expectedValue2)
+    checkAnswer(df2.selectExpr("zip(val1, val2, val3)"), expectedValue2)
 
     val expectedValue3 = Row(Seq(Row("a", 4), Row("b", 5), Row(null, 6)))
     checkAnswer(df3.select(zip($"val1", $"val2")), expectedValue3)

From 1549928dd02e22ec48a790a1012410cbf9830405 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Tue, 15 May 2018 16:57:55 -0300
Subject: [PATCH 11/36] uses foldleft instead of while for iterating

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 67 +++++++++++++------
 1 file changed, 48 insertions(+), 19 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 1ed653c98503b..ef9c0a1bafb36 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -140,21 +140,17 @@ case class MapKeys(child: Expression)
   """,
   since = "2.4.0")
 case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTypes {
-  private[this] val childrenArray = children.toArray
-
-  override def inputTypes: Seq[AbstractDataType] = Seq.fill(childrenArray.length)(ArrayType)
+  override def inputTypes: Seq[AbstractDataType] = Seq.fill(children.length)(ArrayType)
 
   def mountSchema(): StructType = {
-    val arrayAT = childrenArray.map(_.dataType.asInstanceOf[ArrayType])
-    val n = childrenArray.length
-    var i = n - 1
-    var myList = List[StructField]()
-    while (i >= 0) {
-      myList = StructField(s"_$i", arrayAT(i).elementType, arrayAT(i).containsNull) :: myList
-      i -= 1
+    val arrayAT = children.map(_.dataType.asInstanceOf[ArrayType])
+    val fields = arrayAT.zipWithIndex.foldRight(List[StructField]()) {
+      (item, list) => {
+        val (arr, idx) = item
+        StructField(s"_$idx", arr.elementType, arr.containsNull) :: list
+      }
     }
-
-    StructType(myList)
+    StructType(fields)
   }
 
   override def dataType: DataType = ArrayType(mountSchema())
@@ -168,21 +164,54 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val evals = children.map(_.genCode(ctx))
     val numArrs = evals.length
 
-    val values = children.zip(evals).map { case(child, eval) =>
+    val arrCardinality = ctx.freshName("args")
+    val arrVals = ctx.freshName("arrVals")
+    val inputs = evals.zipWithIndex.map { case (eval, index) =>
+      s"""
+        |${eval.code}
+        |if (!${eval.isNull}) {
+        |  $arrVals[$index] = ${eval.value};
+        |}
+      """.stripMargin
+    }.mkString("\n")
 
-    }
+    val myobject = ctx.freshName("myobject")
+    val biggestCardinality = ctx.freshName("biggestCardinality")
+    val j = ctx.freshName("j")
+    val i = ctx.freshName("i")
+    val args = ctx.freshName("args")
 
-    ev.copy(code =
-    s"""
+    ev.copy(s"""
+      |ArrayData[] $arrVals = new ArrayData[$numArrs];
+      |int[] $arrCardinality = new int[$numArrs];
+      |$inputs
+      |int $biggestCardinality = 0;
+      |for (int $i = 0; $i < $numArrs; $i ++) {
+      |  $arrCardinality[$i] = $arrVals[$i].numElements();
+      |  $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$i]);
+      |}
+      |Object[] $args = new Object[$biggestCardinality];
+      |for (int $i = 0; $i < $biggestCardinality; $i ++) {
+      |  Object[] $myobject = new Object[$numArrs];
+      |  for (int $j = 0; $j < $numArrs; $j ++) {
+      |    if ($arrCardinality[$j] > $i) {
+      |      $myobject[$j] = $arrVals[$j].getInt(0);
+      |    } else {
+      |      $myobject[$j] = null;
+      |    }
+      |  }
+      |  $args[$i] = new $genericInternalRow($myobject);
+      |}
+      |$genericArrayData ${ev.value} = new $genericArrayData($args);
     """.stripMargin)
   }
 
   override def nullable: Boolean = children.forall(_.nullable)
 
   override def eval(input: InternalRow): Any = {
-    val inputArrays = childrenArray.map(_.eval(input).asInstanceOf[ArrayData])
-    val arrayTypes = childrenArray.map(_.dataType.asInstanceOf[ArrayType].elementType)
-    val numberOfArrays = childrenArray.length
+    val inputArrays = children.map(_.eval(input).asInstanceOf[ArrayData])
+    val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
+    val numberOfArrays = children.length
 
     var biggestCardinality = 0
     for (e <- inputArrays) {

From 9f7bba194d74fe14ba6682e031e2c270d8ed9606 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Wed, 16 May 2018 13:39:02 -0300
Subject: [PATCH 12/36] rewritten some notation

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 63 +++++++++++--------
 1 file changed, 36 insertions(+), 27 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index ef9c0a1bafb36..139f129847f6d 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -166,6 +166,8 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
     val arrCardinality = ctx.freshName("args")
     val arrVals = ctx.freshName("arrVals")
+
+    val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
     val inputs = evals.zipWithIndex.map { case (eval, index) =>
       s"""
         |${eval.code}
@@ -181,24 +183,31 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
 
+    val retrieveValues = evals.zipWithIndex.map { case (eval, index) =>
+      s"""
+      |${eval.code}
+      |$myobject[$j] = ${eval.value}.get($i, ${arrayTypes(index)});
+      """.stripMargin
+    }.mkString("\n")
+
     ev.copy(s"""
       |ArrayData[] $arrVals = new ArrayData[$numArrs];
       |int[] $arrCardinality = new int[$numArrs];
       |$inputs
       |int $biggestCardinality = 0;
       |for (int $i = 0; $i < $numArrs; $i ++) {
-      |  $arrCardinality[$i] = $arrVals[$i].numElements();
+      |  if ($arrVals[$i] == null) {
+      |    $arrCardinality[$i] = 0;
+      |  } else {
+      |    $arrCardinality[$i] = $arrVals[$i].numElements();
+      |  }
       |  $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$i]);
       |}
       |Object[] $args = new Object[$biggestCardinality];
       |for (int $i = 0; $i < $biggestCardinality; $i ++) {
       |  Object[] $myobject = new Object[$numArrs];
       |  for (int $j = 0; $j < $numArrs; $j ++) {
-      |    if ($arrCardinality[$j] > $i) {
-      |      $myobject[$j] = $arrVals[$j].getInt(0);
-      |    } else {
-      |      $myobject[$j] = null;
-      |    }
+      |    $retrieveValues
       |  }
       |  $args[$i] = new $genericInternalRow($myobject);
       |}
@@ -212,28 +221,28 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val inputArrays = children.map(_.eval(input).asInstanceOf[ArrayData])
     val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
     val numberOfArrays = children.length
-
-    var biggestCardinality = 0
-    for (e <- inputArrays) {
-      biggestCardinality = biggestCardinality max e.numElements()
-    }
-
-    var i = 0
-    var j = 0
-    var result = Seq[InternalRow]()
-    while (i < biggestCardinality) {
-      var myList = List[Any]()
-      j = numberOfArrays - 1
-      while (j >= 0) {
-        if (inputArrays(j).numElements() > i) {
-          myList = inputArrays(j).get(i, arrayTypes(j)) :: myList
-        } else {
-          myList = null :: myList
-        }
-        j -= 1
+    val biggestCardinality = inputArrays.map { arr =>
+      if (arr != null) {
+        arr.numElements())
+      } else {
+        0
       }
-      result = result :+ InternalRow.apply(myList: _*)
-      i += 1
+    }.reduceLeft(_.max(_))
+    val result = new Array[InternalRow](biggestCardinality)
+    val zippedArrs: Seq[(ArrayData, Int)] = inputArrays.zipWithIndex
+
+    for (i <- 0 until biggestCardinality) {
+      val row: List[Any] = zippedArrs
+        .map { case (arr, index) =>
+          if (arr.numElements() > i) {
+            arr.get(i, arrayTypes(index))
+          } else {
+            null
+          }
+        }
+        .foldLeft(List[Any]())((acc, item) => acc :+ item)
+
+      result(i) = InternalRow.apply(row: _*)
     }
     new GenericArrayData(result)
   }

From 3ba2b4f38520a2b1a6db91881b746a3253e37137 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Wed, 16 May 2018 21:39:19 -0300
Subject: [PATCH 13/36] fix dogencode generation

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 28 +++++++++++--------
 .../CollectionExpressionsSuite.scala          |  2 --
 2 files changed, 17 insertions(+), 13 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 139f129847f6d..671af12a0c8ff 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -164,15 +164,20 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val evals = children.map(_.genCode(ctx))
     val numArrs = evals.length
 
-    val arrCardinality = ctx.freshName("args")
+    val arrCardinality = ctx.freshName("arrCardinality")
     val arrVals = ctx.freshName("arrVals")
 
     val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
+
     val inputs = evals.zipWithIndex.map { case (eval, index) =>
       s"""
         |${eval.code}
         |if (!${eval.isNull}) {
         |  $arrVals[$index] = ${eval.value};
+        |  $arrCardinality[$index] = ${eval.value}.numElements();
+        |} else {
+        |  $arrVals[$index] = null;
+        |  $arrCardinality[$index] = 0;
         |}
       """.stripMargin
     }.mkString("\n")
@@ -183,10 +188,11 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
 
-    val retrieveValues = evals.zipWithIndex.map { case (eval, index) =>
+    val fillValue = evals.zipWithIndex.map { case (eval, index) =>
       s"""
-      |${eval.code}
-      |$myobject[$j] = ${eval.value}.get($i, ${arrayTypes(index)});
+      |if ($j == ${index}) {
+      |  $myobject[$j] = ${CodeGenerator.getValue(s"$arrVals[$j]", arrayTypes(index), i)};
+      |}
       """.stripMargin
     }.mkString("\n")
 
@@ -196,21 +202,21 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |$inputs
       |int $biggestCardinality = 0;
       |for (int $i = 0; $i < $numArrs; $i ++) {
-      |  if ($arrVals[$i] == null) {
-      |    $arrCardinality[$i] = 0;
-      |  } else {
-      |    $arrCardinality[$i] = $arrVals[$i].numElements();
-      |  }
       |  $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$i]);
       |}
       |Object[] $args = new Object[$biggestCardinality];
       |for (int $i = 0; $i < $biggestCardinality; $i ++) {
       |  Object[] $myobject = new Object[$numArrs];
       |  for (int $j = 0; $j < $numArrs; $j ++) {
-      |    $retrieveValues
+      |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i) {
+      |      $fillValue;
+      |    } else {
+      |      $myobject[$j] = null;
+      |    }
       |  }
       |  $args[$i] = new $genericInternalRow($myobject);
       |}
+      |boolean ${ev.isNull} = false;
       |$genericArrayData ${ev.value} = new $genericArrayData($args);
     """.stripMargin)
   }
@@ -223,7 +229,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val numberOfArrays = children.length
     val biggestCardinality = inputArrays.map { arr =>
       if (arr != null) {
-        arr.numElements())
+        arr.numElements()
       } else {
         0
       }
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index 8ade56859d3d8..4ab5fb16fbd4c 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -325,8 +325,6 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
     val val2 = List(Row(9001, 4), Row(9002, 5), Row(null, 6))
     val val3 = List(Row("a", 4), Row("b", null), Row(null, null))
 
-    checkEvaluation(Zip(Seq(Literal.create(Seq(1, 0)), Literal.create(Seq(1, 0)))),
-      List(Row(1, 0), Row(1, 0)))
     checkEvaluation(Zip(Seq(lit1._1, lit1._2)), val1)
     checkEvaluation(Zip(Seq(lit2._1, lit2._2)), val2)
     checkEvaluation(Zip(Seq(lit3._1, lit3._2)), val3)

From 3a5920170a7392bf36f2fd4dac805bd6f0ef5095 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Thu, 17 May 2018 13:30:35 -0300
Subject: [PATCH 14/36] Adds new tests, uses lazy val and split calls

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 67 +++++++++----------
 .../CollectionExpressionsSuite.scala          | 58 +++++++++++++---
 .../spark/sql/DataFrameFunctionsSuite.scala   | 21 +++++-
 3 files changed, 97 insertions(+), 49 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 671af12a0c8ff..bc83ea96d11df 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -140,35 +140,37 @@ case class MapKeys(child: Expression)
   """,
   since = "2.4.0")
 case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTypes {
+
   override def inputTypes: Seq[AbstractDataType] = Seq.fill(children.length)(ArrayType)
 
-  def mountSchema(): StructType = {
+  override def dataType: DataType = ArrayType(mountSchema)
+
+  override def prettyName: String = "zip"
+
+  override def nullable: Boolean = children.forall(_.nullable)
+
+  lazy val numberOfArrays: Int = children.length
+
+  def mountSchema: StructType = {
     val arrayAT = children.map(_.dataType.asInstanceOf[ArrayType])
-    val fields = arrayAT.zipWithIndex.foldRight(List[StructField]()) {
-      (item, list) => {
-        val (arr, idx) = item
-        StructField(s"_$idx", arr.elementType, arr.containsNull) :: list
-      }
+    val fields = arrayAT.zipWithIndex.foldRight(List[StructField]()) { case ((arr, idx), list) =>
+      StructField(s"_$idx", arr.elementType, children(idx).nullable || arr.containsNull) :: list
     }
     StructType(fields)
   }
 
-  override def dataType: DataType = ArrayType(mountSchema())
-
-  override def prettyName: String = "zip"
-
   override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     val genericArrayData = classOf[GenericArrayData].getName
     val genericInternalRow = classOf[GenericInternalRow].getName
 
     val evals = children.map(_.genCode(ctx))
-    val numArrs = evals.length
-
-    val arrCardinality = ctx.freshName("arrCardinality")
-    val arrVals = ctx.freshName("arrVals")
 
     val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
 
+    val arrVals = ctx.freshName("arrVals")
+    val arrCardinality = ctx.freshName("arrCardinality")
+    val biggestCardinality = ctx.freshName("biggestCardinality")
+
     val inputs = evals.zipWithIndex.map { case (eval, index) =>
       s"""
         |${eval.code}
@@ -179,11 +181,11 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |  $arrVals[$index] = null;
         |  $arrCardinality[$index] = 0;
         |}
+        |$biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
       """.stripMargin
     }.mkString("\n")
 
     val myobject = ctx.freshName("myobject")
-    val biggestCardinality = ctx.freshName("biggestCardinality")
     val j = ctx.freshName("j")
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
@@ -197,18 +199,15 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     }.mkString("\n")
 
     ev.copy(s"""
-      |ArrayData[] $arrVals = new ArrayData[$numArrs];
-      |int[] $arrCardinality = new int[$numArrs];
-      |$inputs
+      |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
+      |int[] $arrCardinality = new int[$numberOfArrays];
       |int $biggestCardinality = 0;
-      |for (int $i = 0; $i < $numArrs; $i ++) {
-      |  $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$i]);
-      |}
+      |$inputs
       |Object[] $args = new Object[$biggestCardinality];
       |for (int $i = 0; $i < $biggestCardinality; $i ++) {
-      |  Object[] $myobject = new Object[$numArrs];
-      |  for (int $j = 0; $j < $numArrs; $j ++) {
-      |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i) {
+      |  Object[] $myobject = new Object[$numberOfArrays];
+      |  for (int $j = 0; $j < $numberOfArrays; $j ++) {
+      |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
       |      $fillValue;
       |    } else {
       |      $myobject[$j] = null;
@@ -221,12 +220,9 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     """.stripMargin)
   }
 
-  override def nullable: Boolean = children.forall(_.nullable)
-
   override def eval(input: InternalRow): Any = {
     val inputArrays = children.map(_.eval(input).asInstanceOf[ArrayData])
     val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
-    val numberOfArrays = children.length
     val biggestCardinality = inputArrays.map { arr =>
       if (arr != null) {
         arr.numElements()
@@ -238,18 +234,17 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val zippedArrs: Seq[(ArrayData, Int)] = inputArrays.zipWithIndex
 
     for (i <- 0 until biggestCardinality) {
-      val row: List[Any] = zippedArrs
-        .map { case (arr, index) =>
-          if (arr.numElements() > i) {
-            arr.get(i, arrayTypes(index))
-          } else {
-            null
-          }
+      val currentLayer: Seq[Object] = zippedArrs.map { case (arr, index) =>
+        if (arr != null && arr.numElements() > i && !arr.isNullAt(i)) {
+          arr.get(i, arrayTypes(index))
+        } else {
+          null
         }
-        .foldLeft(List[Any]())((acc, item) => acc :+ item)
+      }
 
-      result(i) = InternalRow.apply(row: _*)
+      result(i) = InternalRow.apply(currentLayer: _*)
     }
+
     new GenericArrayData(result)
   }
 }
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index 4ab5fb16fbd4c..d9e9dc1c5a0bf 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -317,17 +317,53 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
   }
 
   test("Zip") {
-    val lit1 = (Literal.create(Seq(9001, 9002, 9003)), Literal.create(Seq(4, 5, 6)))
-    val lit2 = (Literal.create(Seq(9001, 9002)), Literal.create(Seq(4, 5, 6)))
-    val lit3 = (Literal.create(Seq("a", "b", null)), Literal.create(Seq(4)))
-
-    val val1 = List(Row(9001, 4), Row(9002, 5), Row(9003, 6))
-    val val2 = List(Row(9001, 4), Row(9002, 5), Row(null, 6))
-    val val3 = List(Row("a", 4), Row("b", null), Row(null, null))
-
-    checkEvaluation(Zip(Seq(lit1._1, lit1._2)), val1)
-    checkEvaluation(Zip(Seq(lit2._1, lit2._2)), val2)
-    checkEvaluation(Zip(Seq(lit3._1, lit3._2)), val3)
+    val literals = Seq(
+      Literal.create(Seq(9001, 9002, 9003, null), ArrayType(IntegerType)),
+      Literal.create(Seq(null, 1L, null, 4L, 11L), ArrayType(LongType)),
+      Literal.create(Seq(-1, -3, 900, null), ArrayType(IntegerType)),
+      Literal.create(Seq("a", null, "c"), ArrayType(StringType)),
+      Literal.create(Seq(null, false, true), ArrayType(BooleanType)),
+      Literal.create(Seq(1.1, null, 1.3, null), ArrayType(DoubleType)),
+      Literal.create(Seq(), ArrayType(NullType)),
+      Literal.create(Seq(null), ArrayType(NullType)),
+      Literal.create(Seq(192.toByte), ArrayType(ByteType))
+    )
+
+    checkEvaluation(Zip(Seq(literals(0), literals(1))),
+      List(Row(9001, null), Row(9002, 1L), Row(9003, null), Row(null, 4L), Row(null, 11L)))
+
+    checkEvaluation(Zip(Seq(literals(0), literals(2))),
+      List(Row(9001, -1), Row(9002, -3), Row(9003, 900), Row(null, null)))
+
+    checkEvaluation(Zip(Seq(literals(0), literals(3))),
+      List(Row(9001, "a"), Row(9002, null), Row(9003, "c"), Row(null, null)))
+
+    checkEvaluation(Zip(Seq(literals(0), literals(4))),
+      List(Row(9001, null), Row(9002, false), Row(9003, true), Row(null, null)))
+
+    checkEvaluation(Zip(Seq(literals(0), literals(5))),
+      List(Row(9001, 1.1), Row(9002, null), Row(9003, 1.3), Row(null, null)))
+
+    checkEvaluation(Zip(Seq(literals(0), literals(6))),
+      List(Row(9001, null), Row(9002, null), Row(9003, null), Row(null, null)))
+
+    checkEvaluation(Zip(Seq(literals(0), literals(7))),
+      List(Row(9001, null), Row(9002, null), Row(9003, null), Row(null, null)))
+
+    checkEvaluation(Zip(Seq(literals(0), literals(1), literals(2), literals(3))),
+      List(
+        Row(9001, null, -1, "a"),
+        Row(9002, 1L, -3, null),
+        Row(9003, null, 900, "c"),
+        Row(null, 4L, null, null),
+        Row(null, 11L, null, null)))
+
+    checkEvaluation(Zip(Seq(literals(4), literals(5), literals(6), literals(7), literals(8))),
+      List(
+        Row(null, 1.1, null, null, 192.toByte),
+        Row(false, null, null, null, null),
+        Row(true, 1.3, null, null, null),
+        Row(null, null, null, null, null)))
   }
 
   test("Array Min") {
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index 1d3c77fa6ce4a..5260d908042b3 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -481,20 +481,37 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
 
   test("dataframe zip function") {
     val df1 = Seq((Seq(9001, 9002, 9003), Seq(4, 5, 6))).toDF("val1", "val2")
-    val df2 = Seq((Seq("a", "b"), Seq(4, 5), Seq(10, 11))).toDF("val1", "val2", "val3")
+    val df2 = Seq((Seq("a", "b"), Seq(true, false), Seq(10, 11))).toDF("val1", "val2", "val3")
     val df3 = Seq((Seq("a", "b"), Seq(4, 5, 6))).toDF("val1", "val2")
+    val df4 = Seq((Seq("a", "b", null), Seq(4L))).toDF("val1", "val2")
+    val df5 = Seq((Seq(-1), Seq(null), Seq(), Seq(null, null))).toDF("val1", "val2", "val3", "val4")
+    val df6 = Seq((Seq(192.toByte, 256.toByte), Seq(1.1), Seq(), Seq(null, null)))
+      .toDF("v1", "v2", "v3", "v4")
 
     val expectedValue1 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(9003, 6)))
     checkAnswer(df1.select(zip($"val1", $"val2")), expectedValue1)
     checkAnswer(df1.selectExpr("zip(val1, val2)"), expectedValue1)
 
-    val expectedValue2 = Row(Seq(Row("a", 4, 10), Row("b", 5, 11)))
+    val expectedValue2 = Row(Seq(Row("a", true, 10), Row("b", false, 11)))
     checkAnswer(df2.select(zip($"val1", $"val2", $"val3")), expectedValue2)
     checkAnswer(df2.selectExpr("zip(val1, val2, val3)"), expectedValue2)
 
     val expectedValue3 = Row(Seq(Row("a", 4), Row("b", 5), Row(null, 6)))
     checkAnswer(df3.select(zip($"val1", $"val2")), expectedValue3)
     checkAnswer(df3.selectExpr("zip(val1, val2)"), expectedValue3)
+
+    val expectedValue4 = Row(Seq(Row("a", 4L), Row("b", null), Row(null, null)))
+    checkAnswer(df4.select(zip($"val1", $"val2")), expectedValue4)
+    checkAnswer(df4.selectExpr("zip(val1, val2)"), expectedValue4)
+
+    val expectedValue5 = Row(Seq(Row(-1, null, null, null), Row(null, null, null, null)))
+    checkAnswer(df5.select(zip($"val1", $"val2", $"val3", $"val4")), expectedValue5)
+    checkAnswer(df5.selectExpr("zip(val1, val2, val3, val4)"), expectedValue5)
+
+    val expectedValue6 = Row(Seq(
+      Row(192.toByte, 1.1, null, null), Row(256.toByte, null, null, null)))
+    checkAnswer(df6.select(zip($"v1", $"v2", $"v3", $"v4")), expectedValue6)
+    checkAnswer(df6.selectExpr("zip(v1, v2, v3, v4)"), expectedValue6)
   }
 
   test("map size function") {

From 6462fa8e9d5f941b9c9ccc1d69abfc84897f64bd Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Thu, 17 May 2018 16:33:48 -0300
Subject: [PATCH 15/36] uses splitFunction

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala      | 17 ++++++++++++-----
 1 file changed, 12 insertions(+), 5 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index bc83ea96d11df..bdb696cd675a4 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -192,11 +192,18 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
     val fillValue = evals.zipWithIndex.map { case (eval, index) =>
       s"""
-      |if ($j == ${index}) {
-      |  $myobject[$j] = ${CodeGenerator.getValue(s"$arrVals[$j]", arrayTypes(index), i)};
-      |}
+      |      if ($j == ${index}) {
+      |        $myobject[$j] = ${CodeGenerator.getValue(s"$arrVals[$j]", arrayTypes(index), i)};
+      |      }
       """.stripMargin
-    }.mkString("\n")
+    }
+
+    val fillValueSplitted = ctx.splitExpressions(
+      expressions = fillValue,
+      funcName = "fillValue",
+      arguments =
+        ("int", j) ::
+        ("Array[] Object", myobject) :: Nil)
 
     ev.copy(s"""
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
@@ -208,7 +215,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |  Object[] $myobject = new Object[$numberOfArrays];
       |  for (int $j = 0; $j < $numberOfArrays; $j ++) {
       |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
-      |      $fillValue;
+      |      $fillValueSplitted
       |    } else {
       |      $myobject[$j] = null;
       |    }

From 8b1eb7c113db305d5906f79bddc520016c8a6174 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 18 May 2018 09:57:53 -0300
Subject: [PATCH 16/36] move arraytypes to private member

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala       | 16 +++++++++-------
 1 file changed, 9 insertions(+), 7 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index bdb696cd675a4..e0dc7abe5d02a 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -151,9 +151,12 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   lazy val numberOfArrays: Int = children.length
 
+  private lazy val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType])
+
+  private lazy val arrayElementTypes = arrayTypes.map(_.elementType)
+
   def mountSchema: StructType = {
-    val arrayAT = children.map(_.dataType.asInstanceOf[ArrayType])
-    val fields = arrayAT.zipWithIndex.foldRight(List[StructField]()) { case ((arr, idx), list) =>
+    val fields = arrayTypes.zipWithIndex.foldRight(List[StructField]()) { case ((arr, idx), list) =>
       StructField(s"_$idx", arr.elementType, children(idx).nullable || arr.containsNull) :: list
     }
     StructType(fields)
@@ -165,8 +168,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
     val evals = children.map(_.genCode(ctx))
 
-    val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
-
     val arrVals = ctx.freshName("arrVals")
     val arrCardinality = ctx.freshName("arrCardinality")
     val biggestCardinality = ctx.freshName("biggestCardinality")
@@ -191,9 +192,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val args = ctx.freshName("args")
 
     val fillValue = evals.zipWithIndex.map { case (eval, index) =>
+      val getArrValsItem = CodeGenerator.getValue(s"$arrVals[$j]", arrayElementTypes(index), i)
       s"""
       |      if ($j == ${index}) {
-      |        $myobject[$j] = ${CodeGenerator.getValue(s"$arrVals[$j]", arrayTypes(index), i)};
+      |        $myobject[$j] = $getArrValsItem;
       |      }
       """.stripMargin
     }
@@ -229,7 +231,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   override def eval(input: InternalRow): Any = {
     val inputArrays = children.map(_.eval(input).asInstanceOf[ArrayData])
-    val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType].elementType)
+
     val biggestCardinality = inputArrays.map { arr =>
       if (arr != null) {
         arr.numElements()
@@ -243,7 +245,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     for (i <- 0 until biggestCardinality) {
       val currentLayer: Seq[Object] = zippedArrs.map { case (arr, index) =>
         if (arr != null && arr.numElements() > i && !arr.isNullAt(i)) {
-          arr.get(i, arrayTypes(index))
+          arr.get(i, arrayElementTypes(index))
         } else {
           null
         }

From 2bfba807c5f818c03d26a6134c6d41fa0fbe4fe1 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 18 May 2018 11:27:12 -0300
Subject: [PATCH 17/36] adds binary and array of array tests

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/CollectionExpressionsSuite.scala  | 15 ++++++++++++++-
 .../spark/sql/DataFrameFunctionsSuite.scala       | 12 ++++++++++++
 2 files changed, 26 insertions(+), 1 deletion(-)

diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index d9e9dc1c5a0bf..497dc87797a82 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -326,7 +326,10 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
       Literal.create(Seq(1.1, null, 1.3, null), ArrayType(DoubleType)),
       Literal.create(Seq(), ArrayType(NullType)),
       Literal.create(Seq(null), ArrayType(NullType)),
-      Literal.create(Seq(192.toByte), ArrayType(ByteType))
+      Literal.create(Seq(192.toByte), ArrayType(ByteType)),
+      Literal.create(
+        Seq(Seq(1, 2, 3), null, Seq(4, 5), Seq(1, null, 3)), ArrayType(ArrayType(IntegerType))),
+      Literal.create(Seq(Array[Byte](1.toByte, 5.toByte)), ArrayType(BinaryType))
     )
 
     checkEvaluation(Zip(Seq(literals(0), literals(1))),
@@ -364,6 +367,16 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
         Row(false, null, null, null, null),
         Row(true, 1.3, null, null, null),
         Row(null, null, null, null, null)))
+
+    checkEvaluation(Zip(Seq(literals(9), literals(0))),
+      List(
+        Row(List(1, 2, 3), 9001),
+        Row(null, 9002),
+        Row(List(4, 5), 9003),
+        Row(List(1, null, 3), null)))
+
+    checkEvaluation(Zip(Seq(literals(7), literals(10))),
+      List(Row(null, Array[Byte](1.toByte, 5.toByte))))
   }
 
   test("Array Min") {
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index 5260d908042b3..3671fd5e91c99 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -487,6 +487,8 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
     val df5 = Seq((Seq(-1), Seq(null), Seq(), Seq(null, null))).toDF("val1", "val2", "val3", "val4")
     val df6 = Seq((Seq(192.toByte, 256.toByte), Seq(1.1), Seq(), Seq(null, null)))
       .toDF("v1", "v2", "v3", "v4")
+    val df7 = Seq((Seq(Seq(1, 2, 3), Seq(4, 5)), Seq(1.1, 2.2))).toDF("v1", "v2")
+    val df8 = Seq((Seq(Array[Byte](1.toByte, 5.toByte)), Seq(null))).toDF("v1", "v2")
 
     val expectedValue1 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(9003, 6)))
     checkAnswer(df1.select(zip($"val1", $"val2")), expectedValue1)
@@ -512,6 +514,16 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
       Row(192.toByte, 1.1, null, null), Row(256.toByte, null, null, null)))
     checkAnswer(df6.select(zip($"v1", $"v2", $"v3", $"v4")), expectedValue6)
     checkAnswer(df6.selectExpr("zip(v1, v2, v3, v4)"), expectedValue6)
+
+    val expectedValue7 = Row(Seq(
+      Row(Seq(1, 2, 3), 1.1), Row(Seq(4, 5), 2.2)))
+    checkAnswer(df7.select(zip($"v1", $"v2")), expectedValue7)
+    checkAnswer(df7.selectExpr("zip(v1, v2)"), expectedValue7)
+
+    val expectedValue8 = Row(Seq(
+      Row(Array[Byte](1.toByte, 5.toByte), null)))
+    checkAnswer(df8.select(zip($"v1", $"v2")), expectedValue8)
+    checkAnswer(df8.selectExpr("zip(v1, v2)"), expectedValue8)
   }
 
   test("map size function") {

From c3b062cd6bb97be56b6d36c3f55bc463e75485cc Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 18 May 2018 11:36:41 -0300
Subject: [PATCH 18/36] uses stored array types names

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../sql/catalyst/expressions/collectionOperations.scala  | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index e0dc7abe5d02a..ea4b24ab4af56 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -171,6 +171,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val arrVals = ctx.freshName("arrVals")
     val arrCardinality = ctx.freshName("arrCardinality")
     val biggestCardinality = ctx.freshName("biggestCardinality")
+    val storedArrTypes = ctx.freshName("storedArrTypes")
 
     val inputs = evals.zipWithIndex.map { case (eval, index) =>
       s"""
@@ -182,6 +183,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |  $arrVals[$index] = null;
         |  $arrCardinality[$index] = 0;
         |}
+        |$storedArrTypes[$index] = "${arrayElementTypes(index)}";
         |$biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
       """.stripMargin
     }.mkString("\n")
@@ -191,10 +193,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
 
-    val fillValue = evals.zipWithIndex.map { case (eval, index) =>
-      val getArrValsItem = CodeGenerator.getValue(s"$arrVals[$j]", arrayElementTypes(index), i)
+    val fillValue = arrayElementTypes.distinct.map { case (elementType) =>
+      val getArrValsItem = CodeGenerator.getValue(s"$arrVals[$j]", elementType, i)
       s"""
-      |      if ($j == ${index}) {
+      |      if ($storedArrTypes[$j] == "${elementType}") {
       |        $myobject[$j] = $getArrValsItem;
       |      }
       """.stripMargin
@@ -211,6 +213,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
       |int[] $arrCardinality = new int[$numberOfArrays];
       |int $biggestCardinality = 0;
+      |String[] $storedArrTypes = new String[$numberOfArrays];
       |$inputs
       |Object[] $args = new Object[$biggestCardinality];
       |for (int $i = 0; $i < $biggestCardinality; $i ++) {

From d9b95c4c09ef3aa2c2286d47d163808c34456385 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 18 May 2018 12:55:30 -0300
Subject: [PATCH 19/36] split input function using ctxsplitexpression

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 22 ++++++++++++++-----
 1 file changed, 16 insertions(+), 6 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index ea4b24ab4af56..80855864f80c6 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -184,9 +184,18 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |  $arrCardinality[$index] = 0;
         |}
         |$storedArrTypes[$index] = "${arrayElementTypes(index)}";
-        |$biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
+        |$biggestCardinality[0] = Math.max($biggestCardinality[0], $arrCardinality[$index]);
       """.stripMargin
-    }.mkString("\n")
+    }
+
+    val inputsSplitted = ctx.splitExpressions(
+      expressions = inputs,
+      funcName = "getInputAndCardinality",
+      arguments =
+        ("ArrayData[]", arrVals) ::
+        ("int[]", arrCardinality) ::
+        ("String[]", storedArrTypes) ::
+        ("int[]", biggestCardinality) :: Nil)
 
     val myobject = ctx.freshName("myobject")
     val j = ctx.freshName("j")
@@ -212,11 +221,12 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     ev.copy(s"""
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
       |int[] $arrCardinality = new int[$numberOfArrays];
-      |int $biggestCardinality = 0;
+      |int[] $biggestCardinality = new int[1];
+      |$biggestCardinality[0] = 0;
       |String[] $storedArrTypes = new String[$numberOfArrays];
-      |$inputs
-      |Object[] $args = new Object[$biggestCardinality];
-      |for (int $i = 0; $i < $biggestCardinality; $i ++) {
+      |$inputsSplitted
+      |Object[] $args = new Object[$biggestCardinality[0]];
+      |for (int $i = 0; $i < $biggestCardinality[0]; $i ++) {
       |  Object[] $myobject = new Object[$numberOfArrays];
       |  for (int $j = 0; $j < $numberOfArrays; $j ++) {
       |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {

From 26bbf66ce9af9e66544bee60976181b15b84a553 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 18 May 2018 22:53:38 -0300
Subject: [PATCH 20/36] uses splitexpression for inputs

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 35 +++++++++----------
 .../CollectionExpressionsSuite.scala          | 21 ++++++++++-
 2 files changed, 37 insertions(+), 19 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 80855864f80c6..4a0ddde669e24 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -184,18 +184,25 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |  $arrCardinality[$index] = 0;
         |}
         |$storedArrTypes[$index] = "${arrayElementTypes(index)}";
-        |$biggestCardinality[0] = Math.max($biggestCardinality[0], $arrCardinality[$index]);
+        |$biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
       """.stripMargin
     }
 
     val inputsSplitted = ctx.splitExpressions(
       expressions = inputs,
       funcName = "getInputAndCardinality",
+      returnType = "int",
+      makeSplitFunction = body =>
+        s"""
+          |$body
+          |return $biggestCardinality;
+        """.stripMargin,
+      foldFunctions = _.map(funcCall => s"$biggestCardinality = $funcCall;").mkString("\n"),
       arguments =
         ("ArrayData[]", arrVals) ::
         ("int[]", arrCardinality) ::
         ("String[]", storedArrTypes) ::
-        ("int[]", biggestCardinality) :: Nil)
+        ("int", biggestCardinality) :: Nil)
 
     val myobject = ctx.freshName("myobject")
     val j = ctx.freshName("j")
@@ -205,32 +212,24 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val fillValue = arrayElementTypes.distinct.map { case (elementType) =>
       val getArrValsItem = CodeGenerator.getValue(s"$arrVals[$j]", elementType, i)
       s"""
-      |      if ($storedArrTypes[$j] == "${elementType}") {
-      |        $myobject[$j] = $getArrValsItem;
-      |      }
+      |if ($storedArrTypes[$j] == "${elementType}") {
+      |  $myobject[$j] = $getArrValsItem;
+      |}
       """.stripMargin
-    }
-
-    val fillValueSplitted = ctx.splitExpressions(
-      expressions = fillValue,
-      funcName = "fillValue",
-      arguments =
-        ("int", j) ::
-        ("Array[] Object", myobject) :: Nil)
+    }.mkString("\n")
 
     ev.copy(s"""
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
       |int[] $arrCardinality = new int[$numberOfArrays];
-      |int[] $biggestCardinality = new int[1];
-      |$biggestCardinality[0] = 0;
+      |int $biggestCardinality = 0;
       |String[] $storedArrTypes = new String[$numberOfArrays];
       |$inputsSplitted
-      |Object[] $args = new Object[$biggestCardinality[0]];
-      |for (int $i = 0; $i < $biggestCardinality[0]; $i ++) {
+      |Object[] $args = new Object[$biggestCardinality];
+      |for (int $i = 0; $i < $biggestCardinality; $i ++) {
       |  Object[] $myobject = new Object[$numberOfArrays];
       |  for (int $j = 0; $j < $numberOfArrays; $j ++) {
       |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
-      |      $fillValueSplitted
+      |      $fillValue
       |    } else {
       |      $myobject[$j] = null;
       |    }
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index 497dc87797a82..89298636c6eb1 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -18,8 +18,8 @@
 package org.apache.spark.sql.catalyst.expressions
 
 import org.apache.spark.SparkFunSuite
-import org.apache.spark.sql.catalyst.InternalRow
 import org.apache.spark.sql.Row
+import org.apache.spark.sql.catalyst.InternalRow
 import org.apache.spark.sql.types._
 
 class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper {
@@ -377,6 +377,25 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
 
     checkEvaluation(Zip(Seq(literals(7), literals(10))),
       List(Row(null, Array[Byte](1.toByte, 5.toByte))))
+
+    val longLiteral =
+      Literal.create((0 to 1000).toSeq, ArrayType(IntegerType))
+
+    checkEvaluation(Zip(Seq(literals(0), longLiteral)),
+      List(Row(9001, 0), Row(9002, 1), Row(9003, 2)) ++
+      (3 to 1000).map { Row(null, _) }.toList)
+
+    val manyLiterals = (0 to 1000).map { case (number) =>
+      Literal.create(Seq(1), ArrayType(IntegerType))
+    }.toSeq
+
+    val numbers = List(
+      Seq(9001) ++ (0 to 1000).map { case (number) => 1 }.toSeq,
+      Seq(9002) ++ (0 to 1000).map { case (number) => null }.toSeq,
+      Seq(9003) ++ (0 to 1000).map { case (number) => null }.toSeq,
+      Seq(null) ++ (0 to 1000).map { case (number) => null }.toSeq)
+    checkEvaluation(Zip(Seq(literals(0)) ++ manyLiterals),
+      List(Row(numbers(0): _*), Row(numbers(1): _*), Row(numbers(2): _*), Row(numbers(3): _*)))
   }
 
   test("Array Min") {

From d9ad04d4ae157c6544f9bdcabc2218b0066478d9 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Tue, 22 May 2018 14:50:35 -0300
Subject: [PATCH 21/36] Refactor cases, add new tests with empty seq, check
 size of array

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 29 ++++++++++++-------
 .../CollectionExpressionsSuite.scala          | 12 ++++----
 2 files changed, 26 insertions(+), 15 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 4a0ddde669e24..c8502601c5bf7 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -145,8 +145,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   override def dataType: DataType = ArrayType(mountSchema)
 
-  override def prettyName: String = "zip"
-
   override def nullable: Boolean = children.forall(_.nullable)
 
   lazy val numberOfArrays: Int = children.length
@@ -155,9 +153,15 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   private lazy val arrayElementTypes = arrayTypes.map(_.elementType)
 
+
   def mountSchema: StructType = {
-    val fields = arrayTypes.zipWithIndex.foldRight(List[StructField]()) { case ((arr, idx), list) =>
-      StructField(s"_$idx", arr.elementType, children(idx).nullable || arr.containsNull) :: list
+    val fields = arrayTypes.zipWithIndex.map { case (arr, idx) =>
+      val fieldName = if (children(idx).isInstanceOf[NamedExpression]) {
+          children(idx).asInstanceOf[NamedExpression].name
+        } else {
+          s"$idx"
+        }
+      StructField(fieldName, arr.elementType, children(idx).nullable || arr.containsNull)
     }
     StructType(fields)
   }
@@ -209,10 +213,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
 
-    val fillValue = arrayElementTypes.distinct.map { case (elementType) =>
+    val fillValue = arrayElementTypes.distinct.map { elementType =>
       val getArrValsItem = CodeGenerator.getValue(s"$arrVals[$j]", elementType, i)
       s"""
-      |if ($storedArrTypes[$j] == "${elementType}") {
+      |if ($storedArrTypes[$j] == "$elementType") {
       |  $myobject[$j] = $getArrValsItem;
       |}
       """.stripMargin
@@ -243,14 +247,20 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   override def eval(input: InternalRow): Any = {
     val inputArrays = children.map(_.eval(input).asInstanceOf[ArrayData])
-
-    val biggestCardinality = inputArrays.map { arr =>
+    val inputCardinality = inputArrays.map { arr =>
       if (arr != null) {
         arr.numElements()
       } else {
         0
       }
-    }.reduceLeft(_.max(_))
+    }
+
+    val biggestCardinality = if (inputCardinality.isEmpty) {
+      0
+    } else {
+      inputCardinality.foldLeft(0)(_.max(_))
+    }
+
     val result = new Array[InternalRow](biggestCardinality)
     val zippedArrs: Seq[(ArrayData, Int)] = inputArrays.zipWithIndex
 
@@ -265,7 +275,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
       result(i) = InternalRow.apply(currentLayer: _*)
     }
-
     new GenericArrayData(result)
   }
 }
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index 89298636c6eb1..fe53c65d53a8b 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -385,17 +385,19 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
       List(Row(9001, 0), Row(9002, 1), Row(9003, 2)) ++
       (3 to 1000).map { Row(null, _) }.toList)
 
-    val manyLiterals = (0 to 1000).map { case (number) =>
+    val manyLiterals = (0 to 1000).map { _ =>
       Literal.create(Seq(1), ArrayType(IntegerType))
     }.toSeq
 
     val numbers = List(
-      Seq(9001) ++ (0 to 1000).map { case (number) => 1 }.toSeq,
-      Seq(9002) ++ (0 to 1000).map { case (number) => null }.toSeq,
-      Seq(9003) ++ (0 to 1000).map { case (number) => null }.toSeq,
-      Seq(null) ++ (0 to 1000).map { case (number) => null }.toSeq)
+      Seq(9001) ++ (0 to 1000).map { _ => 1 }.toSeq,
+      Seq(9002) ++ (0 to 1000).map { _ => null }.toSeq,
+      Seq(9003) ++ (0 to 1000).map { _ => null }.toSeq,
+      Seq(null) ++ (0 to 1000).map { _ => null }.toSeq)
     checkEvaluation(Zip(Seq(literals(0)) ++ manyLiterals),
       List(Row(numbers(0): _*), Row(numbers(1): _*), Row(numbers(2): _*), Row(numbers(3): _*)))
+
+    checkEvaluation(Zip(Seq()), List())
   }
 
   test("Array Min") {

From f29ee1cea9dc6d60f2b4bf9f138d207618e93c74 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Tue, 22 May 2018 17:31:58 -0300
Subject: [PATCH 22/36] Check empty seq as input

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 71 +++++++++++--------
 .../CollectionExpressionsSuite.scala          | 11 +--
 2 files changed, 47 insertions(+), 35 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index c8502601c5bf7..af5c725cff872 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -147,8 +147,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   override def nullable: Boolean = children.forall(_.nullable)
 
-  lazy val numberOfArrays: Int = children.length
-
   private lazy val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType])
 
   private lazy val arrayElementTypes = arrayTypes.map(_.elementType)
@@ -167,15 +165,15 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
   }
 
   override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
+    val numberOfArrays: Int = children.length
     val genericArrayData = classOf[GenericArrayData].getName
     val genericInternalRow = classOf[GenericInternalRow].getName
-
-    val evals = children.map(_.genCode(ctx))
-
     val arrVals = ctx.freshName("arrVals")
     val arrCardinality = ctx.freshName("arrCardinality")
     val biggestCardinality = ctx.freshName("biggestCardinality")
     val storedArrTypes = ctx.freshName("storedArrTypes")
+    val returnNull = ctx.freshName("returnNull")
+    val evals = children.map(_.genCode(ctx))
 
     val inputs = evals.zipWithIndex.map { case (eval, index) =>
       s"""
@@ -186,6 +184,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |} else {
         |  $arrVals[$index] = null;
         |  $arrCardinality[$index] = 0;
+        |  $returnNull[0] = true;
         |}
         |$storedArrTypes[$index] = "${arrayElementTypes(index)}";
         |$biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
@@ -206,7 +205,8 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         ("ArrayData[]", arrVals) ::
         ("int[]", arrCardinality) ::
         ("String[]", storedArrTypes) ::
-        ("int", biggestCardinality) :: Nil)
+        ("int", biggestCardinality) ::
+        ("boolean[]", returnNull) :: Nil)
 
     val myobject = ctx.freshName("myobject")
     val j = ctx.freshName("j")
@@ -227,7 +227,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |int[] $arrCardinality = new int[$numberOfArrays];
       |int $biggestCardinality = 0;
       |String[] $storedArrTypes = new String[$numberOfArrays];
+      |boolean[] $returnNull = new boolean[1];
+      |$returnNull[0] = false;
       |$inputsSplitted
+      |${CodeGenerator.javaType(dataType)} ${ev.value};
       |Object[] $args = new Object[$biggestCardinality];
       |for (int $i = 0; $i < $biggestCardinality; $i ++) {
       |  Object[] $myobject = new Object[$numberOfArrays];
@@ -240,42 +243,50 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |  }
       |  $args[$i] = new $genericInternalRow($myobject);
       |}
-      |boolean ${ev.isNull} = false;
-      |$genericArrayData ${ev.value} = new $genericArrayData($args);
+      |boolean ${ev.isNull} = $returnNull[0];
+      |if (${ev.isNull}) {
+      |  ${ev.value} = null;
+      |} else {
+      |  ${ev.value} = new $genericArrayData($args);
+      |}
     """.stripMargin)
   }
 
   override def eval(input: InternalRow): Any = {
     val inputArrays = children.map(_.eval(input).asInstanceOf[ArrayData])
-    val inputCardinality = inputArrays.map { arr =>
-      if (arr != null) {
-        arr.numElements()
-      } else {
-        0
+    if (inputArrays.contains(null)) {
+      null
+    } else {
+      val inputCardinality = inputArrays.map { arr =>
+        if (arr != null) {
+          arr.numElements()
+        } else {
+          0
+        }
       }
-    }
 
-    val biggestCardinality = if (inputCardinality.isEmpty) {
-      0
-    } else {
-      inputCardinality.foldLeft(0)(_.max(_))
-    }
+      val biggestCardinality = if (inputCardinality.isEmpty) {
+        0
+      } else {
+        inputCardinality.foldLeft(0)(_.max(_))
+      }
 
-    val result = new Array[InternalRow](biggestCardinality)
-    val zippedArrs: Seq[(ArrayData, Int)] = inputArrays.zipWithIndex
+      val result = new Array[InternalRow](biggestCardinality)
+      val zippedArrs: Seq[(ArrayData, Int)] = inputArrays.zipWithIndex
 
-    for (i <- 0 until biggestCardinality) {
-      val currentLayer: Seq[Object] = zippedArrs.map { case (arr, index) =>
-        if (arr != null && arr.numElements() > i && !arr.isNullAt(i)) {
-          arr.get(i, arrayElementTypes(index))
-        } else {
-          null
+      for (i <- 0 until biggestCardinality) {
+        val currentLayer: Seq[Object] = zippedArrs.map { case (arr, index) =>
+          if (arr != null && arr.numElements() > i && !arr.isNullAt(i)) {
+            arr.get(i, arrayElementTypes(index))
+          } else {
+            null
+          }
         }
-      }
 
-      result(i) = InternalRow.apply(currentLayer: _*)
+        result(i) = InternalRow.apply(currentLayer: _*)
+      }
+      new GenericArrayData(result)
     }
-    new GenericArrayData(result)
   }
 }
 
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index fe53c65d53a8b..4e46a3cffbba9 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -390,14 +390,15 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
     }.toSeq
 
     val numbers = List(
-      Seq(9001) ++ (0 to 1000).map { _ => 1 }.toSeq,
-      Seq(9002) ++ (0 to 1000).map { _ => null }.toSeq,
-      Seq(9003) ++ (0 to 1000).map { _ => null }.toSeq,
-      Seq(null) ++ (0 to 1000).map { _ => null }.toSeq)
+      Row(Seq(9001) ++ (0 to 1000).map { _ => 1 }.toSeq: _*),
+      Row(Seq(9002) ++ (0 to 1000).map { _ => null }.toSeq: _*),
+      Row(Seq(9003) ++ (0 to 1000).map { _ => null }.toSeq: _*),
+      Row(Seq(null) ++ (0 to 1000).map { _ => null }.toSeq: _*))
     checkEvaluation(Zip(Seq(literals(0)) ++ manyLiterals),
-      List(Row(numbers(0): _*), Row(numbers(1): _*), Row(numbers(2): _*), Row(numbers(3): _*)))
+      List(numbers(0), numbers(1), numbers(2), numbers(3)))
 
     checkEvaluation(Zip(Seq()), List())
+    checkEvaluation(Zip(Seq(literals(0), Literal.create(null, ArrayType(IntegerType)))), null)
   }
 
   test("Array Min") {

From c58d09cebe4c6665acf40b938b81c2f56d628430 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Tue, 22 May 2018 21:37:07 -0300
Subject: [PATCH 23/36] Uses switch instead of if

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 22 +++++++++++++------
 .../CollectionExpressionsSuite.scala          |  4 ++--
 2 files changed, 17 insertions(+), 9 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index af5c725cff872..8c5da736686fa 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -213,14 +213,14 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
 
-    val fillValue = arrayElementTypes.distinct.map { elementType =>
+    val cases = arrayElementTypes.distinct.map { elementType =>
       val getArrValsItem = CodeGenerator.getValue(s"$arrVals[$j]", elementType, i)
       s"""
-      |if ($storedArrTypes[$j] == "$elementType") {
-      |  $myobject[$j] = $getArrValsItem;
-      |}
+        |case "${elementType}":
+        |  $myobject[$j] = $getArrValsItem;
+        |  break;
       """.stripMargin
-    }.mkString("\n")
+    }
 
     ev.copy(s"""
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
@@ -236,7 +236,11 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |  Object[] $myobject = new Object[$numberOfArrays];
       |  for (int $j = 0; $j < $numberOfArrays; $j ++) {
       |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
-      |      $fillValue
+      |      switch ($storedArrTypes[$j]) {
+      |        ${cases.mkString("\n")}
+      |       default:
+      |         break;
+      |      }
       |    } else {
       |      $myobject[$j] = null;
       |    }
@@ -247,7 +251,11 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |if (${ev.isNull}) {
       |  ${ev.value} = null;
       |} else {
-      |  ${ev.value} = new $genericArrayData($args);
+      |  if ($numberOfArrays == 0) {
+      |    ${ev.value} = new $genericArrayData(new Object[0]);
+      |  } else {
+      |    ${ev.value} = new $genericArrayData($args);
+      |  }
       |}
     """.stripMargin)
   }
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index 4e46a3cffbba9..51e53d9d5cf7f 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -397,8 +397,8 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
     checkEvaluation(Zip(Seq(literals(0)) ++ manyLiterals),
       List(numbers(0), numbers(1), numbers(2), numbers(3)))
 
-    checkEvaluation(Zip(Seq()), List())
-    checkEvaluation(Zip(Seq(literals(0), Literal.create(null, ArrayType(IntegerType)))), null)
+    // checkEvaluation(Zip(Seq()), List())
+    // checkEvaluation(Zip(Seq(literals(0), Literal.create(null, ArrayType(IntegerType)))), null)
   }
 
   test("Array Min") {

From 38fa99610f479477a5ccc4f41e022ce67441e7ef Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Wed, 23 May 2018 12:58:26 -0300
Subject: [PATCH 24/36] refactor switch and else methods

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 59 ++++++++-----------
 1 file changed, 24 insertions(+), 35 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 8c5da736686fa..05b3ee78d5ec6 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -151,15 +151,12 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   private lazy val arrayElementTypes = arrayTypes.map(_.elementType)
 
-
   def mountSchema: StructType = {
-    val fields = arrayTypes.zipWithIndex.map { case (arr, idx) =>
-      val fieldName = if (children(idx).isInstanceOf[NamedExpression]) {
-          children(idx).asInstanceOf[NamedExpression].name
-        } else {
-          s"$idx"
-        }
-      StructField(fieldName, arr.elementType, children(idx).nullable || arr.containsNull)
+    val fields = children.zip(arrayElementTypes).zipWithIndex.map {
+      case ((expr: NamedExpression, elementType), _) =>
+        StructField(expr.name, elementType, nullable = true)
+      case ((_, elementType), idx) =>
+        StructField(s"$idx", elementType, nullable = true)
     }
     StructType(fields)
   }
@@ -231,22 +228,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |$returnNull[0] = false;
       |$inputsSplitted
       |${CodeGenerator.javaType(dataType)} ${ev.value};
-      |Object[] $args = new Object[$biggestCardinality];
-      |for (int $i = 0; $i < $biggestCardinality; $i ++) {
-      |  Object[] $myobject = new Object[$numberOfArrays];
-      |  for (int $j = 0; $j < $numberOfArrays; $j ++) {
-      |    if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
-      |      switch ($storedArrTypes[$j]) {
-      |        ${cases.mkString("\n")}
-      |       default:
-      |         break;
-      |      }
-      |    } else {
-      |      $myobject[$j] = null;
-      |    }
-      |  }
-      |  $args[$i] = new $genericInternalRow($myobject);
-      |}
       |boolean ${ev.isNull} = $returnNull[0];
       |if (${ev.isNull}) {
       |  ${ev.value} = null;
@@ -254,6 +235,22 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |  if ($numberOfArrays == 0) {
       |    ${ev.value} = new $genericArrayData(new Object[0]);
       |  } else {
+      |    Object[] $args = new Object[$biggestCardinality];
+      |    for (int $i = 0; $i < $biggestCardinality; $i ++) {
+      |      Object[] $myobject = new Object[$numberOfArrays];
+      |      for (int $j = 0; $j < $numberOfArrays; $j ++) {
+      |        if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
+      |          switch ($storedArrTypes[$j]) {
+      |            ${cases.mkString("\n")}
+      |           default:
+      |             break;
+      |          }
+      |        } else {
+      |          $myobject[$j] = null;
+      |        }
+      |      }
+      |      $args[$i] = new $genericInternalRow($myobject);
+      |    }
       |    ${ev.value} = new $genericArrayData($args);
       |  }
       |}
@@ -265,18 +262,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     if (inputArrays.contains(null)) {
       null
     } else {
-      val inputCardinality = inputArrays.map { arr =>
-        if (arr != null) {
-          arr.numElements()
-        } else {
-          0
-        }
-      }
-
-      val biggestCardinality = if (inputCardinality.isEmpty) {
+      val biggestCardinality = if (inputArrays.isEmpty) {
         0
       } else {
-        inputCardinality.foldLeft(0)(_.max(_))
+        inputArrays.map(_.numElements()).max
       }
 
       val result = new Array[InternalRow](biggestCardinality)
@@ -284,7 +273,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
       for (i <- 0 until biggestCardinality) {
         val currentLayer: Seq[Object] = zippedArrs.map { case (arr, index) =>
-          if (arr != null && arr.numElements() > i && !arr.isNullAt(i)) {
+          if (i < arr.numElements() && !arr.isNullAt(i)) {
             arr.get(i, arrayElementTypes(index))
           } else {
             null

From 5b3066b11fe975f232d0f656fe81471dcad1b2dd Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Wed, 30 May 2018 09:50:58 -0300
Subject: [PATCH 25/36] uses if instead of switch

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala      | 17 ++++++-----------
 1 file changed, 6 insertions(+), 11 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 05b3ee78d5ec6..850acbf0f4079 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -210,14 +210,13 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
 
-    val cases = arrayElementTypes.distinct.map { elementType =>
-      val getArrValsItem = CodeGenerator.getValue(s"$arrVals[$j]", elementType, i)
+    val getValueForType = arrayElementTypes.distinct.map { eleType =>
       s"""
-        |case "${elementType}":
-        |  $myobject[$j] = $getArrValsItem;
-        |  break;
+      |if ($storedArrTypes[$j] == "${eleType}") {
+      |  $myobject[$j] = ${CodeGenerator.getValue(s"$arrVals[$j]", eleType, i)};
+      |}
       """.stripMargin
-    }
+    }.mkString("\n")
 
     ev.copy(s"""
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
@@ -240,11 +239,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |      Object[] $myobject = new Object[$numberOfArrays];
       |      for (int $j = 0; $j < $numberOfArrays; $j ++) {
       |        if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
-      |          switch ($storedArrTypes[$j]) {
-      |            ${cases.mkString("\n")}
-      |           default:
-      |             break;
-      |          }
+      |          $getValueForType
       |        } else {
       |          $myobject[$j] = null;
       |        }

From 759a4d4f0ac43a0b46555d3e9f9ce47509997c3e Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Mon, 4 Jun 2018 09:52:28 -0300
Subject: [PATCH 26/36] Not using storedarrtype anymore

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 83 ++++++++++---------
 1 file changed, 42 insertions(+), 41 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 850acbf0f4079..4c8766c4c015d 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -168,7 +168,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val arrVals = ctx.freshName("arrVals")
     val arrCardinality = ctx.freshName("arrCardinality")
     val biggestCardinality = ctx.freshName("biggestCardinality")
-    val storedArrTypes = ctx.freshName("storedArrTypes")
     val returnNull = ctx.freshName("returnNull")
     val evals = children.map(_.genCode(ctx))
 
@@ -183,7 +182,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |  $arrCardinality[$index] = 0;
         |  $returnNull[0] = true;
         |}
-        |$storedArrTypes[$index] = "${arrayElementTypes(index)}";
         |$biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
       """.stripMargin
     }
@@ -201,7 +199,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       arguments =
         ("ArrayData[]", arrVals) ::
         ("int[]", arrCardinality) ::
-        ("String[]", storedArrTypes) ::
         ("int", biggestCardinality) ::
         ("boolean[]", returnNull) :: Nil)
 
@@ -210,46 +207,50 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
 
-    val getValueForType = arrayElementTypes.distinct.map { eleType =>
+    val getValueForType = arrayElementTypes.zipWithIndex.map { case (eleType, idx) =>
+      val g = CodeGenerator.getValue(s"$arrVals[$idx]", eleType, i)
       s"""
-      |if ($storedArrTypes[$j] == "${eleType}") {
-      |  $myobject[$j] = ${CodeGenerator.getValue(s"$arrVals[$j]", eleType, i)};
-      |}
+      |$myobject[$idx] = $i < $arrCardinality[$idx] && !$arrVals[$idx].isNullAt($i) ? $g : null;
       """.stripMargin
-    }.mkString("\n")
-
-    ev.copy(s"""
-      |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
-      |int[] $arrCardinality = new int[$numberOfArrays];
-      |int $biggestCardinality = 0;
-      |String[] $storedArrTypes = new String[$numberOfArrays];
-      |boolean[] $returnNull = new boolean[1];
-      |$returnNull[0] = false;
-      |$inputsSplitted
-      |${CodeGenerator.javaType(dataType)} ${ev.value};
-      |boolean ${ev.isNull} = $returnNull[0];
-      |if (${ev.isNull}) {
-      |  ${ev.value} = null;
-      |} else {
-      |  if ($numberOfArrays == 0) {
-      |    ${ev.value} = new $genericArrayData(new Object[0]);
-      |  } else {
-      |    Object[] $args = new Object[$biggestCardinality];
-      |    for (int $i = 0; $i < $biggestCardinality; $i ++) {
-      |      Object[] $myobject = new Object[$numberOfArrays];
-      |      for (int $j = 0; $j < $numberOfArrays; $j ++) {
-      |        if ($arrVals[$j] != null && $arrCardinality[$j] > $i && !$arrVals[$j].isNullAt($i)) {
-      |          $getValueForType
-      |        } else {
-      |          $myobject[$j] = null;
-      |        }
-      |      }
-      |      $args[$i] = new $genericInternalRow($myobject);
-      |    }
-      |    ${ev.value} = new $genericArrayData($args);
-      |  }
-      |}
-    """.stripMargin)
+    }
+
+    val getValueForTypeSplitted = ctx.splitExpressions(
+      expressions = getValueForType,
+      funcName = "extractValue",
+      arguments =
+        ("int", i) ::
+        ("Object[]", myobject) ::
+        ("int[]", arrCardinality) ::
+        ("ArrayData[]", arrVals) :: Nil)
+
+    if (numberOfArrays == 0) {
+      ev.copy(s"""
+        |${CodeGenerator.javaType(dataType)} ${ev.value} = new $genericArrayData(new Object[0]);
+        |${ev.isNull} = true;
+      """.stripMargin)
+    } else {
+      ev.copy(s"""
+        |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
+        |int[] $arrCardinality = new int[$numberOfArrays];
+        |int $biggestCardinality = 0;
+        |boolean[] $returnNull = new boolean[1];
+        |$returnNull[0] = false;
+        |$inputsSplitted
+        |${CodeGenerator.javaType(dataType)} ${ev.value};
+        |boolean ${ev.isNull} = $returnNull[0];
+        |if (${ev.isNull}) {
+        |  ${ev.value} = null;
+        |} else {
+        |  Object[] $args = new Object[$biggestCardinality];
+        |  for (int $i = 0; $i < $biggestCardinality; $i ++) {
+        |    Object[] $myobject = new Object[$numberOfArrays];
+        |    $getValueForTypeSplitted
+        |    $args[$i] = new $genericInternalRow($myobject);
+        |  }
+        |  ${ev.value} = new $genericArrayData($args);
+        |}
+      """.stripMargin)
+    }
   }
 
   override def eval(input: InternalRow): Any = {

From 68e69dbc6a970b817301202f131f0532be91a7df Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Mon, 4 Jun 2018 10:38:47 -0300
Subject: [PATCH 27/36] split between empty and nonempty codegen

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../expressions/collectionOperations.scala    | 93 +++++++++++--------
 1 file changed, 52 insertions(+), 41 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 4c8766c4c015d..479f14a48a82b 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -161,34 +161,48 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     StructType(fields)
   }
 
-  override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
-    val numberOfArrays: Int = children.length
+  val numberOfArrays: Int = children.length
+
+  def emptyInputGenCode(ev: ExprCode): ExprCode = {
+    val genericArrayData = classOf[GenericArrayData].getName
+
+    ev.copy(code"""
+      |${CodeGenerator.javaType(dataType)} ${ev.value} = new $genericArrayData(new Object[0]);
+      |${ev.isNull} = true;
+    """.stripMargin)
+  }
+
+  def nonEmptyInputGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     val genericArrayData = classOf[GenericArrayData].getName
     val genericInternalRow = classOf[GenericInternalRow].getName
     val arrVals = ctx.freshName("arrVals")
     val arrCardinality = ctx.freshName("arrCardinality")
     val biggestCardinality = ctx.freshName("biggestCardinality")
-    val returnNull = ctx.freshName("returnNull")
-    val evals = children.map(_.genCode(ctx))
 
+    val myobject = ctx.freshName("myobject")
+    val j = ctx.freshName("j")
+    val i = ctx.freshName("i")
+    val args = ctx.freshName("args")
+
+    val evals = children.map(_.genCode(ctx))
     val inputs = evals.zipWithIndex.map { case (eval, index) =>
       s"""
         |${eval.code}
-        |if (!${eval.isNull}) {
+        |if (!${eval.isNull} && $biggestCardinality != -1) {
         |  $arrVals[$index] = ${eval.value};
         |  $arrCardinality[$index] = ${eval.value}.numElements();
+        |  $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
         |} else {
+        |  $biggestCardinality = -1;
         |  $arrVals[$index] = null;
         |  $arrCardinality[$index] = 0;
-        |  $returnNull[0] = true;
         |}
-        |$biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
       """.stripMargin
     }
 
-    val inputsSplitted = ctx.splitExpressions(
+    val splittedCode = ctx.splitExpressions(
       expressions = inputs,
-      funcName = "getInputAndCardinality",
+      funcName = "getValuesAndCardinalities",
       returnType = "int",
       makeSplitFunction = body =>
         s"""
@@ -199,13 +213,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       arguments =
         ("ArrayData[]", arrVals) ::
         ("int[]", arrCardinality) ::
-        ("int", biggestCardinality) ::
-        ("boolean[]", returnNull) :: Nil)
-
-    val myobject = ctx.freshName("myobject")
-    val j = ctx.freshName("j")
-    val i = ctx.freshName("i")
-    val args = ctx.freshName("args")
+        ("int", biggestCardinality) :: Nil)
 
     val getValueForType = arrayElementTypes.zipWithIndex.map { case (eleType, idx) =>
       val g = CodeGenerator.getValue(s"$arrVals[$idx]", eleType, i)
@@ -223,33 +231,36 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         ("int[]", arrCardinality) ::
         ("ArrayData[]", arrVals) :: Nil)
 
+    val initVariables = s"""
+      |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
+      |int[] $arrCardinality = new int[$numberOfArrays];
+      |int $biggestCardinality = 0;
+      |${CodeGenerator.javaType(dataType)} ${ev.value};
+    """.stripMargin
+
+    ev.copy(code"""
+      |$initVariables
+      |$splittedCode
+      |boolean ${ev.isNull} = $biggestCardinality == -1;
+      |if (${ev.isNull}) {
+      |  ${ev.value} = null;
+      |} else {
+      |  Object[] $args = new Object[$biggestCardinality];
+      |  for (int $i = 0; $i < $biggestCardinality; $i ++) {
+      |    Object[] $myobject = new Object[$numberOfArrays];
+      |    $getValueForTypeSplitted
+      |    $args[$i] = new $genericInternalRow($myobject);
+      |  }
+      |  ${ev.value} = new $genericArrayData($args);
+      |}
+    """.stripMargin)
+  }
+
+  override def doGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     if (numberOfArrays == 0) {
-      ev.copy(s"""
-        |${CodeGenerator.javaType(dataType)} ${ev.value} = new $genericArrayData(new Object[0]);
-        |${ev.isNull} = true;
-      """.stripMargin)
+      emptyInputGenCode(ev)
     } else {
-      ev.copy(s"""
-        |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
-        |int[] $arrCardinality = new int[$numberOfArrays];
-        |int $biggestCardinality = 0;
-        |boolean[] $returnNull = new boolean[1];
-        |$returnNull[0] = false;
-        |$inputsSplitted
-        |${CodeGenerator.javaType(dataType)} ${ev.value};
-        |boolean ${ev.isNull} = $returnNull[0];
-        |if (${ev.isNull}) {
-        |  ${ev.value} = null;
-        |} else {
-        |  Object[] $args = new Object[$biggestCardinality];
-        |  for (int $i = 0; $i < $biggestCardinality; $i ++) {
-        |    Object[] $myobject = new Object[$numberOfArrays];
-        |    $getValueForTypeSplitted
-        |    $args[$i] = new $genericInternalRow($myobject);
-        |  }
-        |  ${ev.value} = new $genericArrayData($args);
-        |}
-      """.stripMargin)
+      nonEmptyInputGenCode(ctx, ev)
     }
   }
 

From 12b38359600398d588bc86fd42b811b29482bc5f Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Mon, 4 Jun 2018 14:18:51 -0300
Subject: [PATCH 28/36] remove ternary if

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../sql/catalyst/expressions/collectionOperations.scala    | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 479f14a48a82b..8f68a1bf57ede 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -218,7 +218,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val getValueForType = arrayElementTypes.zipWithIndex.map { case (eleType, idx) =>
       val g = CodeGenerator.getValue(s"$arrVals[$idx]", eleType, i)
       s"""
-      |$myobject[$idx] = $i < $arrCardinality[$idx] && !$arrVals[$idx].isNullAt($i) ? $g : null;
+      |$myobject[$idx] = null;
+      |if ($i < $arrCardinality[$idx] && !$arrVals[$idx].isNullAt($i)) {
+      |  $myobject[$idx] = $g;
+      |}
       """.stripMargin
     }
 
@@ -243,7 +246,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |$splittedCode
       |boolean ${ev.isNull} = $biggestCardinality == -1;
       |if (${ev.isNull}) {
-      |  ${ev.value} = null;
+      |  ${ev.value} = new $genericArrayData(new Object[0]);
       |} else {
       |  Object[] $args = new Object[$biggestCardinality];
       |  for (int $i = 0; $i < $biggestCardinality; $i ++) {

From 643cb9b80be8060be16514c4cfc31dba253d8bf2 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Mon, 4 Jun 2018 17:13:58 -0300
Subject: [PATCH 29/36] Fixes null values evaluation and adds back tests

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py               |  4 +-
 .../expressions/collectionOperations.scala    | 38 +++++++++----------
 .../CollectionExpressionsSuite.scala          |  4 +-
 3 files changed, 23 insertions(+), 23 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 0bc32de15e749..ee487f4cb48f0 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -2397,8 +2397,8 @@ def array_repeat(col, count):
 @since(2.4)
 def zip(*cols):
     """
-    Merge two columns into one, such that the M-th element of the N-th argument will be
-    the N-th field of the M-th output element.
+    Collection function: Merge two columns into one, such that the M-th element of the N-th
+    argument will be the N-th field of the M-th output element.
 
     :param cols: columns in input
 
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 8f68a1bf57ede..0eaac6b5934b7 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -145,7 +145,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   override def dataType: DataType = ArrayType(mountSchema)
 
-  override def nullable: Boolean = children.forall(_.nullable)
+  override def nullable: Boolean = children.exists(_.nullable)
 
   private lazy val arrayTypes = children.map(_.dataType.asInstanceOf[ArrayType])
 
@@ -168,7 +168,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
     ev.copy(code"""
       |${CodeGenerator.javaType(dataType)} ${ev.value} = new $genericArrayData(new Object[0]);
-      |${ev.isNull} = true;
+      |boolean ${ev.isNull} = false;
     """.stripMargin)
   }
 
@@ -185,23 +185,25 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val args = ctx.freshName("args")
 
     val evals = children.map(_.genCode(ctx))
-    val inputs = evals.zipWithIndex.map { case (eval, index) =>
+    val getValuesAndCardinalities = evals.zipWithIndex.map { case (eval, index) =>
       s"""
-        |${eval.code}
-        |if (!${eval.isNull} && $biggestCardinality != -1) {
-        |  $arrVals[$index] = ${eval.value};
-        |  $arrCardinality[$index] = ${eval.value}.numElements();
-        |  $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
-        |} else {
-        |  $biggestCardinality = -1;
-        |  $arrVals[$index] = null;
-        |  $arrCardinality[$index] = 0;
+        |if ($biggestCardinality != -1) {
+        |  ${eval.code}
+        |  if (!${eval.isNull}) {
+        |    $arrVals[$index] = ${eval.value};
+        |    $arrCardinality[$index] = ${eval.value}.numElements();
+        |    $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
+        |  } else {
+        |    $biggestCardinality = -1;
+        |    $arrVals[$index] = null;
+        |    $arrCardinality[$index] = 0;
+        |  }
         |}
       """.stripMargin
     }
 
-    val splittedCode = ctx.splitExpressions(
-      expressions = inputs,
+    val splittedGetValuesAndCardinalities = ctx.splitExpressions(
+      expressions = getValuesAndCardinalities,
       funcName = "getValuesAndCardinalities",
       returnType = "int",
       makeSplitFunction = body =>
@@ -238,16 +240,14 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
       |int[] $arrCardinality = new int[$numberOfArrays];
       |int $biggestCardinality = 0;
-      |${CodeGenerator.javaType(dataType)} ${ev.value};
+      |${CodeGenerator.javaType(dataType)} ${ev.value} = null;
     """.stripMargin
 
     ev.copy(code"""
       |$initVariables
-      |$splittedCode
+      |$splittedGetValuesAndCardinalities
       |boolean ${ev.isNull} = $biggestCardinality == -1;
-      |if (${ev.isNull}) {
-      |  ${ev.value} = new $genericArrayData(new Object[0]);
-      |} else {
+      |if (!${ev.isNull}) {
       |  Object[] $args = new Object[$biggestCardinality];
       |  for (int $i = 0; $i < $biggestCardinality; $i ++) {
       |    Object[] $myobject = new Object[$numberOfArrays];
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index 51e53d9d5cf7f..f87268c98d1b7 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -397,8 +397,8 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
     checkEvaluation(Zip(Seq(literals(0)) ++ manyLiterals),
       List(numbers(0), numbers(1), numbers(2), numbers(3)))
 
-    // checkEvaluation(Zip(Seq()), List())
-    // checkEvaluation(Zip(Seq(literals(0), Literal.create(null, ArrayType(IntegerType)))), null)
+    checkEvaluation(Zip(Seq(literals(0), Literal.create(null, ArrayType(IntegerType)))), null)
+    checkEvaluation(Zip(Seq()), List())
   }
 
   test("Array Min") {

From 5876082bb1828e51ca7a157d7213ff9a548d34b4 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Mon, 4 Jun 2018 17:17:14 -0300
Subject: [PATCH 30/36] move to else

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../spark/sql/catalyst/expressions/collectionOperations.scala  | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 0eaac6b5934b7..21b58d422646b 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -220,9 +220,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val getValueForType = arrayElementTypes.zipWithIndex.map { case (eleType, idx) =>
       val g = CodeGenerator.getValue(s"$arrVals[$idx]", eleType, i)
       s"""
-      |$myobject[$idx] = null;
       |if ($i < $arrCardinality[$idx] && !$arrVals[$idx].isNullAt($i)) {
       |  $myobject[$idx] = $g;
+      |} else {
+      |  $myobject[$idx] = null;
       |}
       """.stripMargin
     }

From 02239609c2a6a22a306e631577862dc1a8736868 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Mon, 4 Jun 2018 17:50:46 -0300
Subject: [PATCH 31/36] remove unused lines

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py                               | 4 ++--
 .../spark/sql/catalyst/expressions/collectionOperations.scala | 2 --
 2 files changed, 2 insertions(+), 4 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index ee487f4cb48f0..4db71fa5538ef 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -350,7 +350,7 @@ def corr(col1, col2):
 
     >>> a = range(20)
     >>> b = [2 * x for x in range(20)]
-    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
     >>> df.agg(corr("a", "b").alias('c')).collect()
     [Row(c=1.0)]
     """
@@ -364,7 +364,7 @@ def covar_pop(col1, col2):
 
     >>> a = [1] * 10
     >>> b = [1] * 10
-    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
     >>> df.agg(covar_pop("a", "b").alias('c')).collect()
     [Row(c=0.0)]
     """
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 21b58d422646b..70f48b94bb016 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -195,8 +195,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |    $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
         |  } else {
         |    $biggestCardinality = -1;
-        |    $arrVals[$index] = null;
-        |    $arrCardinality[$index] = 0;
         |  }
         |}
       """.stripMargin

From 2b883879b8efd0d514553612cb2918617bb5044b Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Tue, 5 Jun 2018 11:09:18 -0300
Subject: [PATCH 32/36] use zip alias

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py               | 10 +++----
 .../expressions/collectionOperations.scala    | 27 +++++++++----------
 2 files changed, 18 insertions(+), 19 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 4db71fa5538ef..756f07ae28b15 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -350,7 +350,7 @@ def corr(col1, col2):
 
     >>> a = range(20)
     >>> b = [2 * x for x in range(20)]
-    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
     >>> df.agg(corr("a", "b").alias('c')).collect()
     [Row(c=1.0)]
     """
@@ -364,7 +364,7 @@ def covar_pop(col1, col2):
 
     >>> a = [1] * 10
     >>> b = [1] * 10
-    >>> df = spark.createDataFrame(__builtin__.zip(a, b), ["a", "b"])
+    >>> df = spark.createDataFrame(zip(a, b), ["a", "b"])
     >>> df.agg(covar_pop("a", "b").alias('c')).collect()
     [Row(c=0.0)]
     """
@@ -2402,10 +2402,10 @@ def zip(*cols):
 
     :param cols: columns in input
 
-    >>> from pyspark.sql.functions import zip
+    >>> from pyspark.sql.functions import zip as spark_zip
     >>> df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
-    >>> df.select(zip(df.vals1, df.vals2).alias('zipped')).collect()
-    [Row(zipped=[1, 2]), Row(zipped=[2, 3]), Row(zipped=[3, 4])]
+    >>> df.select(spark_zip(df.vals1, df.vals2).alias('zipped')).collect()
+    [Row(zipped=[Row(vals1=1, vals2=2), Row(vals1=2, vals2=3), Row(vals1=3, vals2=4)])]
     """
     sc = SparkContext._active_spark_context
     return Column(sc._jvm.functions.zip(_to_seq(sc, cols, _to_java_column)))
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 70f48b94bb016..09cbdb6c98dcd 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -156,16 +156,16 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       case ((expr: NamedExpression, elementType), _) =>
         StructField(expr.name, elementType, nullable = true)
       case ((_, elementType), idx) =>
-        StructField(s"$idx", elementType, nullable = true)
+        StructField(idx.toString, elementType, nullable = true)
     }
     StructType(fields)
   }
 
-  val numberOfArrays: Int = children.length
+  @transient lazy val numberOfArrays: Int = children.length
 
-  def emptyInputGenCode(ev: ExprCode): ExprCode = {
-    val genericArrayData = classOf[GenericArrayData].getName
+  @transient lazy val genericArrayData = classOf[GenericArrayData].getName
 
+  def emptyInputGenCode(ev: ExprCode): ExprCode = {
     ev.copy(code"""
       |${CodeGenerator.javaType(dataType)} ${ev.value} = new $genericArrayData(new Object[0]);
       |boolean ${ev.isNull} = false;
@@ -173,13 +173,12 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
   }
 
   def nonEmptyInputGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
-    val genericArrayData = classOf[GenericArrayData].getName
     val genericInternalRow = classOf[GenericInternalRow].getName
     val arrVals = ctx.freshName("arrVals")
     val arrCardinality = ctx.freshName("arrCardinality")
     val biggestCardinality = ctx.freshName("biggestCardinality")
 
-    val myobject = ctx.freshName("myobject")
+    val currentRow = ctx.freshName("currentRow")
     val j = ctx.freshName("j")
     val i = ctx.freshName("i")
     val args = ctx.freshName("args")
@@ -218,11 +217,11 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
     val getValueForType = arrayElementTypes.zipWithIndex.map { case (eleType, idx) =>
       val g = CodeGenerator.getValue(s"$arrVals[$idx]", eleType, i)
       s"""
-      |if ($i < $arrCardinality[$idx] && !$arrVals[$idx].isNullAt($i)) {
-      |  $myobject[$idx] = $g;
-      |} else {
-      |  $myobject[$idx] = null;
-      |}
+        |if ($i < $arrCardinality[$idx] && !$arrVals[$idx].isNullAt($i)) {
+        |  $currentRow[$idx] = $g;
+        |} else {
+        |  $currentRow[$idx] = null;
+        |}
       """.stripMargin
     }
 
@@ -231,7 +230,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       funcName = "extractValue",
       arguments =
         ("int", i) ::
-        ("Object[]", myobject) ::
+        ("Object[]", currentRow) ::
         ("int[]", arrCardinality) ::
         ("ArrayData[]", arrVals) :: Nil)
 
@@ -249,9 +248,9 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       |if (!${ev.isNull}) {
       |  Object[] $args = new Object[$biggestCardinality];
       |  for (int $i = 0; $i < $biggestCardinality; $i ++) {
-      |    Object[] $myobject = new Object[$numberOfArrays];
+      |    Object[] $currentRow = new Object[$numberOfArrays];
       |    $getValueForTypeSplitted
-      |    $args[$i] = new $genericInternalRow($myobject);
+      |    $args[$i] = new $genericInternalRow($currentRow);
       |  }
       |  ${ev.value} = new $genericArrayData($args);
       |}

From bbc20eec010c8709b426a221b117c079f7bf97e1 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 8 Jun 2018 09:32:49 -0300
Subject: [PATCH 33/36] using same docs for all apis

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py                           | 4 ++--
 .../sql/catalyst/expressions/collectionOperations.scala   | 8 +++++---
 .../src/main/scala/org/apache/spark/sql/functions.scala   | 4 ++--
 3 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 756f07ae28b15..3dd9c7d700ec3 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -2397,8 +2397,8 @@ def array_repeat(col, count):
 @since(2.4)
 def zip(*cols):
     """
-    Collection function: Merge two columns into one, such that the M-th element of the N-th
-    argument will be the N-th field of the M-th output element.
+    Collection function: Returns a merged array containing in the N-th position the
+    N-th value of each array given.
 
     :param cols: columns in input
 
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 09cbdb6c98dcd..c0f74a6961436 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -129,8 +129,10 @@ case class MapKeys(child: Expression)
 }
 
 @ExpressionDescription(
-  usage = """_FUNC_(a1, a2, ...) - Returns a merged array containing in the N-th position the
-  N-th value of each array given.""",
+  usage = """
+    _FUNC_(a1, a2, ...) - Returns a merged array containing in the N-th position the
+    N-th value of each array given.
+  """,
   examples = """
     Examples:
       > SELECT _FUNC_(array(1, 2, 3), array(2, 3, 4));
@@ -151,7 +153,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   private lazy val arrayElementTypes = arrayTypes.map(_.elementType)
 
-  def mountSchema: StructType = {
+  private lazy val mountSchema: StructType = {
     val fields = children.zip(arrayElementTypes).zipWithIndex.map {
       case ((expr: NamedExpression, elementType), _) =>
         StructField(expr.name, elementType, nullable = true)
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
index 84e10a94c1c6c..d9eae7fce3b0a 100644
--- a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
+++ b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
@@ -3509,8 +3509,8 @@ object functions {
   def map_entries(e: Column): Column = withExpr { MapEntries(e.expr) }
 
   /**
-   * Merge multiple columns into a resulting one.
-   *
+   * Returns a merged array containing in the N-th position the N-th value
+   * of each array given.
    * @group collection_funcs
    * @since 2.4.0
    */

From 8d3a838199c9fab26cdb964862fcb279bb8de339 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Fri, 8 Jun 2018 13:40:23 -0300
Subject: [PATCH 34/36] adds transient to method

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../spark/sql/catalyst/expressions/collectionOperations.scala   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index c0f74a6961436..ab33996d5f915 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -153,7 +153,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
 
   private lazy val arrayElementTypes = arrayTypes.map(_.elementType)
 
-  private lazy val mountSchema: StructType = {
+  @transient private lazy val mountSchema: StructType = {
     val fields = children.zip(arrayElementTypes).zipWithIndex.map {
       case ((expr: NamedExpression, elementType), _) =>
         StructField(expr.name, elementType, nullable = true)

From d8f3dea8b227a4ee44dedb6b8199c8a17f6bfdd4 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Sun, 10 Jun 2018 19:52:12 -0300
Subject: [PATCH 35/36] rename zip function to arrays_zip

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 python/pyspark/sql/functions.py               | 14 ++++----
 .../catalyst/analysis/FunctionRegistry.scala  |  2 +-
 .../expressions/collectionOperations.scala    | 15 +++-----
 .../CollectionExpressionsSuite.scala          | 32 ++++++++---------
 .../org/apache/spark/sql/functions.scala      |  6 ++--
 .../spark/sql/DataFrameFunctionsSuite.scala   | 34 +++++++++----------
 6 files changed, 49 insertions(+), 54 deletions(-)

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
index 3dd9c7d700ec3..0715297042520 100644
--- a/python/pyspark/sql/functions.py
+++ b/python/pyspark/sql/functions.py
@@ -2395,20 +2395,20 @@ def array_repeat(col, count):
 
 
 @since(2.4)
-def zip(*cols):
+def arrays_zip(*cols):
     """
-    Collection function: Returns a merged array containing in the N-th position the
-    N-th value of each array given.
+    Collection function: Returns a merged array of structs in which the N-th struct contains all
+    N-th values of input arrays.
 
-    :param cols: columns in input
+    :param cols: columns of arrays to be merged.
 
-    >>> from pyspark.sql.functions import zip as spark_zip
+    >>> from pyspark.sql.functions import arrays_zip
     >>> df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
-    >>> df.select(spark_zip(df.vals1, df.vals2).alias('zipped')).collect()
+    >>> df.select(arrays_zip(df.vals1, df.vals2).alias('zipped')).collect()
     [Row(zipped=[Row(vals1=1, vals2=2), Row(vals1=2, vals2=3), Row(vals1=3, vals2=4)])]
     """
     sc = SparkContext._active_spark_context
-    return Column(sc._jvm.functions.zip(_to_seq(sc, cols, _to_java_column)))
+    return Column(sc._jvm.functions.arrays_zip(_to_seq(sc, cols, _to_java_column)))
 
 
 # ---------------------------- User Defined Function ----------------------------------
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
index 6676b2390d59d..3c0b72873af54 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/FunctionRegistry.scala
@@ -423,7 +423,7 @@ object FunctionRegistry {
     expression[Size]("size"),
     expression[Slice]("slice"),
     expression[Size]("cardinality"),
-    expression[Zip]("zip"),
+    expression[ArraysZip]("arrays_zip"),
     expression[SortArray]("sort_array"),
     expression[ArrayMin]("array_min"),
     expression[ArrayMax]("array_max"),
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index ab33996d5f915..3bc54865e77f6 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -130,8 +130,8 @@ case class MapKeys(child: Expression)
 
 @ExpressionDescription(
   usage = """
-    _FUNC_(a1, a2, ...) - Returns a merged array containing in the N-th position the
-    N-th value of each array given.
+    _FUNC_(a1, a2, ...) - Returns a merged array of structs in which the N-th struct contains all
+    N-th values of input arrays.
   """,
   examples = """
     Examples:
@@ -141,7 +141,7 @@ case class MapKeys(child: Expression)
         [[1, 2, 3], [2, 3, 4]]
   """,
   since = "2.4.0")
-case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTypes {
+case class ArraysZip(children: Seq[Expression]) extends Expression with ExpectsInputTypes {
 
   override def inputTypes: Seq[AbstractDataType] = Seq.fill(children.length)(ArrayType)
 
@@ -177,7 +177,6 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
   def nonEmptyInputGenCode(ctx: CodegenContext, ev: ExprCode): ExprCode = {
     val genericInternalRow = classOf[GenericInternalRow].getName
     val arrVals = ctx.freshName("arrVals")
-    val arrCardinality = ctx.freshName("arrCardinality")
     val biggestCardinality = ctx.freshName("biggestCardinality")
 
     val currentRow = ctx.freshName("currentRow")
@@ -192,8 +191,7 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
         |  ${eval.code}
         |  if (!${eval.isNull}) {
         |    $arrVals[$index] = ${eval.value};
-        |    $arrCardinality[$index] = ${eval.value}.numElements();
-        |    $biggestCardinality = Math.max($biggestCardinality, $arrCardinality[$index]);
+        |    $biggestCardinality = Math.max($biggestCardinality, ${eval.value}.numElements());
         |  } else {
         |    $biggestCardinality = -1;
         |  }
@@ -213,13 +211,12 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       foldFunctions = _.map(funcCall => s"$biggestCardinality = $funcCall;").mkString("\n"),
       arguments =
         ("ArrayData[]", arrVals) ::
-        ("int[]", arrCardinality) ::
         ("int", biggestCardinality) :: Nil)
 
     val getValueForType = arrayElementTypes.zipWithIndex.map { case (eleType, idx) =>
       val g = CodeGenerator.getValue(s"$arrVals[$idx]", eleType, i)
       s"""
-        |if ($i < $arrCardinality[$idx] && !$arrVals[$idx].isNullAt($i)) {
+        |if ($i < $arrVals[$idx].numElements() && !$arrVals[$idx].isNullAt($i)) {
         |  $currentRow[$idx] = $g;
         |} else {
         |  $currentRow[$idx] = null;
@@ -233,12 +230,10 @@ case class Zip(children: Seq[Expression]) extends Expression with ExpectsInputTy
       arguments =
         ("int", i) ::
         ("Object[]", currentRow) ::
-        ("int[]", arrCardinality) ::
         ("ArrayData[]", arrVals) :: Nil)
 
     val initVariables = s"""
       |ArrayData[] $arrVals = new ArrayData[$numberOfArrays];
-      |int[] $arrCardinality = new int[$numberOfArrays];
       |int $biggestCardinality = 0;
       |${CodeGenerator.javaType(dataType)} ${ev.value} = null;
     """.stripMargin
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
index f87268c98d1b7..85e692bdc4ef1 100644
--- a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
+++ b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/expressions/CollectionExpressionsSuite.scala
@@ -316,7 +316,7 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
       Some(Literal.create(null, StringType))), null)
   }
 
-  test("Zip") {
+  test("ArraysZip") {
     val literals = Seq(
       Literal.create(Seq(9001, 9002, 9003, null), ArrayType(IntegerType)),
       Literal.create(Seq(null, 1L, null, 4L, 11L), ArrayType(LongType)),
@@ -332,28 +332,28 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
       Literal.create(Seq(Array[Byte](1.toByte, 5.toByte)), ArrayType(BinaryType))
     )
 
-    checkEvaluation(Zip(Seq(literals(0), literals(1))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(1))),
       List(Row(9001, null), Row(9002, 1L), Row(9003, null), Row(null, 4L), Row(null, 11L)))
 
-    checkEvaluation(Zip(Seq(literals(0), literals(2))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(2))),
       List(Row(9001, -1), Row(9002, -3), Row(9003, 900), Row(null, null)))
 
-    checkEvaluation(Zip(Seq(literals(0), literals(3))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(3))),
       List(Row(9001, "a"), Row(9002, null), Row(9003, "c"), Row(null, null)))
 
-    checkEvaluation(Zip(Seq(literals(0), literals(4))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(4))),
       List(Row(9001, null), Row(9002, false), Row(9003, true), Row(null, null)))
 
-    checkEvaluation(Zip(Seq(literals(0), literals(5))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(5))),
       List(Row(9001, 1.1), Row(9002, null), Row(9003, 1.3), Row(null, null)))
 
-    checkEvaluation(Zip(Seq(literals(0), literals(6))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(6))),
       List(Row(9001, null), Row(9002, null), Row(9003, null), Row(null, null)))
 
-    checkEvaluation(Zip(Seq(literals(0), literals(7))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(7))),
       List(Row(9001, null), Row(9002, null), Row(9003, null), Row(null, null)))
 
-    checkEvaluation(Zip(Seq(literals(0), literals(1), literals(2), literals(3))),
+    checkEvaluation(ArraysZip(Seq(literals(0), literals(1), literals(2), literals(3))),
       List(
         Row(9001, null, -1, "a"),
         Row(9002, 1L, -3, null),
@@ -361,27 +361,27 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
         Row(null, 4L, null, null),
         Row(null, 11L, null, null)))
 
-    checkEvaluation(Zip(Seq(literals(4), literals(5), literals(6), literals(7), literals(8))),
+    checkEvaluation(ArraysZip(Seq(literals(4), literals(5), literals(6), literals(7), literals(8))),
       List(
         Row(null, 1.1, null, null, 192.toByte),
         Row(false, null, null, null, null),
         Row(true, 1.3, null, null, null),
         Row(null, null, null, null, null)))
 
-    checkEvaluation(Zip(Seq(literals(9), literals(0))),
+    checkEvaluation(ArraysZip(Seq(literals(9), literals(0))),
       List(
         Row(List(1, 2, 3), 9001),
         Row(null, 9002),
         Row(List(4, 5), 9003),
         Row(List(1, null, 3), null)))
 
-    checkEvaluation(Zip(Seq(literals(7), literals(10))),
+    checkEvaluation(ArraysZip(Seq(literals(7), literals(10))),
       List(Row(null, Array[Byte](1.toByte, 5.toByte))))
 
     val longLiteral =
       Literal.create((0 to 1000).toSeq, ArrayType(IntegerType))
 
-    checkEvaluation(Zip(Seq(literals(0), longLiteral)),
+    checkEvaluation(ArraysZip(Seq(literals(0), longLiteral)),
       List(Row(9001, 0), Row(9002, 1), Row(9003, 2)) ++
       (3 to 1000).map { Row(null, _) }.toList)
 
@@ -394,11 +394,11 @@ class CollectionExpressionsSuite extends SparkFunSuite with ExpressionEvalHelper
       Row(Seq(9002) ++ (0 to 1000).map { _ => null }.toSeq: _*),
       Row(Seq(9003) ++ (0 to 1000).map { _ => null }.toSeq: _*),
       Row(Seq(null) ++ (0 to 1000).map { _ => null }.toSeq: _*))
-    checkEvaluation(Zip(Seq(literals(0)) ++ manyLiterals),
+    checkEvaluation(ArraysZip(Seq(literals(0)) ++ manyLiterals),
       List(numbers(0), numbers(1), numbers(2), numbers(3)))
 
-    checkEvaluation(Zip(Seq(literals(0), Literal.create(null, ArrayType(IntegerType)))), null)
-    checkEvaluation(Zip(Seq()), List())
+    checkEvaluation(ArraysZip(Seq(literals(0), Literal.create(null, ArrayType(IntegerType)))), null)
+    checkEvaluation(ArraysZip(Seq()), List())
   }
 
   test("Array Min") {
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
index d9eae7fce3b0a..266a136fc2410 100644
--- a/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
+++ b/sql/core/src/main/scala/org/apache/spark/sql/functions.scala
@@ -3509,12 +3509,12 @@ object functions {
   def map_entries(e: Column): Column = withExpr { MapEntries(e.expr) }
 
   /**
-   * Returns a merged array containing in the N-th position the N-th value
-   * of each array given.
+   * Returns a merged array of structs in which the N-th struct contains all N-th values of input
+   * arrays.
    * @group collection_funcs
    * @since 2.4.0
    */
-  def zip(e: Column*): Column = withExpr { Zip(e.map(_.expr)) }
+  def arrays_zip(e: Column*): Column = withExpr { ArraysZip(e.map(_.expr)) }
 
   //////////////////////////////////////////////////////////////////////////////////////////////
   // Mask functions
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
index 3671fd5e91c99..959a77a9ea345 100644
--- a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
+++ b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameFunctionsSuite.scala
@@ -479,7 +479,7 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
     )
   }
 
-  test("dataframe zip function") {
+  test("dataframe arrays_zip function") {
     val df1 = Seq((Seq(9001, 9002, 9003), Seq(4, 5, 6))).toDF("val1", "val2")
     val df2 = Seq((Seq("a", "b"), Seq(true, false), Seq(10, 11))).toDF("val1", "val2", "val3")
     val df3 = Seq((Seq("a", "b"), Seq(4, 5, 6))).toDF("val1", "val2")
@@ -491,39 +491,39 @@ class DataFrameFunctionsSuite extends QueryTest with SharedSQLContext {
     val df8 = Seq((Seq(Array[Byte](1.toByte, 5.toByte)), Seq(null))).toDF("v1", "v2")
 
     val expectedValue1 = Row(Seq(Row(9001, 4), Row(9002, 5), Row(9003, 6)))
-    checkAnswer(df1.select(zip($"val1", $"val2")), expectedValue1)
-    checkAnswer(df1.selectExpr("zip(val1, val2)"), expectedValue1)
+    checkAnswer(df1.select(arrays_zip($"val1", $"val2")), expectedValue1)
+    checkAnswer(df1.selectExpr("arrays_zip(val1, val2)"), expectedValue1)
 
     val expectedValue2 = Row(Seq(Row("a", true, 10), Row("b", false, 11)))
-    checkAnswer(df2.select(zip($"val1", $"val2", $"val3")), expectedValue2)
-    checkAnswer(df2.selectExpr("zip(val1, val2, val3)"), expectedValue2)
+    checkAnswer(df2.select(arrays_zip($"val1", $"val2", $"val3")), expectedValue2)
+    checkAnswer(df2.selectExpr("arrays_zip(val1, val2, val3)"), expectedValue2)
 
     val expectedValue3 = Row(Seq(Row("a", 4), Row("b", 5), Row(null, 6)))
-    checkAnswer(df3.select(zip($"val1", $"val2")), expectedValue3)
-    checkAnswer(df3.selectExpr("zip(val1, val2)"), expectedValue3)
+    checkAnswer(df3.select(arrays_zip($"val1", $"val2")), expectedValue3)
+    checkAnswer(df3.selectExpr("arrays_zip(val1, val2)"), expectedValue3)
 
     val expectedValue4 = Row(Seq(Row("a", 4L), Row("b", null), Row(null, null)))
-    checkAnswer(df4.select(zip($"val1", $"val2")), expectedValue4)
-    checkAnswer(df4.selectExpr("zip(val1, val2)"), expectedValue4)
+    checkAnswer(df4.select(arrays_zip($"val1", $"val2")), expectedValue4)
+    checkAnswer(df4.selectExpr("arrays_zip(val1, val2)"), expectedValue4)
 
     val expectedValue5 = Row(Seq(Row(-1, null, null, null), Row(null, null, null, null)))
-    checkAnswer(df5.select(zip($"val1", $"val2", $"val3", $"val4")), expectedValue5)
-    checkAnswer(df5.selectExpr("zip(val1, val2, val3, val4)"), expectedValue5)
+    checkAnswer(df5.select(arrays_zip($"val1", $"val2", $"val3", $"val4")), expectedValue5)
+    checkAnswer(df5.selectExpr("arrays_zip(val1, val2, val3, val4)"), expectedValue5)
 
     val expectedValue6 = Row(Seq(
       Row(192.toByte, 1.1, null, null), Row(256.toByte, null, null, null)))
-    checkAnswer(df6.select(zip($"v1", $"v2", $"v3", $"v4")), expectedValue6)
-    checkAnswer(df6.selectExpr("zip(v1, v2, v3, v4)"), expectedValue6)
+    checkAnswer(df6.select(arrays_zip($"v1", $"v2", $"v3", $"v4")), expectedValue6)
+    checkAnswer(df6.selectExpr("arrays_zip(v1, v2, v3, v4)"), expectedValue6)
 
     val expectedValue7 = Row(Seq(
       Row(Seq(1, 2, 3), 1.1), Row(Seq(4, 5), 2.2)))
-    checkAnswer(df7.select(zip($"v1", $"v2")), expectedValue7)
-    checkAnswer(df7.selectExpr("zip(v1, v2)"), expectedValue7)
+    checkAnswer(df7.select(arrays_zip($"v1", $"v2")), expectedValue7)
+    checkAnswer(df7.selectExpr("arrays_zip(v1, v2)"), expectedValue7)
 
     val expectedValue8 = Row(Seq(
       Row(Array[Byte](1.toByte, 5.toByte), null)))
-    checkAnswer(df8.select(zip($"v1", $"v2")), expectedValue8)
-    checkAnswer(df8.selectExpr("zip(v1, v2)"), expectedValue8)
+    checkAnswer(df8.select(arrays_zip($"v1", $"v2")), expectedValue8)
+    checkAnswer(df8.selectExpr("arrays_zip(v1, v2)"), expectedValue8)
   }
 
   test("map size function") {

From 3d68ea946fa8c2ab07c4a3650c676171e1de7475 Mon Sep 17 00:00:00 2001
From: DylanGuedes <djmgguedes@gmail.com>
Date: Mon, 11 Jun 2018 17:05:16 -0300
Subject: [PATCH 36/36] adds pretty_name for arrays_zip

Signed-off-by: DylanGuedes <djmgguedes@gmail.com>
---
 .../spark/sql/catalyst/expressions/collectionOperations.scala   | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
index 3bc54865e77f6..d76f3013f0c41 100644
--- a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
+++ b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/collectionOperations.scala
@@ -290,6 +290,8 @@ case class ArraysZip(children: Seq[Expression]) extends Expression with ExpectsI
       new GenericArrayData(result)
     }
   }
+
+  override def prettyName: String = "arrays_zip"
 }
 
 /**