openvinotoolkit · praasz · Apr 17, 2024 · Mar 13, 2024 · Apr 2, 2024 · Apr 3, 2024
diff --git a/src/common/transformations/include/ov_ops/gather_compressed.hpp b/src/common/transformations/include/ov_ops/gather_compressed.hpp
@@ -18,22 +18,22 @@ class TRANSFORMATIONS_API GatherCompressed : public ov::op::v8::Gather {
 
     GatherCompressed() = default;
 
-    GatherCompressed(const ov::Output<Node> &data,
-                     const ov::Output<Node> &indices,
-                     const ov::Output<Node> &axis,
+    GatherCompressed(const ov::Output<Node>& data,
+                     const ov::Output<Node>& indices,
+                     const ov::Output<Node>& axis,
                      const int64_t batch_dims,
-                     const ov::Output<Node> &decompression_scale,
-                     const ov::Output<Node> &decompression_zero_point,
+                     const ov::Output<Node>& decompression_scale,
+                     const ov::Output<Node>& decompression_zero_point,
                      const ov::element::Type output_type = ov::element::undefined);
 
-    GatherCompressed(const ov::Output<Node> &data,
-                     const ov::Output<Node> &indices,
-                     const ov::Output<Node> &axis,
+    GatherCompressed(const ov::Output<Node>& data,
+                     const ov::Output<Node>& indices,
+                     const ov::Output<Node>& axis,
                      const int64_t batch_dims,
-                     const ov::Output<Node> &decompression_scale,
+                     const ov::Output<Node>& decompression_scale,
                      const ov::element::Type output_type = ov::element::undefined);
 
-    bool visit_attributes(ov::AttributeVisitor &visitor) override;
+    bool visit_attributes(ov::AttributeVisitor& visitor) override;
 
     void validate_and_infer_types() override;
 

@@ -10,6 +10,7 @@
 #include "openvino/op/equal.hpp"
 #include "openvino/op/select.hpp"
 #include "openvino/reference/convert.hpp"
+#include "openvino/reference/utils/type_util.hpp"
 
 namespace ov {
 namespace op {
@@ -18,10 +19,18 @@ namespace convert {
 #define CONVERT_ET_LIST \
     boolean, bf16, f16, f32, f64, i4, i8, i16, i32, i64, u1, u2, u3, u4, u6, u8, u16, u32, u64, nf4, f8e4m3, f8e5m2
 
+#define CONVERT_FROM_NF4_ET_LIST bf16, f16, f32, f64, nf4, f8e4m3, f8e5m2
+
+#define CONVERT_FROM_NOT_FP_ET_LIST \
+    boolean, bf16, f16, f32, f64, i4, i8, i16, i32, i64, u1, u2, u3, u4, u6, u8, u16, u32, u64, f8e4m3, f8e5m2
+
 struct Evaluate : public element::NoAction<bool> {
     using element::NoAction<bool>::visit;
 
-    template <element::Type_t ET_IN, class TI = fundamental_type_for<ET_IN>>
+    // convert from FP (except NF4) to any other.
+    template <element::Type_t ET_IN,
+              class TI = fundamental_type_for<ET_IN>,
+              typename std::enable_if<ov::is_floating_point<TI>()>::type* = nullptr>
     static result_type visit(const Tensor& arg, Tensor& out, const size_t count) {
         using namespace ov::element;
         return IF_TYPE_OF(Convert_out,
@@ -33,6 +42,36 @@ struct Evaluate : public element::NoAction<bool> {
                           count);
     }
 
+    // convert from integral to any except NF4
+    template <element::Type_t ET_IN,
+              class TI = fundamental_type_for<ET_IN>,
+              typename std::enable_if<!ov::is_floating_point<TI>() && ET_IN != element::nf4>::type* = nullptr>
+    static result_type visit(const Tensor& arg, Tensor& out, const size_t count) {
+        using namespace ov::element;
+        return IF_TYPE_OF(Convert_out,
+                          CONVERT_FROM_NOT_FP_ET_LIST,
+                          EvalByOutputType,
+                          out.get_element_type(),
+                          iterator<ET_IN>(reinterpret_cast<const TI*>(arg.data())),
+                          out,
+                          count);
+    }
+
+    // convert form NF4 to FP
+    template <element::Type_t ET_IN,
+              class TI = fundamental_type_for<ET_IN>,
+              typename std::enable_if<ET_IN == element::nf4>::type* = nullptr>
+    static result_type visit(const Tensor& arg, Tensor& out, const size_t count) {
+        using namespace ov::element;
+        return IF_TYPE_OF(Convert_out,
+                          CONVERT_FROM_NF4_ET_LIST,
+                          EvalByOutputType,
+                          out.get_element_type(),
+                          iterator<ET_IN>(reinterpret_cast<const TI*>(arg.data())),
+                          out,
+                          count);
+    }
+
 private:
     struct EvalByOutputType : public element::NoAction<bool> {
         using element::NoAction<bool>::visit;
@@ -118,16 +157,12 @@ bool Convert::evaluate(TensorVector& outputs, const TensorVector& inputs) const
     if (auto& out = outputs[0]) {
         const auto& in = inputs[0];
         const auto& in_shape = in.get_shape();
+        const auto count = shape_size(in_shape);
+
         out.set_shape(in_shape);
 
         using namespace ov::element;
-        return IF_TYPE_OF(v0_Convert_in_et,
-                          CONVERT_ET_LIST,
-                          convert::Evaluate,
-                          in.get_element_type(),
-                          in,
-                          out,
-                          shape_size(in_shape));
+        return IF_TYPE_OF(v0_Convert_in_et, CONVERT_ET_LIST, convert::Evaluate, in.get_element_type(), in, out, count);
     } else {
         return false;
     }
@@ -136,6 +171,10 @@ bool Convert::evaluate(TensorVector& outputs, const TensorVector& inputs) const
 bool Convert::has_evaluate() const {
     OV_OP_SCOPE(v0_Convert_has_evaluate);
 
+    const auto can_nf4_quantize = [](const element::Type& et) {
+        return et.is_real() || et == element::nf4;
+    };
+
     const auto is_valid_type = [](const element::Type& et) -> bool {
         switch (et) {
         case element::boolean:
@@ -154,7 +193,6 @@ bool Convert::has_evaluate() const {
         case element::u16:
         case element::u32:
         case element::u64:
-        case element::nf4:
         case element::f8e4m3:
         case element::f8e5m2:
             return true;
@@ -163,7 +201,11 @@ bool Convert::has_evaluate() const {
         };
     };
 
-    return is_valid_type(get_input_element_type(0)) && is_valid_type(get_output_element_type(0));
+    const auto& input_et = get_input_element_type(0);
+    const auto& output_et = get_output_element_type(0);
+
+    return (is_valid_type(input_et) && is_valid_type(output_et)) ||
+           (can_nf4_quantize(input_et) && can_nf4_quantize(output_et));
 }
 
 bool Convert::evaluate_lower(TensorVector& output_values) const {