Dec 20, 2023 · Nov 1, 2023 · Nov 7, 2023 · Nov 9, 2023 · Nov 15, 2023 · Nov 20, 2023
diff --git a/modules/dnn/src/layers/attention_layer.cpp b/modules/dnn/src/layers/attention_layer.cpp

        scale = 1.f / params.get<float>("scale", sqrt(qkv_head_sizes[0]));

        output_ndims = params.get<int>("output_ndims", 3);

        is_prepacked = false;
    }

        CV_CheckEQ(input_shape[2], weight_shape[0], "DNN/Attention: invalid input shape");
        CV_CheckEQ(weight_shape[1], bias_shape[0], "DNN/Attention: invalid weight or bias shape");

        outputs.assign(1, inputs[0]);
        if (output_ndims == 3) {
            outputs.assign(1, inputs[0]);
        } else if (output_ndims == 2) {
            int batch = input_shape[0], seq_len = input_shape[1], input_hidden_size = input_shape[2];
            MatShape output_shape{batch * seq_len, input_hidden_size};
            outputs.assign(1, output_shape);
        } else {
            CV_Error(Error::StsBadArg, format("DNN/Attention: invalid output dimension %zu, valid value is 2 or 3", output_ndims));
        }
        return false;
    }

    size_t num_heads;
    std::vector<size_t> qkv_hidden_sizes; // order: {qk_hidden_size, qk_hidden_size, v_hidden_size}
    float scale;
    size_t output_ndims;

    std::vector<size_t> qkv_head_sizes; // order: {qk_head_size, qk_head_size, v_head_size}

diff --git a/modules/dnn/src/onnx/onnx_graph_simplifier.cpp b/modules/dnn/src/onnx/onnx_graph_simplifier.cpp
        // qkv
        int matmul_qkv = addNodeToMatch("MatMul", softmax_qk, transpose_v);
        int transpose_qkv = addNodeToMatch("Transpose", matmul_qkv);
        addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));
 last_reshape =addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));

        setFusedNode("Attention", input);
    }
            // get attrs - num_heads, scale
            num_heads = extractConstant(net, matchedNodesIds[reshape_q], 1).at<int>(1);
            scale = extractConstant(net, matchedNodesIds[div_q], 1).at<float>(0);
 // std::cout << "attention: num_heads=" << num_heads << ", qkv_hidden_sizes=" << qkv_hidden_sizes << ", scale=" << scale << std::endl;
 output_ndims = extractConstant(net, matchedNodesIds[last_reshape], 1).dims;

            // get names
            weight_name = getInputName(net, matchedNodesIds[att_matmul], 1);
            // std::cout << "attention: weight_name=" << weight_name << std::endl;
            bias_name = getInputName(net, matchedNodesIds[att_add], 0);
            // std::cout << "attention: bias_name=" << bias_name << std::endl;
            return true;
        }
        return false;
        attr_scale->set_name("scale");
        attr_scale->set_f(scale);

        // add customized attrs
        opencv_onnx::AttributeProto* attr_output_ndims = node->add_attribute();
        attr_output_ndims->set_name("output_ndims");
        attr_output_ndims->set_i(output_ndims);

        // add inputs
        node->add_input(weight_name);
        node->add_input(bias_name);
 private:
    int att_matmul, att_add;
    int slice_q, slice_k, slice_v;
    int reshape_q, div_q;
    int reshape_q, div_q, last_reshape;

    std::vector<int64_t> qkv_hidden_sizes; // order: [qk_hidden_size, qk_hidden_size, v_hidden_size]
    int64_t num_heads;
    float scale;

    int64_t output_ndims;

    std::string weight_name;
    std::string bias_name;
 };
        // qkv
        int matmul_qkv = addNodeToMatch("MatMul", softmax_qk, transpose_v);
        int transpose_qkv = addNodeToMatch("Transpose", matmul_qkv);
        addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));
 last_reshape =addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));

        setFusedNode("Attention", input);
    }
            // get attrs - num_heads, scale
            num_heads = 1;
            scale = extractConstant(net, matchedNodesIds[div_q], 1).at<float>(0);
 // std::cout << "AttentionSingleHeadSubGraph: num_heads=" << num_heads << ", qkv_hidden_sizes=" << qkv_hidden_sizes << ", scale=" << scale << std::endl;
 output_ndims = extractConstant(net, matchedNodesIds[last_reshape], 1).dims;

            // get names
            weight_name = getInputName(net, matchedNodesIds[att_matmul], 1);
            // std::cout << "AttentionSingleHeadSubGraph: weight_name=" << weight_name << std::endl;
            bias_name = getInputName(net, matchedNodesIds[att_add], 0);
            // std::cout << "AttentionSingleHeadSubGraph: bias_name=" << bias_name << std::endl;
            return true;
        }
        return false;
        attr_scale->set_name("scale");
        attr_scale->set_f(scale);

        // add customized attrs
        opencv_onnx::AttributeProto* attr_output_ndims = node->add_attribute();
        attr_output_ndims->set_name("output_ndims");
        attr_output_ndims->set_i(output_ndims);

        // add inputs
        node->add_input(weight_name);
        node->add_input(bias_name);
 protected:
    int att_matmul, att_add;
    int slice_q, slice_k, slice_v;
    int div_q;
    int div_q, last_reshape;

    std::vector<int64_t> qkv_hidden_sizes; // order: [qk_hidden_size, qk_hidden_size, v_hidden_size]
    int64_t num_heads;
    float scale;

    int64_t output_ndims;

    std::string weight_name;
    std::string bias_name;
 };
Original file line number	Diff line number	Diff line change
Expand Up		@@ -50,6 +50,8 @@ class AttentionLayerImpl CV_FINAL : public AttentionLayer {

		scale = 1.f / params.get<float>("scale", sqrt(qkv_head_sizes[0]));

		output_ndims = params.get<int>("output_ndims", 3);

		is_prepacked = false;
		}

Expand All		@@ -72,7 +74,15 @@ class AttentionLayerImpl CV_FINAL : public AttentionLayer {
		CV_CheckEQ(input_shape[2], weight_shape[0], "DNN/Attention: invalid input shape");
		CV_CheckEQ(weight_shape[1], bias_shape[0], "DNN/Attention: invalid weight or bias shape");

		outputs.assign(1, inputs[0]);
		if (output_ndims == 3) {
		outputs.assign(1, inputs[0]);
		} else if (output_ndims == 2) {
		int batch = input_shape[0], seq_len = input_shape[1], input_hidden_size = input_shape[2];
		MatShape output_shape{batch * seq_len, input_hidden_size};
		outputs.assign(1, output_shape);
		} else {
		CV_Error(Error::StsBadArg, format("DNN/Attention: invalid output dimension %zu, valid value is 2 or 3", output_ndims));
		}
		return false;
		}

Expand DownExpand Up		@@ -238,6 +248,7 @@ class AttentionLayerImpl CV_FINAL : public AttentionLayer {
		size_t num_heads;
		std::vector<size_t> qkv_hidden_sizes; // order: {qk_hidden_size, qk_hidden_size, v_hidden_size}
		float scale;
		size_t output_ndims;

		std::vector<size_t> qkv_head_sizes; // order: {qk_head_size, qk_head_size, v_head_size}

Expand Down
Original file line number	Diff line number	Diff line change
Expand Up		@@ -335,7 +335,7 @@ class AttentionSubGraph : public Subgraph {
		// qkv
		int matmul_qkv = addNodeToMatch("MatMul", softmax_qk, transpose_v);
		int transpose_qkv = addNodeToMatch("Transpose", matmul_qkv);
		addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));
		last_reshape =addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));

		setFusedNode("Attention", input);
		}
Expand DownExpand Up		@@ -363,13 +363,11 @@ class AttentionSubGraph : public Subgraph {
		// get attrs - num_heads, scale
		num_heads = extractConstant(net, matchedNodesIds[reshape_q], 1).at<int>(1);
		scale = extractConstant(net, matchedNodesIds[div_q], 1).at<float>(0);
		// std::cout << "attention: num_heads=" << num_heads << ", qkv_hidden_sizes=" << qkv_hidden_sizes << ", scale=" << scale << std::endl;
		output_ndims = extractConstant(net, matchedNodesIds[last_reshape], 1).dims;

		// get names
		weight_name = getInputName(net, matchedNodesIds[att_matmul], 1);
		// std::cout << "attention: weight_name=" << weight_name << std::endl;
		bias_name = getInputName(net, matchedNodesIds[att_add], 0);
		// std::cout << "attention: bias_name=" << bias_name << std::endl;
		return true;
		}
		return false;
Expand All		@@ -392,6 +390,11 @@ class AttentionSubGraph : public Subgraph {
		attr_scale->set_name("scale");
		attr_scale->set_f(scale);

		// add customized attrs
		opencv_onnx::AttributeProto* attr_output_ndims = node->add_attribute();
		attr_output_ndims->set_name("output_ndims");
		attr_output_ndims->set_i(output_ndims);

		// add inputs
		node->add_input(weight_name);
		node->add_input(bias_name);
Expand All		@@ -400,12 +403,14 @@ class AttentionSubGraph : public Subgraph {
		private:
		int att_matmul, att_add;
		int slice_q, slice_k, slice_v;
		int reshape_q, div_q;
		int reshape_q, div_q, last_reshape;

		std::vector<int64_t> qkv_hidden_sizes; // order: [qk_hidden_size, qk_hidden_size, v_hidden_size]
		int64_t num_heads;
		float scale;

		int64_t output_ndims;

		std::string weight_name;
		std::string bias_name;
		};
Expand DownExpand Up		@@ -441,7 +446,7 @@ class AttentionSingleHeadSubGraph : public Subgraph {
		// qkv
		int matmul_qkv = addNodeToMatch("MatMul", softmax_qk, transpose_v);
		int transpose_qkv = addNodeToMatch("Transpose", matmul_qkv);
		addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));
		last_reshape =addNodeToMatch("Reshape", transpose_qkv, addNodeToMatch(""));

		setFusedNode("Attention", input);
		}
Expand DownExpand Up		@@ -469,13 +474,11 @@ class AttentionSingleHeadSubGraph : public Subgraph {
		// get attrs - num_heads, scale
		num_heads = 1;
		scale = extractConstant(net, matchedNodesIds[div_q], 1).at<float>(0);
		// std::cout << "AttentionSingleHeadSubGraph: num_heads=" << num_heads << ", qkv_hidden_sizes=" << qkv_hidden_sizes << ", scale=" << scale << std::endl;
		output_ndims = extractConstant(net, matchedNodesIds[last_reshape], 1).dims;

		// get names
		weight_name = getInputName(net, matchedNodesIds[att_matmul], 1);
		// std::cout << "AttentionSingleHeadSubGraph: weight_name=" << weight_name << std::endl;
		bias_name = getInputName(net, matchedNodesIds[att_add], 0);
		// std::cout << "AttentionSingleHeadSubGraph: bias_name=" << bias_name << std::endl;
		return true;
		}
		return false;
Expand All		@@ -498,6 +501,11 @@ class AttentionSingleHeadSubGraph : public Subgraph {
		attr_scale->set_name("scale");
		attr_scale->set_f(scale);

		// add customized attrs
		opencv_onnx::AttributeProto* attr_output_ndims = node->add_attribute();
		attr_output_ndims->set_name("output_ndims");
		attr_output_ndims->set_i(output_ndims);

		// add inputs
		node->add_input(weight_name);
		node->add_input(bias_name);
Expand All		@@ -506,12 +514,14 @@ class AttentionSingleHeadSubGraph : public Subgraph {
		protected:
		int att_matmul, att_add;
		int slice_q, slice_k, slice_v;
		int div_q;
		int div_q, last_reshape;

		std::vector<int64_t> qkv_hidden_sizes; // order: [qk_hidden_size, qk_hidden_size, v_hidden_size]
		int64_t num_heads;
		float scale;

		int64_t output_ndims;

		std::string weight_name;
		std::string bias_name;
		};
Expand Down