NotificationsYou must be signed in to change notification settings
Fork33
Star125

Commitfbd6b4b

committed

Modified insertion of IGLP_OPT intrinsics

1 parent13b20fe commitfbd6b4bCopy full SHA for fbd6b4b

File tree

8 files changed

+119

-21

lines changed

third_party/amd
- backend
  - compiler.py
- include/TritonAMDGPUToLLVM
  - Passes.h
  - Passes.td
- lib/TritonAMDGPUToLLVM
  - DotOpToLLVM.cpp
  - DotOpToLLVM
    - MFMA.cpp
  - PatternTritonGPUOpToLLVM.h
  - TritonGPUToLLVM.cpp
- python
  - triton_amd.cc

8 files changed

+119

-21

lines changed

`‎third_party/amd/backend/compiler.py`

Lines changed: 9 additions & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -166,8 +166,16 @@ def make_llir(src, metadata, options):`
`166`	`166`	## depends on the value of kernel arg `allow_flush_denorm`.
`167`	`167`	`## 3. __HIP_FTZ is default to 1 and not exposed as a kernel argument.`
`168`	`168`	`## For now it is used as a controller for developers only.`
	`169`	`+sched_mode=""`
	`170`	`+if"AMD_OPS_SCHED_MODE"inos.environ.keys():`
	`171`	`+sched_mode=os.environ['AMD_OPS_SCHED_MODE']`
	`172`	`+allowed= ["iglp-opt-0","iglp-opt-1","sched-barriers",""]`
	`173`	`+ifnotsched_modeinallowed:`
	`174`	`+raiseRuntimeError(`
	`175`	+f'unknown mode for `AMD_OPS_SCHED_MODE`. Given `{sched_mode}`. Allowed:{", ".join(allowed)}')
	`176`	`+`
`169`	`177`	`__HIP_FTZ=True`
`170`		`-amd.passes.ttgpuir.add_to_llvmir(pm,options.arch,__HIP_FTZ)`
	`178`	`+amd.passes.ttgpuir.add_to_llvmir(pm,options.arch,__HIP_FTZ,sched_mode)`
`171`	`179`	`passes.common.add_canonicalizer(pm)`
`172`	`180`	`passes.common.add_cse(pm)`
`173`	`181`

`‎third_party/amd/include/TritonAMDGPUToLLVM/Passes.h`

Lines changed: 2 additions & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,8 @@ createDecomposeUnsupportedConversionsPass(StringRef targetArch);`
`25`	`25`	`}// namespace AMD`
`26`	`26`
`27`	`27`	`std::unique_ptr<OperationPass<ModuleOp>>`
`28`		`-createConvertTritonAMDGPUToLLVMPass(StringRef targetArch,bool ftz);`
	`28`	`+createConvertTritonAMDGPUToLLVMPass(StringRef targetArch,bool ftz,`
	`29`	`+ std::string schedMode);`
`29`	`30`	`std::unique_ptr<OperationPass<ModuleOp>>createConvertBuiltinFuncToLLVMPass();`
`30`	`31`
`31`	`32`	`#defineGEN_PASS_REGISTRATION`

`‎third_party/amd/include/TritonAMDGPUToLLVM/Passes.td`

Lines changed: 3 additions & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -15,7 +15,7 @@ def DecomposeUnsupportedAMDConversions : Pass<"decompose-unsupported-amd-convers`
`15`	`15`
`16`	`16`	`def ConvertTritonAMDGPUToLLVM : Pass<"convert-triton-amdgpu-to-llvm", "mlir::ModuleOp"> {`
`17`	`17`	`let summary = "Convert TritonGPU to LLVM";`
`18`		`- let constructor = "mlir::triton::createConvertTritonAMDGPUToLLVMPass(\"\", /ftz=/true)";`
	`18`	`+ let constructor = "mlir::triton::createConvertTritonAMDGPUToLLVMPass(\"\", /ftz=/true, \"\")";`
`19`	`19`
`20`	`20`	`let dependentDialects = ["mlir::arith::ArithDialect",`
`21`	`21`	`"mlir::math::MathDialect",`
`@@ -32,6 +32,8 @@ def ConvertTritonAMDGPUToLLVM : Pass<"convert-triton-amdgpu-to-llvm", "mlir::Mod`
`32`	`32`	`"gfx target device architecture, e.g., gfx942">,`
`33`	`33`	`Option<"ftz", "ftz", "bool", /default/"true",`
`34`	`34`	`"flush denorms for math functions">,`
	`35`	`+ Option<"sched", "sched", "std::string", /default/"\"\"",`
	`36`	`+ "scheduling variants">,`
`35`	`37`	`];`
`36`	`38`	`}`
`37`	`39`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/DotOpToLLVM.cpp`

Lines changed: 14 additions & 5 deletions

Original file line number	Diff line number	Diff line change
`@@ -9,7 +9,8 @@ using ::mlir::triton::gpu::getShapePerCTA;`
`9`	`9`	`namespacemlir::triton::AMD {`
`10`	`10`	`LogicalResultconvertMFMA(triton::DotOp op, triton::DotOp::Adaptor adaptor,`
`11`	`11`	`const LLVMTypeConverter *typeConverter,`
`12`		`- ConversionPatternRewriter &rewriter);`
	`12`	`+ ConversionPatternRewriter &rewriter,`
	`13`	`+ StringRef schedMode);`
`13`	`14`
`14`	`15`	`LogicalResultconvertWMMA(triton::DotOp op, triton::DotOp::Adaptor adaptor,`
`15`	`16`	`const LLVMTypeConverter *typeConverter,`
`@@ -18,7 +19,11 @@ LogicalResult convertWMMA(triton::DotOp op, triton::DotOp::Adaptor adaptor,`
`18`	`19`
`19`	`20`	`namespace {`
`20`	`21`	`structDotOpConversion :publicConvertOpToLLVMPattern<triton::DotOp> {`
`21`		`-using ConvertOpToLLVMPattern<triton::DotOp>::ConvertOpToLLVMPattern;`
	`22`	`+// using ConvertOpToLLVMPattern<triton::DotOp>::ConvertOpToLLVMPattern;`
	`23`	`+DotOpConversion(LLVMTypeConverter &typeConverter, PatternBenefit benefit,`
	`24`	`+ StringRef schedMode)`
	`25`	`+ : ConvertOpToLLVMPattern<triton::DotOp>(typeConverter, benefit),`
	`26`	`+schedMode(schedMode) {}`
`22`	`27`
`23`	`28`	`LogicalResult`
`24`	`29`	`matchAndRewrite(triton::DotOp op, OpAdaptor adaptor,`
`@@ -37,7 +42,8 @@ struct DotOpConversion : public ConvertOpToLLVMPattern<triton::DotOp> {`
`37`	`42`	`if (!isOuter) {`
`38`	`43`	`auto dEncoding = cast<RankedTensorType>(D.getType()).getEncoding();`
`39`	`44`	`if (isa<AMDMfmaEncodingAttr>(dEncoding) &&supportMFMA(op)) {`
`40`		`-returnAMD::convertMFMA(op, adaptor,getTypeConverter(), rewriter);`
	`45`	`+returnAMD::convertMFMA(op, adaptor,getTypeConverter(), rewriter,`
	`46`	`+ schedMode);`
`41`	`47`	`}`
`42`	`48`	`if (isa<AMDWmmaEncodingAttr>(dEncoding)) {`
`43`	`49`	`returnAMD::convertWMMA(op, adaptor,getTypeConverter(), rewriter);`
`@@ -51,14 +57,17 @@ struct DotOpConversion : public ConvertOpToLLVMPattern<triton::DotOp> {`
`51`	`57`	`llvm::report_fatal_error(`
`52`	`58`	`"Unsupported DotOp found when converting TritonGPU to LLVM.");`
`53`	`59`	`}`
	`60`	`+`
	`61`	`+private:`
	`62`	`+ StringRef schedMode;`
`54`	`63`	`};`
`55`	`64`	`}// namespace`
`56`	`65`
`57`	`66`	`namespacemlir::triton::AMD {`
`58`	`67`	`voidpopulateDotOpToLLVMPatterns(LLVMTypeConverter &typeConverter,`
`59`	`68`	`RewritePatternSet &patterns,int numWarps,`
`60`	`69`	`ModuleAxisInfoAnalysis &axisInfoAnalysis,`
`61`		`- PatternBenefit benefit) {`
`62`		`- patterns.add<DotOpConversion>(typeConverter, benefit);`
	`70`	`+ PatternBenefit benefit, StringRef schedMode) {`
	`71`	`+ patterns.add<DotOpConversion>(typeConverter, benefit, schedMode);`
`63`	`72`	`}`
`64`	`73`	`}// namespace mlir::triton::AMD`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/DotOpToLLVM/MFMA.cpp`

Lines changed: 78 additions & 4 deletions

Original file line number	Diff line number	Diff line change
`@@ -38,20 +38,41 @@ using ::mlir::triton::gpu::SharedEncodingAttr;`
`38`	`38`
`39`	`39`	`using ValueTable = std::map<std::array<int,3>, Value>;`
`40`	`40`
	`41`	`+enumclassSchedulingOptionsEnum :int64_t {`
	`42`	`+ IGLP_OPT_0 =0,`
	`43`	`+ IGLP_OPT_1 =1,`
	`44`	`+ SCHED_BARRIERS,`
	`45`	`+ NONE_SCHED`
	`46`	`+};`
	`47`	`+enumclassInstructionMaskEnum :int64_t {`
	`48`	`+ VALU =0x00000002,`
	`49`	`+ SALU =0x00000004,`
	`50`	`+ MFMA =0x00000008,`
	`51`	`+ ALL_VMEM =0x00000010,`
	`52`	`+ VMEM_READ =0x00000020,`
	`53`	`+ VMEM_WRITE =0x00000040,`
	`54`	`+ ALL_DS =0x00000080,`
	`55`	`+ DS_READ =0x00000100,`
	`56`	`+ DS_WRITE =0x00000200`
	`57`	`+};`
	`58`	`+`
`41`	`59`	`structDotOpMFMAConversionHelper {`
`42`	`60`	`AMDMfmaEncodingAttr mfmaLayout;`
`43`	`61`
`44`	`62`	`ConversionPatternRewriter &rewriter;`
`45`	`63`	`const LLVMTypeConverter *typeConverter;`
	`64`	`+ SchedulingOptionsEnum schedMode;`
`46`	`65`	`Location loc;`
`47`	`66`	`MLIRContext *ctx{};`
`48`	`67`
`49`	`68`	`explicitDotOpMFMAConversionHelper(AMDMfmaEncodingAttr mfmaLayout,`
`50`	`69`	`ConversionPatternRewriter &rewriter,`
`51`	`70`	`const LLVMTypeConverter *typeConverter,`
	`71`	`+ SchedulingOptionsEnum schedMode,`
`52`	`72`	`Location loc)`
`53`	`73`	`: mfmaLayout(mfmaLayout), rewriter(rewriter),`
`54`		`- typeConverter(typeConverter), loc(loc), ctx(mfmaLayout.getContext()) {}`
	`74`	`+ typeConverter(typeConverter), schedMode(schedMode), loc(loc),`
	`75`	`+ ctx(mfmaLayout.getContext()) {}`
`55`	`76`
`56`	`77`	`ValuegetThreadId()const {`
`57`	`78`	`auto llvmIndexTy = typeConverter->getIndexType();`
`@@ -70,6 +91,45 @@ struct DotOpMFMAConversionHelper {`
`70`	`91`	`return rewriter.create(loweredOp)->getResult(0);`
`71`	`92`	`}`
`72`	`93`
	`94`	`+voidgeneratedIglpIntrinsic()const {`
	`95`	`+if (!((schedMode == SchedulingOptionsEnum::IGLP_OPT_0) \|\|`
	`96`	`+ (schedMode == SchedulingOptionsEnum::IGLP_OPT_1))) {`
	`97`	`+return;`
	`98`	`+ }`
	`99`	`+auto intrinsicName =StringAttr::get(ctx,"llvm.amdgcn.iglp.opt");`
	`100`	`+ LLVM::FastmathFlagsAttr defaultFlags{};`
	`101`	`+ Typei32 = rewriter.getI32Type();`
	`102`	`+`
	`103`	`+auto option = rewriter.create<LLVM::ConstantOp>(`
	`104`	`+ loc, rewriter.getIntegerAttr(i32,static_cast<int>(schedMode)));`
	`105`	`+ rewriter.create<LLVM::CallIntrinsicOp>(loc, TypeRange{}, intrinsicName,`
	`106`	`+ ValueRange{option}, defaultFlags);`
	`107`	`+ }`
	`108`	`+`
	`109`	`+voidbuildSchedGroupBarrier(InstructionMaskEnum maskValue,int sizeValue,`
	`110`	`+int groupIdValue)const {`
	`111`	`+auto intrinsicName =`
	`112`	`+StringAttr::get(ctx,"llvm.amdgcn.sched.group.barrier");`
	`113`	`+ LLVM::FastmathFlagsAttr defaultFlags{};`
	`114`	`+ Typei32 = rewriter.getI32Type();`
	`115`	`+auto mask = rewriter.create<LLVM::ConstantOp>(`
	`116`	`+ loc, rewriter.getIntegerAttr(i32,static_cast<int64_t>(maskValue)));`
	`117`	`+auto size = rewriter.create<LLVM::ConstantOp>(`
	`118`	`+ loc, rewriter.getIntegerAttr(i32, sizeValue));`
	`119`	`+auto groupId = rewriter.create<LLVM::ConstantOp>(`
	`120`	`+ loc, rewriter.getIntegerAttr(i32, groupIdValue));`
	`121`	`+`
	`122`	`+ rewriter.create<LLVM::CallIntrinsicOp>(loc, TypeRange{}, intrinsicName,`
	`123`	`+ ValueRange{mask, size, groupId},`
	`124`	`+ defaultFlags);`
	`125`	`+ }`
	`126`	`+`
	`127`	`+voidinsertSchedBarriers()const {`
	`128`	`+if (!(schedMode == SchedulingOptionsEnum::SCHED_BARRIERS))`
	`129`	`+return;`
	`130`	`+// TODO(ravil)`
	`131`	`+ }`
	`132`	`+`
`73`	`133`	`intgetNumSubmatrices(Type elementType,intmDim,int nDim)const {`
`74`	`134`	`if ((mDim ==64 && nDim ==4) \|\| (mDim ==4 && nDim ==64))`
`75`	`135`	`return1;`
`@@ -171,6 +231,8 @@ struct DotOpMFMAConversionHelper {`
`171`	`231`	`assert((mDim == nDim && (mDim ==32 \|\|mDim ==16 \|\|mDim ==4)) \|\|`
`172`	`232`	`(mDim ==64 && nDim ==4) \|\| (mDim ==4 && nDim ==64));`
`173`	`233`
	`234`	`+generatedIglpIntrinsic();`
	`235`	`+`
`174`	`236`	`Value a = op.getA();`
`175`	`237`	`Value b = op.getB();`
`176`	`238`	`Value d = op.getD();`
`@@ -263,6 +325,9 @@ struct DotOpMFMAConversionHelper {`
`263`	`325`	`Type structTy =LLVM::LLVMStructType::getLiteral(`
`264`	`326`	`ctx, SmallVector<Type>(fc.size(), dstElemTy));`
`265`	`327`	`Value res =packLLElements(loc, typeConverter, fc, rewriter, structTy);`
	`328`	`+`
	`329`	`+insertSchedBarriers();`
	`330`	`+`
`266`	`331`	`rewriter.replaceOp(op, res);`
`267`	`332`
`268`	`333`	`returnsuccess();`
`@@ -351,13 +416,13 @@ struct DotOpMFMAConversionHelper {`
`351`	`416`	`return dotOpVals;`
`352`	`417`	`}`
`353`	`418`	`};`
`354`		`-`
`355`	`419`	`}// namespace`
`356`	`420`
`357`	`421`	`namespacemlir::triton::AMD {`
`358`	`422`	`LogicalResultconvertMFMA(triton::DotOp op, triton::DotOp::Adaptor adaptor,`
`359`	`423`	`const LLVMTypeConverter *typeConverter,`
`360`		`- ConversionPatternRewriter &rewriter) {`
	`424`	`+ ConversionPatternRewriter &rewriter,`
	`425`	`+ StringRef schedMode) {`
`361`	`426`	`auto rankedTType = [](Value tensor) {`
`362`	`427`	`return cast<RankedTensorType>(tensor.getType());`
`363`	`428`	`};`
`@@ -375,11 +440,20 @@ LogicalResult convertMFMA(triton::DotOp op, triton::DotOp::Adaptor adaptor,`
`375`	`440`	`cTensorTy.getShape()[1] == dTensorTy.getShape()[1] &&`
`376`	`441`	`"DotOp's $c operand should pass the same number of values as $d");`
`377`	`442`
	`443`	`+staticconst DenseMap<StringRef, SchedulingOptionsEnum> schedModesToEnum = {`
	`444`	`+ {"iglp-opt-0", SchedulingOptionsEnum::IGLP_OPT_0},`
	`445`	`+ {"iglp-opt-1", SchedulingOptionsEnum::IGLP_OPT_1},`
	`446`	`+ {"sched-barriers", SchedulingOptionsEnum::SCHED_BARRIERS},`
	`447`	`+ {"", SchedulingOptionsEnum::NONE_SCHED}};`
	`448`	`+assert(schedModesToEnum.contains(schedMode) &&`
	`449`	`+"sched mode must be in the allowed set");`
	`450`	`+`
`378`	`451`	`auto loc = op.getLoc();`
`379`	`452`	`auto mfmaLayout = cast<AMDMfmaEncodingAttr>(`
`380`	`453`	`cast<RankedTensorType>(op.getResult().getType()).getEncoding());`
`381`	`454`
`382`		`- DotOpMFMAConversionHelperhelper(mfmaLayout, rewriter, typeConverter, loc);`
	`455`	`+ DotOpMFMAConversionHelperhelper(mfmaLayout, rewriter, typeConverter,`
	`456`	`+ schedModesToEnum.at(schedMode), loc);`
`383`	`457`
`384`	`458`	`return helper.convertDot(op, adaptor);`
`385`	`459`	`}`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/PatternTritonGPUOpToLLVM.h`

Lines changed: 1 addition & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -15,7 +15,7 @@ void populateConvertLayoutOpToLLVMPatterns(`
`15`	`15`	`voidpopulateDotOpToLLVMPatterns(LLVMTypeConverter &typeConverter,`
`16`	`16`	`RewritePatternSet &patterns,int numWarps,`
`17`	`17`	`ModuleAxisInfoAnalysis &axisInfoAnalysis,`
`18`		`- PatternBenefit benefit);`
	`18`	`+ PatternBenefit benefit, StringRef schedMode);`
`19`	`19`	`voidpopulateElementwiseOpToLLVMPatterns(`
`20`	`20`	`LLVMTypeConverter &typeConverter, RewritePatternSet &patterns,bool ftz,`
`21`	`21`	`ModuleAxisInfoAnalysis &axisInfoAnalysis, ModuleAllocation &allocation,`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/TritonGPUToLLVM.cpp`

Lines changed: 8 additions & 4 deletions

Original file line number	Diff line number	Diff line change
`@@ -63,9 +63,11 @@ class TritonLLVMConversionTarget : public ConversionTarget {`
`63`	`63`	`structConvertTritonAMDGPUToLLVM`
`64`	`64`	`: public triton::impl::ConvertTritonAMDGPUToLLVMBase<`
`65`	`65`	`ConvertTritonAMDGPUToLLVM> {`
`66`		`-explicitConvertTritonAMDGPUToLLVM(StringRef targetArch,bool ftz) {`
	`66`	`+explicitConvertTritonAMDGPUToLLVM(StringRef targetArch,bool ftz,`
	`67`	`+ StringRef schedMode) {`
`67`	`68`	`this->arch = targetArch.str();`
`68`	`69`	`this->ftz = ftz;`
	`70`	`+this->sched = schedMode.str();`
`69`	`71`	`}`
`70`	`72`
`71`	`73`	`voidgetDependentDialects(DialectRegistry &registry)constoverride {`
`@@ -174,7 +176,7 @@ struct ConvertTritonAMDGPUToLLVM`
`174`	`176`	`mlir::triton::populateConvertLayoutOpToLLVMPatterns(`
`175`	`177`	`typeConverter, targetInfo, patterns, commonBenefit);`
`176`	`178`	`AMD::populateDotOpToLLVMPatterns(typeConverter, patterns, numWarps,`
`177`		`- axisInfoAnalysis, AMDBenefit);`
	`179`	`+ axisInfoAnalysis, AMDBenefit, sched);`
`178`	`180`	`AMD::populateElementwiseOpToLLVMPatterns(typeConverter, patterns, ftz,`
`179`	`181`	`axisInfoAnalysis, allocation,`
`180`	`182`	`targetInfo, AMDBenefit);`
`@@ -246,8 +248,10 @@ namespace mlir {`
`246`	`248`	`namespacetriton {`
`247`	`249`
`248`	`250`	`std::unique_ptr<OperationPass<ModuleOp>>`
`249`		`-createConvertTritonAMDGPUToLLVMPass(StringRef targetArch,bool ftz) {`
`250`		`-return std::make_unique<ConvertTritonAMDGPUToLLVM>(targetArch, ftz);`
	`251`	`+createConvertTritonAMDGPUToLLVMPass(StringRef targetArch,bool ftz,`
	`252`	`+ std::string schedMode) {`
	`253`	`+return std::make_unique<ConvertTritonAMDGPUToLLVM>(targetArch, ftz,`
	`254`	`+ schedMode);`
`251`	`255`	`}`
`252`	`256`
`253`	`257`	`}// namespace triton`

`‎third_party/amd/python/triton_amd.cc`

Lines changed: 4 additions & 4 deletions

Original file line number	Diff line number	Diff line change
`@@ -34,10 +34,10 @@ namespace py = pybind11;`
`34`	`34`	`namespace {`
`35`	`35`	`voidinit_triton_amd_passes_ttgpuir(py::module &&m) {`
`36`	`36`	`usingnamespacemlir::triton;`
`37`		`- m.def("add_to_llvmir",`
`38`		`-[](mlir::PassManager &pm,const std::string &arch,bool ftz) {`
`39`		`-pm.addPass(createConvertTritonAMDGPUToLLVMPass(arch, ftz));`
`40`		`-});`
	`37`	`+ m.def("add_to_llvmir", [](mlir::PassManager &pm,const std::string &arch,`
	`38`	`+bool ftz,const std::string &sched) {`
	`39`	`+ pm.addPass(createConvertTritonAMDGPUToLLVMPass(arch, ftz, sched));`
	`40`	`+ });`
`41`	`41`	`m.def("add_builtin_func_to_llvmir", [](mlir::PassManager &pm) {`
`42`	`42`	`pm.addPass(createConvertBuiltinFuncToLLVMPass());`
`43`	`43`	`});`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commitfbd6b4b

File tree

8 files changed

8 files changed

`‎third_party/amd/backend/compiler.py`

`‎third_party/amd/include/TritonAMDGPUToLLVM/Passes.h`

`‎third_party/amd/include/TritonAMDGPUToLLVM/Passes.td`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/DotOpToLLVM.cpp`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/DotOpToLLVM/MFMA.cpp`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/PatternTritonGPUOpToLLVM.h`

`‎third_party/amd/lib/TritonAMDGPUToLLVM/TritonGPUToLLVM.cpp`

`‎third_party/amd/python/triton_amd.cc`

0 commit comments